Entrepôts de données, année 2019
Extraction de données statiques
Dans ce cours, l’utilisation du terminal est très fortement recommandé.
Télécharger le fichier ici et décompresser le dans un répertoire (attention 3Go décompressé).
(Essayez d’)ouvrir ce fichier et faire une proposition de ce qu’il peut contenir.
L’objectif des premiers cours est de:
Extraire de ce fichier les entrées qui concernent Paris ou la France (facile)
Extraire de ce fichier les pourcentages de téléchargement par pays et par villes.
Extraire pour chaque pays et chaque ville, les 10 liens les plus visités.
Extraire de ce fichier les points précédents en agrégeant par heures, par jours, par semaines, par mois (Difficile).
La version téléchargé a été raccourci pour faciliter le traitement lors des premiers TD.
La version complète (12go décompressés) peut être trouvé ici.
Pour les fichiers aussi lourd, prenez l’habitude d’utiliser
wget
.
Apprendre à ce débrouiller
Pour le premier TD, proposez des solutions simple pour parvenir à ces objectifs.
Une bonne utilisation de Linux permet de répondre aux deux premiers objectifs en quelques secondes sans programmes supplémentaires. Le dernier point requiert un peu plus de travail.
Évaluer les différentes sollutions de la semaine précédente
Dans le TP précédent, certains ont utilisé grep et d’autres un script python pour répondre aux deux premières questions. D’autres ont proposé d’utiliser SQLite3.
En utilisant la commande time du terminal, tester ces différentes approches.
Utiliser Python pour les deux dernières questions:
Créer le script Python le plus efficace possible pour la question:
- Extraire pour chaque pays et chaque ville, les 10 liens les plus visités.
Trouver une alternative sans Python qui utilise les commandes
cut
, uniq
et sort
.
`
Compiled the: mer. 08 janv. 2025 11:51:31 CET