Entrepôt des Données, année 2019
Plan du cours/TD:
Présentation du cours
Connaissances générales à maîtriser à l’issue du cours
- Ordre de grandeurs dans l’analyse quantitatives de données.
- Notion d’architecture pour les données ne tenant pas en mémoire
- Présentation du cube d’analyses
- Itérateurs et processus ETL
- Paradigmes de calculs parallèles
- Conceptions d’entrepôts de données
- (Optimisation des requêtes analytiques)
Compétences
- Savoir explorer, nettoyer et extraire des données de fichiers volumineux
- Exécuter des requêtes d’analyses efficacement
- Construire un schéma de bases de données relationnels pour stocker efficacement ces requêtes d’analyses.
TD1
L’objectif de ce TD et de se familiariser avec l’extraction d’information depuis des fichiers important statiques. Vous avez le libre choix de la technologie, mais il sera impossible d’utiliser des outils de bureautique classique pour ces volumes de données.
Des données d’openfoodfacts
Les données d’openfoodfacts
téléchargeables ici.
Pour extraire le fichier, vous pouvez utiliser la ligne de commande
gunzip -k openfoodfacts.csv.gz
depuis le répertoire ou le
fichier est situé.
Les question 1,2 et 3 peuvent être réaliser uniquement en ligne de commandes.
- Extraire du fichier l’entête. Combien de champ ce fichier contient?
- Compter le nombre d’entrées dans le fichier
- Compter le nombre de lignes contenant coconuts et chocolat
Pour les étudiants du parcours STAT qui ne sont pas à l’aise avec
Python, vous pouvez utiliser la commande suivante pour extraire les
10000 premières lignes
du fichier et travailler sur ce fichier beaucoup plus petit.
head -n10000 openfoodfacts.csv > openfoodfacts.shorter.csv
Il est simple de répondre aux questions suivantes en utilisant Pandas. Les étudiants du parcours STAT peuvent le faire en utilisant la version courte. Pour les étudiants du parcours WA, vous pouvez utiliser la ligne de commande, Python, SQLite, ou des combinaisons de ces outils.
- Extraire du fichier la liste de tous les pays qui apparaissent dans
le champ
countries_fr
. Attention ce champ contient des listes de pays. - Extraire le tableau simple qui compte pour chaque pays de la question précédente, combien de fois il apparait dans le fichier.
- Extraire du fichier un nouveau fichier contenant uniquement les lignes qui concernent la France et qui n’utilise que les champs dont au moins 30% des lignes renseignent la valeur.
- Proposez des représentations graphiques du tableau croisé des champs
fat_100g
,sugars_100g
avec la moyenne et la médiane du champenergy_100g
.
Compiled the: mer. 04 sept. 2024 12:49:41 CEST