Entrepôt des Données, année 2019

Plan du cours/TD:

Présentation du cours

Connaissances générales à maîtriser à l’issue du cours
- Ordre de grandeurs dans l’analyse quantitatives de données.
- Notion d’architecture pour les données ne tenant pas en mémoire
- Présentation du cube d’analyses
- Itérateurs et processus ETL
- Paradigmes de calculs parallèles
- Conceptions d’entrepôts de données
- (Optimisation des requêtes analytiques)
Compétences
- Savoir explorer, nettoyer et extraire des données de fichiers volumineux
- Exécuter des requêtes d’analyses efficacement
- Construire un schéma de bases de données relationnels pour stocker efficacement ces requêtes d’analyses.

TD1

L’objectif de ce TD et de se familiariser avec l’extraction d’information depuis des fichiers important statiques. Vous avez le libre choix de la technologie, mais il sera impossible d’utiliser des outils de bureautique classique pour ces volumes de données.

Des données d’openfoodfacts

Les données d’openfoodfacts téléchargeables ici. Pour extraire le fichier, vous pouvez utiliser la ligne de commande gunzip -k openfoodfacts.csv.gz depuis le répertoire ou le fichier est situé.

Les question 1,2 et 3 peuvent être réaliser uniquement en ligne de commandes.

Extraire du fichier l’entête. Combien de champ ce fichier contient?
Compter le nombre d’entrées dans le fichier
Compter le nombre de lignes contenant coconuts et chocolat

Pour les étudiants du parcours STAT qui ne sont pas à l’aise avec Python, vous pouvez utiliser la commande suivante pour extraire les 10000 premières lignes
du fichier et travailler sur ce fichier beaucoup plus petit.

head -n10000 openfoodfacts.csv > openfoodfacts.shorter.csv

Il est simple de répondre aux questions suivantes en utilisant Pandas. Les étudiants du parcours STAT peuvent le faire en utilisant la version courte. Pour les étudiants du parcours WA, vous pouvez utiliser la ligne de commande, Python, SQLite, ou des combinaisons de ces outils.

Extraire du fichier la liste de tous les pays qui apparaissent dans le champ countries_fr. Attention ce champ contient des listes de pays.
Extraire le tableau simple qui compte pour chaque pays de la question précédente, combien de fois il apparait dans le fichier.
Extraire du fichier un nouveau fichier contenant uniquement les lignes qui concernent la France et qui n’utilise que les champs dont au moins 30% des lignes renseignent la valeur.
Proposez des représentations graphiques du tableau croisé des champs fat_100g, sugars_100g avec la moyenne et la médiane du champ energy_100g.

Compiled the: mer. 08 janv. 2025 11:50:58 CET