Examen Entrepots de données

La première partie est composée de questions informelles (ne nécessitant pas de Python ou de SQLite3). Les étudiants du parcours Statistiques sont invités à la soignée particulièrement.

Les réponses sont à rédiger dans l’outil de votre choix et à rendre au format PDF. Indiquez votre parcours en entête de fichier.

Le devoir est à rendre via Nextcloud en zippant un unique dossier contenant vos réponses à l’aide du programme gzip.

Ce dossier peut contenir un document PDF, des scripts et base de données SQLite3. Vous pouvez partager l’archive via la plateforme nextcloud directement via l’adresse mail: charles.paperman@univ-lille.fr

Toute modification ultérieur du fichier entraînera immédiatement un 0 et un rapport pour triche.

Tout non respect des consignes ci-dessus entrainera immédiatement un 0.

La première partie est sur 12 points pour les étudiants du parcours Statistiques et sur 7 points pour les étudiants du parcours WebAnalystes. La seconde partie est sur 15 points.

Partie 1

Une entreprise spécialisée dans les chaussettes souhaite récupérer des information sur ses clients afin de mettre en place une campagne Marketing plus efficace. Elle dispose de trois secteurs:

Chacun des secteurs disposent de données qui lui sont propres. Le responsable du site propose de rappatrier toutes les données sur la base de données du site web afin de faire l’analyse.

  1. Est-ce une bonne idée (justifier)?

  2. Expliquez les différences entre une base de donnée OLAP et OLTP.

Les données suivantes sont disponibles via les deux boutiques en lignes:

Pour chaque client:

Pour chaque achat:

  1. Décrivez les différentes dimensions d’analyses disponibles.

  2. Proposez un schema relationnel en étoile ou en flocon de neige à cette entreprise. Indiquez l’avantage de ces schémas par rapport à une unique table.

  3. Pour votre schéma relationnel, indiquez la requête SQL permettant de retourner un tableau croisé pertinent de votre choix.

Partie 2

Un stagiaire à extrait la base de données clients que vous pouvez télécharger ici.

  1. En utilisant uniquement la console, évaluez en ligne de commande le nombre de clients différents et la proportion de client dans chaque boutique.

  2. En utilisant SQLite, le nombre de clients différents et la proportion de client dans chaque boutique.

Le stagiaire n’a pas pu extraire dans un même format les données de Alazone et du site Web pour les achats. Vous trouverez ici et ici les données d’Alazone et du site Web.

  1. Proposez un script en Python permettant de produire un fichier contenant les achats au même format d’Alazone et du Site Web.

  2. Ingérez les données dans SQLite3 en respectant le schema que vous avez proposez dans la question 4. Les étudiants du parcours Statistiques peuvent n’utiliser qu’un des deux fichiers

  3. Produire un graphique de votre choix représentant les résultats du tableau croisé que vous avez choisi dans la question 5.


Compiled the: dim. 07 janv. 2024 23:19:22 CET