Entrepôt des Données, année 2019
Projet
Vous devez proposer une analyse en cube de l’un des jeux de données suivants.
- Les logs de téléchargements de 2017 d’un site internet mettant à disposition des publications scientifiques (site illégal scihub). (14Go décompressés).
- Le fond documentaire des bibliothèques spécialisés parisienne (600Mo décompressé).
- Les pointages vélos à Paris (300Mo décompressé)
Votre analyse peut prendre la forme d’un notebook, d’un rapport ou d’une page web. Aucune contrainte sur la nature des outils logiciels utilisé n’est imposé, mais ces derniers doivent absolument être précisé et justifié.
Votre rendu doit inclure:
- La méthodologie utilisé pour analyser le jeu de donnée et les différentes étapes qui vous ont permit d’aboutir au résultat final. La méthodologie peut reprendre des éléments du cours si cela est pertinent.
- Une description des dimensions de votre cube d’analyse ainsi que la granularité de chaque des dimensions
- Pour les paires de dimensions pertinentes, vous produirez des visualisation graphiques adaptés.
- Les codes sources qui vous ont permit d’extraire les données.
La pertinence de la réflexion méthodologie et la réutilisation des notions vues en cours aura un impact particulièrement important sur la notation. Le rendu final doit être complètement rédigé en français ou en anglais. La longueur attendue est de trois à quatre pages avec une police des marges raisonnable, bibliographie et images inclues.
- Toute citation et utilisation de ressources extérieures doit être indiquée correctement. Tout emprunt sans source sera considéré comme du plagiat.
- Le plagiat et/ou copie sur des projets de camarades entrainera un 0 immédiat et d’éventuelles sanctions disciplinaires/
Le projet peut être réalisé en groupe jusqu’à 3 personnes à condition
que le groupe soit déclaré avant le vendredi 14
Février. Le projet est à rendre pour 1er Mars
par mail depuis votre mail en univ-lille.fr
.
La séance du 17 Février servira à faire du suivi de projet. Vous pouvez venir discuter de difficultés rencontrée et me poser des questions.
Remarque
Les étudiants du parcours Web Analyste sont très fortement incité à choisir le premier dataset. En cas de grosses difficultés, vous pouvez utiliser une extraction du dataset plus petite ici.
Pour les étudiants du parcours Stats, en cas de problèmes liés à la taille des données, vous avez la possibilité de n’utiliser qu’une partie des données afin que celles-ci tiennent dans la mémoire vive de votre machine. Des points bonus substantiels seront attribués aux étudiants de Stats qui parviennent à analyser l’ensemble du jeux de données.
Compiled the: mer. 04 sept. 2024 12:49:41 CEST