Entrepôts de données, année 2019

Mise en forme normale.

Dans ce cours, l’utilisation du terminal est très fortement recommandé.

Pour simplifier, vous pouvez télécharger une version du listing de données encore plus courte que la précédente, afin de pouvoir faire des testes plus rapidement ici.

Vous aurez besoin dans la suite de documentation sur la gestion des fichiers en Python. Vous trouverez cette documentation ici.

Attention. Vous ne pourrez pas faire ce TD sans avoir une indexation des lignes en binaire. Voir la correction du TD 2.

Mise en forme normal analytique

De nombreuses formes normales existent pour les bases de données OLTP. C’est également le cas pour les bases de données OLAP.

Le schema en étoile (ou flocon de neige) va décomposer une table en une table principale contenant des clefs extérieurs en une tables de faits et une table pour chaque dimension d’analyses.

Une analyse en cube consiste alors en une simple jointure entre deux tables de dimensions. Ces jointures peuvent par ailleurs être pré-calculés quand elles sont souvents utilisées à l’aide de vues matérialisée. Nous verrons ça dans le cours suivant.

Mise sous forme normal en étoile du document scihub en Python

Corrections

Nous allons mettre la table en forme normale en étoile. Pour ce faire, nous allons créer une table pour chaque dimension d’analyse. Une table pour la position géographique, une table pour l’url et une table date.

Le code est téléchargeable à l’adresse ici.

Quelques fonction pratiques

Les fonctions suivantes ont pour objectif de convertire en binaire les entier et réciproquement.

from datetime import datetime
def _convert_octet(entier):
    """
    Fonction qui encode sur 3 octets
    des nombres entiers.
    """
    return int.to_bytes(entier, 3, "little")

def _convert_int(octets):
    """
    Fonction qui décode des entiers
    codés sur 3 octets.
    """
    return int.from_bytes(octets, "little")

def _convert_triplet(octets):
    """
    Fonction qui décode des triplets
    d'entiers encodés sur 3 octets
    """
    a = _convert_int(octets[:3])
    b = _convert_int(octets[3:6])
    c = _convert_int(octets[6:])
    return (a, b, c)

La fonction principale

La fonction suivante va automatiquement extraire la table des faits depuis le fichier scihub et sauvegarder les informations dans des tables dimensionnelles

def extraire_faits():
    format_tmps = "%Y-%m-%d %H:%M:%S"
    # format utilisé dans les logs pour l'encodage
    # des valeurs temporelles.
    dates = {} # Un dictionnaire par fait
    locs = {}
    urls = {}
    count_date = 0 # Un compteur par fait
    count_loc = 0
    count_url = 0
    with open("scihub.shorter.shorter.tab") as f, open("fact_table", "wb") as g:
        for line in f:
            dec = line.rstrip().split("\t") # rstrip enlève les espaces en trop
            # et retours à la ligne
            tps = int(datetime.strptime(dec[0], format_tmps).timestamp())
            #converti la date en une date numérique
            url = dec[1]
            loc = tuple(dec[4:6]) # tuple permet de rendre dec[4:6] hashable et
            # donc lui permettre d'être mis dans un dictionnaire.
            # On stock les inforamtions dans des ensembles

            if tps not in dates:
                dates[tps] = count_date
                # si tps n'a jamais été vu, on l'ajoute au dictionnaire.
                # L'identifiant de tps est count_date.
                count_date += 1
                # On incrémente count_date pour la prochaine date.
            #On fait pareil pour les autres faits.
            if loc not in locs:
                locs[loc] = count_loc
                count_loc += 1
            if url not in urls:
                urls[url] = count_url
                count_url += 1

            tps_oct  = _convert_octet(dates[tps]) # convertis l'identifiant de
            # tps en binaires. Pareil pour les autres dimensions.
            locs_oct = _convert_octet(locs[loc])
            urls_oct = _convert_octet(urls[url])
            g.write(tps_oct+locs_oct+urls_oct) #Ajoute à la table des faits les
            #informations en binaires.

    # Pour chaque table de faits, on doit maintenant faire
    # correspondre à chaque identifiant sa valeur.
    # Pour ce faire, on va créer un fichier binaire contenant l'indexes des
    # lignes et un fichier texte contenants la liste des faits.

    sauvegarde_faits(dates, "dates")
    sauvegarde_faits(locs, "locs")
    sauvegarde_faits(urls, "urls")

def sauvegarde_faits(faits, nom):
    """
    Fonction permettant de sauvegarder
    et indexer des faits dans un fichier
    "nom" et un fichier "nom_idx" contenant
    son index de ligne.

    "faits" est un dictionnaire qui a une valeur associe
    son index.
    """
    liste_faits = list(faits.keys()) #la liste des faits.
    # Cette liste n'est pas trié par ordre d'apparition.
    liste_faits.sort(key=lambda e:faits[e])
    # On trie par ordre croissant de l'index du fait.
    pos = 0 # position courrante dans le fichier texte.
    with open(nom, "w") as f, open(nom+"_idx", "wb") as g:
        for fait in liste_faits:
            f.write(str(fait)+"\n") #crée une ligne avec le fait.
            g.write(_convert_octet(pos)) #Indique dans le fichier d'index
            #l'adresse de la ligne
            pos += len(str(fait).encode()) + 1 # met à jour la position de l'adresse
            # suivante.

Fonction en lecture

La fonction suivante va lire des faits à l’aide des fichiers d’indexes.

def lire_un_fait(fait_id, nom):
    """
    Fonction qui récupère un fait dans une table de fait.
    """
    with open(nom+"_idx", "rb") as f:
        f.seek(fait_id*3)
        adresse = _convert_int(f.read(3))

    with open(nom) as g:
        g.seek(adresse)
        txt = g.read(1000) # lit 1000 caractères.
        while "\n" not in txt:
            txt += g.read(1000)
        return txt.split("\n")[0]


def lire_ligne_faits(numero_ligne):
    """
    Fonction qui lit une table des faits.
    """
    with open("fact_table","rb") as f:
        f.seek(numero_ligne*3)
        oct_tuple = f.read(9)
        tps_id, loc_id, url_id = _convert_triplet(oct_tuple)
        # On a récupérer les id, on peut récupérer les faits.
        tps = lire_un_fait(tps_id, "dates")
        loc = lire_un_fait(loc_id, "locs")
        url = lire_un_fait(locs_id, "urls")
    # on convertit les faits aux bons types.
    return (int(tps), eval(loc), url)

def tableaux_croises(fait1, fait2):
    l = ["dates", "locs", "urls"]
    id1 = l.index(fait1) # index du premier fait
    id2 = l.index(fait2) # index du second fait
    id3 = set([0, 1, 2]).difference([id1, id2]).pop()
    # index du fait qui reste.
    with open("fact_table", "rb") as f:
        x = f.read() # charge la table en mémoire
        n = len(x) // 9
        couples = {}
        for i in range(n):
            triplet = _convert_triplet(x[9*i:9*(i+1)])
            couple = (triplet[id1], triplet[id2])
            if couple in couples:
                couples[couple].append(triplet[id3])
            else:
                couples[couple] = [triplet[id3]]
    return couples

def tableau_projete(fait1, fait2):
    l = ["dates", "locs", "urls"]
    id1 = l.index(fait1) # index du premier fait
    id2 = l.index(fait2) # index du fait projeté
    with open("fact_table", "rb") as f:
        x = f.read() # charge la table en mémoire
        n = len(x) // 9
        vals = {}
        for i in range(n):
            triplet = _convert_triplet(x[9*i:9*(i+1)])
    return vals

Compiled the: mer. 08 janv. 2025 11:51:32 CET