Modélisation dimensionnelle
Sommaire
- 1- Objectifs
- 2- introduction
- 3- C’est quoi un fait?
- 4- C’est quoi une dimension?
- 5- Tables de faits et de dimensions
- 5.1- Tables de faits
- 5.2- Tables de dimension
- 5.3- Différence entre Table des faits et Table de dimension
- 6- Le schéma en étoile
- 7- Le schéma en flocon
- 8- Différence entre le modèle en étoile et flocon
- 8.1.1- Introduction aux Systèmes d'Information Décisionnels
Modélisation dimensionnelle
-
Objectifs
- Connaitre la notion de schéma dimensionnel, essentielle pour débuter la découverte de la modélisation dimensionnelle
-
introduction
- La modélisation dimensionnelle considère les données comme des points dans un espace à plusieurs dimensions. Ces points représentent les centres d’intérêts décisionnels (sujets) analysés en fonction des différents axes d’analyse.
- Dans le cadre de la conception des modèles conceptionnels de données(MCD) des bases de données classiques on parle des tables et des relations entre elles.
- Dans le concept du Business Intelligence ou Informatique décisionnelle nous parlons des dimensions et des faits. Les dimensions sont les axes sur lesquels on veut faire l’analyse.
- Les schémas en étoile ou en flocon implémentent différemment ce type de modèle de données.
-
C’est quoi un fait?
- Les faits sont ceux sur quoi va porter l’analyse. Ceux sont des tables qui contiennent les informations opérationnelles et relatent la vie d’une entreprise.
- Par exemple on peut avoir une table des faits pour la vente qui permet d’évaluer le chiffre d’affaire net, quantités et montants commandés et quantités facturées.
- Autrement un fait :
- modélise le sujet de l’analyse
- est formé de mesures correspondant aux informations de l’activité analysée.
- ces mesures sont numériques et généralement valorisées de façon continue,
- on peut les additionner, les dénombrer ou bien calculer le minimum, le maximum ou la moyenne.
-
C’est quoi une dimension?
- Une dimension peut être définie comme l’axe sur lequel on porte les différentes analyses. Lorsqu’on fait un schéma de Base de données pour un système d’information classique, on parle en termes de tables et de relations, une table étant une représentation d’une entité et une relation une technique pour établir des liens entre ces entités.
-
Tables de faits et de dimensions
-
Tables de faits
- Table qui contient les données observables (les faits) que l’on possède sur un sujet et que l’on veut étudier, selon divers axes d’analyse (les dimensions). Les « faits », dans un entrepôt de données, sont normalement numériques, puisque d’ordre quantitatif. Il peut s’agit du montant en argent des ventes, du nombre d’unités vendues d’un produit, etc.
- Correspondent à un événement d’affaires Ex: achat d’un produit par un client, envoi du produit au client, commande de matériaux auprès d’un fournisseur, etc.
- Contiennent deux types de colonnes:
- Des métriques associées à l’événement d’affaire: Ex: total des ventes, nombre d’items commandés, etc.
- Des clés étrangères vers les tables de dimension: Ex: ID du client qui fait la commande, ID du produit commandé, etc.
- Contiennent typiquement un très grand nombre de lignes:
- Jusqu’à plusieurs milliards de lignes;
- Souvent plus de 90% des données du modèle.
-
Tables de dimension
- Table qui contient les axes d’analyse (les dimensions) selon lesquels on veut étudier des données observables (les faits) qui, soumises à une analyse multidimensionnelle, donnent aux utilisateurs des renseignements nécessaires à la prise de décision. On appelle « dimension » un axe d’analyse. Il peut s’agit des clients ou des produits d’une entreprise, d’une période de temps comme un exercice financier, des activités menées au sein d’une société, etc.
- C’est un ensemble hautement corrélé d’attributs (jusqu’à plusieurs dizaines) regroupés selon les objets clés d’une entreprise: Ex: produits, clients, employés, installations, etc.
- Propriétés des attributs:
- Descriptif (ex: chaînes de caractères);
- De qualité (ex: aucune valeur manquante, obsolète, erronée, etc.);
- Valeurs discrètes (ex: jour, âge d’un client);
- Rôles des attributs:
- Filtrer/agréger les données (ex: ville, catégorie produit, etc.);
- Étiqueter les résultats (ex: champs descripteurs).
-
Différence entre Table des faits et Table de dimension
- La table de faits et la table de dimensions sont utilisées pour créer des schémas.
- L’enregistrement d’une table de faits est une combinaison d’attributs de différentes tables de dimension.
- La table des faits aide l’utilisateur à analyser les dimensions de l’entreprise, ce qui aide à prendre des décisions pour améliorer son activité.
- D’ailleurs, les tables de dimensions aident à rassembler les dimensions avec lesquels les mesures doivent être prises.
- La différence clé entre la table de faits et la table de dimension est que la table de dimension contient des attributs avec lesquels les mesures sont prises dans la table de faits.
-
Le schéma en étoile
- C’est une manière de relier une dimension à un fait dans un entrepôt de données. Dans le modèle en étoile on a une table de fait centrale qui est liée par les tables de dimensions dénormalisées.
- Le schéma en étoile est une approche de modélisation mature largement adoptée par les entrepôts de données relationnels. Les modélisateurs doivent classer leurs tables de modèle en tant que table de dimension ou table de faits.
- Le schéma en étoile est un schéma logique et dénormalisé qui est utilisé pour consolider, historiser et agréger des données numériques.
- Ce schéma est dit logique par opposition à un schéma physique qui s’intéresse à la représentation de l’implémentation des structures de données en mémoire et par opposition à un schéma conceptuel qui est agnostique du type de base de données que l’on utilise (relationnelle, orientée documents, etc.).
- Ce schéma est dit dénormalisé au sens des formes normales définies dans le modèle relationnel.
- Dans un schéma en étoile des redondances sont explicitement ajoutées afin d’optimiser la vitesse d’exécution de requêtes complexes. Ces redondances sont localisées au niveau des dimensions.
- La modélisation dimensionnelle a pour rôle de représenter des faits (qui sont mesurables) et de permettre de les agréger suivant différentes dimensions.
-
Le schéma en flocon
- Un schéma en flocon est appelé ainsi car il ressemble à un flocon quand on normalise au maximum chacune des dimensions.
- C’est une manière de relier une dimension à un fait dans un entrepôt de données. C’est le modèle en étoile avec une normalisation des dimensions. Il peut exister des hiérarchies des dimensions pour diviser les tables de dimensions lorsqu’elles sont trop volumineuses.
- Un schéma en flocon a pour objectif de réduire la redondance en normalisant les données.
-
Différence entre le modèle en étoile et flocon
- Le modèle en flocon est le modèle en étoile avec une normalisation des dimensions.
- Les dimensions ne sont pas liées entre elles dans le modèle en étoile or au niveau du modèle en flocon il peut exister une hiérarchie entre les dimensions.
- Au niveau du modèle en étoile les dimensions sont dénormalisées contrairement au modèle en flocon où les dimensions sont normalisées.
- Le modèle en flocon est complexe avec de nombreuses jointures souvent coûteuses contrairement au modèle en étoile qui évite les jointures.
La modélisation dimensionnelle est une approche orientée par les besoins, incrémentale, qui vise à optimiser le temps de réponse de requêtes complexes en agrégats. Il s’agit d’un modèle décisionnel de représentation de données.
Les faits (mesures) sont généralement des valeurs numériques provenant des processus d’affaires;
Les dimensions fournissent le contexte (qui, quoi, quand, où, pourquoi et comment) des faits;