Présentation
L'étoile et flocon de neige schéma sont des conceptions de stockage logique que l'on trouve couramment dans les magasins de données et l'architecture d'entrepôt de données. Alors que les types de bases de données courants utilisent des diagrammes ER (Entity-Relationship), la structure logique des entrepôts utilise des modèles dimensionnels pour conceptualiser le système de stockage.
Lisez la suite pour découvrir les différences, les caractéristiques et les défauts des schémas en étoile et en flocon de neige.

Schéma en étoile et schéma en flocon :la principale différence
Les deux principaux éléments du modèle dimensionnel du schéma étoile et flocon sont :
1. Tableau des faits . Une table avec la quantité de données la plus considérable, également appelée cube .
2. Tableaux de dimensions . La structure de données dérivée fournit des réponses aux requêtes ou dimensions ad hoc, souvent appelées tables de recherche .
Relier les dimensions choisies sur une table de faits forme le schéma. Les schémas en étoile et en flocon utilisent tous deux la dimensionnalité des données pour modéliser le système de stockage.
Les principales différences entre les deux schémas sont :
Schéma en étoile | Schéma du flocon de neige | |
---|---|---|
Éléments | Tables de dimensions des tables de faits | Table de faits Tables de dimension Tables de sous-dimensions |
Structure | En forme d'étoile | En forme de flocon de neige |
Dimensions | Un tableau par dimension | Plusieurs tableaux pour chaque dimension |
Direction du modèle | Dessus descendant | De bas en haut |
Espace de stockage | Utilise plus d'espace de stockage | Utilise moins d'espace |
Normalisation | Tableaux de dimension dénormalisés | Tableaux de dimension normalisés |
Performance des requêtes | Rapide, moins de JOIN nécessaires grâce à moins de clés étrangères | Lent, plus de JOIN requis en raison de plus de clés étrangères |
Complexité des requêtes | Simple et plus facile à comprendre | Compliqué et plus difficile à comprendre |
Redondance des données | Élevé | Faible |
Cas d'utilisation | Tableaux de dimensions à plusieurs lignes, typiques des datamarts | Tables de dimension avec plusieurs lignes trouvées avec les entrepôts de données |
En raison de la complexité du schéma en flocon de neige et des performances moindres, le schéma en étoile est l'option préférée dans la mesure du possible. Une façon typique de contourner les problèmes du schéma en flocon consiste à décomposer le stockage dédié en plusieurs entités plus petites avec un schéma en étoile.
Qu'est-ce qu'un schéma en étoile ?
Un schéma en étoile est une structure logique pour le développement de data marts et d'entrepôts de données plus simples. Le modèle simple se compose de tables de dimensions connectées à une table de faits au centre.

La table des faits se compose généralement de :
- Données numériques quantifiables, telles que des valeurs ou des décomptes
- Références aux dimensions via des clés étrangères.
Les tables de recherche représentent des informations descriptives directement liées à la table de faits.
Par exemple, pour modéliser les ventes d'une entreprise de commerce électronique, la table des faits pour les achats peut contenir le prix total de l'achat. D'autre part, les tableaux dimensionnels contiennent des informations descriptives sur les articles, les données client, l'heure ou le lieu d'achat.

Le schéma en étoile pour l'analyse des achats dans l'exemple a quatre dimensions. La table de faits se connecte aux tables dimensionnelles via le concept de clés étrangères et primaires. Outre les données numériques, la table de faits se compose donc également de clés étrangères pour définir les relations entre les tables.
Caractéristiques d'un schéma en étoile
Les principales caractéristiques du schéma en étoile sont :
- Requêtes simplifiées et rapides . Moins d'opérations JOIN en raison de la dénormalisation rendent les informations plus facilement disponibles.
- Relations simples. Le schéma fonctionne parfaitement avec les relations un-à-un ou un-à-plusieurs.
- Dimensionnalité singulière . Un tableau décrit chaque dimension.
- Compatible avec OLAP . Les systèmes OLAP utilisent largement le schéma en étoile pour concevoir des cubes de données.
Inconvénients d'un schéma en étoile
Les inconvénients de l'utilisation du schéma en étoile sont :
- Redondance . Les tableaux dimensionnels sont unidimensionnels et la redondance des données est présente.
- Faible intégrité . En raison de la dénormalisation, la mise à jour des informations est une tâche complexe.
- Requêtes limitées . L'ensemble de questions est limité, ce qui réduit également la puissance d'analyse.
Qu'est-ce qu'un schéma en flocon ?
Le schéma en flocon de neige a une structure logique ramifiée utilisée dans les grands entrepôts de données. Du centre vers les bords, les informations sur l'entité vont du général au plus spécifique.
Outre les éléments communs du modèle dimensionnel, le schéma en flocon de neige décompose davantage les tables dimensionnelles en sous-dimensions.

Le modèle d'analyse des ventes de commerce électronique de l'exemple précédent se subdivise ("flocons de neige") en catégories et sous-catégories d'intérêt plus petites.

Les quatre dimensions se décomposent en sous-dimensions. Les tables de recherche se normalisent davantage grâce à une série d'objets connectés.
Caractéristiques d'un schéma en flocon
Les principales caractéristiques du schéma en flocon de neige incluent :
- Petit rangement . Le schéma en flocon de neige ne nécessite pas autant d'espace de stockage.
- Haute granularité . La division des tableaux en sous-dimensions permet une analyse à différentes profondeurs d'intérêt. L'ajout de nouvelles sous-dimensions est également un processus simple.
- Intégrité . En raison de la normalisation, le schéma présente un niveau d'intégrité des données plus élevé et de faibles redondances.
Inconvénients d'un schéma en flocon
Les faiblesses du schéma en flocon de neige sont :
- Complexité . Le modèle de base de données est complexe, tout comme les requêtes exécutées. Plusieurs tables multidimensionnelles compliquent la conception globale.
- Traitement lent . De nombreuses tables de recherche nécessitent plusieurs opérations JOIN, ce qui ralentit la récupération des informations.
- Difficile à entretenir . Un haut niveau de granularité rend le schéma difficile à gérer et à maintenir.