GNU/Linux >> Tutoriels Linux >  >> Cent OS

Schéma étoile vs flocon de neige

Présentation

L'étoile et flocon de neige schéma sont des conceptions de stockage logique que l'on trouve couramment dans les magasins de données et l'architecture d'entrepôt de données. Alors que les types de bases de données courants utilisent des diagrammes ER (Entity-Relationship), la structure logique des entrepôts utilise des modèles dimensionnels pour conceptualiser le système de stockage.

Lisez la suite pour découvrir les différences, les caractéristiques et les défauts des schémas en étoile et en flocon de neige.

Schéma en étoile et schéma en flocon :la principale différence

Les deux principaux éléments du modèle dimensionnel du schéma étoile et flocon sont :

1. Tableau des faits . Une table avec la quantité de données la plus considérable, également appelée cube .

2. Tableaux de dimensions . La structure de données dérivée fournit des réponses aux requêtes ou dimensions ad hoc, souvent appelées tables de recherche .

Relier les dimensions choisies sur une table de faits forme le schéma. Les schémas en étoile et en flocon utilisent tous deux la dimensionnalité des données pour modéliser le système de stockage.

Les principales différences entre les deux schémas sont :

Schéma en étoile Schéma du flocon de neige
Éléments Tables de dimensions des tables de faits Table de faits Tables de dimension Tables de sous-dimensions
Structure En forme d'étoile En forme de flocon de neige
Dimensions Un tableau par dimension Plusieurs tableaux pour chaque dimension
Direction du modèle Dessus descendant De bas en haut
Espace de stockage Utilise plus d'espace de stockage Utilise moins d'espace
Normalisation Tableaux de dimension dénormalisés Tableaux de dimension normalisés
Performance des requêtes Rapide, moins de JOIN nécessaires grâce à moins de clés étrangères Lent, plus de JOIN requis en raison de plus de clés étrangères
Complexité des requêtes Simple et plus facile à comprendre Compliqué et plus difficile à comprendre
Redondance des données Élevé Faible
Cas d'utilisation Tableaux de dimensions à plusieurs lignes, typiques des datamarts Tables de dimension avec plusieurs lignes trouvées avec les entrepôts de données

En raison de la complexité du schéma en flocon de neige et des performances moindres, le schéma en étoile est l'option préférée dans la mesure du possible. Une façon typique de contourner les problèmes du schéma en flocon consiste à décomposer le stockage dédié en plusieurs entités plus petites avec un schéma en étoile.

Qu'est-ce qu'un schéma en étoile ?

Un schéma en étoile est une structure logique pour le développement de data marts et d'entrepôts de données plus simples. Le modèle simple se compose de tables de dimensions connectées à une table de faits au centre.

La table des faits se compose généralement de :

  • Données numériques quantifiables, telles que des valeurs ou des décomptes
  • Références aux dimensions via des clés étrangères.

Les tables de recherche représentent des informations descriptives directement liées à la table de faits.

Par exemple, pour modéliser les ventes d'une entreprise de commerce électronique, la table des faits pour les achats peut contenir le prix total de l'achat. D'autre part, les tableaux dimensionnels contiennent des informations descriptives sur les articles, les données client, l'heure ou le lieu d'achat.

Le schéma en étoile pour l'analyse des achats dans l'exemple a quatre dimensions. La table de faits se connecte aux tables dimensionnelles via le concept de clés étrangères et primaires. Outre les données numériques, la table de faits se compose donc également de clés étrangères pour définir les relations entre les tables.

Caractéristiques d'un schéma en étoile

Les principales caractéristiques du schéma en étoile sont :

  • Requêtes simplifiées et rapides . Moins d'opérations JOIN en raison de la dénormalisation rendent les informations plus facilement disponibles.
  • Relations simples. Le schéma fonctionne parfaitement avec les relations un-à-un ou un-à-plusieurs.
  • Dimensionnalité singulière . Un tableau décrit chaque dimension.
  • Compatible avec OLAP . Les systèmes OLAP utilisent largement le schéma en étoile pour concevoir des cubes de données.

Inconvénients d'un schéma en étoile

Les inconvénients de l'utilisation du schéma en étoile sont :

  • Redondance . Les tableaux dimensionnels sont unidimensionnels et la redondance des données est présente.
  • Faible intégrité . En raison de la dénormalisation, la mise à jour des informations est une tâche complexe.
  • Requêtes limitées . L'ensemble de questions est limité, ce qui réduit également la puissance d'analyse.

Qu'est-ce qu'un schéma en flocon ?

Le schéma en flocon de neige a une structure logique ramifiée utilisée dans les grands entrepôts de données. Du centre vers les bords, les informations sur l'entité vont du général au plus spécifique.

Outre les éléments communs du modèle dimensionnel, le schéma en flocon de neige décompose davantage les tables dimensionnelles en sous-dimensions.

Le modèle d'analyse des ventes de commerce électronique de l'exemple précédent se subdivise ("flocons de neige") en catégories et sous-catégories d'intérêt plus petites.

Les quatre dimensions se décomposent en sous-dimensions. Les tables de recherche se normalisent davantage grâce à une série d'objets connectés.

Caractéristiques d'un schéma en flocon

Les principales caractéristiques du schéma en flocon de neige incluent :

  • Petit rangement . Le schéma en flocon de neige ne nécessite pas autant d'espace de stockage.
  • Haute granularité . La division des tableaux en sous-dimensions permet une analyse à différentes profondeurs d'intérêt. L'ajout de nouvelles sous-dimensions est également un processus simple.
  • Intégrité . En raison de la normalisation, le schéma présente un niveau d'intégrité des données plus élevé et de faibles redondances.

Inconvénients d'un schéma en flocon

Les faiblesses du schéma en flocon de neige sont :

  • Complexité . Le modèle de base de données est complexe, tout comme les requêtes exécutées. Plusieurs tables multidimensionnelles compliquent la conception globale.
  • Traitement lent . De nombreuses tables de recherche nécessitent plusieurs opérations JOIN, ce qui ralentit la récupération des informations.
  • Difficile à entretenir . Un haut niveau de granularité rend le schéma difficile à gérer et à maintenir.

Cent OS
  1. Comment copier des tables MySQL entre des bases de données

  2. Comment modifier le schéma des tables Mssql, des procédures stockées et des vues en même temps

  3. Supprimer des tables dans MySQL

  4. Les bases de PHP et MySQL :bases de données et tables

  5. Échappez un caractère étoile (*) dans bash

Comment connecter Snowflake au client CLI SnowSQL

Contrôle d'accès basé sur les rôles Snowflake (RBAC) expliqué

Liste des tables dans une base de données MySQL

Comment installer le client SSH graphique Muon/Snowflake sur Ubuntu

Comment réparer une base de données MySQL ?

Comment optimiser une base de données MySQL ?