Conception d'un entrepôt de données (DataWarehouse)
Introduction à l'Entrepôt de Données et à l'Intelligence Artificielle
Cette section aborde le concept d'entrepôt de données (data warehouse) dans le cadre du processus d'intelligence artificielle, en expliquant son rôle dans la gestion des données.
Qu'est-ce qu'un Entrepôt de Données ?
- L'entrepôt de données est utilisé pour stocker des données thématiques, facilitant ainsi leur analyse dans le contexte de l'intelligence artificielle.
- Une introduction détaillée sur les entrepôts de données sera présentée, suivie d'une explication sur les Data Marts.
Plan de la Présentation
- La présentation inclura une introduction aux data warehouses et Data Marts, ainsi qu'une modélisation multidimensionnelle.
- Un exemple pratique sera donné pour illustrer la conception d'un data warehouse, avec un rappel sur l'informatique décisionnelle (business intelligence).
Systèmes d'Information Orientés Décision
- Les systèmes d'information orientés production sont essentiels pour gérer des aspects tels que les commandes et les ressources humaines.
- L'objectif principal est d'aider les décideurs à prendre des décisions éclairées basées sur des analyses approfondies.
Utilisation des Données pour la Prise de Décisions
- Les données permettent d'identifier les meilleurs clients par région et période afin d'adapter les stratégies marketing.
- Elles peuvent également être utilisées pour analyser le nombre de ventes par vendeur ou région, influençant ainsi les campagnes publicitaires.
Définition et Caractéristiques des Entrepôts de Données
- Selon Bill Inmon (1996), un entrepôt de données est un ensemble structuré orienté sujet qui aide à la prise de décisions.
- Les données intégrées proviennent généralement de sources hétérogènes et doivent être préparées avant stockage.
Processus d'Intégration et Non-volatilité des Données
- Les données sont nettoyées et normalisées lors du processus ETL (extraction, transformation, chargement).
- Ces données ne changent pas au fil du temps; elles sont historisées pour permettre une analyse régressive.
Différences entre Entrepôts de Données et Bases Transactionnelles
- Contrairement aux bases transactionnelles qui gèrent des opérations en ligne, un entrepôt se concentre sur l'analyse historique.
Introduction aux systèmes de gestion de bases de données
Aperçu des concepts fondamentaux liés aux systèmes transactionnels et analytiques.
Types de systèmes de gestion de bases de données
- Les systèmes transactionnels appartiennent à la classe des logiciels LTP (Online Transaction Processing), permettant l'insertion, la modification ou la suppression des données par les utilisateurs finaux.
- Les entrepôts de données sont classés comme OLAP (Online Analytical Processing), utilisés pour le traitement analytique en ligne, où les données sont stockées avec une granularité temporelle et accessibles en lecture seule pour les décideurs.
Granularité et normalisation des données
- La granularité fait référence à la précision des données dans les bases transactionnelles, qui sont orientées vers les données complexes et normalisées pour éviter la redondance.
- Contrairement aux bases transactionnelles, les tables dans un entrepôt de données ne nécessitent pas une normalisation stricte, ce qui facilite l'accès rapide aux informations nécessaires pour l'analyse.
Optimisation des performances
- Les requêtes d'analyse dans un entrepôt de données sont souvent complexes; ainsi, le critère principal n'est pas tant la taille du stockage que l'efficacité d'accès aux informations pertinentes.
- Pour concevoir une base de données relationnelle, on utilise le modèle entité-association, tandis que pour un entrepôt de données, on privilégie une modélisation dimensionnelle adaptée aux besoins analytiques.
Différences entre LTP et OLAP
- Les bases transactionnelles sont optimisées pour les opérations d'écriture alors que celles des entrepôts se concentrent sur la lecture seule. Cela influence leur conception et leur utilisation.
- On distingue deux types principaux : LTP pour le traitement rapide des transactions (insertion, mise à jour), et OLAP qui nécessite des requêtes plus complexes avec agrégations importantes.
Requêtes analytiques et modèles multidimensionnels
- Dans un système OLAP, les requêtes doivent être conçues pour extraire efficacement les informations nécessaires à partir d'agrégations complexes.
- Les résultats issus d'un système OLAP peuvent être utilisés par des algorithmes d'apprentissage automatique afin d'extraire des connaissances cachées facilitant ainsi la prise de décision.
Exemples pratiques
Analyse des Systèmes OLAP et OLTP
Aperçu de la section : Cette section explore les différences entre les systèmes OLAP (Online Analytical Processing) et OLTP (Online Transaction Processing), en mettant l'accent sur leurs caractéristiques, leurs usages et leur complexité.
Complexité des Requêtes
- Les requêtes pour obtenir des données par ville ou région nécessitent des jointures complexes entre plusieurs tables, rendant le processus plus coûteux en termes de calcul.
- Les requêtes analytiques sont généralement plus complexes que celles transactionnelles, impliquant souvent des agrégations et des conditions élaborées.
- Il est déconseillé d'effectuer des analyses sur des systèmes OLTP ; il est préférable d'utiliser des systèmes analytiques comme les systèmes OLAP qui facilitent l'accès à l'information.
Différences Fondamentales entre OLAP et OLTP
- Les systèmes OLTP gèrent principalement des données opérationnelles tandis que les systèmes OLAP se concentrent sur la consolidation de données pour la prise de décision.
- Les données dans un système OLTP sont utilisées pour exécuter les tâches quotidiennes d'une entreprise, alors que celles dans un système OLAP servent à la planification stratégique.
Historisation et Granularité
- Dans les systèmes OLAP, on a besoin de données historisées avec différentes granularités, permettant une analyse sur de longues périodes.
- Contrairement aux requêtes simples dans les systèmes OLTP, celles dans les systèmes OLAP sont souvent longues et complexes en raison du volume de données analysé.
Stockage et Normalisation
- Les systèmes OLTP nécessitent moins d'espace car ils utilisent une conception normalisée avec plusieurs tables. En revanche, les systèmes OLAP stockent souvent plus de données historisées avec moins de normalisation.
- La structure multidimensionnelle utilisée dans les bases de données olap permet une focalisation sur des sujets spécifiques plutôt que sur l'ensemble des données disponibles.
Visualisation et Prise de Décision
- Les systèmes OLAP fournissent aux dirigeants une vue globale par sujet ou thématique, facilitant ainsi la prise de décisions éclairées grâce à une représentation multidimensionnelle.
- Par exemple, on peut visualiser les ventes par produit selon plusieurs dimensions telles que le vendeur ou la région, ce qui aide à identifier rapidement les tendances du marché.
- Une représentation orientée produit permet d'analyser spécifiquement le comportement commercial selon différents critères géographiques ou temporels.
Importance du Temps dans l'Analyse
- La dimension temporelle est cruciale dans l'analyse ; il est essentiel d'inclure une table dimensionnelle dédiée au temps pour structurer efficacement les données analytiques.
Modélisation d'un Data Warehouse
Aperçu de la section : Cette section aborde les principes fondamentaux de la modélisation d'un data warehouse, en mettant l'accent sur les dimensions et les mesures, ainsi que sur les différentes structures de données.
Principes de base du Data Warehouse
- Le principe d'entité-association est essentiel pour modéliser un data warehouse. Les mesures sont des valeurs numériques (ex. : montant des ventes) qui résultent d'opérations d'agrégation des données.
- Les dimensions représentent les points de vue à partir desquels les mesures peuvent être observées, comme la localisation ou le produit. Ces données sont extraites via des requêtes.
- Une dimension peut être définie comme un sujet ou un axe selon lequel les données seront analysées (ex. : dimension client, dimension produit).
- Chaque dimension contient des membres organisés par ordre hiérarchique, permettant une analyse granulaire (ex. : par jour, mois ou semaine pour la dimension temps).
- La table de dimension est identifiée par une clé primaire simple et est essentielle dans tous les modèles de conception d'un data warehouse.
Gestion des modifications dans le Data Warehouse
- Lorsqu'il faut modifier des données après leur chargement (ex. : changement d'adresse), trois options existent : écraser les anciennes données, ajouter un attribut de version ou sauvegarder l'ancienne valeur.
- Les tables de fait représentent les valeurs mesurées et peuvent contenir soit des valeurs mesurées lors de la création soit calculées à partir des tables de dimension existantes.
Structure du Data Warehouse
- Dans la modélisation du data warehouse, la table de fait se situe au centre et contient des indicateurs clés pour l'analyse.
- La table de fait est souvent reliée aux tables de dimension par une clé composite formée par la concaténation des clés primaires.
- Il existe plusieurs types de faits à considérer : additifs (quantité vendue), semi-additifs (niveau stock), et non-additifs (marge brute).
Modèles logiques du Data Warehouse
- Pour représenter logiquement un data warehouse, on utilise le modèle entité-association avec relations entre tables.
- Trois types principaux de modèles sont définis : étoile, flocon et constellation. Chacun représente comment les tables interagissent entre elles.
Détails sur chaque modèle
- Le modèle en étoile présente une structure où la table centrale est entourée par plusieurs tables de dimensions liées directement à elle.
- Le modèle en flocon ressemble à un flocon avec branches représentant différentes dimensions ; ici, certaines dimensions peuvent être reliées entre elles.
Modèles de données : Étoile et Flocon de neige
Aperçu de la section
Cette section aborde les concepts fondamentaux des modèles de données en étoile et en flocon de neige, ainsi que leur application dans la conception d'entrepôts de données. Les discussions portent sur les tables de faits, les tables de dimensions, et l'importance des relations entre elles.
Modèle en étoile
- Le modèle en étoile se compose d'une table de faits qui contient des mesures numériques essentielles pour l'analyse, telles que le montant des ventes ou la quantité vendue.
- Les tables de dimension permettent aux décideurs d'extraire facilement des informations pertinentes, comme les montants des ventes par vendeur ou client.
- La granularité doit être cohérente entre la table de faits et les tables de dimensions ; chaque ligne dans la table de faits doit correspondre à une entrée dans chaque table dimensionnelle.
- Il n'y a pas de relations directes entre les tables dimensionnelles ; toutes les relations passent par la table de faits.
Modèle en flocon de neige
- Le modèle en flocon de neige est une variante du modèle en étoile qui résout certains problèmes liés à la performance lorsque les dimensions contiennent un grand volume d'informations.
- Ce modèle permet d'organiser hiérarchiquement les données sur plusieurs tables dimensionnelles afin d'améliorer l'efficacité lors du traitement des données volumineuses.
- Contrairement au modèle en étoile, le flocon peut relier différentes tables dimensionnelles sans passer par la table des faits, permettant ainsi une plus grande flexibilité dans l'organisation des données.
- Un modèle en flocon est souvent utilisé lorsque le nombre d'entrées dépasse 1000 lignes dans une table dimensionnelle.
Conception d'un entrepôt de données
- Pour concevoir un entrepôt utilisant ces modèles, il est essentiel d'établir un cahier des charges orienté vers la décision basé sur les besoins exprimés par les gestionnaires.
- L'objectif principal est d'analyser efficacement les activités commerciales, comme celles liées aux vendeurs d'imprimantes, pour prendre des décisions éclairées concernant leurs performances.
- Des spécifications précises sont nécessaires pour créer un Data Mart qui permettra aux responsables d'évaluer divers indicateurs tels que l'efficacité géographique et le volume moyen des ventes.
- Les sources doivent être identifiées pour extraire correctement les informations nécessaires à partir du système transactionnel existant vers l'entrepôt donné.
Analyse et extraction des données
- Les données peuvent provenir soit d'un système centralisé soit réparties sur différents systèmes selon l'infrastructure informatique utilisée par l'entreprise.
- L'accès aux systèmes variés (ressources humaines, ventes, etc.) est crucial pour obtenir toutes les informations nécessaires à une analyse complète des activités commerciales.
- Identifier clairement les axes analytiques équivalents aux dimensions et leurs attributs est fondamental pour structurer efficacement le Data Mart souhaité.
Analyse des Critères de Données pour les Décideurs
Aperçu de la section : Cette section aborde l'importance de définir les critères d'analyse des données en fonction des besoins spécifiques des décideurs, en mettant l'accent sur la granularité et les dimensions pertinentes.
Définition des Critères d'Analyse
- Les données doivent être organisées par date, vendeur, produit, zone géographique ou client. La granularité nécessaire inclut des données par année, mois, jour et heure.
- Il est souhaitable d'avoir des données géographiques détaillées par pays, province, ville et quartier. Cela découle directement des questions posées aux décideurs pour identifier leurs besoins analytiques.
- Chaque dimension a été identifiée lors de la phase d'analyse : date, vendeur, produit, zone géographique et clients. La granularité est définie pour chaque dimension.
Granularité et Dimensions
- Pour la dimension date : granularités disponibles sont année, mois, jour et heure. Pour le vendeur : nom et prénom ; pour le produit : catégorie et type ; pour la zone géographique : pays et province ; pour les clients : nom et adresse.
- Les mesures d'analyse stockées dans la table de faits incluent le montant des ventes, consommation d'essence, quantité commandée ainsi que le kilométrage. L'axe temporel est toujours présent dans un entrepôt de données car il permet l'historisation.
Modèle en Étoile vs Modèle en Flocon
- Le modèle en étoile est présenté comme une structure centrale où la table de faits se connecte à plusieurs tables de dimensions contenant les indicateurs clés.
- L'objectif est de modéliser un entrepôt de données basé sur divers éléments tels que produits regroupés par famille et ventes associées à un seul produit effectué par un vendeur spécifique.
Hiérarchies dans le Modèle en Flocon
- La modélisation en flocon est adoptée pour améliorer les performances lorsque les dimensions contiennent plusieurs millions de lignes. Elle crée des hiérarchies au sein des tables dimensionnelles afin d'alléger leur contenu.
- Dans ce modèle flocon, une nouvelle table dimensionnelle appelée "catégorie" peut être ajoutée pour relier à la table "produit", permettant ainsi une meilleure gestion du nombre d'enregistrements tout en maintenant une structure efficace.
Conclusion sur la Conception d'un Entrepôt