1. Data WarehouseData Warehouse
Concepts et Etudes de casConcepts et Etudes de cas
Cours 2014-2015 – Université de Loraine
Ecrit par Joseph Stojanov
Partnership Building Director &
Business Intelligence Senior Consultant (depuis 1996)
joseph.stojanov@gmail.com
2. Présentation personnelle.
Introduction et objectifs généraux
Initiation à la modélisation dimensionnelle
- Des univers d’informations différents
- Objectifs du datawarehouse
- 1er approche
Notion intuitive et de bon sens : construction pas à pas d’un exemple d’architecture
- construction end-to-end
Definitions.
Data Warehouse concepts de base.
Buts et problématique du Data Warehouse
- Utilité, objectifs
SGDB et Data Warehouse.
Normalisation.
SommaireSommaire
3. Composants du Data Warehouse.
Rappels.
Vocabulaire du Modèle Dimensionnel.
Bases de Données Multidimensionnelles.
Méthodes de navigation dans les données.
Dimension à évolution lente.
Dimension temps.
Clé de l’entrepôt.
Étapes de mise en place du Modèle Dimensionnel.
Estimation de la taille de l’entrepôt.
Bibliographie.
Sommaire (suite)Sommaire (suite)
4. Prénom, Nom, parcours et expériencesPrénom, Nom, parcours et expériences
Présentation Personnelle
5. IntroductionIntroduction
• La modélisation dimensionnelles est la technique dominante
de présentation des data warehouse
• Admis aujourd’hui – doit être présenter de manière simple
• Afin d’avoir une compréhension simple par les utilisateurs et au logiciel de les
parcourir efficacement
• La priorité est la réussite de l’entreprise
• Le but est d’offrir une conception cohérente conforme aux besoins d’analyse
6. ObjectifsObjectifs
• Le but de ce cours est de présenter les concepts du Data
Warehouse
• Le traitement des MD sera indépendant des systèmes
utilisés
• Nous ne traitons ni la conception physique ni les conseils
d’optimisation
• Analyse des concepts de base et introduction des éléments
plus avancés au fur et à mesure
• Développement des techniques de conception par l’exemple
pas à pas. (Cfr Kimball)
7. En résuméEn résumé
Apporter un ensemble de techniques standard pour la
conception des datawarehouses.
Acquérir la conviction qu’un datawarehouse doit être
soumis aux besoins des utilisateurs de l’entreprise,
construit dans une simple perspective dimensionnelle.
8. Initiation à la modélisation dimensionnelleInitiation à la modélisation dimensionnelle
• 1.1. Des univers d’informations différents
• Information = richesses d’une organisation
• Conservée sous 2 formes :
1) Le système opérationnel (so)
2) Le data warehouse (dwh)
Simplifions, les données entrent par les applications opérationnelles et nous les
retirons par le data warehouse
• Les utilisateurs d’une appli op font tourner les rouages de l’organisation, …
• Les utilisateurs d’un dwh regardent tourner les rouages , …
• Un dwh a des besoins, des clients, des structures et des rythmes profondément différents
des appli op.
• A noter qu’un dwh n’est pas une simple copie des données op sur une plate-forme
matérielle distincte.
• Rem : pseudo-dwh !
9. Initiation à la modélisation dimensionnelleInitiation à la modélisation dimensionnelle
• 1.2. Objectifs d’un DWH
• Il suffit de se promener dans les couloirs d’une organisation et d’observer les
gestionnaires d’entreprise :
• « Nous avons de nombreuses données mais nous ne pouvons y accéder. »
• « Nous avons besoin de faire des coupes au niveau des données. »
• « Il faut avoir accès aux données facilement et directement. »
• « Montrez-moi les données les plus importantes. »
• « Pourquoi les mêmes mesures de performance ont des chiffres différents. »
• « Les responsables doivent être capable de prendre des décisions sur des faits. »
Ces préoccupations sont universelles et représentent le fondement du cahier
des charges d’un DWH.
Le succès d’un DWHdemande plus qu’une maîtrise tech et des DB.
Il est nécessaire d’avoir des compétences variées par un comportement
hybride admin de données/gestionnaire.
10. Composants d’un DWH : 1Composants d’un DWH : 1erer
approcheapproche
• 1.3. 1er
approche
• Connaissant les objectifs d’un DWH, que trouve t-on dans un DWH et son
environnement ?
Les applications opérationnelles sources qui « capturent » les transactions de
l’entreprise…
La préparation des données qui est une zone de stockage et un ensemble de
processus ETL (Extract/Transform/Load)
La présentation des données est le lieu où les données sont organisées, stockées et
offertes aux requêtes directes des utilisateurs, aux programmes de reporting et autres
applications d’analyse. (Getting the Data Out)
11. Composants d’un DWH : 1Composants d’un DWH : 1erer
approcheapproche
• 1.4. Remarques
• Il est acceptable de créer une DB normalisée pour supporter les processus de
préparation ; toutefois ce n’est pas l’objectif principal.
• Les structures normalisées doivent être écartées au niveau des requêtes des
utilisateurs car elles sont difficiles à comprendre et entraînent des performances
médiocres.
• Dès lors qu’une DB supporte des services de requêtes et de présentation, elle doit être
considérée comme faisant partie de la zone de présentation du DWH.
• Par défaut, les DB normalisées sont exclues de la zone de présentation qui doit
rigoureusement être structurée selon le modèle dimensionnel.
(C’est évidemment l’hypothèse que nous choisirons dans notre approche …)
12. Notion intuitive … et de bon sensNotion intuitive … et de bon sens
• Construction intuitive depuis le SIO jusqu’en fin de chaine
…
1. Expliciter le contexte
2. Imaginer le besoin
3. Décrire Inflow, Store et Outflow (Inclure la couche sémantique
d’un outil d’aide à la décision)
• Approche intuitive sur la notion multidimensionnelle …
1. Imaginer la demande d’un manager, dimensions ?
2. Translater cette demande sous forme IT, … modélisation en star
3. Imaginer la couche sémantique, … les business objects
• Exemple d’architecture
13. DéfinitionsDéfinitions
• Définition d’un Datawarehouse
• C’est le lieu de stockage intermédiaire des différentes données en vue de la constitution
du système d'information décisionnel: entrepôt de données (data warehouse DWH).
• Le data warehouse est ainsi le lieu unique de consolidation de l'ensemble des données
de l'entreprise. Le créateur du concept de DataWareHouse, Bill Inmon, le définit comme
suit :
• « Un data warehouse est une collection de données thématiques (orientées sujet),
intégrées, non volatiles et historisées pour la prise de décisions, organisées pour le
support d’un processus d’aide à la décision »
« Bill Inmon, 1996 »
• Ses principales caractéristiques sont donc les suivantes :
Le data warehouse est orienté sujets, cela signifie que les données collectées doivent
être orientées « métier » et donc triées par thème.
Le data warehouse est composé de données intégrées, c'est-à-dire qu'un
« nettoyage » préalable des données est nécessaire dans un souci de rationalisation
et de normalisation.
Les données du data warehouse sont non volatiles ce qui signifie qu'une donnée
entrée dans l'entrepôt l'est pour de bon et n'a pas vocation à être supprimée.
Les données du data warehouse doivent être historisées, donc datées.
14. DéfinitionsDéfinitions
• 1. Données orientées sujet
• Données structurées par thèmes (sujets majeurs de l’entreprise) et non suivant les
processus fonctionnels.
• Le sujet est transversal aux structures fonctionnelles et organisationnelles de l’entreprise.
On peut accéder aux données utiles sur un sujet.
• L’intégration des différents sujets se fait dans une structure unique.
• Il n’y a pas de duplication des informations communes à plusieurs sujets.
• La base de données est construite selon les thèmes qui touchent aux métiers de
l’entreprise (clients, produits, riques, rentabilité, …)
• Les données de base sont toutefois issues des SIO (Systèmes d’Information
Opérationnels)
15. DéfinitionsDéfinitions
• 2. Données intégrées
• Les données, issues de différentes applications de production, peuvent exister sous toutes
les formes possibles.
• L’objectif est de les intégrer afin de les homogénéiser et de leur donner un sens unique,
compréhensible par tous les utilisateurs.
• Les données doivent posséder un codage unique et une description unique.
• La phase d’intégration est fastidieuse et pose souvent des problèmes de qualification
sémantique des données à intégrer (synonymie, homonymie, etc…)
• Le problème est amplifié lorsque des données externes sont à intégrer avec les données
du SIO.
16. DéfinitionsDéfinitions
• 3. Données non-volatiles
• Une donnée/information est considérée volatile quand les données sont régulièrement
mises à jour comme dans les SIO
• Dans un SIO, les requêtes portent sur les données actuelles. Il est rare ou difficile de
retrouver un ancien résultat
• Dans un data warehouse, il est nécessaire de conserver l’historique de la donnée.
Ainsi, une même requête effectuée à plusieurs mois d’intervalle en spécifiant la date de
référence de la donnée, donnera le même résultat
17. DéfinitionsDéfinitions
• 4. Données historisées
• Dans un SIO, les transactions se font en temps réel, et les données sont mises à jour
constamment. L’historique des valeurs n’est pas conservées car elles sont inutiles.
• Dans un data warehouse, la donnée n’est jamais mise à jour
• Les données d’un data warehouse s’empilent aux données déjà présentes
• Le data warehouse stocke donc l’historique des valeurs que la donnée aura prise au cours
du temps
• Un référentiel de temps est alors associé à la donnée afin d’être capable d’identifier une
valeur particulière dans le temps.
• Les utilisateurs possèdent un accès aux données courantes ainsi qu’à des données
historisées
18. DéfinitionsDéfinitions
• 5. Support d’un processus d’aide à la décision
• Un data warehouse est un système d’information dédié aux applications décisionnelles
dont les principales contraintes sont :
•
- des requêtes complexes à plusieurs niveaux d’agrégation
• - la nécessité de disposer d’informations synthétiques (analyse des ventes, du CA par
produit, …)
• - un stockage des données sous forme multidimensionnelle
• - des mises à jour périodiques (Jour, mois, etc)
• Réflexion : Somme des tables DWH ? Somme des tables des DataMart
19. DéfinitionsDéfinitions
Datamart:
• Le terme Datamart (littéralement magasin de données) désigne un
sous-ensemble du data warehouse contenant les données du data
warehouse pour un secteur particulier de l'entreprise (département,
direction, service, gamme de produit, etc.).
On parle ainsi par exemple de DataMart Marketing, DataMart
Commercial, ...
• Autrement dit, vue partielle mais orientée métier
20. Buts du data warehouseButs du data warehouse
• Problématique:
• Les décideurs d'une entreprise doivent pouvoir répondre à un
certain nombre de question pour diriger leur entreprise :
• Qui sont mes clients ?
• Pourquoi sont-ils mes clients ?
• Comment cibler ma clientèle ?
• Quel est l'évolution de tel produit ?
• Qui sont mes employés ?
• ...
• L'objectif est donc d'apporter aux décideurs d'une entreprise les
moyens de répondre à ces questions.
21. Buts du data warehouseButs du data warehouse
• Utilité d'un datawarehouse
• Sources de données souvent base de production (système
opérationnel):
• Données éparpillées sur des systèmes multiples (pas toujours
compatibles entre-eux).
• Efficaces que pour les fonctions sur lequelles elles sont
spécialistes.
• Peu structurées pour l’analyse.
• Rôle principal reste la conservation de l’information.
• Focalisées sur les fonctions critiques de l'entreprise.
Ces systèmes sont donc peu adaptés à la vision à long terme et donc à la
prise de décision.
• Objectifs
– Agréger et valoriser ces données provenant de différentes sources
– Permettre à l'utilisateur d'y accéder de manière simple et ergonomique.
22. Buts du data warehouseButs du data warehouse
• Objectifs
– Agréger et valoriser ces données provenant de différentes sources
– Permettre à l'utilisateur d'y accéder de manière simple et ergonomique
i. Ce qui permet le développement d’applications décisionnelles et de
pilotage de l’entreprise et de ses processus
ii. Jouer un rôle de référentiel pour l’entreprise puisqu’il permet de fédérer
les données souvent éparpillées dans les différentes bases de
données
iii. Offrir une vision globale et orientée des métiers de toutes les données
que manipule l’entreprise
iv. Permettre de faire face aux changements du marché et de l’entreprise
v. Offrir une information compréhensible, utile et rapide.
–
23. SGBD et Data warehouseSGBD et Data warehouse
• Pourquoi ne pas utiliser un SGDB pour réaliser cette
structure d'informatique décisionnelle ?
• En réalité SGBD et datawarehouse ont des objectifs différents.
• Stockent les données de manière différentes.
• Font l'objet de requêtes différentes.
• Sont ainsi basés sur deux systèmes différents :
• OLTP (Online Transaction Processing).
• OLAP (Online Analytical Processing).
24. OLTPOLTP
• OLTP (Online Transaction Processing):
• Le mode de travail est transactionnel.
• L'objectif est de pouvoir insérer, modifier et interroger rapidement et en
sécurité la base.
• Ces actions doivent être effectuées très rapidement par de nombreux
utilisateurs simultanément.
• Chaque transaction travaille sur de faibles quantités d'informations, et
toujours sur les versions les plus récentes des données.
• Objectif :
• L'objectif des bases OLTP est de pouvoir répondre rapidement à des
réponses simples, exemple : les ventes du produit X.
26. OLAPOLAP
• OLAP (Online Analytical Processing):
• Ce système travaille en lecture seulement.
• Les programmes consultent d’importantes quantités de données pour
procéder à des analyses.
• Les objectifs principaux sont regrouper, organiser des informations
provenant de sources diverses, les intégrer et les stocker pour donner à
l’utilisateur une vue orientée métier, retrouver et analyser l’information
facilement et rapidement.
• Nécessite de consulter des versions historiques de la base .
• D’un ordre de grandeur >> au système OLTP
• Objectif :
• Les bases OLAP permettent des requêtes plus complexes : les ventes du
produit X par vendeur, région et par mois.
27. Comparaison OLTP - OLAPComparaison OLTP - OLAP
Caractéristiques OLTP OLAP
Utilisation SGBD (base de production) Data Warehouse
Opération typique Mise à jour Analyse
Type d'accès Lecture / écriture Lecture
Niveau d'analyse Elémentaire Global
Quantité d'information
échangées
Faible Importante
Orientation Ligne Multidimension
Taille BD Faible (max qq GB) Importante (pouvant aller à
plusieurs TB).
Ancienneté des données Récente Historique
Hinweis der Redaktion
Présentation
Depuis de nombreuses années, les premiers utilisateurs, qui sont de grandes entreprises ont montré le chemin, puis la pratique des data warehouse.
Cette pratique s’est étendue à des entreprises de toutes dimensions.
Des milliers de DWH ont été construits. Le volume ne cesse de croitre et les données deviennent de plus en plus atomisées avec des fréquences de rafraichissement de plus en plus élevées.
La modélisation dimensionnelles est la technique dominante de présentation des data warehouse.
Ce qui est admis aujourd’hui est que les datawarehouse doivent être présentés de manière simple.
La simplicité est la condition permettant aux utilisateurs de comprendre facilement les bases de données et au logiciel de les parcourir efficacement.
La priorité reste la réussite de l’entreprise en refusant tout ce qui peut compromettre la compréhension par l’utilisateur et la non performance des requêtes.
Le but sera toujours de parvenir à offrir une conception cohérente conforme aux besoins d’analyse.
L’objectif de ce cours est de fournir la description de tous les éléments de la modélisation dimensionnelle.
Nous traiterons des modèles dimensionnels indépendamment des systèmes utilisés, on ne considère ni la conception physique, ni les conseils d’optimisation pour aucun système de base de données.
Le cours est organisé principalement sur des études de cas.
La démarche est le développement des techniques de conception par l’exemple.
Au départ, on analyse les concepts de base et on introduit des éléments plus avancés au fur et à mesure.
En résumé :
- Apporter un ensemble de techniques standard pour la conception des datawarehouses.
- Le but est d’acquérir la conviction qu’un datawarehouse doit être soumis aux besoins des utilisateurs de l’entreprise, construit dans une simple perspective dimensionnelle.
Deux univers d’information différents.
L’une des plus grandes richesses d’une organisation est son information.Cette richesse est presque toujours conservée sous 2 formes :
Le SO (système opérationnel)
Le DWH (le data warehouse)
Pour simplifier, les données entrent par les applications opérationnelles et sont retirées par le datawarehouse.
Les utilisateurs d’une application opérationnelle font tourner les rouages de l’organisation (prennent les commandes, signent des contrats, enregistrent les réclamations, etc).Ils répètent les mêmes tâches opérationnels un grand nombre de fois.
Les utilisateurs d’un DWH regardent tourner les rouages de l’organisation. Ils comptent les nouvelles commandes et les comparent avec les commandes de la semaine dernière, demandent pourquoi les nouveaux clients ont signé et sur quoi portent les réclamations des clients.
On reconnait aujourd’hui, sans discussion, que le dwh a des besoins, des clients, des structures et des rythmes profondément différents de ceux des applications opérationnelles.
Malheureusement, il est encore possible de rencontrer des dwh qui ne sont que de simples copies du système d’enregistrement des données opérationnelles, sur une plate-forme matérielle distincte.
Cette solution apporte la réponse à la nécessité de séparer les environnements pour des raisons de performance MAIS n’apporte RIEN en ce qui concerne les autres différences entre ces 2 types de système.
Il s’agit de pseudo-dwh qui sont des impostures absurdes avec une incompréhension totale sur les besoins différents des 2 mondes.
Il s’agit de construire sur une feuille blanche une architecture complète à partir du SIO (Système d’information opérationnel) jusqu’en fin de chaîne où l’utilisateur non expérimenté est capable de maitriser ses requêtes en faisant abstraction de la technique et en parlant avec le système avec son propre langage métier.
Ce silde se construit en 2 heures avec des explications intuitives amenant l’étudiant à comprendre à chaque étape le pourquoi des choses.
Definition
Définition de Bill Inmon (1996):« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un data warehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).
Definition
Définition de Bill Inmon (1996):« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un data warehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).
Definition
Définition de Bill Inmon (1996):« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un data warehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).
Definition
Définition de Bill Inmon (1996):« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un data warehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).
Definition
Définition de Bill Inmon (1996):« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un data warehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).
Definition
Définition de Bill Inmon (1996):« Le DataWareHouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. »Orientés sujet : Les bases de production sont le plus souvent organisées par processus fonctionnels. Le datawarehouse est lui organisé autour des sujets majeurs de l'entreprise. Les données sont donc structurés par thèmes, ces thèmes étant souvent transverses par rapport aux structures fonctionnelles et organisationnelles de l'entreprise (et donc transverses par rapport aux systèmes de production).
Données intégrées : Les données proviennent de plusieurs sources différentes. Avant d'être intégrées au sein du datawarehouse elles doivent être mise en forme et unifiées afin d'en assurer la cohérence. Cela nécessite une forte normalisation, de bénéficier d'un référentiel unique et cohérent ainsi que de bonnes règles de gestion. Cette phase est très complexe et représente une charge importante dans la mise en place d'un datawarehouse.
Données historisées : Contrairement au système de production les données ne sont jamais mises à jour. Chaque nouvelle données est insérées. Un référentiel de temps doit être mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un data warehouse veut conserver la traçabilité des informations et des décisions prises. Les données ne sont ni modifiées ni supprimées. Une requête émise sur les mêmes données à plusieurs mois d'intervalles doit donner le même résultat.Un datawarehouse définis donc à la fois un ensemble de données et un ensemble d'outils. Il s'agit de données destinés aux décideurs, qui sont souvent une copie des données de production avec une valeur ajoutées (orientés objet, agrégés, historisées). Et c'est un ensemble d'outils permettant de regrouper les données des différentes sources, de les nettoyer et de les intégrer, ainsi que d'y accéder de différentes manières (requêtes, rapport, analyse, datamining).
Réflexion : <= si monde parfait en termes de construction des DM avec de nombreux DM qui répondent à de nombreux domaines métiers de l’Entreprise
Sinon dans la plupart des cas >= ….Entre nous l’égalité pas de sens …
Datamart
Un datamart (ou magasin de données) est une vue partielle du datawarehouse mais orientée métier. C'est un sous-ensemble du datawarehouse contenant des informations se rapportant à un secteur d'activité particulier de l'entreprise ou à un métier qui y est exercé. Il se situe en aval du datawarehouse et est alimenté par celui-ci. On peut donc créer plusieurs datamart correspondant au différent besoin des utilisateurs.Cela permet de réduire le nombre d'opération sur les bases de production. De plus cela permet d'offrir aux utilisateurs un outil spécifiquement adapté à leurs besoins. Cet outil sera plus petit et permettra donc un accès plus rapide à l'information.