Value Chain Canvas Model an Enterprise Architecture Framework
Principe du Puits de données pour un SI simple, agile, anticipant les Big Data
1. Les Puits de
données
Concepts, enjeux, fonctions
Voir aussi :
http://www.value-
architecture.com/2014/03/a-la-
decouverte-des-puits-de-
donnees.html
René MANDEL1
28/03/2014
2. Sommaire
Objectifs d’un puits de données
Principes de modélisation des données
Le grain tridaté
Le modèle générique
Forme canonique cachée
Principes d’architecture
Echanges multi-modes, multi-protocoles
Synergie MDM
Mise en cohérence et en qualité
Réseau de puits
Positionnement (ODS, ERP, Open Data, Portail,…)
Migration
Services
Catalogues
Contrats
Sécurité
Gouvernance
Géométrie variable
Montée en charge, ROI
Plates-formes support
28/03/2014
René MANDEL
2
3. Objectifs
Simplifier le SI
Lutter contre la complexification des échanges
Décloisonner les silos
Gérer les identités, localisations, dates
Simplifier les données par la généricité du
modèle
Faciliter la migration
Mixer ancien patrimoine SI et nouveaux
composants
Anticiper sur les données de référence
Capitaliser sur les données
Mise en qualité
Préparer Big Data
Dépassionner la Gouvernance
28/03/2014
René MANDEL
3
4. Principes de modélisation
des données
Les données au cœur du puits
Nécessité de stocker pour mettre en cohérence les échanges
dans tous les espaces (360°, tri-datage, mise en qualité)
Pas de format pivot et modèle interne « caché »
Le « grain » sain tri-daté
Forme canonique cachée
28/03/2014
René MANDEL
4
5. Les principes
Pures, filtrées,
Transparentes, canoniques
Fraîches, Synchronisées,
Historisées, tracées
Partagées 360°
Cohérentes, subsidiaires
Multi-formats
Multi-protocoles
Synchrone-asynchrone
Des données …
René MANDEL
5 28/03/2014
6. Le grain
Modéliser le grain le plus fin pertinent
Attaché à un « fait »
Identifié : occurrence de l’objet, de la personne, …
Localisé : géo-localisé, positionné
Daté : date du fait
En son « Etat » de son cycle de vie
Exemples
Accident, sinistre
Activité d’une ressource
Personne, produit, …
Trajet, circulation
Production d’une unité d’oeuvre
René MANDEL
6 28/03/2014
8. Le modèle tridaté
Le fait est daté : date du fait, cycle de vie du
fait
La vision est datée : vision en anticipation (le
fait prévu), vision sur le fait (le fait réel), vision
en recul (retour sur le fait : retour
d’expérience, enrichissement), cycle de vie
de la vision
L’instrument d’observation est daté : date
technique (date de saisie, date d’acquisition,
date du fichier, …) cycle des observations
(mise en qualité, précisions,…), multiplicité
des sources (canaux)
René MANDEL
8 28/03/2014
9. Le modèle générique
Dates (de vision, de fait) en profondeur historique,
indispensables
pour pouvoir rapprocher les sources
Pour restituer sur différents pas de temps
Être en mesure de tout tracer et mémoriser par ajouts (on
accepte tout et on garde tout)
Pour remonter les alertes de qualité vers les sources et gérer les
retours
Pour disposer des données au plus tôt même incomplètes et
non totalement validées
Pour générer des jeux de test, jouer des scénarios
Gérer le catalogue d’événements (ce qui provoque
l’évolution) et d’états de l’objet
Garder trace des sources, dates techniques, anomalies
Heurodater tous les grains (pour gérer les services de
diffusion et les services de mise en qualité)
Faire le lien avec les MDM : identifiants, structures,
nomenclatures
René MANDEL
9 28/03/2014
10. Exemple de générique :
gestion de périodes
Période :
Un début et une fin
Une situation pendant la période
Des informations spécifiques à la situation
Exemples :
Affectation à un poste, congés, maladies, activité … un
même modèle SI, mais des silos applicatifs différents
Un déplacement… un même modèle mais des modes
de transport différents
Acquisition de droits et consommation de droits
(liquidation, allocation)
Revenus, Frais, Abonnements
Mouvements bancaires, couvertures d’assurance, …
René MANDEL
10 28/03/2014
11. Subsidiarité
Noyau du modèle générique et commun
Identification, localisation, datation, typage
Développement subsidiaire du modèle
selon les types
Identification propre au type (ex :
affectation à une structure, code
d’activité, de produit, …)
Informations propres au type
Informations non structurées
René MANDEL
11 28/03/2014
12. Forme canonique cachée
Mise en forme canonique invariante
Cachée : accès uniquement par des
services
Indépendante de la technologie (SQL,
Hadoop, virtualisation, …)
Levier de migration et de mise en qualité
Permet toutes les alimentations et
restitutions
Sous toutes formes et tout tempo
Anticipe le Big Data
28/03/2014
René MANDEL
12
13. Principes d’Architecture
Echanges multi-modes, multi-protocoles
Synergie MDM
Mise en cohérence et en qualité
Réseau de puits
Positionnement (ODS, ERP, Open Data, Portail,…)
28/03/2014
René MANDEL
13
15. Echanges multi-modes, multi-
protocoles
Les mêmes données peuvent s’échanger
dans différents modes logiques :
Stock à date (fichier, téléchargement, …)
Variation de stock entre dates
Messages au fil de l’eau désynchronisés
(messagerie)
Messages synchrones
Invocation de services
En s’appuyant sur divers protocoles
(FTP, REST, XML, CSV…)
René MANDEL
15 28/03/2014
16. Synergie MDM
MDM implique :
Transfert de propriété des données (centralisation
d’une propriété éclatée), une refonte des
processus
Des fonctions de gestion de structure complexes
Puits autorise :
Un fonctionnement à l’identique, sans remise en
cause de la propriété des données et des
processus
Une gestion de grains en volume et en flux
important, selon un modèle simple
Puits et MDM se confortent mutuellement pour
assainir le SI sans Big Bang
René MANDEL
16 28/03/2014
17. Mise en cohérence et en
qualité
Puits et point de vérité (données Golden)
Le puits permet de gérer le cycle de mise en
qualité, et de mémoriser le dernier état
Il constitue donc le point de vérité dès lors que
cette mise en qualité se réalise avec les
applications source
La qualité est gérée au niveau du grain et n’exige
pas de boucles de mise en qualité par lot
Puits et vision 360 °
Le puits apporte la vision 360
Il permet une focalisation par type (principe de
subsidiarité)
René MANDEL
17 28/03/2014
18. Réseau de puits
Le périmètre d’un puits peut changer
Fusion de puits
Éclatement d’un puits
Les puits forment un réseau
Partage des meta-données (catalogue unique
ou réparti)
Possibilité de synchroniser plusieurs puits (data
virtualization)
Possibilité de spécialiser les puits (par client à
servir, …)
René MANDEL
18 28/03/2014
19. Positionnement
(ODS, ERP, Open
Data, Portail,…)
En aval des processus créateurs des données
Non intrusif
Respecte les sources et les canaux
Accepte les nouvelles sources
En cohérence avec les MDM
En amont des fonctions utilisatrices
ODS
ERP
Open Data
Accès web (amont-aval)
Portail …
28/03/2014
René MANDEL
19
20. Puits et Big Data
Agilité d’ingénierie des flux pour le Big Data
Alimentation transverse en Big Data des
différents domaines applicatifs
Ouverture à des sources variées grâce à une
fédération de puits
Migration Adoop facilitée par la plateforme
du puits
Rapprochement du structuré et non structuré
René MANDEL
20 28/03/2014
21. Puits et BI
Le ou les puits font de l’ordre dans les données
opérationnelles
En amont des ODS
Laissent aux ETL les travaux de transcodification
Sont callés sur les cycles opérationnels
La BI garde sa logique d’observation sur champ
constant et dates suivies, selon son propre cycle
Nécessite de constituer des stocks de données
Avec une alimentation de données de qualité
Sans gestion automatique de la mise en qualité
Le puits fait ce travail pour toutes les diffusions, yc
la BI
René MANDEL
21 28/03/2014
22. Migration
Insertion agile et réversible
Outil de migration et de réingénierie des échanges
28/03/2014
René MANDEL
22
23. Insertion agile et réversible
Un Puits s’insère facilement dans les flux
Il est multi-protocoles, donc non intrusif
Il livre les données dans la forme et le protocole attendu
Un puits n’impose ni ne fige le mode d’échange
Synchrone ou asynchrone
Fonctionne en mode traditionnel (fichier, messagerie,…)
N’impose pas l’ESB, permet d’évoluer vers l’ESB
A la carte, au choix selon le flux et le moment
Un puits peut commencer petit et s’étendre au
rythme de la conviction
Avec un nombre réduit de flux
Avec un noyau du modèle générique
René MANDEL
23 28/03/2014
24. Outil de migration et de
réingénierie des échanges
Un puits peut (et doit) être mis en place « en
avance de phase »
Pour préparer l’insertion d’un gros composant
(ERP) et anticiper sur son alimentation, ses
données produites
Pour préparer l’arrivée de nouveaux flux, et leur
mise en cohérence (Ex : Big Data) et exploitation
Le puits rend la réingénierie de flux agile
Nécrose, couveuse, bascule sont faciles et
sécurisées
Régimes transitoires et tests sans développement
Voir a/s Article RM sur la migration
René MANDEL
24 28/03/2014
26. Catalogues
Les objets métier, les événements, les états
Les flux de données
Les flux de meta-données
Et bien sûr :
Les services
Les routines
Les clients-fournisseurs
Les contrats
Les versions de meta-données
René MANDEL
26 28/03/2014
27. Services
Basés sur des contrats (MOA et MOE)
Description des flux
Meta-données (abonnement aux évolutions)
Jeux d’essai
Mode d’échange
Caractéristiques techniques
Gestion des incidents
Qualité des données
Peut être étendu à la diffusion des référentiels
René MANDEL
27 28/03/2014
28. Sécurité
Données individuelles
Le puits a vocation à concentrer les fonctions
d’anonymisation, échantillonnage pour l’accès
aux données individuelles, en conformité avec les
prescriptions réglementaires
Sécurité
Le puits peut jouer un rôle clé dans la sécurisation
des données : sauvegardes, blocage des accès
non autorisés
Les flux peuvent être cryptés
Mobilité
Le puits a vocation à servir les accès en
mobilité, avec les protections adaptées
René MANDEL
28 28/03/2014
30. Géométrie variable
Faible coût d’un « POC »
Solutions « open source » économiques
Fonctionnement sur données réelles
Scénarios simples mais représentatifs
Gouvernance flexible
Pas de transfert de compétence sur les
données
Périmètre pouvant évoluer
Mise en qualité par cohérence des flux pouvant
évoluer sans Big Bang
28/03/2014
René MANDEL
30
31. Exemple de montée en
charge
Initialisation avec quelques flux « fichier »
Base esclave
Quelques mises en cohérence
Quelques clients en diffusion
Interaction MDM
Extension à l’ensemble des flux d’alimentation
Batch
Accès ESB et messagerie
Inversion des circuits d’alimentation
Des portails
Des EDS
Extension à la data virtualization
René MANDEL
31 28/03/2014
32. ROI
Le puits de données est un dispositif facilitant la reprise des
données et en amont la détection voire la correction de
problèmes d’intégrité
Une réduction des coûts de maintenance des flux grâce à :
la diminution du nombre de flux
La réduction et l’industrialisation du nombre de transformations
La mise en place de modèles de données métier « de référence »
facilite
l’alimentation des décisionnels et leur rapprochement
L’implémentation de nouvelles applications et des flux associés
Le puits met au service de l’ensemble des applications et services
des fonctions de conversion de protocole, diminuant d’autant la
charge d’investissement et de fonctionnement de chacun
Le puits réduit l’effet tunnel des projets, et permet de multiples
scénarios de migration afin de sécuriser l’intégration des nouveaux
composants, et l’appropriation par les utilisateurs
René MANDEL
32 28/03/2014
34. Plateformes d’intégration
Un puits nécessite une plateforme d’intégration, pour
Le catalogue de services de conversion (multi-
protocole)
La gestion des meta-données (locale au puits, mais
étendue à l’ensemble des puits : catalogue unique des
objets métier)
L’infrastructure base de données (relationnelle, Hadoop)
L’infrastructure technique (exploitation, sécurité, ESB, …)
La supervision
Plateforme ouverte, scalable, standard :
Talend; Oracle; Informatica; Pentaho; Semarchy ?
René MANDEL
34 28/03/2014