Ce diaporama est le 1er d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 1ère partie revient sur les raisons qui font de la donnée un actif indépendant de notre SI et propose une représentation de la gestion des données
Visite guidée au pays de la donnée - Introduction et tour d'horizon
1. Visite guidée au pays de la donnée
Introduction et tour d’horizon
Gautier Poupeau
gautier.poupeau@gmail.com,
@lespetitescases
http://www.lespetitescases.net
2. Plan de la partie
Problématique et définitions
Comment la donnée est-elle devenue
un actif indépendant du SI ?
Tour d’horizon de la gestion des
données
5. Qu’est-ce-qu’une donnée ?
DIKW Pyramid
Des faits, signaux et symboles formant une
unité indépendante les unes des autres et
non traitée
Un ensemble organisé de données OU résultat
d’un traitement sur un ensemble de données
Synthèse ou déduction obtenue à partir de
plusieurs informations
Connaissances assimilées et/ou connaissances
partagées
6. Document vs donnée
Lorem ipsum dolor sit amet,
consectetur adipiscing elit.
Fusce mollis neque in ante
vulputate, quis accumsan
dui euismod. Nunc lobortis
aliquet orci, ut iaculis nunc
feugiat id. Interdum et
malesuada fames ac ante
ipsum primis in faucibus.
Un document est un ensemble logique, fini
d’informations dont les limites peuvent être
définies par des caractéristiques physiques.
Le fait que « Le premier mot du texte soit Lorem »
est une donnée.
Le fait que « ce texte soit extrait d’un texte de
Cicéron » est une donnée, qu’on appelle
métadonnée (donnée sur la donnée)
7. COMMENT LA DONNÉE EST-ELLE DEVENUE
UN ACTIF INDÉPENDANT DU SI ?
Vers la libération des données
9. Les silos applicatifs
BA
Silos applicatifs
indépendants et non connectés
BA
Silos de services
Les données sont complètement pensées par rapport aux applications
avec lesquelles ils forment un silo
10. Traditionnellement, la modélisation d’un SI est basée sur les
besoins des utilisateurs.
Les processus : la partie émergée de l’iceberg
• Besoins primaires : production, stockage et restitution
• Modélisation des processus-métiers
• Réponse directe aux besoins des utilisateurs
• Entraîne une multiplication des applications
• A chaque application, sa logique propre, son format de
données, ses propres mécanismes d’accès
Les données : la partie immergée de
l’iceberg
• Les données du SI dépendent de la modélisation des
processus
• Les données sont enfermées dans chaque application
formant des silos de données
• Absence de cohérence technique et sémantique entre les
silos
• Le modèle physique de stockage des données peut être
très éloigné du modèle logique ce qui rend difficile la
migration, la maintenance et la compréhension du modèle
Les données enfermées dans les silos applicatifs
11. LE CHANGEMENT DE LA PERCEPTION
DE LA DONNÉE
A partir du milieu des années 2000
12. Démultiplication des données
L’objet
Pages
Fichiers
Structure physique
Structure numérique
1ère
question : Quel est ce livre ?
Métadonnées descriptives
3ème
question : Quels sont les formats des fichiers ?
Métadonnées techniques
2ème
question : Quels sont tous les fichiers
qui résultent de la numérisation ?
Structure numérique
4ème
question : l’organisation maîtrise-t-elle
ces formats ?
Référentiel de formats
Formats
5ème
question : Quand
a eu lieu
la numérisation
et quel est le nom
du scanner ?
Métadonnées de provenance
6ème
question : A quelle page
correspond chaque fichier ?
Métadonnées de structure
7ème
question : Qui, quand et comment
un usager a consulté ce livre ?
Données d’usage
8ème
question : Que contient
exactement ce livre ?
Contenu exploitable
Un exemple : les métadonnées d’un livre dans une collection de bibliothèques
13. Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à
peu provoqué une modification dans l’appréhension des choses : du document à la
donnée.
La description est
numérique
Le document/support est
accessible via une notice qui
en décrit la globalité
14. Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à
peu provoqué une modification dans l’appréhension des choses : du document à la
donnée.
La description est
numérique
Le document/support est
accessible via une notice qui
en décrit la globalité
Le document est numérisé
ou nativement numérique
Le moteur de recherche permet
d’accéder au contenu du
document
15. Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à
peu provoqué une modification dans l’appréhension des choses : du document à la
donnée.
La description est
numérique
Le document/support est
accessible via une notice qui
en décrit la globalité
Le document est numérisé
ou nativement numérique
Le moteur de recherche permet
d’accéder au contenu du
document
Le document est un ensemble de
données exploitables
Le document lui-même devient
une source de données, il n’existe
plus de dichotomie entre les
métadonnées et les données
16. Un verrou technologique : la scalabilité
La scalabilité ou passage à l’échelle désigne la capacité d’une machine ou
d’une application à supporter une montée en charge ou en volume
Deux modèles de scalabilité
Scalabilité verticale
Une application sur une seule machine :
Plus simple à mettre en place mais
potentiellement limité
Scalabilité horizontale
Une application répartie sur plusieurs machines :
Plus complexe à mettre en place mais
potentiellement illimité
17. Comment la scalabilité horizontale
a été simplifiée ?
Parrallélisation
La parrallélisation, au cœur de
l’algorithme map/reduce,
consiste à séparer un problème
en de multiples problèmes plus
petits et parallélisables (map)
puis à rassembler le résultat de
chacun des petits problèmes
(reduce).
20. No SQL
Chaque entité stockée est indépendante les unes des autres
et peut ainsi se répartir entre les machines d’un cluster
Ou comment stocker et interroger des données en passant à l’échelle ?
Comment la scalabilité horizontale
a été simplifiée ?
21. Le Big Data : ensemble de technologies pour simplifier
l’implémentation de la scalabilité horizontale
En apportant des réponses au problème de scalabilité, le Big Data a vu l’émergence d’un
intérêt des DSI et, plus globalement, des organisations pour la donnée elle-même au-delà des
processus.
Le décloisonnement des
silos applicatifs
La donnée d’usage, pierre
angulaire du service aux
utilisateurs
22. Fouille et IA : automatisation et
nouvelles formes de valorisation
La disponibilité de masses de données numériques et d’outils pour faciliter le traitement en
masse des données ont permis aux outils de fouilles et d’intelligence artificielle d’arriver à
maturité.
Extraire/générer de la donnée Mise en relation de contenus Statistiques
Extraction d’entités
nommées
Analyse des images Transcription de la parole
Reconnaissance optique
de caractères
Recommandations
par le contenu
Identification de
contenus équivalents
Analyse du
comportement
Data-visualisation
Tableaux de bord
23. Pour résumer et compléter
Profusion de
données numériques
Maturité des algorithmes de
traitement des données
Mise au point de technologies
de traitement de données en masse
Fin des budgets infinis
dans les DSI
24. La donnée : une couche transverse et
indépendante du SI
Indépendance des trois niveaux
(applicatif, service, données)
25. TOUR D’HORIZON DE LA
GESTION DES DONNÉES
Comment maîtriser et utiliser au mieux les données ?
26. Gouvernance des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et le stockage des données
27. Gouvernance des données
Traitement des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et le stockage des données
Ensemble des processus qui visent à l’acquisition, la
gestion, l’exploitation et la mise à disposition des données.
.
28. Stockage
des
données
Gouvernance des données
Traitement des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et le stockage des données
Ensemble des processus qui visent à l’acquisition, la
gestion, l’exploitation et la mise à disposition des données.
.
29. Stockage
des
données
Gouvernance des données
Traitement des données
Référentiels
Modélisation
Cartographie
Etats des lieux des
données disponibles et
des flux d’échange
Formalisation conceptuelle
de la structure des données
Vocabulaires et listes de
références assurant la
cohérence des valeurs de
données
32. Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
Cartographie
Gestion de
l’intégrité
et du cycle de vie
Usages
métier
Saisie
Récupération
Génération
Exploitation
Exposition
Visualisation
Référentiels
33. Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
PilotageCartographie
Culture de la
donnée
Gestion de
l’intégrité
et du cycle de vie
Saisie
Récupération
Génération
Exploitation
Exposition
Référentiels
Usages
métier
Visualisation
Assurer l’expertise et la
connaissance transverse
des données
Indicateurs, comitologie
et vision stratégique
pour la gestion des
données
34. Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
PilotageCartographie
Culture de la
donnée
Sécurité
Gestion de
l’intégrité
et du cycle de vie
Saisie
Récupération
Génération
Exploitation
Exposition
Etudes
Aspects
juridiques
Référentiels
Usages
métier
Visualisation