SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Visite guidée au pays de la donnée
Introduction et tour d’horizon
Gautier Poupeau
gautier.poupeau@gmail.com,
@lespetitescases
http://www.lespetitescases.net
Plan de la partie
Problématique et définitions
Comment la donnée est-elle devenue
un actif indépendant du SI ?
Tour d’horizon de la gestion des
données
PROBLÉMATIQUE ET DÉFINITIONS
En guise d’introduction
L’ère des données
Qu’est-ce-qu’une donnée ?
DIKW Pyramid
Des faits, signaux et symboles formant une
unité indépendante les unes des autres et
non traitée
Un ensemble organisé de données OU résultat
d’un traitement sur un ensemble de données
Synthèse ou déduction obtenue à partir de
plusieurs informations
Connaissances assimilées et/ou connaissances
partagées
Document vs donnée
Lorem ipsum dolor sit amet,
consectetur adipiscing elit.
Fusce mollis neque in ante
vulputate, quis accumsan
dui euismod. Nunc lobortis
aliquet orci, ut iaculis nunc
feugiat id. Interdum et
malesuada fames ac ante
ipsum primis in faucibus.
Un document est un ensemble logique, fini
d’informations dont les limites peuvent être
définies par des caractéristiques physiques.
Le fait que « Le premier mot du texte soit Lorem »
est une donnée.
Le fait que « ce texte soit extrait d’un texte de
Cicéron » est une donnée, qu’on appelle
métadonnée (donnée sur la donnée)
COMMENT LA DONNÉE EST-ELLE DEVENUE
UN ACTIF INDÉPENDANT DU SI ?
Vers la libération des données
LA DONNÉE DÉPENDANTE DES
APPLICATIONS
Jusqu’au milieu des années 2000
Les silos applicatifs
BA
Silos applicatifs
indépendants et non connectés
BA
Silos de services
Les données sont complètement pensées par rapport aux applications
avec lesquelles ils forment un silo
Traditionnellement, la modélisation d’un SI est basée sur les
besoins des utilisateurs.
Les processus : la partie émergée de l’iceberg
• Besoins primaires : production, stockage et restitution
• Modélisation des processus-métiers
• Réponse directe aux besoins des utilisateurs
• Entraîne une multiplication des applications
• A chaque application, sa logique propre, son format de
données, ses propres mécanismes d’accès
Les données : la partie immergée de
l’iceberg
• Les données du SI dépendent de la modélisation des
processus
• Les données sont enfermées dans chaque application
formant des silos de données
• Absence de cohérence technique et sémantique entre les
silos
• Le modèle physique de stockage des données peut être
très éloigné du modèle logique ce qui rend difficile la
migration, la maintenance et la compréhension du modèle
Les données enfermées dans les silos applicatifs
LE CHANGEMENT DE LA PERCEPTION
DE LA DONNÉE
A partir du milieu des années 2000
Démultiplication des données
L’objet
Pages
Fichiers
Structure physique
Structure numérique
1ère
question : Quel est ce livre ?
Métadonnées descriptives
3ème
question : Quels sont les formats des fichiers ?
Métadonnées techniques
2ème
question : Quels sont tous les fichiers
qui résultent de la numérisation ?
Structure numérique
4ème
question : l’organisation maîtrise-t-elle
ces formats ?
Référentiel de formats
Formats
5ème
question : Quand
a eu lieu
la numérisation
et quel est le nom
du scanner ?
Métadonnées de provenance
6ème
question : A quelle page
correspond chaque fichier ?
Métadonnées de structure
7ème
question : Qui, quand et comment
un usager a consulté ce livre ?
Données d’usage
8ème
question : Que contient
exactement ce livre ?
Contenu exploitable
Un exemple : les métadonnées d’un livre dans une collection de bibliothèques
Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à
peu provoqué une modification dans l’appréhension des choses : du document à la
donnée.
La description est
numérique
Le document/support est
accessible via une notice qui
en décrit la globalité
Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à
peu provoqué une modification dans l’appréhension des choses : du document à la
donnée.
La description est
numérique
Le document/support est
accessible via une notice qui
en décrit la globalité
Le document est numérisé
ou nativement numérique
Le moteur de recherche permet
d’accéder au contenu du
document
Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à
peu provoqué une modification dans l’appréhension des choses : du document à la
donnée.
La description est
numérique
Le document/support est
accessible via une notice qui
en décrit la globalité
Le document est numérisé
ou nativement numérique
Le moteur de recherche permet
d’accéder au contenu du
document
Le document est un ensemble de
données exploitables
Le document lui-même devient
une source de données, il n’existe
plus de dichotomie entre les
métadonnées et les données
Un verrou technologique : la scalabilité
La scalabilité ou passage à l’échelle désigne la capacité d’une machine ou
d’une application à supporter une montée en charge ou en volume
Deux modèles de scalabilité
Scalabilité verticale
Une application sur une seule machine :
Plus simple à mettre en place mais
potentiellement limité
Scalabilité horizontale
Une application répartie sur plusieurs machines :
Plus complexe à mettre en place mais
potentiellement illimité
Comment la scalabilité horizontale
a été simplifiée ?
Parrallélisation
La parrallélisation, au cœur de
l’algorithme map/reduce,
consiste à séparer un problème
en de multiples problèmes plus
petits et parallélisables (map)
puis à rassembler le résultat de
chacun des petits problèmes
(reduce).
Comment la scalabilité horizontale
a été simplifiée ?
Parrallélisation
Partitionnement/Clustering
Comment la scalabilité horizontale
a été simplifiée ?
No SQL
Chaque entité stockée est indépendante les unes des autres
et peut ainsi se répartir entre les machines d’un cluster
Ou comment stocker et interroger des données en passant à l’échelle ?
Comment la scalabilité horizontale
a été simplifiée ?
Le Big Data : ensemble de technologies pour simplifier
l’implémentation de la scalabilité horizontale
En apportant des réponses au problème de scalabilité, le Big Data a vu l’émergence d’un
intérêt des DSI et, plus globalement, des organisations pour la donnée elle-même au-delà des
processus.
Le décloisonnement des
silos applicatifs
La donnée d’usage, pierre
angulaire du service aux
utilisateurs
Fouille et IA : automatisation et
nouvelles formes de valorisation
La disponibilité de masses de données numériques et d’outils pour faciliter le traitement en
masse des données ont permis aux outils de fouilles et d’intelligence artificielle d’arriver à
maturité.
Extraire/générer de la donnée Mise en relation de contenus Statistiques
Extraction d’entités
nommées
Analyse des images Transcription de la parole
Reconnaissance optique
de caractères
Recommandations
par le contenu
Identification de
contenus équivalents
Analyse du
comportement
Data-visualisation
Tableaux de bord
Pour résumer et compléter
Profusion de
données numériques
Maturité des algorithmes de
traitement des données
Mise au point de technologies
de traitement de données en masse
Fin des budgets infinis
dans les DSI
La donnée : une couche transverse et
indépendante du SI
Indépendance des trois niveaux
(applicatif, service, données)
TOUR D’HORIZON DE LA
GESTION DES DONNÉES
Comment maîtriser et utiliser au mieux les données ?
Gouvernance des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et le stockage des données
Gouvernance des données
Traitement des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et le stockage des données
Ensemble des processus qui visent à l’acquisition, la
gestion, l’exploitation et la mise à disposition des données.
.
Stockage
des
données
Gouvernance des données
Traitement des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et le stockage des données
Ensemble des processus qui visent à l’acquisition, la
gestion, l’exploitation et la mise à disposition des données.
.
Stockage
des
données
Gouvernance des données
Traitement des données
Référentiels
Modélisation
Cartographie
Etats des lieux des
données disponibles et
des flux d’échange
Formalisation conceptuelle   
de la structure des données
Vocabulaires et listes de
références assurant la
cohérence des valeurs de
données
Stockage
des
données
Gouvernance des données
Traitement des données
Référentiels
Modélisation
Cartographie
Gestion de
l’intégrité
et du cycle de vie
Exploitation
Acquisition
Mise à disposition
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
Cartographie
Gestion de
l’intégrité
et du cycle de vie
Saisie
Récupération
Génération
Exploitation
Mise à disposition
Référentiels
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
Cartographie
Gestion de
l’intégrité
et du cycle de vie
Usages
métier  
Saisie
Récupération
Génération
Exploitation
Exposition
Visualisation
Référentiels
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
PilotageCartographie
Culture de la
donnée
Gestion de
l’intégrité
et du cycle de vie
Saisie
Récupération
Génération
Exploitation
Exposition
Référentiels
Usages
métier  
Visualisation
Assurer l’expertise et la
connaissance transverse
des données
Indicateurs, comitologie
et vision stratégique
pour la gestion des
données
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
PilotageCartographie
Culture de la
donnée
Sécurité
Gestion de
l’intégrité
et du cycle de vie
Saisie
Récupération
Génération
Exploitation
Exposition
Etudes
Aspects
juridiques
Référentiels
Usages
métier  
Visualisation

Weitere ähnliche Inhalte

Was ist angesagt?

Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de donnéesAbdoulaye Dieng
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADDanis Habib
 
Gestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documentsGestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documentsJibril Touzi
 
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURICours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURIMansouri Khalifa
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
 
Digital Archives in Theory and Practice
Digital Archives in Theory and PracticeDigital Archives in Theory and Practice
Digital Archives in Theory and PracticeRichard Davis
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistiqueDanis Habib
 
Dewey arabic tabels
Dewey arabic tabelsDewey arabic tabels
Dewey arabic tabelsmarym_hany
 
#Collab365 L'importance des métadonnées pour votre entreprise
#Collab365 L'importance des métadonnées pour votre entreprise#Collab365 L'importance des métadonnées pour votre entreprise
#Collab365 L'importance des métadonnées pour votre entrepriseVincent Biret
 
Internet des objets (IoT)
Internet des objets (IoT)Internet des objets (IoT)
Internet des objets (IoT)bruno-dambrun
 
Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-Jamal Yasser
 
مقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوض
مقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوضمقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوض
مقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوضMuhammad Muawwad
 
IoT, Sécurité et Santé: un cocktail détonnant ?
IoT, Sécurité et Santé: un cocktail détonnant ?IoT, Sécurité et Santé: un cocktail détonnant ?
IoT, Sécurité et Santé: un cocktail détonnant ?Antoine Vigneron
 
Omeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCD
Omeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCDOmeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCD
Omeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCDJulien Sicot
 
Système d'information
Système d'informationSystème d'information
Système d'informationcourgette
 
إدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويبإدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويبemad Saleh
 
Méthodologie classement dossier archives
Méthodologie classement dossier archivesMéthodologie classement dossier archives
Méthodologie classement dossier archivesDanis Habib
 

Was ist angesagt? (20)

Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
 
Gestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documentsGestion documentaire et utilité de la gestion électronique de documents
Gestion documentaire et utilité de la gestion électronique de documents
 
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURICours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
Cours guvernance des systèmes d'information partie 1 prof. Khalifa MANSOURI
 
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
 
Digital Archives in Theory and Practice
Digital Archives in Theory and PracticeDigital Archives in Theory and Practice
Digital Archives in Theory and Practice
 
Description archivistique
Description archivistiqueDescription archivistique
Description archivistique
 
Dewey arabic tabels
Dewey arabic tabelsDewey arabic tabels
Dewey arabic tabels
 
#Collab365 L'importance des métadonnées pour votre entreprise
#Collab365 L'importance des métadonnées pour votre entreprise#Collab365 L'importance des métadonnées pour votre entreprise
#Collab365 L'importance des métadonnées pour votre entreprise
 
Internet des objets (IoT)
Internet des objets (IoT)Internet des objets (IoT)
Internet des objets (IoT)
 
Bi vf-3
Bi vf-3Bi vf-3
Bi vf-3
 
Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-Cours de-l informatique-de-gestion-s4-
Cours de-l informatique-de-gestion-s4-
 
مقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوض
مقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوضمقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوض
مقدمة إلى وصف المصادر وإتاحتها / إعداد محمد عبدالحميد معوض
 
IoT, Sécurité et Santé: un cocktail détonnant ?
IoT, Sécurité et Santé: un cocktail détonnant ?IoT, Sécurité et Santé: un cocktail détonnant ?
IoT, Sécurité et Santé: un cocktail détonnant ?
 
Schéma Directeur
Schéma Directeur Schéma Directeur
Schéma Directeur
 
Omeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCD
Omeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCDOmeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCD
Omeka ou comment réaliser une bibliothèque numérique à l'échelle d'un SCD
 
Système d'information
Système d'informationSystème d'information
Système d'information
 
إدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويبإدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويب
 
Méthodologie classement dossier archives
Méthodologie classement dossier archivesMéthodologie classement dossier archives
Méthodologie classement dossier archives
 

Ähnlich wie Visite guidée au pays de la donnée - Introduction et tour d'horizon

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Denodo
 
Gestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGeomap GIS America
 
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasInfographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasEnjoyDigitAll by BNP Paribas
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”Denodo
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna Borgi
 
Infocentre et système décisionnel
Infocentre et système décisionnelInfocentre et système décisionnel
Infocentre et système décisionnelMichel Bruley
 
DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?Eric Mauvais
 
Data Management - PramaTALK
Data Management - PramaTALKData Management - PramaTALK
Data Management - PramaTALKPramana
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnellesAymen Kasmi
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
DESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptxDESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptxEliasLad
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
 

Ähnlich wie Visite guidée au pays de la donnée - Introduction et tour d'horizon (20)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
introNoSQL.pdf
introNoSQL.pdfintroNoSQL.pdf
introNoSQL.pdf
 
Cours_BD_M1-EAI-2023.pdf
Cours_BD_M1-EAI-2023.pdfCours_BD_M1-EAI-2023.pdf
Cours_BD_M1-EAI-2023.pdf
 
Gestion organisationnelle données géospatiales
Gestion organisationnelle données géospatialesGestion organisationnelle données géospatiales
Gestion organisationnelle données géospatiales
 
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasInfographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”La Data Virtualization au coeur de l’architecture “Data Mesh”
La Data Virtualization au coeur de l’architecture “Data Mesh”
 
Si 1
Si 1Si 1
Si 1
 
Big data
Big dataBig data
Big data
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouse
 
Infocentre et système décisionnel
Infocentre et système décisionnelInfocentre et système décisionnel
Infocentre et système décisionnel
 
DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?
 
Intro SQL
Intro SQL Intro SQL
Intro SQL
 
Data Management - PramaTALK
Data Management - PramaTALKData Management - PramaTALK
Data Management - PramaTALK
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnelles
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
DESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptxDESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptx
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022
 

Mehr von Gautier Poupeau

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Gautier Poupeau
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALGautier Poupeau
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information SystemGautier Poupeau
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeuxGautier Poupeau
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...Gautier Poupeau
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontologyGautier Poupeau
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 

Mehr von Gautier Poupeau (15)

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 

Visite guidée au pays de la donnée - Introduction et tour d'horizon

  • 1. Visite guidée au pays de la donnée Introduction et tour d’horizon Gautier Poupeau gautier.poupeau@gmail.com, @lespetitescases http://www.lespetitescases.net
  • 2. Plan de la partie Problématique et définitions Comment la donnée est-elle devenue un actif indépendant du SI ? Tour d’horizon de la gestion des données
  • 3. PROBLÉMATIQUE ET DÉFINITIONS En guise d’introduction
  • 5. Qu’est-ce-qu’une donnée ? DIKW Pyramid Des faits, signaux et symboles formant une unité indépendante les unes des autres et non traitée Un ensemble organisé de données OU résultat d’un traitement sur un ensemble de données Synthèse ou déduction obtenue à partir de plusieurs informations Connaissances assimilées et/ou connaissances partagées
  • 6. Document vs donnée Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce mollis neque in ante vulputate, quis accumsan dui euismod. Nunc lobortis aliquet orci, ut iaculis nunc feugiat id. Interdum et malesuada fames ac ante ipsum primis in faucibus. Un document est un ensemble logique, fini d’informations dont les limites peuvent être définies par des caractéristiques physiques. Le fait que « Le premier mot du texte soit Lorem » est une donnée. Le fait que « ce texte soit extrait d’un texte de Cicéron » est une donnée, qu’on appelle métadonnée (donnée sur la donnée)
  • 7. COMMENT LA DONNÉE EST-ELLE DEVENUE UN ACTIF INDÉPENDANT DU SI ? Vers la libération des données
  • 8. LA DONNÉE DÉPENDANTE DES APPLICATIONS Jusqu’au milieu des années 2000
  • 9. Les silos applicatifs BA Silos applicatifs indépendants et non connectés BA Silos de services Les données sont complètement pensées par rapport aux applications avec lesquelles ils forment un silo
  • 10. Traditionnellement, la modélisation d’un SI est basée sur les besoins des utilisateurs. Les processus : la partie émergée de l’iceberg • Besoins primaires : production, stockage et restitution • Modélisation des processus-métiers • Réponse directe aux besoins des utilisateurs • Entraîne une multiplication des applications • A chaque application, sa logique propre, son format de données, ses propres mécanismes d’accès Les données : la partie immergée de l’iceberg • Les données du SI dépendent de la modélisation des processus • Les données sont enfermées dans chaque application formant des silos de données • Absence de cohérence technique et sémantique entre les silos • Le modèle physique de stockage des données peut être très éloigné du modèle logique ce qui rend difficile la migration, la maintenance et la compréhension du modèle Les données enfermées dans les silos applicatifs
  • 11. LE CHANGEMENT DE LA PERCEPTION DE LA DONNÉE A partir du milieu des années 2000
  • 12. Démultiplication des données L’objet Pages Fichiers Structure physique Structure numérique 1ère question : Quel est ce livre ? Métadonnées descriptives 3ème question : Quels sont les formats des fichiers ? Métadonnées techniques 2ème question : Quels sont tous les fichiers qui résultent de la numérisation ? Structure numérique 4ème question : l’organisation maîtrise-t-elle ces formats ? Référentiel de formats Formats 5ème question : Quand a eu lieu la numérisation et quel est le nom du scanner ? Métadonnées de provenance 6ème question : A quelle page correspond chaque fichier ? Métadonnées de structure 7ème question : Qui, quand et comment un usager a consulté ce livre ? Données d’usage 8ème question : Que contient exactement ce livre ? Contenu exploitable Un exemple : les métadonnées d’un livre dans une collection de bibliothèques
  • 13. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité
  • 14. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité Le document est numérisé ou nativement numérique Le moteur de recherche permet d’accéder au contenu du document
  • 15. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité Le document est numérisé ou nativement numérique Le moteur de recherche permet d’accéder au contenu du document Le document est un ensemble de données exploitables Le document lui-même devient une source de données, il n’existe plus de dichotomie entre les métadonnées et les données
  • 16. Un verrou technologique : la scalabilité La scalabilité ou passage à l’échelle désigne la capacité d’une machine ou d’une application à supporter une montée en charge ou en volume Deux modèles de scalabilité Scalabilité verticale Une application sur une seule machine : Plus simple à mettre en place mais potentiellement limité Scalabilité horizontale Une application répartie sur plusieurs machines : Plus complexe à mettre en place mais potentiellement illimité
  • 17. Comment la scalabilité horizontale a été simplifiée ? Parrallélisation La parrallélisation, au cœur de l’algorithme map/reduce, consiste à séparer un problème en de multiples problèmes plus petits et parallélisables (map) puis à rassembler le résultat de chacun des petits problèmes (reduce).
  • 18. Comment la scalabilité horizontale a été simplifiée ? Parrallélisation
  • 19. Partitionnement/Clustering Comment la scalabilité horizontale a été simplifiée ?
  • 20. No SQL Chaque entité stockée est indépendante les unes des autres et peut ainsi se répartir entre les machines d’un cluster Ou comment stocker et interroger des données en passant à l’échelle ? Comment la scalabilité horizontale a été simplifiée ?
  • 21. Le Big Data : ensemble de technologies pour simplifier l’implémentation de la scalabilité horizontale En apportant des réponses au problème de scalabilité, le Big Data a vu l’émergence d’un intérêt des DSI et, plus globalement, des organisations pour la donnée elle-même au-delà des processus. Le décloisonnement des silos applicatifs La donnée d’usage, pierre angulaire du service aux utilisateurs
  • 22. Fouille et IA : automatisation et nouvelles formes de valorisation La disponibilité de masses de données numériques et d’outils pour faciliter le traitement en masse des données ont permis aux outils de fouilles et d’intelligence artificielle d’arriver à maturité. Extraire/générer de la donnée Mise en relation de contenus Statistiques Extraction d’entités nommées Analyse des images Transcription de la parole Reconnaissance optique de caractères Recommandations par le contenu Identification de contenus équivalents Analyse du comportement Data-visualisation Tableaux de bord
  • 23. Pour résumer et compléter Profusion de données numériques Maturité des algorithmes de traitement des données Mise au point de technologies de traitement de données en masse Fin des budgets infinis dans les DSI
  • 24. La donnée : une couche transverse et indépendante du SI Indépendance des trois niveaux (applicatif, service, données)
  • 25. TOUR D’HORIZON DE LA GESTION DES DONNÉES Comment maîtriser et utiliser au mieux les données ?
  • 26. Gouvernance des données Ensemble des procédures mises en place au sein d’une organisation afin d’encadrer le traitement et le stockage des données
  • 27. Gouvernance des données Traitement des données Ensemble des procédures mises en place au sein d’une organisation afin d’encadrer le traitement et le stockage des données Ensemble des processus qui visent à l’acquisition, la gestion, l’exploitation et la mise à disposition des données. .
  • 28. Stockage des données Gouvernance des données Traitement des données Ensemble des procédures mises en place au sein d’une organisation afin d’encadrer le traitement et le stockage des données Ensemble des processus qui visent à l’acquisition, la gestion, l’exploitation et la mise à disposition des données. .
  • 29. Stockage des données Gouvernance des données Traitement des données Référentiels Modélisation Cartographie Etats des lieux des données disponibles et des flux d’échange Formalisation conceptuelle    de la structure des données Vocabulaires et listes de références assurant la cohérence des valeurs de données
  • 30. Stockage des données Gouvernance des données Traitement des données Référentiels Modélisation Cartographie Gestion de l’intégrité et du cycle de vie Exploitation Acquisition Mise à disposition
  • 31. Stockage des données Gouvernance des données Traitement des données Modélisation Cartographie Gestion de l’intégrité et du cycle de vie Saisie Récupération Génération Exploitation Mise à disposition Référentiels
  • 32. Stockage des données Gouvernance des données Traitement des données Modélisation Cartographie Gestion de l’intégrité et du cycle de vie Usages métier   Saisie Récupération Génération Exploitation Exposition Visualisation Référentiels
  • 33. Stockage des données Gouvernance des données Traitement des données Modélisation PilotageCartographie Culture de la donnée Gestion de l’intégrité et du cycle de vie Saisie Récupération Génération Exploitation Exposition Référentiels Usages métier   Visualisation Assurer l’expertise et la connaissance transverse des données Indicateurs, comitologie et vision stratégique pour la gestion des données
  • 34. Stockage des données Gouvernance des données Traitement des données Modélisation PilotageCartographie Culture de la donnée Sécurité Gestion de l’intégrité et du cycle de vie Saisie Récupération Génération Exploitation Exposition Etudes Aspects juridiques Référentiels Usages métier   Visualisation

Hinweis der Redaktion

  1. 440 milliards de To en 2013