1. Votre « data » je vous la sers
comment ?
Journée d’étude "Big et Open Data : conséquences et compétences pour les
professionnels de l'information ?”,
Rennes, 28 mai 2015
Dominique Cotte
Réflexions sur la nébuleuse de la « data » et les
impacts sur les activités des professionnels de
l’information.
1
2. Déroulé
• Introduction
• Prolégomènes : du document à la « data » et retour
• Open Data
• Open Resarch Data
• Les promesses du Big Data
• Conclusion sur les activités et spécialités de la gestion de
l’information
2
3. Data
Open
Linked
Big
Long
Introduction : Une nouvelle série d’objets à prendre en
compte, comment, pourquoi ?
3
Une nouvelle
manière de mettre
en valeur et en
relation des
éléments singuliers
pour produire de
la connaissanceSmart
Web de données
4. Documents, données, hybrides…
• Sont-ils des opposables ?
• Quels rapports entretiennent ces objets ?
• Passe-t-on d’un monde à un autre monde ?
4
5. Construction, structure
• Est-il légitime de dire d’un document qu’il
est « non structuré » ?
• Et de l’opposer aux données qui seraient,
par nature « structurées » ?
5
7. Des approches plus fines des contenus des
documents
• Data mining, text mining
• Balisage
• Gestion de contenus structurés
• Outils de recherche
7
8. De nouvelles sources : les documents, dé-composés
8
Du
document… … à la donnée
Édité
Autoporteur
Possédant un sens global
Pérenne
Détachée
Volatile
Recombinable
Dynamique
« Le mouvement d’atomisation conduit les professionnels de l’information à
changer d’échelle pour l’organisation, la documentation et la description,
l’archivage, la mémorisation… des données, de leur appareillage, de leurs
métadonnées. »
8
9. Les modes de production de la donnée
• Recueil automatique, capteurs
• Réseaux sociaux
• Production documentaire démultipliée
• Appareillages scientifiques
• Métadonnées
9
10. Trois exemples
• Domaine des énergies fossiles : « dématérialistation » de
rapports papier parfois anciens (permanence de l’information
incluse dans ces études) afin de pouvoir en exploiter et traiter
les contenus (dont les données )
• Les cahiers de laboratoire dans l’industrie pharmaceutique
• Publications de l’OCDE, problématique de la ré-utilisation de
contenus éditoriaux et de la mixité entre des contenus
analytiques (séries statistiques, datasets, et d’éléments de
monographie)
10
13. Ce qu’implique l’exploitation des données
13
Au documentDe la donnée
Protocoles de recueil
Mise en collections
Traitements
Plans de gestion
Documentarisation
Mises en perspectives
Mises en formes
Commentaires
Métadonnées
13
14. L’open Data et ses qualifications
documentaires
Qualification
Recherche
Description de contenu
Métadonnées
Qualité des données
Systèmes d’information
Indexation
14
15. La data dans « l’open research data »
15
Investigations
Expériences
Data
datasets
Etudes,
communications
Bases
documen-
taires
16. Une complexification du paysage
documentaire, comme « écosystème »
16
Données (quantitatif)
Travaux préparatoires
Publications, actes, articles
Retombées, vulgarisation
Blogs,
collaboratif Qualification
Curation
Accompagnement
Médiation
19. • « Grand » çà commence quand ?
• Promesse d’usages :
• Variété : rapprochement de ressources
• Emergence de nouvelles connaissances via des inférences et des
rapprochements d’information
• Prédictions d’événements (démarche probabiliste)
19
Les promesses des « données massives »
20. • Les univers de déploiement :
• Marketing et vente
• Comportement clients
• Santé
• Tourisme et territoires
• Sécurité
• …
20
Les promesses des « données massives »
• Data scientists
• Statisticiens
• Professionnels de
l’information
• …
21. • La marguerite de la data :
21
Les promesses des « données massives »
22. • Atouts (en général)
• Connaissances et pratiques :
• Des données et de leur description
• Des référentiels
• Des outils de traitement : text mining, analyse statistique, sémantique
• Contenus spécifiques
• Maillage, « dé-silotage »
• Dématérialisation de documents
• Approches métiers des fonds et des documents
• Validation, Véracité
22
Impacts sur activités des professionnels de l’information
23. • Exemple : mise en commun de catalogues
• Cycle vertueux
• Récupération de données pour enrichir des contenus
• Ex. avis de lecteurs de Babelio, Libfly
• Open Data, récupération de biographies
• Exposition des données
• Mise en visibilité
• Echange
• Mutualisation
• Fédération de catalogues
• Rebonds et circulation dans les données
• Enrichissement et redressement des données et retour au producteur
• Ex. ISIDORE (Huma-Num CNRS)
23
Impacts sur activités des professionnels de l’information
24. • Enjeux et opportunités
• Pilotage : mieux connaître les environnements et les publics
• Rapprocher corpus et données
• Accès aux données de la recherche
• Accès aux données publiques
• Accès aux ressources (ou aux références) à partir des données
• Améliorer l’exposition et la visibilité des fonds
• Enrichir les catalogues
• Exposer les éléments cachés dans de nouvelles formes de mises en relation
(cf. CARTIER A., Bibliothèque et OpenData. Et si on ouvrait les bibliothèques sur l’avenir ?, Mémoire Enssib,2013)
24
Impacts sur activités des professionnels de l’information
26. Conclusion
• Des objets documentaires qui s’hybrident sous l’influence des
technologies numériques
• Des spécialités qui doivent dialoguer pour confronter des expériences
• Des emprunts nécessaires en termes de réflexions, méthodes,
techniques, modèles, formats…
26