La gouvernance documentaire à l'heure des réseaux sociaux d'entreprise
Armadillo - Web sémantique, les outils d’un open data culturel
1. Web sémantique : les outils d’un open
data culturel
Mercredi 21 mars 2012 17h > 17h45
Après une courte présentation du web sémantique en 2012, nous verrons au travers de plusieurs réalisations comment mettre en
œuvre un portail open data culturel. Quels outils informatiques, pour quoi faire ? Quels sont les bénéfices/inconvénients ?
2. Du web 1.0 au web 3.0
Web 4
Nous arrivons au web des données (le web sémantique)
un gigantesque réseau de bases de données structurées (RDF) et
Web 3
interrogeables via les protocoles standards
Réseau de liens entre des données (web 3.0)
Illustration le LOD
Web 2
En passant par le web collaboratif
web hybride mêlant contenu et éléments interactifs et actions des utilisateurs
En passant par les hyperliens et les bases de données
pour répondre à la multiplication des contenus, le web est devenu dynamique
Réseau de liens entre des documents (web1.0)
De la mise en ligne de pages
l’adresse du site, l’URL, le référencement, les annuaires, les moteurs
un web majoritairement statique
Web 1
Modèle du fichier (succession linéaire de notices autonomes et juxtaposées)
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
3. Évolution/ révolution du web 3.0
Évolution du LOD Linked Data Cloud
Derrière la quantité se cache aussi la qualité des données publiées
2006 2008 2009 2011 2012
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
4. Structurer c’est quoi et pourquoi ?
Pourquoi:
Parce qu’avec les évolutions du Web, penser l’adresse d’un site (URL) comme un
simple accès à une information est insuffisant.
Il y a quelques années, on cherchait un site grâce aux moteurs et aux annuaires.
Aujourd’hui
On cherche directement des ressources ou à relier des ressources entre elles, de
nouveaux outils et de nouvelles méthodes sont disponibles.
un gigantesque réseau de bases de données structurées (RDF) et
interrogeables via les protocoles standards
URI Uniform Resource Identifier, soit littéralement identifiant uniforme de ressource
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
5. Structurer c’est quoi et pourquoi ?
Structurer n’est plus seulement ajouter des métadonnées à une ressource.
Jusqu’à aujourd’hui, structurer c’est penser normes : MARC 21, UNIMARC, EAD, MarcXchange,
MARCXML, MODS, ONIX, METS, EAD, Z39,50, SRU-SRZ, OAI
• Des structures complexes inspirées des contraintes informatiques et des modèles
relationnels
par soucis d’implémentation (modèle attribut/valeur).
• Apprentissage de la structuration de l’information
• Des démarches différentes par métier et des problèmes d’interopérabilité
• Résiste mal à la pression d’échange du web
Mais aujourd’hui structurer c’est penser aussi échanges/interopérabilité, multi-support,
multimédia, usages
Récupération automatique des données descriptives
Multiplier les points d’accès
Plus de visibilité
… et si les normes ne suffisaient plus ?
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
6. Structurer comment ?
W3C pragmatisme anglo-saxon,
« Est il possible d’imaginer un modèle/format universel de description de données ? »
RDF Resource Description Framework
destiné à décrire de façon formelle les ressources Web et leurs métadonnées,
de façon à permettre le traitement automatique de telles descriptions.
Le RDF utilise XML comme syntaxe
L’idée originale c’est de disposer d’une structure très générique sous la forme d’un
triplet:
(sujet, prédicat, objet) graphe / théorie des ensembles
Applicable à tous les contextes
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
7. Structurer comment ?
« comment partager ce modèle universel de description de données ? »
L’utilisation d’ontologies
C’est un ensemble de concepts décrivant complètement un domaine.
Des classes d’objets, des champs, des propriétés attachées,
des liaisons, des vocabulaires
Il existe de nombreuses ontologies et de nombreux vocabulaires associés
Ces ontologies sont décrites sur le web
Ces concepts sont liés les uns aux autres par des relations taxinomiques (hiérarchisation des
concepts) d'une part, et sémantiques d'autre part
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
8. Qu’est-ce que le web sémantique?
Le web sémantique aussi appelé web de données ou web 3.0 est une évolution du
web pour permettre l’échange de données (la structure des données est en triplet
au format RDF).
Ceci permet d’associer des données provenant de différentes sources et de les
rendre directement accessibles par les moteurs de recherche de type Google.
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
9. RDF « iser » « lifter » les contenus
Choix des ontologies
Personnes Correspondance RDF Zone intermarc (notices PEP)
nationalité foaf:nationality 008 position 12-13
langue RDAgroup2elements: languageOfThePerson 008 position 14 16
sexe foaf:gender 008 position 17
naissance RDAgroup2elements:dateOfBirth 008 position 27-36
Œuvre Correspondance RDF Zone Intermarc (notices TIC, TUT, TUM)
forme (titre principal) dc:title skos:prefLabel, rdfs:label @in_lang 145 415
autre forme skos:altLabel @in_lang
langue dc:language 008 position 14 16
date oeuvre dc: date 008 position 27 à 36
source skos:editorialNote 610
résumé/note dc: description 600
FRBROO bibliothèques SemUNIT pédagogie numérique
data.bnf.fr
http://www.figoblog.org/node/1897
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
10. Choix des ontologies
CKAN (Comprehensive Knowledge Archive
Network)
CKAN permet de chercher, partager et réutiliser des
contenus et données libres simplement, notamment sous
des formes lisibles par les machines.
Le système CKAN fonctionne comme une synthèse de
différent services :
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
11. Quels outils ? Quelle stratégie ?
Le contexte est celui
•du web
•de la diffusion de données structurées
•du niveau d’équipement de l’institution
Pour les institutions équipées, cela ne remet pas en cause les applications métier.
Pour les institutions non encore équipées, un terrain d’expérimentation est possible.
Les outils
le couple URI/Ressource
RDF
Ontologies & folksonomie
SparQL
Pour quoi faire ?
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
12. Convergence des contenus
Une association avec d’autres données ou des sources externes
(musées, bibliothèques, institutions, enseignement…)
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
13. Proposer du contenu
Cela permet une navigation entre les concepts (œuvres, artistes, dates, thématiques…)
Artiste
Lieu de conservation
Provenance
Thème
Les contenus
associés
http://www.artsdelamarionnette.eu/app/photopro.sk/marionnettes/detail?docid=27575
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
14. Augmenter la visibilité
Une indexation dans les moteurs de recherche de type Google pour les rendre
accessibles au plus grand nombre.
Avec la recherche « saint michel marionnette » la notice arrive en première page
dans les résultats de Google.
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
15. Le Comment méthodologique?
1. Inventaire
• Choix des corpus après l’inventaire des données et contexte d’utilisation
• Choix des dictionnaires de données
• Choix des concepts des ontologies
• Choix des ontologies « largement partagées »
• Choix des classes et choix des propriétés
2. Sémantisation des contenus (utilisation des standards du web)
• OWL RDF
• URI
3. Diffusion en ligne / animation
• Diffusion des corpus & des vocabulaires
• Choix des partenaires
4. Choix des licences
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
16. Le Comment technique ?
Une réponse simple: Construire un entrepôt RDF Index de type A (OAI-PMH /DC)
Le comment / les moyens sont importants:
La réponse traditionnelle est de dupliquer les données
Le problème : autant de données dupliquées que d’entrepôts …
synchronisation, mise à jour, temps réel Index de type B (XML HAL)
Une réponse plus souple est d’utiliser des technologies qui évitent ces
duplications :
Index de type C (XML EAD)
Structure des données souhaitée par le client
Index de type graphe « n » upplet
Transformation des données par l’index sans tables auxiliaires ni duplication des données
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
17. Le Comment technique ?
Avec le triplet, RDF ajoute une nouvelle dimension à notre façon de structurer.
Avec RDF, on a une simplification des schémas de représentation.
Avec l’implémentation de RDF, on assiste à une poussée technologique :
Du modèle relationnel au modèle post-relationnel
s’inscrit dans la mouvance post-relationnel/no SQL, à rapprocher du BigTable de Google ou Pnuts de
Yahoo
C’est aussi une simplification technologique
Libérer les données …2010 la fin de l’hégémonie des bases relationnelles ?
MCD
RDF/ NoSQL : La base de données n’est plus une contrainte !
Une petite révolution de l’informatique
… nous restons des somnambules
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
18. Un exemple de projet
Acquisition de l’information Traitement de l’information Exploitation
Réconciliations/sémantisation diffusions
EN-15907
OAI-PMH
Open Archives Initiative Protocol
for Metadata Harvesting
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
19. Le Comment technique ?
Le choix de technologies nativement sémantiques, ce sont des projets
•plus rapides
•moins coûteux
•de pérennisation de l’information gérée ou à gérer
Mécano / solution intégrée ?
Entrepôt/index des Catalogue de Entrepôt de
données métadonnées données
Données brutes Formulaire de multimédia
éventuellement saisie Prévisualisation
géolocalisées mises à API REST
disposition dans des Administration
formats
interopérables
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
20. Architecture
PORTAIL Internet – Intranet Framework PHP
• Client recherche fédérée • Gestion des usagers
Recherche par
cartographie
Utilisateurs
Recherche
• Configuration • Compte personnel
Plugin de
Plugin de
• Personnalisation • Historique • Opérateur de recherche
• Export • Connectivité • Recherche Multi champs
Recherche fédérée
• Consultation de notice • Dossiers personnels • Exploration thématique
Outils collaboratifs
• Listes personnalisées • Historique de recherche
• Résultats simples / détaillées
• Statistiques de recherche
• Ldap • Profilage utilisateur Charte graphique • Recherche Synchrone
communication
Authentification
Administration
Gestion de la
Accessibilité
Statistiques
contenu et
Gestion de
• CAS • Réservation • Recherche Asynchrone CMS
service
• Acquisition • Moissonnage d’entrepôt de données
• Syndication / RSS • Fédération d’entrepôt de données
• Workflow • Cache de recherche
• Contexte
Entrepôts
externes
DSI Diffusion Sélective de l’Information
SERVEUR SIG oai-pmh
Z39.50
RDF SPARQL REST XML OAI SRU / SRW
ETL (mars 2012) Opensearch
…
Active
Directory CAS -SSO
/
LDAP
Entrepôt/index Catalogue de Entrepôt de Applications
des données métadonnées données métier
Espace sécurisé Données brutes Formulaire de saisie
éventuellement API REST
multimédia
Géolocalisées mise à Administration prévisualisation
Archives
disposition dans des EAD…
Stockage formats interopérables
mutualisé des
ressources
numériques
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
21. Des points d’accès pour les développeurs
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
22. Pourquoi faire ?
Valoriser, diffuser et conserver numériquement le patrimoine
Proposer plus de contenu autour d’une thématique, d’une œuvre…
Associer des événements, des artistes, des institutions…
Animer un réseau autour des contenus
Proposer une démarche collaborative entre les sources et les utilisateurs pour
enrichir les connaissances.
(partage sur les réseaux sociaux, espaces personnels pour les chercheurs, forums…)
Faire converger les contenus dans un portail fédérateur
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
23. Un exemple de Portail
Portail des Arts de la Marionnette www.artsdelamarionnette.eu
21 entités mettent en place
Un portail de valorisation de
contenus multimédia unique
et fédérateur :
musées,
bibliothèques,
archives,
théâtres,
compagnies,
festivals,
associations,
écoles
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
24. Les outils
1. Une base de données professionnelle pour être compatible au web sémantique
2. Une diffusion multi-canal composée de plusieurs modules collaboratifs, éditoriaux
et de valorisation des contenus
Modules éditoriaux : Modules de valorisation : Modules collaboratifs:
Le CMS Le Coverflow La contribution en ligne
Les flux RSS Le FlipBook Les espaces virtuels
La newsletter Les diaporamas Les paniers partagés
La géo-localisation Les expositions virtuelles Les forums
Les « push d’actus » Le AddThis
La veille thématique (partage sur les réseaux sociaux)
Le moissonnage OAI-PMH
(ressources de partenaires)
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
25. Exemples de modules
Expositions virtuelles
Valorisation de ressources et contenus éditoriaux par thématiques
RDF « isation » des expositions virtuelles ou des contenus pédagogiques
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
26. Exemples de modules
Recherche par facettes
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
27. Exemples de modules
Recherche par nuage de tags, dynamique
Recherche par cartographie
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
28. Exemples de modules
Valorisation en FlipBook
Publication de documents en interactif
Lecteur exportable pour des sites partenaires
Contenu accessible
Tags RDF des pages
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
29. Exemples de modules
Valorisation en Coverflow
Publication d’images, vidéos, sons et documents en « dynamique » ou « autonome »
sur votre site institutionnel et/ou des sites partenaires.
Affichage d’une notice, d’un diaporama, d’un FlipBook...
… échanges RDF
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
30. Exemples de modules
Viralité et partage sur les réseaux sociaux
AddThis intégré avec 450 sites répertoriés pour diffuser vos médias, vos documents.
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
33. Open data / open data culturel
Qu’est ce que l’open data ?
La construction de l’open data culturel
Mobilité
Convergence
Réalité augmentée
Education et ENT libre
Accélérateur
Creative Commons, un projet politique : l’open data culturel
Réseaux sociaux / contenus culturels
L’exception française
Une légitimité internationale
Multilinguisme et éditorialisation
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
34. Conclusion
Un peu d’évangélisation autour de RDF, URI, ontologie, SPARQL?
Libération des données, simplification technologique
Stratégie autour d’un projet web sem (corpus/ onto/ module/ licences)
Les bénéfices
Présentation Armadillo DOCUMATION 21/03/2012 Armadillo 01 41 23 02 13 Laurent BEL laurent@armadillo.fr
35. Projet collectif
ENT Libre 2.0
ENT en toute liberté
Investissement d’Avenir
Projet partenarial sous convention de subvention de
l’état, lauréat de l’appel à projet e-Education n°1 – «
Services Numériques Innovants pour l’e-Education »
inscrit dans le cadre des Investissements d’Avenir
consacré au développement de l’Economie Numérique.
36. Consortium
Chargée du dossier Financeur
Coordination, intégration, Open Source,
axe collaboration et communication
Recherche pédagogique
et animation recherche
Livre interactif / Editeur numérique
Moodle
Vie scolaire / Lilie Sémantique / Accès aux savoirs
Mobilité
Gestion des compétences / Vie scolaire
Pédagogie mobile
37. Participez !
• Aux ateliers de spécifications
• Aux expérimentations
définition Expérimentation
Usage Secondaire +
pédagogique Université
Usage vie Primaire +
Mobilité
scolaire Secondaire
Usage rsc Secondaire +
numérique Université
Usage collaboratif Secondaire +
communication Université
A VOUS !
38. Démarches pédagogiques
Audit des corpus
Choix des thématiques: …et la citoyenneté …et le monde …manuel et sensible
… manipulations scientifiques
Choix des cibles: …maternelle et primaire …secondaire …enseignement professionnel
… les seniors
Choix du programme, éditorialisation, gestion des contenus
Choix des outils: livre interactif:
une trace durable
fiche de recommandation
utilisation des fiches d’activités
fiches d’activité pour les élèves
rubrique "Pour en savoir plus", avec des indications
bibliographiques, filmographiques, des idées de CD-ROM et
de sites à consulter
Jeu de rôles, jeu vidéo, réalité augmentée…
Supports de préparation de visites
39. Armadillo
46 bis rue de la République– 92170 Vanves - France
tél. 01 41 23 02 13
www.armadillo.fr
contact@armadillo.fr