1. Ontologies pour le Web 2.0
IC2008, 19 Juin 2008
Alexandre Passant1,2, Philippe Laublet1
1 LaLIC, Université Paris-Sorbonne
2 (ex-)EDF, Recherche & Développement
1
2. Objectifs
• Complémentarité entre Web 2.0 et Web Sémantique
• Montrer en quoi les nouveaux usages introduits par le Web 2.0 ne sont pas
incompatibles avec la vision du Web Sémantique
• Comment ?
• Extensions d’outils existants pour faire le lien entre les 2
bénéficier des usages et pratiques du Web 2.0 pour produire des
données formalisées
bénéficier des données formalisées pour enrichir les services
proposés par les outils du Web 2.0
• Plus particulièrement
• De la production de documents et tagging associés à l’annotation
sémantique et l’indexation de contenus par des concepts du WS
• De la capitalisation de connaissances avec les wikis au peuplement
d’ontologies pour la représentation formelle de connaissances
• Contexte : Projet Hermès à EDF R&D, plate-forme Entreprise 2.0
2
3. 1
Cohabitation entre Web 2.0 et Web
Sémantique
3
4. Le Web 2.0 et l’Entreprise 2.0
• Web 2.0
• Nouveaux usages et pratiques pour un Web centré sur la production de
données par les utilisateurs finaux
D’un Web consultatif à un Web collaboratif
• Blogs pour la publication spontanée d’information
• Wikis pour la capitalisation évolutive de connaissances
• RSS pour la diffusion et agrégation
• Tagging pour l’indexation libre de contenus par les utilisateurs
• Entreprise 2.0
• “Enterprise 2.0 is the use of emergent social software platforms
within companies, or between companies and their partners or
customers”, Andrew McAfee, Mai 2006
• Introduction de pratiques de plus en plus courantes dans la sphère
personnelle au sein de l’entreprise
Remise en cause des processus traditionnels, une nouvelle
philosophie pour les échanges de savoir en entreprise
4
5. Une complémentarité envisageable et nécessaire
• Envisager la complémentarité des deux mondes
• Web 2.0 : pratiques et usages
• Web Sémantique : formalismes et représentation de connaissances
• Les deux domaines peuvent, et doivent, se compléter
Informations produites pas l’intermédiaire d’interactions sociales
en utilisant des modèles de représentation formels
• “Le Web Sémantique n’est pas antisocial” - Gandon, IC2006
• De nombreux travaux autour de cette complémentarité
• Vocabulaires : FOAF pour les personnes, SIOC pour leurs données
• Outils : Wikis et blogs sémantiques
• Services : Revyu, DBpedia mobile
• Journal Of Web Semantics - Special Issue on Web 2.0, 2008
• “I think we could have both Semantic Web technology supporting online
communities, but at the same time also online communities can support
Semantic Web data by being the sources of people voluntarily connecting
things together.” Tim Berners-Lee, ISWC2005 podcast
5
6. Exemple: Tags, annotations, indexation
• Tags, tagging et folksonomies
• Pratiques popularisées avec les outils Web 2.0 : Flickr, del.icio.us
• Contrôle du processus d’indexation et des termes utilisés par l’utilisateur,
sans recours à un vocabulaire ou schéma pré-défini
• Evolution de la folksonomie en temps réel
• Limites : Ambiguïté, Hétérogénéité, Absence d’organisation
• Annotation sémantique et indexation
• Modélisation sémantique des métadonnées documentaires (en RDF)
• Indexation de contenus ou les termes de l’index sont des classes ou
instances d’ontologies du domaine
• Les termes d’indexation sont définis sans ambiguïté (via leurs URIs) et le
plus souvent interconnectés
• Limites : complexité des modèles et du processus
• Comment conserver la souplesse de l’un (tagging) et bénéficier de la
puissance de l’autre (annotation et indexation sémantique) ?
6
7. 2
Représenter les contenus Web 2.0
avec des ontologies dédiées
7
8. SIOC : représentation des metadonnées Web 2.0
• Web 2.0 et structure de données
• Modèle de représentation propre à chaque outil
Structure de bases de données, APIs spécifiques...
• Interconnexion et requêtes complexes
• Besoin d’un modèle commun pour représenter les métadonnées des
contenus Web 2.0 (billet de blog, page wiki), des outils (blog, wiki, forum),
des utilisateurs et des relations (publication d’un billet sur un blog donné)
• SIOC: Semantically-Interlinked Online Communities
• Définition d’un modèle RDFS pour les activités des communautés en ligne
Breslin et al., ESWC2005
• Un noyau: User, Container, Item... et un module types : définition plus
précise des différents Container et Item (BlogItem, Blog, Wiki,
WikiArticle...)
http://rdfs.org/sioc/spec
• Member Submission au W3C - Juin 2007
• Représentation uniforme des différents contenus
• Production automatique depuis différents outils (nombreux plug-ins)
8 • Requête unifiée quelque soit l’origine des contenus (via SPARQL)
10. MOAT : représenter la signification des tags
• Modèles existants
• Tag Ontology (Newman, 2005) - Notion de Tag et de Tagging (Utilisateur,
Ressource, Tag)
Basée sur SKOS et FOAF
• SCOT (Kim et al. 2007) - Modélise les nuages de tags
• Ne résolvent pas les problèmes classiques des folksonomies
• Définition d’un nouveau modèle: MOAT (Meaning Of A Tag)
• Etend le modèle tripartite classique des folksonomies et actions de tagging
• Prise en compte de la signification des tags
Globale (au sein de la folksonomie) - peut être multiple
Significations(Tag) = {(Signification, {Utilisateur})}
Locale (au sein d’une action de tagging) - unique
Tagging(Utilisateur, Ressource, Tag, Signification)
• Significations représentées par des URIs, instances d’ontologies de
domaine ou de bases de connaissances publiques (DBpedia, Geonames)
pour permettre l’indexation sémantique de contenus à partir des processus
de tagging
Comment peupler ces ontologies du domaine ?
10
14. 3
Ontologies du domaine et wikis
sémantiques
14
15. Pourquoi des wikis sémantiques ?
• Utilisation des wikis en entreprise
• Construction collaborative et incrémentale de connaissance pérennes
• Gestion de projets, référentiels encyclopédiques...
• Edition libre, rétroliens, archivage des pages
• Spécificités wiki à prendre en compte
Ouverture et absence de hiérarchie
• Problèmes pour la recherche d’information
• Permet uniquement de répondre à des requêtes plein-texte
1 page wiki = 1 unique bloc de texte
• Impossible de répondre à des questions comme:
Lister toutes les entreprises
Ou est basé EDF ?
• Les wikis modélisent des documents et des liens hypertextes, pas des
représentations formelles de données et leurs relations
15
16. De l’hypertexte aux données et relations
hyperlien est une Entreprise
EDF
France
Représentation Représentation du
Différence de
documentaire EDF monde réel Parys
représentation produit
(wiki) (Web Sémantique)
situé en
Energie
est un
hyperlien
Energie
France
16
17. Wikis sémantiques
• Produire des annotations sémantiques à partir de wiki et en
conservant la philosophie wiki (ouverture, simplicité, dynamisme ...)
• Peuplement et maintenance d’ontologies
Annotation au sein de pages wikis (SemperWiki)
Syntaxe particulière au sein des pages (Semantic MediaWiki)
Assistance à la pose d’annotations (IkeWiki, OntoWiki)
• Modélisation des métadonnées pour augmenter le potentiel
Organisation des tags (SweetWiki)
Modélisation des pages de discussions (IkeWiki)
• Problématiques dans le premier cas
• Usabilité dans un contexte d’entreprise (URIs, triplets...)
• Problèmes d’hétérogénéité sémantique
Ouverture vs qualité des annotations
17
18. UfoWiki : un serveur de wikis sémantiques
• Ambitions
• Faciliter le peuplement d’ontologies et l’évolution des instances pour les
utilisateurs non-technophiles
• Utiliser SIOC pour représenter les documents et les interactions utilisateur
Intégration dans la “SIOC-o-sphere” d’entreprise
• Combiner ces deux niveaux de modélisation
Qui a dit des choses sur EDF ?
• Réutiliser les données disponibles sur le Web
Linking Open Data
• Formulaires, templates et ontologies
• Définition de types de pages par les administrateurs
Plein-texte + champs structurés
• Chaque type correspond à une classe d’ontologie du domaine
Une page “Personne” -> foaf:Person
• Les différents champs correspondent à des propriétés ou relations
Complétion à la volée avec restriction selon le type souhaité
• Possibilité de créer des instances au sein même d’une page
18
19. Exemple de création de page wiki
• Page ‘Association’
• Classe foafplus:Association
• Champs associés à différentes ontologies internes et externes
ex: foafplus:acronym, geonames:locatedIn
19
20. Pages wiki et annotations sémantiques
• Deux documents RDF produits pour chaque page créés
• Métadonnées de la page (avec SIOC et MOAT)
• Contenu de la page (Ontologies du domaine via les formulaires)
• Intégration des deux niveaux
• Propriété embedsKnowledge pour tracer la source des données produites
Quelle page définit des assertions sur EDF ?
Meta-data RDF file
http:://athena/alex
sioc:has_creator
EDF Data RDF file
embedsKnowledge
dc:title
Wiki page A
athena:EDF
rdf:type http://sws.geonames.org/
geonames:locatedIn 3017382
sioct:WikiArticle
20
21. Utilisation des annotations au sein des wikis
• Macros sémantiques
• Insertion de résultats de requête complexes utilisant les données produites
au sein même des pages wiki
• Complexité des requêtes cachée à l’utilisateur
[onto|members] => liste les membres associés à l’instance
courante en utilisant une requête SPARQL
Capacités d’inférence
• “Rétro-liens sémantiques”
21
22. Bénéficier de ressources externes
• Profiter en entreprise de données disponibles librement sur le Web
• Utilisation en interne de modèles existants : intégration de données
à moindre coût (LOD)
Ex: Géolocation avec geonames.org
22
23. 4
Intégration globale et utilisation des
annotations produites
23
25. Tirer bénéfice des annotations produites
• Stockage RDF centralisé et moteur de recherche sémantique
• Utilise les différents niveaux d’ontologies et d’annotations
• Masque la complexité des modèles et des annotations
Graphes RDF et requêtes SPARQL cachées à l’utilisateur
• Principe
• Du tag au concept, permet à l’utilisateur de valider sa recherche en
choisissant l’instance d’ontologie correspondant au terme recherché
Résolution de l'ambiguïté
MOAT
• Récupère les contenus relatifs à ce concept (URI) grâce à l’indexation
sémantique
Résolution de l’hétérogénéité
MOAT et SIOC
• Suggestion de contenus en fonction des relations existant entre les
instances et les documents
Résolution de l’absence de relations
SIOC, ontologies et propriété embedsKnowledge
25
26. Résultat de recherche
MOAT
Ontologies du
domaine + SIOC
Ontologies du
domaine + SIOC +
embedsKnowledge
SIOC + MOAT
26
28. Une approche complémentaire
• Web Sémantique et ontologies pour le Web 2.0
• SIOC pour modéliser les activités et contenus des communautés en ligne
• MOAT en support des tags et actions de tagging
• Web 2.0 pour le Web Sémantique
• Des wikis comme outils de peuplement d’ontologies du domaine
• Une communauté d’utilisateurs pour produire des connaissances
formalisées
• Un cercle vertueux
• Réutiliser les données produites pour enrichir les outils et augmenter les
possibilités de recherche d’information
• Données LOD intégrées dans une plate-forme Entreprise 2.0 pour
augmenter son potentiel
• Perspectives
• Personnalisation de l’information
• Intégration de nouveaux services et données pour augmenter le
potentiel de la plate-forme (ex: OpenCalais, Eurostat / riese,...)
28