Explorer des actualités multimédia dans le Web de données
1. Explorer des actualités
multimédia dans le
web de données
Raphaël Troncy, <Raphael.Troncy@cwi.nl>
CWI, Interactive Information Access
IC 2009: Vendredi 29 Mai 2009 1
2. • Search Paradigm :
mots clés, liens vers des
ressources, pertinence
• Assistant Paradigm :
expression d'un besoin, explorer
des options, faire un choix,
complétion de la tâche
IC 2009: Vendredi 29 Mai 2009 2
9. Workflow des actualités:
un problème d'interopérabilité
• Pas d'intégration des médias (dépêche, photo, vidéo, μ-blog)
• Peu (ou pas) de contexte dans la présentation
• Problèmes d'interopérabilités
Schéma NAR Schéma diffuseur
Vocabulaire
NewsCodes Vocabulaires contrôlés utilisateur
IC 2009: Vendredi 29 Mai 2009 9
10. Représenter pour présenter
• Objectif (à long terme) :
– Fournir un environnement pour chercher et naviguer des
actualités multimédia contextualisées
• Requiert l'intégration des :
– Données : pluri media, différente forme, sources variées
– Métadonnées : intégration, alignement de schémas
• Influence et implications des interfaces:
– Comment représenter sémantiquement des métadonnées pour le
multimédia pour faciliter la présentation des informations ?
– en d'autres mots ... quelles contraintes les interfaces utilisateurs
posent sur la modélisation des métadonnées ?
IC 2009: Vendredi 29 Mai 2009 10
11. Formats pour les actualités
et le multimédia NewsML
G2
EventsML
G2
SportsML
G2
News Architecture
IC 2009: Vendredi 29 Mai 2009 11
12. Construire des ontologies et des
schémas pour le Web Sémantique
• Méthodologies et outils pour construire des
ontologies:
– à partir de corpus de texte, de schémas relationnels
• ʺSKOS-ificationʺ de thésaurus dans le domaine
patrimonial:
– préparation, conversion syntactique et sémantique,
standardisation
Manque de guides de bonnes pratiques pour
modéliser des ontologies à partir de UML,
intégrer des ontologies avec de multiples thésaurus,
tout en prenant les interfaces utilisateurs en compte
IC 2009: Vendredi 29 Mai 2009 12
13. Construire une infrastructure
sémantique pour les actualités
1 2 3 4
Modéliser
l'ontologie NAR La lier avec
d'autres ontologies
Obtenir des
thésaurus SKOS
Enrichir les
métadonnées
IC 2009: Vendredi 29 Mai 2009 13
14. Etape 1: Modéliser l'ontologie NAR
Text Text Person
Person
Photo Photo Organisation
Organisation
Graphics ... Geopolitical Area
Geopolitical Area
Animation Person Point of Interest
Point of Interest
Audio Organisation Event
Event
Video …. …
...
Composite Composite Composite
met l'accent sur la réutilisation de types XML, ce qui
entraîne des répétitions et des structures XML imbriquées
trop complexes
IC 2009: Vendredi 29 Mai 2009 14
15. Etape 1: Modéliser l'ontologie NAR
• Aplatir la structure XML
NewsItem
PhotoNewsItem
IC 2009: Vendredi 29 Mai 2009 15
16. Etape 1: Modéliser l'ontologie NAR
• Avoir des identifiants uniques
– Utilisation d'URI déréférençable pour n'importe quelle
ressource (les items d'actualités et le vocabulaire)
– Utilisation d'URI pour tout type de fragment
http://www.youtube.com/watch?v=1bibCui3lFM#t=1m45s
• Modéliser la provenance des informations
– Réification RDF: les triplets réifiés ne sont pas assertés
– Graphes nommés
{<> nar:subject cat:11002000}
dc:creator team:md ;
dc:modified ‘‘2005-11-11T08:00:00Z’’.
IC 2009: Vendredi 29 Mai 2009 16
17. Etape 2: Lier avec d'autres ontologies
dc:Subject ≈
nar:Subject
foaf:Person ≈
nar:Person
sioc:Item ≈
+ nar:Item
geo:lat
geo:long
IC 2009: Vendredi 29 Mai 2009 17
18. Etape 3: Obtenir des thésaurus SKOS
IC 2009: Vendredi 29 Mai 2009 18
19. Etape 3: Obtenir des thésaurus SKOS
IC 2009: Vendredi 29 Mai 2009 19
20. Etape 4: Enrichir les métadonnées
• Concepts/Entités qui
sont le sujet des
actualités
– Thèmes
– Personne / Organisation
– Géopolitiques
– Points d'intérêt
– Evénements
– Produits et artefacts
IC 2009: Vendredi 29 Mai 2009 20
21. Etape 4: Enrichir les métadonnées
Reconnaissance
d'entités nommées
Ontologies de domaine
Ontologie NAR
NewsCodes
Thésaurus
IC 2009: Vendredi 29 Mai 2009 21
22. Etape 4: Enrichir les métadonnées
Détection de
Concepts
Ontologies de domaine
Ontologie NAR
NewsCodes
Thésaurus
IC 2009: Vendredi 29 Mai 2009 22
23. Disambiguation
• IdentityRank
– Ij: entité nommée j de l'item I
– lambda: normalisation,
– Ci: ensemble des instances candidates co-occurrent avec i,
– alphaij: poids entre i et j
– E: personnalisation, cohérence sémantique du corpus
• Calcul du poids alpha:
– fij: fréquence de co-occurence
entre i et j
IC 2009: Vendredi 29 Mai 2009 23
24. Le Web de données
wp:2006_FIFA_Wolrd_Cup#Final
nc:15054000
nar:subject events:id
nar:location foaf:depicts
geonames:2950159 dbpedia:Zidane
IC 2009: Vendredi 29 Mai 2009 24
25. Semantic Search of Multimedia News
Description Nombre de triplets RDF
General Ontologies: NAR, DC, FOAF 7,336
Domain Specific Ontologies: football 104,358
Thesauri: newscodes 34,903
DBpedia, Geonames 53,468
AFP News Feed (June/July 2006) 804,446
AFP Photos (June/July 2006) 61,311
a
P atri
INA Broadcast Video (June/July 2006) Cl io 1,932
by
r ed lpha 3
Total P owe 1.0 a 1,067,754
IC 2009: Vendredi 29 Mai 2009 25
29. Présenter les actualités
• Dimensions utilisées pour naviguer dans une base de
dépêches d'actualités
– When time 10/07/2006
– Where location Paris Metadata
– What is depicted J. Chirac, Z. Zidane
– Why event WC 2006
– Who photographer Bertrand Guay, AFP
IC 2009: Vendredi 29 Mai 2009 29
39. Conclusion
• Une méthodologie en 4 étapes pour construire une
infrastructure sémantique pour les actualités
– UML-2-OWL: aplatir la structure XML, identifier toutes les
ressources
– SKOS-ifier les thésaurus existants et utiliser le Web de
Données
– Réutiliser ce qui existe ... et exposer ce que vous faites
• Enrichir les métadonnées par l'analyse d'image et le
traitement de la langue naturelle
– Fournit de nouvelles dimensions (facettes) pour explorer
les données
IC 2009: Vendredi 29 Mai 2009 39
40. Perspectives
• Modélisation •Interfaces utilisateurs
– un modèle centré –Yahoo! Search BOSS
évènement
• Qualité des données
– reconnaissance d'entités nommées (Calais),
– désambigüisation
– segmentation de vidéos, clustering visuel
IC 2009: Vendredi 29 Mai 2009 40
41. Remerciements
• Données:
• Equipe:
• Plus d'info: http://newsml.cwi.nl
IC 2009: Vendredi 29 Mai 2009 41