Présentation effectuée lors de la 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, le 31/12/2013, Toulouse, France.
Vidéo : http://www.canalc2.tv/video.asp?idVideo=11682
Article associé : http://hal.archives-ouvertes.fr/hal-00912332
Identification de compatibilites sémantiques entre descripteurs de lieux
1. Identification de
compatibilités entre tags
descriptifs de lieux
Estelle Delpech1,2 , Laurent Candillier1,2 , Léa Laporte1,2,3 , Samuel Phan1,2
1 Nomao, 2 Ebuzzing
, 3 IRIT
13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances
Toulouse, 31 janvier 2013
2. Plan
1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives
3. Plan
1. Contexte & travaux apparentés
2. Expériences
3. Conclusion et perspectives
6. Dédoublonnage de données
DESCRIPTIF 1
DESCRIPTIF 2
nom : Les Caves de La Maréchale
adresse :
rue : Rue Chalande
ville : Toulouse
tel : 05.61.23.89.88
tags : restaurant, sud-ouest
3 / 29
nom : Caves de La Maréchale SARL
adresse :
rue : Rue Jules Chalande
ville : Toulouse
tel : 0561238988
tags : manger, français
7. Données bruitées
DESCRIPTIF
nom : Milhau Jean-Paul
adresse :
rue : 147 avenue des minimes
ville : Toulouse
tel : 05.61.47.40.40
tags : pédiatre, médecin , spécialiste, vie pratique
santé, installations et techniques sanitaires, plomberie
4 / 29
8. Objectif : acquisition de compatibilités
entre tags
Compatibilité
Deux tags sont compatibles s’ils peuvent être associés au
même lieu sans qu’il en résulte une incohérence pragmatique
⇒ relation symétrique
⇒ binaire ou graduelle selon besoins
restaurant vs. manger : compatible
médecin vs. plombier : incompatible
concessionaire vs. réparation vélo : ?
5 / 29
11. Hiérarchie de tags - travaux apparentés
Mesures d’affinités sémantiques calculées à partir de ressources
structurées en graphes [Budanitsky and Hirst, 2006] :
ressources
– réseaux lexicaux : WordNet
– ontologies : MeSH
– dictionnaires : arc entre vedette et mots définition
Mesures basées sur :
–
–
–
–
plus court chemin
profondeur des nœuds
plus proche parent
étiquette de l’arc
Évaluation :
– applicative
– corrélation jugements humains
8 / 29
12. Descriptifs de lieux
Descriptif = diverses informations dont :
– identifiant de lieu
– ensemble de tags
– sources ayant fourni le lieu
Indices de compatibilité :
– tendance de deux tags à apparaître dans les mêmes lieux
– tendance de deux tags à apparaître avec les mêmes tags
– tendance de deux tags à être donné par les mêmes sources
[non fait]
– etc...
9 / 29
13. Travaux apparentés : folksonomies
Classification issue d’une communauté
Exemples : Flickr, Delicious
– ensemble de ressources : pages web, photos,
– annotées par des utilisateurs,
– à l’aide de tags.
10 / 29
14. Définition [Hotho et al., 2006]
Folksonomie := (U, T , R, Y )
–
–
–
–
–
T = {t1 , ...tm } est un ensemble de tags
U = {u1 , ...un } est un ensemble d’utilisateurs ↔ sources
R = {r1 , ...rp } est un ensemble de ressources ↔ lieux
Y ⊆U×T ×R
triplet (u, t, r) ∈ Y
. attribution du tag t à la ressource r par l’utilisateur u
↔ attribution du tag t au lieu r par la source u
11 / 29
15. Identification d’affinités entre tags
Applications :
– aide à la navigation : recommandation, affinage de
requêtes
– acquisition d’ontologies
Calcul de l’affinité basée sur
[Cattuto et al., 2008, Markines et al., 2009] :
– mesure statistique de la co-occurrence de t1 et t2 dans les
mêmes ressources
– représentation vectorielle : comparaison des ressources ou
tags ou utilisateurs associés à t1 et t2
Evaluation :
– applicative
– corrélation avec la mesure de [Jiang and Conrath, 1997]
12 / 29
16. Plan
1. Contexte travaux apparentés
2. Expériences
3. Conclusion et perspectives
17. Expériences
Score de compatibilité
– C HEVAUCH L IEUX
– TAGS VOISINS
Classification automatique : C OMPATIBLE/ I NCOMPATIBLE
– L IEUX
– H IERARCHIE TAGS
– C OMBINAISON
13 / 29
18. C HEVAUCH L IEUX
Compatibilité de t1 et t2 =
coefficient de chevauchement entre les lieux ayant reçu
t1 et les lieux ayant reçu t2
Overlap(t1 , t2 ) =
|L(t1 ) ∩ L(t2 )|
min(|L(t1 )|, |L(t2 )|)
14 / 29
19. TAGS VOISINS
Compatibilité de t1 et t2 =
similarité entre le voisinage de t1 et le voisinage de t2
Voisinage d’un tag =
vecteur contenant le nombre de fois ce tag où il
co-occurre avec les autres tags
Cos(t1 , t2 ) =
15 / 29
t1 · t2
t1 · t2
20. L IEUX
Modèle de classification appris à partir de 4 variables :
–
–
–
–
|L(t1 ) ∩ L(t2 )|
|L(t1 ) ∪ L(t2 )|
min(|L(t1 )|, |L(t2 )|)
max(|L(t1 )|, |L(t2 )|)
16 / 29
21. H IERARCHIE TAGS
Modèle de classification appris à partir de 10 variables
tirées de la hiérarchie de tags :
1.
2.
3.
4.
5.
nb. de chemins entre t1 et t2
distance min. entre t1 et t2
distance max. entre t1 et t2
nb. de chemins dans lesquels t1 précède t2 ou t2 précède t1
nb. de tags dans {t1 , t2 } correspondant à un nom de marque
(i.e Campanile, Ikéa...)
6. ...
17 / 29
22. C OMBINAISON
Modèle de classification appris à partir de 16 variables :
–
–
–
–
score co-occurrence : C HEVAUCH L IEUX
score voisinage : TAGS VOISINS
10 variables de H IERARCHIE TAGS
4 variables de L IEUX
18 / 29
23. Données expérimentales
15 millions de lieux
3696 tags
590 paires de tags annotées avec 2 classes : C OMPATIBLE/
I NCOMPATIBLE
–
–
–
–
7 annotateurs
1/3 paires annotées par au moins deux annotateurs
Taux de désaccord entre annotateurs : 12%
Désaccords : annotation de l’annotateur le plus consensuel
⇒ 41%C OMPATIBLE/ 59% I NCOMPATIBLE
19 / 29
25. Évaluation
Taux d’erreur : % paires de tags mal classifiées
⇒ Validation croisée à 10 blocs
– C HEVAUCH L IEUX, TAGS VOISINS : seuil de compatibilité appris sur
exemples
– H IERARCHIE TAGS, L IEUX, C OMBINAISON : classe donnée par C5
Aire sous la courbe ROC
– C HEVAUCH L IEUX, TAGS VOISINS : score
– H IERARCHIE TAGS, L IEUX, C OMBINAISON : utilisation du score de
confiance de C5
21 / 29
26. Résultats
C OMBINAISON
L IEUX
C HEVAUCH L IEUX
H IERARCHIE TAGS
TAGS VOISINS
taux d’erreur moyen
0,237
0,258
0,264
0,293
0,327
22 / 29
AUROC
0,84
0,82
0,81
0,73
0,70
27. Résultats significativement meilleurs
t-test unilatéral apparié
significativement meilleur si valeur p 5%
L IEUX C HEVAUCH L IEUX H IERARCHIE TAGS TAGS VOISINS
C OMBINAISON
14%
8%
2%
0,2 %
L IEUX
17%
9%
1%
C HEVAUCH L IEUX
14%
2%
H IERARCHIE TAGS
20%
23 / 29
28. Variation du taux d’erreur
L IEUX
C OMBINAISON
C HEVAUCH L IEUX
TAGS VOISINS
H IERARCHIE TAGS
taux d’erreur
moyen
0,258
0,237
0,264
0,327
0,293
24 / 29
taux d’erreur
médian
0,254
0,229
0,254
0,348
0,288
écart-type
0,045
0,052
0,053
0,071
0,077
29. Plan
1. Contexte travaux apparentés
2. Expériences
3. Conclusion et perspectives
30. Conclusion
Méthode choisie : L IEUX
– parmi les meilleures
– robuste
– simple à mettre en œuvre
Taux d’erreur : 25,8%
Taux de désaccords entre humains : 12%
⇒ Apport pour le dédoublonnage, nettoyage
25 / 29
32. Perspectives
Méthode perfectible
– utilisation des sources
– ressources sémantiques non spécifiques à Nomao
Intégration au processus de dédoublonnage
Méthode applicable à d’autres champs des descriptifs :
– termes
– commentaires
27 / 29
33. Références I
Budanitsky, A. and Hirst, G. (2006).
Evaluating WordNet-based measures of lexical semantic relatedness.
Journal of Computational Linguistics, 32(1) :13–47.
Cattuto, C., Benz, D., Hotho, A., and Stumme, G. (2008).
Semantic grounding of tag relatedness in social bookmarking systems.
In Proceedings of the 7th International Conference on The Semantic Web,
pages 615–631, Karlsruhe, Germany.
Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006).
Information retrieval in folksonomies : search and ranking.
In Proceedings of the 3rd European conference on The Semantic Web :
research and applications, pages 411–426, Budva, Montenegro.
Jiang, J. J. and Conrath, D. W. (1997).
Semantic similarity based on corpus statistics and lexical taxonomy.
In Proceedings of the International Conference on Research in
Computational Linguistics, Taïwan.
34. Références II
Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G.
(2009).
Evaluating similarity measures for emergent semantics of social tagging.
In Proceedings of the 18th international conference on World wide web,
pages 641–650, Madrid, Spain.
Quinlan, R. (1996).
Bagging, boosting and c4.5.
In 13th National Conference on Artificial Intelligence, pages 725–730.