Dans cet article nous proposons une approche de recherche d’information (RI) qui prend en compte le contenu social associé à une ressource pour mesurer sa pertinence a priori vis-à-vis d’une requête. Nous démontrons comment ces caractéristiques, qui sont sous forme d’actions (signaux sociaux) tels que le nombre de "j’aime" et de "partage", peuvent être combinées pour quantifier des propriétés sociales telles que la popularité et la réputation. Nous proposons de modéliser ces propriétés comme des probabilités a priori que nous intégrons dans un modèle de langue. Nous avons évalué l’efficacité de notre approche sur la collection d’IMDb contenant 32706 documents et leurs caractéristiques sociales collectées sur plusieurs réseaux sociaux. Nos résultats expérimentaux sont très prometteurs et montrent l'intérêt de l'intégration des propriétés sociales dans un modèle de recherche pour améliorer la RI.
Exploitation de signaux sociaux pour estimer la pertinence a priori d’une ressource
1. Exploitation de signaux sociaux pour estimer la pertinence apriori d’une ressource
Ismaël BADACHE
Mohand BOUGHANEM
2013/2014
CORIA’14
2. Plan de la présentation
Introduction
État de l’art
Modèle de RI sociale
Evaluation expérimentale
4
1
3
Conclusion
2
5
3. 1.1 Émergence du Web social
1
Nombre d’utilisateurs actifs2013
1,2
1,4
1,7
2,4
2011
2012
2013
2014
Nombre d’internautes
Contenu social par 1 minute
41000 Publications
1,8 Millions J’aime
~350 GO de données
Facebook
Source:
blogdumoderateur.com
quantcast.com
semiocast.com
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
4. Vidéo
Photo
Page Web
Ressources Web
Ressource. . .
Réseaux sociaux
Marques
Commentaires/Avis
Partages/Recommandes
Mentions/Votes
Like/+1
Interactions
Extraction et quantification des propriétés sociales
Modèle de RIIncorporationRequêteRéputation
2Résultats
Fig1. Schéma de la RI sociale par rapport à notre approche
Signaux Sociaux
(Source d’évidence) Popularité. . etc.
5. 1.2 Questions de recherche
Quellessontlespropriétéssocialesutilespourévaluerlapertinenceapriorid’uneressource?
2
Commenttraduirelessignauxsociauxenpropriétéssociales?
1
Quelmodèlethéoriquepourcombinerlapertinenceapriorid’uneressourceetsapertinencethématique?
3
3
Quelestl’impactdecespropriétéssocialessurlesperformancesd’unsystèmedeRI?
4
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
6. 2.1 Synthèse des travaux
4
Sources d’évidence
Propriétés
Modèles
Auteurs
Caractéristiquesstructurelles du document
•Liens entrants, sortants (PageRank, HITS).
Popularité
Autorité
Modèle de langue
(Brin et Page, 1998)
(Kleinberg, 1999)
•Types d'URL.
Importance
(Kraaijet al.,2002)
Caractéristiques sociales du document
•Nombrede:clicks,votes,enregistrementet recommandation.
Popularité
Importance
Combinaison Linéaire
(Karweget al., 2011)
•Nombrede:j’aime,j’aimepas, commentairesurYouTubeetnombrede lectured’untitresurLast.fm.
Importance
Techniqued’apprentissage
et
Combinaison linéaire
(Chelaruet al., 2012)
(Khodaeiet al.2012)
•Présenced'unlienURLdansuntweet.
(Alonso et al., 2010)
•Nombrederetweet.
Popularité
Techniqued’apprentissage
(Yang et al., 2012)
(Hong et al., 2011)
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
7. 3.1 Modèle de langue
•UndocumentDpeutêtrereprésentéàlafoisparunensembledemots- clés퐷푚={푚1,푚2,…푚푛}etdescaractéristiquesnon-textuelles.
•푃(퐷)estuneprobabilitéestimantlapertinenceapriorid’undocumentindépendammentdesoncontenutextuel.
•Dansnotreapproche:undocument(ressource)estreprésentéparunensembledemots-clés퐷푚etunensembledecaractéristiquessociales 퐷푠={푎1,푎2,…푎푚}.
Probabilité a priori du document D
Modèle textuel Requête/Contenu
푃퐷푄=푟푎푛푘푷푫∙푃푄퐷)
5
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
푃퐷푄=푟푎푛푘푷푫풔∙푃푄퐷)
12. 4.1Objectifs de l’evaluation
10
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
1)Etudierl’impactd’intégrationindividuelledechacundessignauxsociauxsurlaperformancedumodèleproposé.
2)Etudierl’impactdelacombinaisoncessignauxsociauxregroupéssousformedepropriétéssociales.
•Cadred’évaluation:
-Absenced’uncadrestandardpourl’évaluationdanslaRIsociale.
-Collecterdessignauxsociauxetmonterl’expérimentation.
13. 4.2Dataset : Contenu textuel
11
Champ
Description
Statut
ID
identifiant du film (le document).
-
Title
le titre du film.
indexé
Year
l’année de sortie du film.
indexé
Rated
classement des films selon le type du contenu.
-
Released
date de réalisation du film.
indexé
Runtime
durée du film.
indexé
Genre
genre de film (Action, Drame, etc.).
indexé
Director
le directeur du projet du film.
indexé
Writer
les écrivains et les scénaristes du film.
indexé
Actors
les acteurs principaux du film.
indexé
Plot
résumé textuel du film.
indexé
Poster
le lien URL de l’affiche du film.
-
url
le lien URL qui mène à la source originale du document.
-
UGC
Les différents signaux sociaux récupérés.
-
•32706Documents Film en anglais extrait du site IMDb.com
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
14. 4.3Dataset : Contenu social
12
ACEBOOK
J’aime
Partage
Commentaire
Date de la mention
WITTER
Tweet
GOOGLE+
Mention +1
Partage
LINKED
DELICIOUS
Marquer
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
16. 4.4Requêtes et jugement de pertinence
14
•Requêtes
-20 requêtes issues d’INEX IMDb.
-5 requêtes crées par nous-même.
•Jugement de pertinence
-12 évaluateurs (23-31 ans).
-Jugement des 100 premiers documents retournés.
-Echelle d’évaluation à 3 points de pertinence.
-Chaque requête est jugée par 3 utilisateurs.
-Bon accord Kappa entre les évaluateurs (81,24%).
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
17. 4.5 Quantification des propriétés sociales
15
Propriétés sociales
Signaux sociaux
Réseaux sociaux
Popularité (PSoc)
Nombre de «Commentaire»
Facebook
Nombre de «Tweet»
Twitter
Nombre de «Partage»
LinkedIn, Facebook
Réputation (RSoc)
Nombre de « +1»
Google+
Nombre de «J’aime»
Facebook
Nombre de «Marque»
Delicious
Fraîcheur (FSoc)
Datede la dernière action
Facebook
•Chaquepropriétéestquantifiéepardessignauxsociauxspécifiques, selonleursnatureetsignification.
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
21. 4.9 Analyse de corrélation des rangs
19
0,1675
0,1760
0,2158
0,2322
0,2701
0,2858
0,2986
Google +1
Marque
Partages (Lin)
Tweet
Partage (FB)
Commentaire
J'aime
0,22
0,52
0,6431
Fraîcheur
Réputation
Popularité
Fig6. Corrélation des propriétés sociales
Fig5. Corrélation des signaux sociaux
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale
22. 5. Conclusion
20
•Modèle de recherche d’information sociale
-Evidence thématique (Modèle de langue)
-Evidence sociale (Propriétés sociales).
•Expérimentation sur une collection IMDb
-Amélioration significative par rapport aux modèles textuels.
•Perspectives
-Evaluation sur d’autres collections.
-Intégration d’autres propriétés sociales
-Etude approfondie sur l’impact de la propriété temporelle.
-Comparer le modèle proposé avec d’autres modèles sociaux.
1. Introduction
2. Etat de l’art
5. Conclusion
3. Modèle de RI sociale
4. Evaluation expérimentale