1. Mod`les de RI fond´s sur l’information
e e
St´phane Clinchant
e 1,2 Eric Gaussier 2
1 Xerox Research Centre Europe
2 Laboratoire d’Informatique de Grenoble
Univ. Grenoble 1
18 Mars 2010
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 1 / 37
2. Contenu Informatif
Utiliser l’information de Shannon pour pond´rer les mots dans les
e
documents
P(X)
−log P(X)
Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 2 / 37
3. Contenu Informatif
Utiliser l’information de Shannon pour pond´rer les mots dans les
e
documents
P(X)
−log P(X)
Inf(x) = − log P(x|ΘC ) = Contenu Informatif
Ecart au comportement moyen
Observation par Harter (70):
Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson.
e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 2 / 37
4. Mod`les fond´s sur l’information
e e
Id´e Principale:
e
1 Les fr´quences discr`tes des termes (x) sont renormalis´es en
e e e
valeurs continues (t(x)), du fait de la variabilit´ des longueurs de
e
documents.
2 Pour chaque terme w , on suppose que les valeurs t(x) suivent une
distribution P de param`tre λw sur le corpus.
e
3 Requˆtes et documents sont compar´s avec une mesure de surprise,
e e
une moyenne d’information de la forme:
q d
RSV (q, d) = −xw log Prob(Xw ≥ t(xw )|λw )
w ∈q∩d
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 3 / 37
5. Plan
1 Propri`t´s th´oriques des mod`les
ee e e
Contraintes Heuristiques des mod`les de R.I
e
Ph´nom`ne de Rafale
e e
2 Exemples de Mod`les
e
Le mod`le log-logistique
e
Loi de Puissance liss´e
e
3 Validation Experimentale
4 Extension au PRF
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 4 / 37
6. Contraintes Heuristiques (1)
Une fonction d’ordonnancement en RI prend la forme suivante:
q d
RSV (q, d) = f (xw )h(xw , yd , zw , θ)
w ∈q∩d
q d
xw fr´quence du mot dans la requete, xw dans le document
e
yd Longueur du document d
zw = Fw ou zw = Nw
θ param`tre du mod`le de RI.
e e
Fw Frequence de w dans le corpus : Fw = d xw d
d
Nw Fr´quence Documentaire de w : Nw = d I (xw > 0)
e
N Nombre de documents dans la collection
⇒ Etude des propri`t´s de h
ee
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 5 / 37
7. Contraintes Heuristiques (2)
Hypoth`ses:
e
Condition 1: Les documents avec plus d’occurences d’un terme de
la requˆte devraient avoir un score plus grand que ceux qui en ont
e
moins (Luhn)
∂h(x, y , z, θ)
∀(y , z, θ), > 0 (h est croissante en x)
∂x
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 6 / 37
8. Contraintes Heuristiques (2)
Hypoth`ses:
e
Condition 1: Les documents avec plus d’occurences d’un terme de
la requˆte devraient avoir un score plus grand que ceux qui en ont
e
moins (Luhn)
∂h(x, y , z, θ)
∀(y , z, θ), > 0 (h est croissante en x)
∂x
Condition 2: Cependant, la diff´rence de score devrait ˆtre plus
e e
petite pour de grandes fr´quences. Ex: 2→4, 50→ 52
e
∂ 2 h(x, y , z, θ)
∀(y , z, θ), < 0 (h est concave)
∂x 2
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 6 / 37
9. Contraintes Heuristiques (3)
Hypoth`ses:
e
Condition 3: On devrait p´naliser les longs documents compar´s
e e
aux documents plus courts, car les longs documents sont suceptibles
de couvrir diff´rents sujets
e
∂h(x, y , z, θ)
∀(x, z, θ), < 0 (h d´croissante en y)
e
∂y
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 7 / 37
10. Contraintes Heuristiques (3)
Hypoth`ses:
e
Condition 3: On devrait p´naliser les longs documents compar´s
e e
aux documents plus courts, car les longs documents sont suceptibles
de couvrir diff´rents sujets
e
∂h(x, y , z, θ)
∀(x, z, θ), < 0 (h d´croissante en y)
e
∂y
Condition 4: Enfin, il est important de diminuer l’importance des
mots apparaissant dans beaucoup de documents (IDF)
∂h(x, y , z, θ)
∀(x, y , θ), < 0 (effet IDF)
∂z
cf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 7 / 37
11. Ph´nom`ne de Rafale (Burstiness)
e e
On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
e e e
Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
e e
s’ajuste mal aux donn´es.
e
Une explication possible: le comportement en rafale des mots, ou
cr´pitement (burstiness). D´crit le fait que les mots, dans un
e e
document, tendent ` apparaˆ
a ıtre par paquets
1
Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 8 / 37
12. Ph´nom`ne de Rafale (Burstiness)
e e
On s’int´resse maintenant aux lois de probabilit´s sur les fr´quences:
e e e
Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson
e e
s’ajuste mal aux donn´es.
e
Une explication possible: le comportement en rafale des mots, ou
cr´pitement (burstiness). D´crit le fait que les mots, dans un
e e
document, tendent ` apparaˆ
a ıtre par paquets
Une fois que l’on a observ´ une occurrence d’un mot dans un
e
document, il est bien plus probable d’observer de nouvelles
occurrences de ce mot
1
Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 8 / 37
13. Ph´nom`ne de Rafale
e e
Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
e e
g (n) = P(X ≥ n + 1|X ≥ n)
est une suite strictement croissante
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 9 / 37
14. Ph´nom`ne de Rafale
e e
Definition (Cas discret ECIR’08)
Une distribution discr`te P est en rafale ou cr´pite ssi la suite:
e e
g (n) = P(X ≥ n + 1|X ≥ n)
est une suite strictement croissante
Definition (Cas g´n´ral)
e e
Une distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction
e
g:
g (x) = P(X ≥ x + |X ≥ x)
est une fonction strictement croissante en x.
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 9 / 37
15. Distribution En rafale
Poisson Non
Geometrique Neutre
N´gative Binomiale
e Oui si r < 1
Beta N´gative Binomiale
e Oui
Pareto Oui
Log-Logistique Oui
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 10 / 37
16. Mod`les d’Information & Contraintes heuristiques:
e
Mod`les d´finis par:
e e
Fonction h
q d
RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1)
w ∈q∩d
d
tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
e e e e e
en y .
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 11 / 37
17. Mod`les d’Information & Contraintes heuristiques:
e
Mod`les d´finis par:
e e
Fonction h
q d
RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1)
w ∈q∩d
d
tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
e e e e e
en y .
Condition 1 (h croissante) Direct
Condition 3 (p´nalise longs documents) Direct.
e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 11 / 37
18. Mod`les d’Information & Contraintes heuristiques:
e
Mod`les d´finis par:
e e
Fonction h
q d
RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1)
w ∈q∩d
d
tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante
e e e e e
en y .
Condition 1 (h croissante) Direct
Condition 3 (p´nalise longs documents) Direct.
e
Condition 2 (h concave)
Th´or`me
e e
Si la distribution P est en rafale, alors le mod`le d’information d´fini avec
e e
P est concave
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 11 / 37
19. Mod`les d’Information & Contraintes heuristiques:
e
Soit P une distribution de classe C 2 . Une condition n´cessaire pour que P
e
soit en rafale est :
∂ 2 log(P(X ≥ x))
>0
∂x 2
Or
∂ 2 log(P(X ≥ x))
Concavit´ ⇐⇒
e >0
∂x 2
Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires
e
d´pendent du choix de la distribution P
e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 12 / 37
20. Les mod`les log-logistique et loi de puissance liss´e
e e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 13 / 37
21. La distribution log-logistique
On consid`re ici une loi log-logistique contrainte:
e
r
P(X > x|r ) = (r m´diane)
e
(x + r )
On se restreint ` cette forme ` cause de relations avec d’autres
a a
distributions (N´gative Binomiale, Beta N´gative Binomiale)
e e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 14 / 37
22. log P(X > x) Poisson et Log-Logistique
r=0.001 Poisson r=0.001
0
r=0.01 Poisson r=0.01
r=0.1 Poisson r=0.1
−2
−4
log P(X > x)
−6
−8
−10
0 5 10 15
x
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 15 / 37
23. Ajustement aux donn´es
e
Pour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous
e e e
ces deux hypoth`ses:
e
ˆ
Poisson: λw = Fw N
Fw
Log-Logistique: rˆ =
w N
⇒ La statistique du χ2 est bien meilleure pour la log-logistique
(confirme des travaux pr´cedents)
e
La loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus
e e
(meilleur que Poisson, G´om´trique, Binomial et 2-Poisson).
e e
Est-ce un bon mod`le de RI ?
e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 16 / 37
24. Mod`le Log-Logistique pour la RI (LGD)
e
Le mod`le LGD est d´fini par
e e
d d m
1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
2 e d
Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de
e
Nw
param`tre rw = N
e
3
q Nw d Nw
RSV (q, d) = xw log( + tw ) − log( )
N N
w ∈q∩d
Respecte toutes les conditions quels que soient les param`tres.
e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 17 / 37
25. Loi de Puissance Liss´e (Smoothed Power Law SPL)
e
On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
e e
0<λ<1: x
λ x+1 − λ
P(X > x|λ) =
1−λ
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 18 / 37
26. Loi de Puissance Liss´e (Smoothed Power Law SPL)
e
On appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre
e e
0<λ<1: x
λ x+1 − λ
P(X > x|λ) =
1−λ
Mod`le de RI:
e
d d m
1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR)
2 e d
Loi de fr´quences: Les tw sont distribu´s par une loi de puissance
e
Nw
liss´e de param`tre rw = N
e e
Respecte aussi toutes les conditions
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 18 / 37
27. Loi de Puissance Liss´e
e
lambda = 0.005
0
loglogistic
spl
−2
log P(X>x)
−4
−6
−8
0 5 10 15
x
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 19 / 37
28. Caract´risation des mod`les d’information
e e
1 Normalisation de fr´quences v´rifie:
e e
d
∂tw d
∂tw ∂ 2 xwd
d
> 0; < 0; ≥0
∂xw ∂yd ∂(tw )2
d
2 Loi de Probabilit´ continue et en rafale
e
3 Fonction d’Ordonnancement
q d
RSV (q, d) = −xw log Prob(Xw ≥ tw |λw )
w ∈q∩d
4 Param`tre sur la collection
e
F w Nw
λw = or
N N
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 20 / 37
29. Relations avec d’autres mod`les
e
Relation avec les mod`les de langues:
e
1 d d m
Normalisation: tw = xw c yd (N1 DFR)
Fw
2 rw = N et Loi Log-Logistique
3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
e e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 21 / 37
30. Relations avec d’autres mod`les
e
Relation avec les mod`les de langues:
e
1 d d m
Normalisation: tw = xw c yd (N1 DFR)
Fw
2 rw = N et Loi Log-Logistique
3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer
e e
Relation avec les mod`les DFR:
e
Les mod`les DFR sont d´finis de la mani`re suivante:
e e e
q d d
RSV (q, d) = −xw Inf2 (tw ) log Prob1 (tw )
w ∈q∩d
Probl`mes:
e
Loi discr`tes avec valeurs continues
e
2 Notions d’informations non ”homog`nes”
e
⇒ Nos mod`les reposent sur des lois continues et sur une seule notion
e
d’Information
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 21 / 37
31. Exp´riences
e
Comparaison avec mod`les de langues, BM25, mod`les DFR
e e
Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
e
5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
e
Corpus # Requˆte
e
ROBUST 250
CLEF03 60
GIRT 75
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 22 / 37
32. Exp´riences
e
Comparaison avec mod`les de langues, BM25, mod`les DFR
e e
Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes
e
5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t
e
Corpus # Requˆte
e
ROBUST 250
CLEF03 60
GIRT 75
Divis´ en apprentissage/test
e
Optimise MAP ou P10 sur une grille de valeurs:
Par exemple:
k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25)
c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR)
µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 22 / 37
33. Comparaison avec le lissage de Jelinek-Mercer
Comparaison avec les mod`les de langues
e
Table: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les
e
meilleures performances ; ∗ d´note une diff´rence statistiquement significative
e e
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 26.0 20.7 40.7 49.2 36.5
LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 43.8 35.5 67.5 33.0 26.2
LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 23 / 37
34. Comparaison avec le lissage de Dirichlet
Table: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures
e
performances ; ∗ d´note une diff´rence statistiquement significative
e e
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
DIR 27.1 25.1 41.1 48.5 36.2
LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
DIR 45.6 44.7∗ 68.6 33.8 28.4
LGD 46.2∗ 44.4 69.0 34.5∗ 28.6
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 24 / 37
35. Comparaison avec BM25
BM25 optimis´ seulement avec le param`tre k1
e e
MAP ROB-d ROB-t GIRT CLEF-t CLEF-d
BM25 26.8 22.4 39.8 34.9 46.8
LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0
P10 ROB-d ROB-t GIRT CLEF-t CLEF-d
BM25 45.9 42.6 62.6 28.5 33.7
LGD 46.5 44.3∗ 66.6∗ 28.7 34.4
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 25 / 37
36. Comparaison avec les mod`les DFR
e
Table: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les
e
meilleures performances; ∗ d´note une diff´rence statistiquement significative
e e
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
INL2 27.7 24.8 42.5 47.7 37.5
LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
INL2 47.7∗ 43.3 67.0 33.4 27.3
LGD 47.0 43.5 69.4∗ 33.3 27.2
MAP ROB-d ROB-t GIRT CLEF-t CLEF-d
LGD 27.3∗ 24.7 40.5 36.2 47.5
PL2 26.2 24.8 40.6 36.0 47.2
P10 ROB-d ROB-t GIRT CLEF-t CLEF-d
LGD 46.6 43.2 66.7 28.5 33.7
PL2 46.4 44.1∗ 68.2∗ 28.7 33.1
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 26 / 37
37. Comparaison SPL avec le mod`le de langue Dirichlet
e
Table: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
DIR 26.7 25.0 40.9 27.1 36.2 50.2
SPL 25.6 24.9 42.1 26.8 36.4 46.9
P10 ROB-d ROB-t GIR T3-t CL-t CL-d
DIR 45.2 43.8 68.2 52.8 27.3 32.8
SPL 46.6 44.7 70.8 55.3 27.1 32.9
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 27 / 37
38. Comparaison SPL avec les mod`les InL2 et PL2 (DFR)
e
Table: SPL versus DFR models after 10 splits; bold indicates significant difference
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
INL 26.9 24.3 40.4 24.8 35.5 49.4
SPL 26.6 24.6 40.7 25.4 34.6 48.1
P10 ROB-d ROB-t GIR T3-t CL-t CL-d
INL 47.6 42.8 63.4 52.5 28.8 33.8
SPL 47.8 44.1 68.0 53.9 28.7 33.6
MAP ROB-d ROB-t GIR T3-t CL-t CL-d
SPL 26.3 25.2 42.7 25.3 37.4 44.1
PL2 26.3 25.2 42.8 25.8 37.3 45.7
P10 ROB-d ROB-t GIR T3-t CL-t CL-d
SPL 47.0 45.2 69.8 55.4 25.9 32.9
PL2 46.0 45.2 69.3 54.8 26.2 32.7
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 28 / 37
39. Extension au PRF
Moyenne de l’information sur les premiers documents retourn´s:
e
1 d
Info(w ) = − log(P(Xw > tw ; λw ))
n
d∈R
Mise ` jour de la requˆte: (similaire au mod`le Bo2)
a e e
q
q2 xw Info(w )
xw = q +β
maxw xw maxw Info(w )
Le mod`le de PRF et le mod`le de RI sont les mˆmes !
e e e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 29 / 37
41. Table: Mean average precision of PRF experiments; bold indicates best
performance, ∗ significant difference over LM and Bo2 models
Model N TC ROB-t GIR T3-t CL-t
LGD 5 5 28.3∗ 44.3 32.9∗ 37.6
SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗
LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗
SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗
LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9
SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗
LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6
SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗
LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗
SPL 20 20 28.8 50.3∗ 33.9 39.0∗
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 31 / 37
42. Conclusion
Caract´risation analytique des contraintes heuristiques
e
Ph´nom`ne de rafale pour les lois continues
e e
Une nouvelle famille de mod`les de RI
e
”En Rafale” ⇒ Mod`le concave
e
Extension au PRF
Les mod`les log-logistique et loi de puissance liss´e
e e
LGD contient un mod`le de langue
e
LGD, SPL ≥ mod`le de langues
e
LGD,SPL ≈ DFR
plus simple que les mod`les DFR
e
les meilleures performances en PRF
Questions ?
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 32 / 37
43. La distribution log-logistique
Church et al. 2 ont propos´ la distribution N´gative Binomiale
e e
(m´lange infini de Poisson) pour mod´liser les fr´quences.
e e e
⇒ ”meilleur” mod`le que 2-Poisson
e
Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale
e e
(BNB):
BNB(x|r ) = Beta(θ|1, 1)Negbin(x|θ, r )
On consid`re ici une loi log-logistique contrainte:
e
r
P(X > x|r ) = (r m´diane)
e
(x + r )
Cette log-logistique contrainte peut ˆtre vue comme une version
e
continue d’une Beta-N´gative Binomiale
e
2
Poisson Mixtures
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 33 / 37
44. Relation avec les Mod`les DFR
e
Les mod`les DFR sont d´finis de la mani`re suivante:
e e e
q d d q d d
RSV (q, d) = xw Inf2 (tw )Inf1 (tw ) = −xw Inf2 (tw ) log Prob1 (tw )
w ∈q∩d w ∈q∩d
On peut montrer que :
Inf2 rend les mod`les DFR concave (condition 2)
e
Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances
e
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 34 / 37
45. Experimental Fit
Chi Square test on Robust collection, with terms appearing with document
frequency ≥ 100; Frequency range divided into three intervals: [0, 3[,
[3, 10[ and [10, 100[.
Hypothesis
ˆ
Poisson: λw = Fw
N
ˆ
Log-Logistic: λw = Fw
N
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 35 / 37
47. Comparaison des mod`les
e
r = 0.005
8
LGD
2 4 6
INL
Weight
SPL
PL
0
0 5 10 15
x
r = 5e−04
LGD
8
INL
Weight
SPL
4
PL
0
0 5 10 15
x
S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information
e e 18 Mars 2010 37 / 37