Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Combinaison d'informations de sous-mots et de modèles de langue pour la Recherche d'Information
1. Combinaison d’informations de sous-mots et de modèles
de langue pour la Recherche d’Information
Jibril Frej, Philippe Mulhem, Didier Schwab, Jean-Pierre Chevallet
Univ. Grenoble Alpes, CNRS, Grenoble INP*, LIG, 38000 Grenoble, France
* Institute of Engineering Univ. Grenoble Alpes
18 Mai, 2018
Jibril Frej CORIA 18 Mai, 2018 1 / 23
2. Introduction
term mismatch (documents courts)
Solution : ressources sémantiques (ex : Plongements de mots)
pb : couverture de la ressource
En 2015 Zuccon et al. proposent un Modèle de Langue Neuronal
Plongements utilisés : Word2vec
Nous proposons d’utiliser Fasttext
Peux associer un vecteur aux mots hors corpus d’apprentissage
Jibril Frej CORIA 18 Mai, 2018 2 / 23
3. Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 3 / 23
4. Plongements de mots
Mot −→ espace latent
Basés sur l’hypothèse distributionnelle (Harris, 1954) :
«Les mots qui apparaissent dans les mêmes contextes linguistiques
partagent des significations similaires »
Jibril Frej CORIA 18 Mai, 2018 4 / 23
5. Fasttext
Modèle récent (fin 2016) similaire à Word2vec
Un vecteur est associé à chaque n-gramme de caractères
Le vecteur d’un mot est obtenu en sommant les vecteurs de ses
n-gramme de caractères
−−→
chat =
−−→
< c +
−→
ch +
−→
ha +
−→
at +
−→
t >
Le reste du modèle est identique à Word2vec
Associe des vecteurs à des mots qui ne sont pas dans le corpus
d’apprentissage
Plongements des mots rares de meilleur qualité que Word2vec
Jibril Frej CORIA 18 Mai, 2018 5 / 23
6. Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 6 / 23
7. Modèles de Langue pour la RI
Estimer le modèle de chaque document p(mot|MD)
Estimer le modèle de la collection (lissage) : p(mot|MC )
Classer les documents selon leur probabilité de générer la requête :
log (p(r|D)) =
mot∈r
log (αpml (mot|MD) + (1 − α)pml (mot|MC ))
Limitation : estimation des modèles basée sur la correspondance
exacte (exact matching)
Jibril Frej CORIA 18 Mai, 2018 7 / 23
8. Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 8 / 23
9. Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 9 / 23
10. Modèle de langue pour la RI
Jibril Frej CORIA 18 Mai, 2018 10 / 23
11. Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 11 / 23
12. Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 12 / 23
13. Notre contribution
Le Modèle de Langue Neuronal original : Word2vec
Nous proposons d’utiliser Fasttext pour plusieurs raisons :
Les embeddings de mots rares sont de meilleure qualité
Nous pouvons associer des embeddings à des mots absents du corpus
d’entraînement
Fasttext a besoin de moins de données d’entraînement que Word2vec
Jibril Frej CORIA 18 Mai, 2018 13 / 23
14. Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 14 / 23
15. Implementation
Nous avons développé notre propre Système de Recherche
d’Information en C++ pour les raisons suivantes :
Libérer contrainte fichier inverse
Calculs parallélisés en mémoire
A posteriori compatible fichier inverse
Produit les mêmes résultats que Terrier avec des modèles de langue
classiques
Jibril Frej CORIA 18 Mai, 2018 15 / 23
16. Collections
Nous avons effectué nos expériences sur 4 collections de TREC
composées d’articles de journaux.
Collection #Docs
Average
document
length
Vocabulary
Size
Stemmed
Vocabulary
Size
AP88-89 164 597 245.04 240 239 189 301
FT91-94 210 158 205.66 271 137 216 339
LA 131 896 243.86 235 534 180 982
WSJ87-92 173 252 226.46 211 990 162 576
Jibril Frej CORIA 18 Mai, 2018 16 / 23
17. Plongements de mots
Nous avons considéré 3 modèles de plongements :
w2v : Word2vec
ft- : Fasttext sans associer des vecteurs aux mots hors corpus
d’entraînement
ft : Fasttext
Corpus d’entraînement :
TREC
Wikipedia
Concatenation
Jibril Frej CORIA 18 Mai, 2018 17 / 23
18. Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 18 / 23
20. Comparaison avec les résultats de l’article original
Méthode
AP88-89 WSJ87-92
MAP originale MAP MAP originale MAP
Dirichlet 22.69 27.36 21.71 24.72
w2v 24.27* 27.30 22.66* 24.35
Table – Comparaison des valeurs de MAP
Nous n’observons pas les même progrès
Baseline très différente
pré-traitement ?
Jibril Frej CORIA 18 Mai, 2018 20 / 23
21. Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 21 / 23
22. Conclusion
Résultats très différents de ceux de l’article original
Fasttext ≈ Word2vec
TREC ≈ Wikipedia
La concaténation des vecteurs n’a pas non plus d’effet statistiquement
significatif
Introduire des ressources sémantiques autrement
autres type de ressources ?
Jibril Frej CORIA 18 Mai, 2018 22 / 23