SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
Combinaison d’informations de sous-mots et de modèles
de langue pour la Recherche d’Information
Jibril Frej, Philippe Mulhem, Didier Schwab, Jean-Pierre Chevallet
Univ. Grenoble Alpes, CNRS, Grenoble INP*, LIG, 38000 Grenoble, France
* Institute of Engineering Univ. Grenoble Alpes
18 Mai, 2018
Jibril Frej CORIA 18 Mai, 2018 1 / 23
Introduction
term mismatch (documents courts)
Solution : ressources sémantiques (ex : Plongements de mots)
pb : couverture de la ressource
En 2015 Zuccon et al. proposent un Modèle de Langue Neuronal
Plongements utilisés : Word2vec
Nous proposons d’utiliser Fasttext
Peux associer un vecteur aux mots hors corpus d’apprentissage
Jibril Frej CORIA 18 Mai, 2018 2 / 23
Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 3 / 23
Plongements de mots
Mot −→ espace latent
Basés sur l’hypothèse distributionnelle (Harris, 1954) :
«Les mots qui apparaissent dans les mêmes contextes linguistiques
partagent des significations similaires »
Jibril Frej CORIA 18 Mai, 2018 4 / 23
Fasttext
Modèle récent (fin 2016) similaire à Word2vec
Un vecteur est associé à chaque n-gramme de caractères
Le vecteur d’un mot est obtenu en sommant les vecteurs de ses
n-gramme de caractères
−−→
chat =
−−→
< c +
−→
ch +
−→
ha +
−→
at +
−→
t >
Le reste du modèle est identique à Word2vec
Associe des vecteurs à des mots qui ne sont pas dans le corpus
d’apprentissage
Plongements des mots rares de meilleur qualité que Word2vec
Jibril Frej CORIA 18 Mai, 2018 5 / 23
Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 6 / 23
Modèles de Langue pour la RI
Estimer le modèle de chaque document p(mot|MD)
Estimer le modèle de la collection (lissage) : p(mot|MC )
Classer les documents selon leur probabilité de générer la requête :
log (p(r|D)) =
mot∈r
log (αpml (mot|MD) + (1 − α)pml (mot|MC ))
Limitation : estimation des modèles basée sur la correspondance
exacte (exact matching)
Jibril Frej CORIA 18 Mai, 2018 7 / 23
Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 8 / 23
Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 9 / 23
Modèle de langue pour la RI
Jibril Frej CORIA 18 Mai, 2018 10 / 23
Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 11 / 23
Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 12 / 23
Notre contribution
Le Modèle de Langue Neuronal original : Word2vec
Nous proposons d’utiliser Fasttext pour plusieurs raisons :
Les embeddings de mots rares sont de meilleure qualité
Nous pouvons associer des embeddings à des mots absents du corpus
d’entraînement
Fasttext a besoin de moins de données d’entraînement que Word2vec
Jibril Frej CORIA 18 Mai, 2018 13 / 23
Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 14 / 23
Implementation
Nous avons développé notre propre Système de Recherche
d’Information en C++ pour les raisons suivantes :
Libérer contrainte fichier inverse
Calculs parallélisés en mémoire
A posteriori compatible fichier inverse
Produit les mêmes résultats que Terrier avec des modèles de langue
classiques
Jibril Frej CORIA 18 Mai, 2018 15 / 23
Collections
Nous avons effectué nos expériences sur 4 collections de TREC
composées d’articles de journaux.
Collection #Docs
Average
document
length
Vocabulary
Size
Stemmed
Vocabulary
Size
AP88-89 164 597 245.04 240 239 189 301
FT91-94 210 158 205.66 271 137 216 339
LA 131 896 243.86 235 534 180 982
WSJ87-92 173 252 226.46 211 990 162 576
Jibril Frej CORIA 18 Mai, 2018 16 / 23
Plongements de mots
Nous avons considéré 3 modèles de plongements :
w2v : Word2vec
ft- : Fasttext sans associer des vecteurs aux mots hors corpus
d’entraînement
ft : Fasttext
Corpus d’entraînement :
TREC
Wikipedia
Concatenation
Jibril Frej CORIA 18 Mai, 2018 17 / 23
Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 18 / 23
Résultats
Méthode AP88-89 FT91-94 LA WSJ87-92
Dirichlet 27.36 23.31 20.99 24.72
w2c 27.30 22.82 21.59 24.35
ft- 27.19 23.41 21.96 24.23
ft 27.18 22.71 22.21 24.32
wiki-w2c 27.41 23.20 22.23 24.43
wiki-ft- 27.50 22.85 21.72 24.46
wiki-ft 27.44 22.96 21.76 24.45
concat-w2c 27.41 23.04 22.40∗
24.50
concat-ft- 27.53 23.13 22.74∗
24.80
concat-ft 27.50 22.87 22.63∗
24.69
Table – MAP des Modèles de Langue Neuronaux utilisant différents Embeddings
Jibril Frej CORIA 18 Mai, 2018 19 / 23
Comparaison avec les résultats de l’article original
Méthode
AP88-89 WSJ87-92
MAP originale MAP MAP originale MAP
Dirichlet 22.69 27.36 21.71 24.72
w2v 24.27* 27.30 22.66* 24.35
Table – Comparaison des valeurs de MAP
Nous n’observons pas les même progrès
Baseline très différente
pré-traitement ?
Jibril Frej CORIA 18 Mai, 2018 20 / 23
Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 21 / 23
Conclusion
Résultats très différents de ceux de l’article original
Fasttext ≈ Word2vec
TREC ≈ Wikipedia
La concaténation des vecteurs n’a pas non plus d’effet statistiquement
significatif
Introduire des ressources sémantiques autrement
autres type de ressources ?
Jibril Frej CORIA 18 Mai, 2018 22 / 23
Merci
Questions ?
Jibril Frej CORIA 18 Mai, 2018 23 / 23

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Combinaison d'informations de sous-mots et de modèles de langue pour la Recherche d'Information

  • 1. Combinaison d’informations de sous-mots et de modèles de langue pour la Recherche d’Information Jibril Frej, Philippe Mulhem, Didier Schwab, Jean-Pierre Chevallet Univ. Grenoble Alpes, CNRS, Grenoble INP*, LIG, 38000 Grenoble, France * Institute of Engineering Univ. Grenoble Alpes 18 Mai, 2018 Jibril Frej CORIA 18 Mai, 2018 1 / 23
  • 2. Introduction term mismatch (documents courts) Solution : ressources sémantiques (ex : Plongements de mots) pb : couverture de la ressource En 2015 Zuccon et al. proposent un Modèle de Langue Neuronal Plongements utilisés : Word2vec Nous proposons d’utiliser Fasttext Peux associer un vecteur aux mots hors corpus d’apprentissage Jibril Frej CORIA 18 Mai, 2018 2 / 23
  • 3. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 3 / 23
  • 4. Plongements de mots Mot −→ espace latent Basés sur l’hypothèse distributionnelle (Harris, 1954) : «Les mots qui apparaissent dans les mêmes contextes linguistiques partagent des significations similaires » Jibril Frej CORIA 18 Mai, 2018 4 / 23
  • 5. Fasttext Modèle récent (fin 2016) similaire à Word2vec Un vecteur est associé à chaque n-gramme de caractères Le vecteur d’un mot est obtenu en sommant les vecteurs de ses n-gramme de caractères −−→ chat = −−→ < c + −→ ch + −→ ha + −→ at + −→ t > Le reste du modèle est identique à Word2vec Associe des vecteurs à des mots qui ne sont pas dans le corpus d’apprentissage Plongements des mots rares de meilleur qualité que Word2vec Jibril Frej CORIA 18 Mai, 2018 5 / 23
  • 6. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 6 / 23
  • 7. Modèles de Langue pour la RI Estimer le modèle de chaque document p(mot|MD) Estimer le modèle de la collection (lissage) : p(mot|MC ) Classer les documents selon leur probabilité de générer la requête : log (p(r|D)) = mot∈r log (αpml (mot|MD) + (1 − α)pml (mot|MC )) Limitation : estimation des modèles basée sur la correspondance exacte (exact matching) Jibril Frej CORIA 18 Mai, 2018 7 / 23
  • 8. Modèles de Langue neuronaux pour la RI Jibril Frej CORIA 18 Mai, 2018 8 / 23
  • 9. Modèles de Langue neuronaux pour la RI Jibril Frej CORIA 18 Mai, 2018 9 / 23
  • 10. Modèle de langue pour la RI Jibril Frej CORIA 18 Mai, 2018 10 / 23
  • 11. Modèles de Langue neuronaux pour la RI Jibril Frej CORIA 18 Mai, 2018 11 / 23
  • 12. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 12 / 23
  • 13. Notre contribution Le Modèle de Langue Neuronal original : Word2vec Nous proposons d’utiliser Fasttext pour plusieurs raisons : Les embeddings de mots rares sont de meilleure qualité Nous pouvons associer des embeddings à des mots absents du corpus d’entraînement Fasttext a besoin de moins de données d’entraînement que Word2vec Jibril Frej CORIA 18 Mai, 2018 13 / 23
  • 14. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 14 / 23
  • 15. Implementation Nous avons développé notre propre Système de Recherche d’Information en C++ pour les raisons suivantes : Libérer contrainte fichier inverse Calculs parallélisés en mémoire A posteriori compatible fichier inverse Produit les mêmes résultats que Terrier avec des modèles de langue classiques Jibril Frej CORIA 18 Mai, 2018 15 / 23
  • 16. Collections Nous avons effectué nos expériences sur 4 collections de TREC composées d’articles de journaux. Collection #Docs Average document length Vocabulary Size Stemmed Vocabulary Size AP88-89 164 597 245.04 240 239 189 301 FT91-94 210 158 205.66 271 137 216 339 LA 131 896 243.86 235 534 180 982 WSJ87-92 173 252 226.46 211 990 162 576 Jibril Frej CORIA 18 Mai, 2018 16 / 23
  • 17. Plongements de mots Nous avons considéré 3 modèles de plongements : w2v : Word2vec ft- : Fasttext sans associer des vecteurs aux mots hors corpus d’entraînement ft : Fasttext Corpus d’entraînement : TREC Wikipedia Concatenation Jibril Frej CORIA 18 Mai, 2018 17 / 23
  • 18. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 18 / 23
  • 19. Résultats Méthode AP88-89 FT91-94 LA WSJ87-92 Dirichlet 27.36 23.31 20.99 24.72 w2c 27.30 22.82 21.59 24.35 ft- 27.19 23.41 21.96 24.23 ft 27.18 22.71 22.21 24.32 wiki-w2c 27.41 23.20 22.23 24.43 wiki-ft- 27.50 22.85 21.72 24.46 wiki-ft 27.44 22.96 21.76 24.45 concat-w2c 27.41 23.04 22.40∗ 24.50 concat-ft- 27.53 23.13 22.74∗ 24.80 concat-ft 27.50 22.87 22.63∗ 24.69 Table – MAP des Modèles de Langue Neuronaux utilisant différents Embeddings Jibril Frej CORIA 18 Mai, 2018 19 / 23
  • 20. Comparaison avec les résultats de l’article original Méthode AP88-89 WSJ87-92 MAP originale MAP MAP originale MAP Dirichlet 22.69 27.36 21.71 24.72 w2v 24.27* 27.30 22.66* 24.35 Table – Comparaison des valeurs de MAP Nous n’observons pas les même progrès Baseline très différente pré-traitement ? Jibril Frej CORIA 18 Mai, 2018 20 / 23
  • 21. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 21 / 23
  • 22. Conclusion Résultats très différents de ceux de l’article original Fasttext ≈ Word2vec TREC ≈ Wikipedia La concaténation des vecteurs n’a pas non plus d’effet statistiquement significatif Introduire des ressources sémantiques autrement autres type de ressources ? Jibril Frej CORIA 18 Mai, 2018 22 / 23
  • 23. Merci Questions ? Jibril Frej CORIA 18 Mai, 2018 23 / 23