Combinaison d'informations de sous-mots et de modèles de langue pour la Recherche d'Information

•

0 gefällt mir•178 views

CORIA-TALN 2018

Slides de la conférence conjointe CORIA-TALN 2018 qui s'est déroulé du 14 au 18 mai 2018 à Rennes. https://project.inria.fr/coriataln2018/

Combinaison d’informations de sous-mots et de modèles
de langue pour la Recherche d’Information
Jibril Frej, Philippe Mulhem, Didier Schwab, Jean-Pierre Chevallet
Univ. Grenoble Alpes, CNRS, Grenoble INP*, LIG, 38000 Grenoble, France
* Institute of Engineering Univ. Grenoble Alpes
18 Mai, 2018
Jibril Frej CORIA 18 Mai, 2018 1 / 23

Introduction
term mismatch (documents courts)
Solution : ressources sémantiques (ex : Plongements de mots)
pb : couverture de la ressource
En 2015 Zuccon et al. proposent un Modèle de Langue Neuronal
Plongements utilisés : Word2vec
Nous proposons d’utiliser Fasttext
Peux associer un vecteur aux mots hors corpus d’apprentissage
Jibril Frej CORIA 18 Mai, 2018 2 / 23

Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 3 / 23

Plongements de mots
Mot −→ espace latent
Basés sur l’hypothèse distributionnelle (Harris, 1954) :
«Les mots qui apparaissent dans les mêmes contextes linguistiques
partagent des signiﬁcations similaires »
Jibril Frej CORIA 18 Mai, 2018 4 / 23

Fasttext
Modèle récent (ﬁn 2016) similaire à Word2vec
Un vecteur est associé à chaque n-gramme de caractères
Le vecteur d’un mot est obtenu en sommant les vecteurs de ses
n-gramme de caractères
−−→
chat =
−−→
< c +
−→
ch +
−→
ha +
−→
at +
−→
t >
Le reste du modèle est identique à Word2vec
Associe des vecteurs à des mots qui ne sont pas dans le corpus
d’apprentissage
Plongements des mots rares de meilleur qualité que Word2vec
Jibril Frej CORIA 18 Mai, 2018 5 / 23

Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 6 / 23

Modèles de Langue pour la RI
Estimer le modèle de chaque document p(mot|MD)
Estimer le modèle de la collection (lissage) : p(mot|MC )
Classer les documents selon leur probabilité de générer la requête :
log (p(r|D)) =
mot∈r
log (αpml (mot|MD) + (1 − α)pml (mot|MC ))
Limitation : estimation des modèles basée sur la correspondance
exacte (exact matching)
Jibril Frej CORIA 18 Mai, 2018 7 / 23

Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 8 / 23

Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 9 / 23

Modèle de langue pour la RI
Jibril Frej CORIA 18 Mai, 2018 10 / 23

Modèles de Langue neuronaux pour la RI
Jibril Frej CORIA 18 Mai, 2018 11 / 23

Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 12 / 23

Notre contribution
Le Modèle de Langue Neuronal original : Word2vec
Nous proposons d’utiliser Fasttext pour plusieurs raisons :
Les embeddings de mots rares sont de meilleure qualité
Nous pouvons associer des embeddings à des mots absents du corpus
d’entraînement
Fasttext a besoin de moins de données d’entraînement que Word2vec
Jibril Frej CORIA 18 Mai, 2018 13 / 23

Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 14 / 23

Implementation
Nous avons développé notre propre Système de Recherche
d’Information en C++ pour les raisons suivantes :
Libérer contrainte ﬁchier inverse
Calculs parallélisés en mémoire
A posteriori compatible ﬁchier inverse
Produit les mêmes résultats que Terrier avec des modèles de langue
classiques
Jibril Frej CORIA 18 Mai, 2018 15 / 23

Collections
Nous avons eﬀectué nos expériences sur 4 collections de TREC
composées d’articles de journaux.
Collection #Docs
Average
document
length
Vocabulary
Size
Stemmed
Vocabulary
Size
AP88-89 164 597 245.04 240 239 189 301
FT91-94 210 158 205.66 271 137 216 339
LA 131 896 243.86 235 534 180 982
WSJ87-92 173 252 226.46 211 990 162 576
Jibril Frej CORIA 18 Mai, 2018 16 / 23

Plongements de mots
Nous avons considéré 3 modèles de plongements :
w2v : Word2vec
ft- : Fasttext sans associer des vecteurs aux mots hors corpus
d’entraînement
ft : Fasttext
Corpus d’entraînement :
TREC
Wikipedia
Concatenation
Jibril Frej CORIA 18 Mai, 2018 17 / 23

Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 18 / 23

Résultats
Méthode AP88-89 FT91-94 LA WSJ87-92
Dirichlet 27.36 23.31 20.99 24.72
w2c 27.30 22.82 21.59 24.35
ft- 27.19 23.41 21.96 24.23
ft 27.18 22.71 22.21 24.32
wiki-w2c 27.41 23.20 22.23 24.43
wiki-ft- 27.50 22.85 21.72 24.46
wiki-ft 27.44 22.96 21.76 24.45
concat-w2c 27.41 23.04 22.40∗
24.50
concat-ft- 27.53 23.13 22.74∗
24.80
concat-ft 27.50 22.87 22.63∗
24.69
Table – MAP des Modèles de Langue Neuronaux utilisant diﬀérents Embeddings
Jibril Frej CORIA 18 Mai, 2018 19 / 23

Comparaison avec les résultats de l’article original
Méthode
AP88-89 WSJ87-92
MAP originale MAP MAP originale MAP
Dirichlet 22.69 27.36 21.71 24.72
w2v 24.27* 27.30 22.66* 24.35
Table – Comparaison des valeurs de MAP
Nous n’observons pas les même progrès
Baseline très diﬀérente
pré-traitement ?
Jibril Frej CORIA 18 Mai, 2018 20 / 23

Sommaire
1 Plongements de mots
2 Modèles de Langue neuronaux pour la RI
Modèles de Langue pour la RI
Modèles de Langue neuronaux pour la RI
3 Notre contribution
4 Implémentation et données
5 Résultats
6 Conclusion
Jibril Frej CORIA 18 Mai, 2018 21 / 23

Conclusion
Résultats très différents de ceux de l’article original
Fasttext ≈ Word2vec
TREC ≈ Wikipedia
La concaténation des vecteurs n’a pas non plus d’effet statistiquement
significatif
Introduire des ressources sémantiques autrement
autres type de ressources ?
Jibril Frej CORIA 18 Mai, 2018 22 / 23

Merci
Questions ?
Jibril Frej CORIA 18 Mai, 2018 23 / 23

Empfohlen

Cours de topic modeling

Cours de topic modeling

Cours de topic modelingAlexis Perrier

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...Alexis Perrier

Slides de fin de conférence CORIA-TALN 2018

Slides de fin de conférence CORIA-TALN 2018

Slides de fin de conférence CORIA-TALN 2018CORIA-TALN 2018

Portée de la négation : détection par apprentissage supervisé en français et ...

Portée de la négation : détection par apprentissage supervisé en français et ...

Portée de la négation : détection par apprentissage supervisé en français et ...CORIA-TALN 2018

Construction d'un corpus multilingue annoté en relations de traduction

Construction d'un corpus multilingue annoté en relations de traduction

Construction d'un corpus multilingue annoté en relations de traductionCORIA-TALN 2018

Analyse des noms agentifs dans des espaces vectoriels distributionnels

Analyse des noms agentifs dans des espaces vectoriels distributionnels

Analyse des noms agentifs dans des espaces vectoriels distributionnelsCORIA-TALN 2018

Décodeur neuronal pour la transcription de documents manuscrits anciens

Décodeur neuronal pour la transcription de documents manuscrits anciens

Décodeur neuronal pour la transcription de documents manuscrits anciensCORIA-TALN 2018

Session plénière

Session plénière

Session plénièreCORIA-TALN 2018

Empfohlen

Cours de topic modeling

Cours de topic modeling

Cours de topic modelingAlexis Perrier

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...

Topic modeling of Twitter followers - Paris Machine Learning meetup - Alex Pe...Alexis Perrier

Slides de fin de conférence CORIA-TALN 2018

Slides de fin de conférence CORIA-TALN 2018

Slides de fin de conférence CORIA-TALN 2018CORIA-TALN 2018

Portée de la négation : détection par apprentissage supervisé en français et ...

Portée de la négation : détection par apprentissage supervisé en français et ...

Portée de la négation : détection par apprentissage supervisé en français et ...CORIA-TALN 2018

Construction d'un corpus multilingue annoté en relations de traduction

Construction d'un corpus multilingue annoté en relations de traduction

Construction d'un corpus multilingue annoté en relations de traductionCORIA-TALN 2018

Analyse des noms agentifs dans des espaces vectoriels distributionnels

Analyse des noms agentifs dans des espaces vectoriels distributionnels

Analyse des noms agentifs dans des espaces vectoriels distributionnelsCORIA-TALN 2018

Décodeur neuronal pour la transcription de documents manuscrits anciens

Décodeur neuronal pour la transcription de documents manuscrits anciens

Décodeur neuronal pour la transcription de documents manuscrits anciensCORIA-TALN 2018

Session plénière

Session plénière

Session plénièreCORIA-TALN 2018

2024 State of Marketing Report – by Hubspot

2024 State of Marketing Report – by Hubspot

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPT

Everything You Need To Know About ChatGPT

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage Engineerings

Product Design Trends in 2024 | Teenage Engineerings

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental Health

How Race, Age and Gender Shape Attitudes Towards Mental Health

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture Code

Skeleton Culture Code

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024

PEPSICO Presentation to CAGNY Conference Feb 2024

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)

Content Methodology: A Best Practices Report (Webinar)

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024

How to Prepare For a Successful Job Search for 2024

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie Insights

Social Media Marketing Trends 2024 // The Global Indie Insights

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024

Trends In Paid Search: Navigating The Digital Landscape In 2024

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summary

5 Public speaking tips from TED - Visualized summary

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd

ChatGPT and the Future of Work - Clark Boyd

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next

Getting into the tech field. what next

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search Intent

Google's Just Not That Into You: Understanding Core Updates & Search Intent

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations

How to have difficult conversations

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data Science

Introduction to Data Science

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best Practices

Time Management & Productivity - Best Practices

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project management

The six step guide to practical project management

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot

2024 State of Marketing Report – by Hubspot

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPT

Everything You Need To Know About ChatGPT

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage Engineerings

Product Design Trends in 2024 | Teenage Engineerings

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental Health

How Race, Age and Gender Shape Attitudes Towards Mental Health

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture Code

Skeleton Culture Code

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024

PEPSICO Presentation to CAGNY Conference Feb 2024

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)

Content Methodology: A Best Practices Report (Webinar)

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024

How to Prepare For a Successful Job Search for 2024

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie Insights

Social Media Marketing Trends 2024 // The Global Indie Insights

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024

Trends In Paid Search: Navigating The Digital Landscape In 2024

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summary

5 Public speaking tips from TED - Visualized summary

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd

ChatGPT and the Future of Work - Clark Boyd

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next

Getting into the tech field. what next

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search Intent

Google's Just Not That Into You: Understanding Core Updates & Search Intent

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations

How to have difficult conversations

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data Science

Introduction to Data Science

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best Practices

Time Management & Productivity - Best Practices

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project management

The six step guide to practical project management

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Empfohlen (20)

2024 State of Marketing Report – by Hubspot

2024 State of Marketing Report – by Hubspot

2024 State of Marketing Report – by Hubspot

Everything You Need To Know About ChatGPT

Everything You Need To Know About ChatGPT

Everything You Need To Know About ChatGPT

Product Design Trends in 2024 | Teenage Engineerings

Product Design Trends in 2024 | Teenage Engineerings

Product Design Trends in 2024 | Teenage Engineerings

How Race, Age and Gender Shape Attitudes Towards Mental Health

How Race, Age and Gender Shape Attitudes Towards Mental Health

How Race, Age and Gender Shape Attitudes Towards Mental Health

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

Skeleton Culture Code

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

PEPSICO Presentation to CAGNY Conference Feb 2024

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

Content Methodology: A Best Practices Report (Webinar)

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

How to Prepare For a Successful Job Search for 2024

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Social Media Marketing Trends 2024 // The Global Indie Insights

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

Trends In Paid Search: Navigating The Digital Landscape In 2024

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

5 Public speaking tips from TED - Visualized summary

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

ChatGPT and the Future of Work - Clark Boyd

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Getting into the tech field. what next

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

Google's Just Not That Into You: Understanding Core Updates & Search Intent

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

How to have difficult conversations

How to have difficult conversations

Introduction to Data Science

Introduction to Data Science

Introduction to Data Science

Time Management & Productivity - Best Practices

Time Management & Productivity - Best Practices

Time Management & Productivity - Best Practices

The six step guide to practical project management

The six step guide to practical project management

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Combinaison d'informations de sous-mots et de modèles de langue pour la Recherche d'Information

1. Combinaison d’informations de sous-mots et de modèles de langue pour la Recherche d’Information Jibril Frej, Philippe Mulhem, Didier Schwab, Jean-Pierre Chevallet Univ. Grenoble Alpes, CNRS, Grenoble INP*, LIG, 38000 Grenoble, France * Institute of Engineering Univ. Grenoble Alpes 18 Mai, 2018 Jibril Frej CORIA 18 Mai, 2018 1 / 23

2. Introduction term mismatch (documents courts) Solution : ressources sémantiques (ex : Plongements de mots) pb : couverture de la ressource En 2015 Zuccon et al. proposent un Modèle de Langue Neuronal Plongements utilisés : Word2vec Nous proposons d’utiliser Fasttext Peux associer un vecteur aux mots hors corpus d’apprentissage Jibril Frej CORIA 18 Mai, 2018 2 / 23

3. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 3 / 23

4. Plongements de mots Mot −→ espace latent Basés sur l’hypothèse distributionnelle (Harris, 1954) : «Les mots qui apparaissent dans les mêmes contextes linguistiques partagent des signiﬁcations similaires » Jibril Frej CORIA 18 Mai, 2018 4 / 23

5. Fasttext Modèle récent (ﬁn 2016) similaire à Word2vec Un vecteur est associé à chaque n-gramme de caractères Le vecteur d’un mot est obtenu en sommant les vecteurs de ses n-gramme de caractères −−→ chat = −−→ < c + −→ ch + −→ ha + −→ at + −→ t > Le reste du modèle est identique à Word2vec Associe des vecteurs à des mots qui ne sont pas dans le corpus d’apprentissage Plongements des mots rares de meilleur qualité que Word2vec Jibril Frej CORIA 18 Mai, 2018 5 / 23

6. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 6 / 23

7. Modèles de Langue pour la RI Estimer le modèle de chaque document p(mot|MD) Estimer le modèle de la collection (lissage) : p(mot|MC ) Classer les documents selon leur probabilité de générer la requête : log (p(r|D)) = mot∈r log (αpml (mot|MD) + (1 − α)pml (mot|MC )) Limitation : estimation des modèles basée sur la correspondance exacte (exact matching) Jibril Frej CORIA 18 Mai, 2018 7 / 23

8. Modèles de Langue neuronaux pour la RI Jibril Frej CORIA 18 Mai, 2018 8 / 23

9. Modèles de Langue neuronaux pour la RI Jibril Frej CORIA 18 Mai, 2018 9 / 23

10. Modèle de langue pour la RI Jibril Frej CORIA 18 Mai, 2018 10 / 23

11. Modèles de Langue neuronaux pour la RI Jibril Frej CORIA 18 Mai, 2018 11 / 23

12. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 12 / 23

13. Notre contribution Le Modèle de Langue Neuronal original : Word2vec Nous proposons d’utiliser Fasttext pour plusieurs raisons : Les embeddings de mots rares sont de meilleure qualité Nous pouvons associer des embeddings à des mots absents du corpus d’entraînement Fasttext a besoin de moins de données d’entraînement que Word2vec Jibril Frej CORIA 18 Mai, 2018 13 / 23

14. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 14 / 23

15. Implementation Nous avons développé notre propre Système de Recherche d’Information en C++ pour les raisons suivantes : Libérer contrainte ﬁchier inverse Calculs parallélisés en mémoire A posteriori compatible ﬁchier inverse Produit les mêmes résultats que Terrier avec des modèles de langue classiques Jibril Frej CORIA 18 Mai, 2018 15 / 23

16. Collections Nous avons eﬀectué nos expériences sur 4 collections de TREC composées d’articles de journaux. Collection #Docs Average document length Vocabulary Size Stemmed Vocabulary Size AP88-89 164 597 245.04 240 239 189 301 FT91-94 210 158 205.66 271 137 216 339 LA 131 896 243.86 235 534 180 982 WSJ87-92 173 252 226.46 211 990 162 576 Jibril Frej CORIA 18 Mai, 2018 16 / 23

17. Plongements de mots Nous avons considéré 3 modèles de plongements : w2v : Word2vec ft- : Fasttext sans associer des vecteurs aux mots hors corpus d’entraînement ft : Fasttext Corpus d’entraînement : TREC Wikipedia Concatenation Jibril Frej CORIA 18 Mai, 2018 17 / 23

18. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 18 / 23

19. Résultats Méthode AP88-89 FT91-94 LA WSJ87-92 Dirichlet 27.36 23.31 20.99 24.72 w2c 27.30 22.82 21.59 24.35 ft- 27.19 23.41 21.96 24.23 ft 27.18 22.71 22.21 24.32 wiki-w2c 27.41 23.20 22.23 24.43 wiki-ft- 27.50 22.85 21.72 24.46 wiki-ft 27.44 22.96 21.76 24.45 concat-w2c 27.41 23.04 22.40∗ 24.50 concat-ft- 27.53 23.13 22.74∗ 24.80 concat-ft 27.50 22.87 22.63∗ 24.69 Table – MAP des Modèles de Langue Neuronaux utilisant diﬀérents Embeddings Jibril Frej CORIA 18 Mai, 2018 19 / 23

20. Comparaison avec les résultats de l’article original Méthode AP88-89 WSJ87-92 MAP originale MAP MAP originale MAP Dirichlet 22.69 27.36 21.71 24.72 w2v 24.27* 27.30 22.66* 24.35 Table – Comparaison des valeurs de MAP Nous n’observons pas les même progrès Baseline très diﬀérente pré-traitement ? Jibril Frej CORIA 18 Mai, 2018 20 / 23

21. Sommaire 1 Plongements de mots 2 Modèles de Langue neuronaux pour la RI Modèles de Langue pour la RI Modèles de Langue neuronaux pour la RI 3 Notre contribution 4 Implémentation et données 5 Résultats 6 Conclusion Jibril Frej CORIA 18 Mai, 2018 21 / 23

22. Conclusion Résultats très différents de ceux de l’article original Fasttext ≈ Word2vec TREC ≈ Wikipedia La concaténation des vecteurs n’a pas non plus d’effet statistiquement significatif Introduire des ressources sémantiques autrement autres type de ressources ? Jibril Frej CORIA 18 Mai, 2018 22 / 23

23. Merci Questions ? Jibril Frej CORIA 18 Mai, 2018 23 / 23