SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Comment un moteur détermine
la pertinence d’une page?
Le cosinus de Salton
ou
modèle vectoriel.

Synthèse d’articles par Laurent Hermann || citinet.fr 2014
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une
requête -> modèle vectoriel
• Classement des pages = Page Rank
• Le modèle vectoriel initié par Gérard Salton
(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)

• Les fréquences d’occurrences des termes d’un
texte donnent une bonne représentation du
contenu du texte.
• De calculer le cosinus de l'angle formé par les
vecteurs représentant le document et la
requête.
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents
(recherche d ’information)
• En fonction des mots qu’ils contiennent
• Orienter au maximum le vecteur de la page
optimisée dans le même sens que le vecteur
de la requête ciblée.
L’idée ?
• Représenter, dans le même espace
vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimés comme
des vecteurs de termes.
• Estimer l’affinité en mesurant l’angle entre 2
vecteurs (document, requête)
• Plus l’angle entre les vecteurs document et requête
est petit (cosinus élevé) plus le document est
pertinent par rapport à la requête.
• Le cosinus de Salton varie entre 0 et 1.
Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
N dimension

• En réalité, il y a autant que dimension que de
termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…
Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivière
Texte 2 : la loutre est avec les loutres dans la rivière
On va lemmatiser tout ça (sans prendre en compte les verbes) :
• Texte 1 : loutre, rivière
Texte 2 : loutre, loutre, rivière
On va ensuite représenter chacun de ces textes par
un vecteur dans l’espace des fréquences des mots
rivière, loutre (dans cet ordre).
•Texte 1 : (1/2, 1/2 )
•Texte 2 : (1/3, 2/3)
Ce qui donne graphiquement :

Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
Itératif
•
•
•
•
•

On rédige un texte.
On le soumet à Google.
On mesure le positionnement. (un bon outil SEO Soft)
On améliore le texte.
On réitère.
Optimiser, c’est…
• Permettre de trouver le bon « angle de
Salton »

Weitere ähnliche Inhalte

Was ist angesagt?

A Simple Explanation of XLNet
A Simple Explanation of XLNetA Simple Explanation of XLNet
A Simple Explanation of XLNetDomyoung Lee
 
A Panorama of Natural Language Processing
A Panorama of Natural Language ProcessingA Panorama of Natural Language Processing
A Panorama of Natural Language ProcessingTed Xiao
 
Пневмоцистная пневмония
Пневмоцистная пневмонияПневмоцистная пневмония
Пневмоцистная пневмонияCJ_GreG
 
Basic Formal Ontology: A Common Standard
Basic Formal Ontology: A Common StandardBasic Formal Ontology: A Common Standard
Basic Formal Ontology: A Common StandardBarry Smith
 

Was ist angesagt? (6)

A Simple Explanation of XLNet
A Simple Explanation of XLNetA Simple Explanation of XLNet
A Simple Explanation of XLNet
 
A Panorama of Natural Language Processing
A Panorama of Natural Language ProcessingA Panorama of Natural Language Processing
A Panorama of Natural Language Processing
 
Пневмоцистная пневмония
Пневмоцистная пневмонияПневмоцистная пневмония
Пневмоцистная пневмония
 
2206 Modupop!
2206 Modupop!2206 Modupop!
2206 Modupop!
 
Basic Formal Ontology: A Common Standard
Basic Formal Ontology: A Common StandardBasic Formal Ontology: A Common Standard
Basic Formal Ontology: A Common Standard
 
Сифилис
СифилисСифилис
Сифилис
 

Mesure de pertinence par le Cosinus de Salton

  • 1. Comment un moteur détermine la pertinence d’une page? Le cosinus de Salton ou modèle vectoriel. Synthèse d’articles par Laurent Hermann || citinet.fr 2014
  • 2. Moteur = 2 tâches distinctes • Analyse pertinence = par rapport à une requête -> modèle vectoriel • Classement des pages = Page Rank
  • 3. • Le modèle vectoriel initié par Gérard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) • Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte. • De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
  • 4. Quoi ? • Comment classer des documents (indexation) • Comment retrouver des documents (recherche d ’information) • En fonction des mots qu’ils contiennent • Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
  • 5. L’idée ? • Représenter, dans le même espace vectoriel, les requêtes et les documents. • Documents et requêtes sont exprimés comme des vecteurs de termes. • Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
  • 6. • Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête. • Le cosinus de Salton varie entre 0 et 1. Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
  • 7. N dimension • En réalité, il y a autant que dimension que de termes.
  • 8. SEO Camp’us 2009/ Philippe YONNET
  • 9. Exemple… Prenons les textes suivants : • Texte 1 : la loutre est dans la rivière Texte 2 : la loutre est avec les loutres dans la rivière On va lemmatiser tout ça (sans prendre en compte les verbes) : • Texte 1 : loutre, rivière Texte 2 : loutre, loutre, rivière On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre). •Texte 1 : (1/2, 1/2 ) •Texte 2 : (1/3, 2/3) Ce qui donne graphiquement : Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
  • 10. Itératif • • • • • On rédige un texte. On le soumet à Google. On mesure le positionnement. (un bon outil SEO Soft) On améliore le texte. On réitère.
  • 11. Optimiser, c’est… • Permettre de trouver le bon « angle de Salton »