Les moteurs de recherche utilisent des algorithmes pour qualifier la pertinence des contenus d'une page web.
Pour écrire des contenus - pour l'e-tourisme ici - on peut s'aider d'une analyse algorithmique pour déterminer quels sont les termes importants de la thématique étudiée, et ainsi concevoir des textes qui ont toutes les raisons d'être considérés comme pertinents par un moteur de recherche.
3. algo de
classement
web
QU’EST-CE QU’UN MOTEUR
DE RECHERCHE ?
classement
index
analyse de la
pertinence
analyse de
l’importance
requête
de l’utilisateur
classement
classement
contenu des
pages
liens entre
les pages
spider
4. algo de
classement
web
QU’EST-CE QU’UN MOTEUR
DE RECHERCHE ?
classement
index
requête
de l’utilisateur
classement
classement
contenu des
pages
spider
Aujourd’hui,
on parle de
ça !
analyse de la
pertinence
5. LA NOTION DE PERTINENCE
Un document est pertinent pour une requête s’il répond
au besoin informationnel sous-jacent
besoin
informationnel
« île paradisiaque »
requête Résultats
pertinent
pertinent
non pertinent
non pertinent
6. LA NOTION DE PERTINENCE
On veut écrire des textes que le moteur va considérer
comme pertinents
Il faut donc savoir ce que le moteur appelle un texte
pertinent
Voyons donc le principe (simplifié) de ce qu’est la pertinence
d’un point de vue ALGORITHMIQUE
7. LA NOTION DE PERTINENCE
• On va préférer utiliser un modèle de classement de la
pertinence, appelé pertinence partielle.
!
• Le modèle vectoriel implémente cette notion de
pertinence partielle.
!
• La pertinence est une notion sémantique, difficile à
définir.
!
On va faire un abus et considérer que la similarité
syntaxique entre documents est une bonne mesure de
la pertinence
8. UN TEXTE EST UNVECTEUR
Le petit était perdu dans la forêt
Le loup était aussi dans la forêt
? ? ? ? ? ? ? ? ?
9. LE MODÈLEVECTORIEL
(SALTON 1962)
• On construit l’espace des termes : c’est un espace de
dimension n, où n est le nombre total de termes différents
existants dans les documents
!
• Chaque document est représenté par un vecteur avec n
composants, chaque composant correspond à un terme
possible
!
• Chaque case contient le poids du terme correspond à la
case
!
• Il existe plusieurs types de poids
10. LA LEMMATISATION
POUR QUE CE SOIT PLUS SIMPLE POUR LE MOTEUR
Le petit était perdu dans la forêt
Le loup était aussi dans la forêt
petit
forêt
loup
perdre
12. FABRIQUER LEVECTEUR
La similarité est donnée par le cosinus de l’angle entre les
vecteurs des documents (cosinus de Salton)
d1
d2θ
On parle
d’alignement
sémantique
13. LE MODELEVECTORIEL
QUELLE FONCTION DE POIDS CHOISIR ?
tf.idf (term frequency - inverse document frequency)
!
!
!
!
!
!
La tf.idf favorise les termes qui apparaissent peu souvent
pour opérer une classification efficace
On n’utilise pas les poids simples !
14. TF . IDF
!
•Term frequency (TF)
!
Un terme qui apparaît souvent dans un document a
plus de poids qu’un terme qui apparaît peu
!
• Inverse Document Frequency (IDF)
!
Un terme qui apparaît dans peu de documents est plus
discriminant qu’un terme qui apparaît dans beaucoup
de documents
15. QUE FAIRE ?
ALIGNEMENT SÉMANTIQUE
!
• Pour être pertinent sur un ensemble de mots-clés,
un texte doit être en alignement sémantique sur ces
mots-clés
!
• Impact fort sur la rédaction et l’organisation des
contenus
!
• Faire une page spécialisée par groupe de requêtes
proches
!
16. QUE FAIRE ?
TF*IDF
!
Pour augmenter sa pertinence pour une thématique
particulière :
!
• Faire apparaître des termes fréquents de la thématique :
pour pousser le facteur tf
!
•Ajouter quelques termes rares de la thématique :
Pour pousser le facteur idf
!
La rédaction doit être de très bon niveau pour avoir les
mots avec le plus d’impacts sur la tf*idf
17. QUE FAIRE ?
TF*IDF
!
Pour augmenter sa pertinence pour une thématique
particulière :
!
• Faire apparaître des termes fréquents de la thématique :
• Il faut bien connaître sa thématique, évaluer
statistiquement son corpus
• On veut faire comprendre sans ambiguïté la
thématique de la page
!
•Ajouter quelques termes rares de la thématique :
• Faire appel à des experts, des sites de référence, et
aux statistiques du corpus pour trouver ces mots.
• Attention à la rédaction par des personnes non-
averties, de profils différents de la cible
18. QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Un bon corpus est :
• Représentatif de sa thématique
• Volumineux
• Toujours imparfait (on ne connait pas ceux utilisés par
les moteurs de recherche)
19. QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Pour constituer un corpus, on va :
• sélectionner des sites web
• scrapper les pages de ces sites
• extraire les mots des pages en les comptant
• calculer les co-occurences
• stocker les mots en base de données pour permettre
une réutilisation sans douleur
20. QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Prendre les sites de référence
musée
rouen
rouen-
musees.fr/
www.rouentouris
me.com
www.amis-
musees-rouen.fr/
www.museedes
antiquites.fr/
21. QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Scrapper des pages de ces sites
Exemple
• on peut utiliser scrapy, un logiciel open source
• http://scrapy.org/
• Code en python, donc compatible Windows, Linux,
Mac OS X
22. QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Extraire les mots des pages, les compter les
stocker
Utiliser Scrapy : après le crawl
!
• Il faut extraire les entrées du fichier de résultats
• Il faut nettoyer les entrées (accents, balises, sauts de lignes, etc.)
• il faut compter
• il faut stocker le corpus dans une base de données
23. QUE FAIRE ?
CONSTRUIRE UN CORPUS
!
Stockage en base de données :
! id mot quantite entite
1 moyen age 11 0
2 musée 7619 0
3 egypte 10 0
4 oeuvre 92 0
5 visite 2183 0
6 rouen 166 1
7 lillebonne 148 1
8 ivoire 505 1
9 rouen 1645 1
10 attendu 146 0
24. On ajoute dans les textes des termes qui sont fréquemment
associés aux mots qu’on va viser.
QUE FAIRE ?
COOCCURRENCE
!
vélo balade
saint-raphael
vélo balade
saint-raphael
VTT
esterel
verdon
+
34. EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.
!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
35. EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.
!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
36. EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.
!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.
37. EN PRATIQUE
!
Et finalement :
Rédiger !
Si vous voulez faire du vélo
dans le Var cet été, prenez
votreVTT pour parcourir les
alentours de Saint-Raphael.
!
Vous pouvez prendre le
départ près du littoral, pour
un parcours qui vous
mènera au pied de l’Esterel.