SlideShare ist ein Scribd-Unternehmen logo
1 von 46
1

RANKING
Présenté par : IBRAHIM Sirine
TANIOS Dany
Présenté à : Prof. CHBEIR Richard
12/27/2013
Plan
2/46



Introduction au Ranking



Les modèles de Ranking
 Vector

space model
 PageRank
 Language Model For IR
 HITS


Conclusion
12/27/2013
Ranking – Conception Globale
3/46



Lorsque l'utilisateur donne une requête, une
comparaison de mots est fait pour obtenir les
documents les plus pertinents à la requête. Les
documents pertinents sont ensuite classés en fonction
de leur degré de pertinence, importance..

C’est le Ranking
12/27/2013
Pourquoi le Ranking ?
4/46



Avec le grand nombre de pages web qui existent
aujourd'hui, les moteurs de recherche prennent un rôle
important dans l'Internet actuel.



Mais même si elles permettent de trouver des pages
pertinentes pour un sujet de recherche, de nos jours, le
nombre de résultats renvoyés est souvent trop grand
pour être exploré avec soin.

12/27/2013
Le rôle de Ranking
5/46



Le rôle des algorithmes de classement est donc de:
sélectionnez les pages qui sont probablement en mesure de
satisfaire les besoins de l'utilisateur, et de les amener dans
les premières positions.

12/27/2013
Moteur de recherche
6/46

Le moteur de recherche est un simple outil pour nous

12/27/2013
Le contenu réel des moteurs
7/46

12/27/2013
Les modèles de Ranking
8/46

12/27/2013
Les modèles de Ranking
9/46

12/27/2013
Vector Space Model
10/46









Vector Space Model a été largement utilisé dans le
domaine IR traditionnelle
La plupart des moteurs de recherche utilisent également
des mesures de similarité basées sur ce modèle pour
classer les documents sur le Web
Chaque terme , i, dans un document ou une requête, j,
possède un poids de valeur réelle, Wij.
Le modèle crée un espace dans lequel les documents
et les requêtes sont représentés par des vecteurs

12/27/2013
Vector space model
11/46

12/27/2013
Vector space model
12/46



Les poids associés aux termes sont calculés sur la base
de deux numéros:




En terme de fréquence fij: le nombre d’occurrence
du
terme yj dans le document xi
Document de fréquence inverse: gj=log(N/dj)
avec N est le nombre de documents total et dj est le
nombre de documents contenant le terme yj

12/27/2013
Vector space model
13/46



TF-IDF [ Term Frequency – Inverst document Frequency ]
méthode pour calculer les poids
 wij = tfij idfi = tfij log2 (N/ dfi)
 Avec tfij=fij / max(fij )

Exemple:
 Considérant un document contenant les termes de fréquences données
A(3), B(2), C(1)
 Supposons une collection contenant 10 000 documents et
fréquences des documents pour ces termes sont les suivants:
A:50, B:1300, C:250
Donc :
A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6
B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0
C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF =12/27/2013
1.8
Mesure de similarité
14/46



Une mesure de similarité est une fonction qui
calcule le degré de similarité entre deux
vecteurs



L'utilisation d'une mesure de similarité entre la
requête et chaque document:
Permet de classer les documents trouvés dans
l'ordre de pertinence présumée
But de Ranking
12/27/2013
Mesure de similarité
15/46

Similarité entre les vecteurs pour un document di et la
requête q peut être calculé comme le produit intérieur vecteur

Mesure combien de termes sont identifiés mais pas
combien de termes qui ne le sont pas
12/27/2013
Mesure de Similarité
16/46



Exemple:
D1 = 2T1 + 3T2 + 5T3



D2 = 3T1 + 7T2 +

1T3


=>
=>

Q = 0T1 + 0T2 + 2T3
sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10
sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2

12/27/2013
Mesure de Similarité Cosinus
17/46

MSC mesure le cosinus de l'angle entre les deux vecteurs

D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81
D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13
Q = 0T1 + 0T2 + 2T3
12/27/2013
Les modèles de Ranking
18/46

12/27/2013
PageRank
19/46









PageRank est un algorithme d'analyse des liens qui attribue
une pondération numérique à chaque page Web, dans le but
de «mesurer» l'importance relative.
Une excellente façon de hiérarchiser les résultats des
recherches par mot clé web
Chaque lien pointant d’une page à une autre est considéré
comme un vote pour cette page
Le PageRank d'une page A est donnée comme suit :
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )

12/27/2013
PageRank
20/46

les PageRanks forment un indicateur d’importance pour
évaluer les pages Web
PageRank est également affiché sur la barre d'outils de votre
navigateur si vous avez installé la barre d'outils Google
(http://toolbar.google.com/)

12/27/2013
PageRank
21/46



Chaque page comporte un certain nombre de
outlinks (outedges) et backlinks (inedges)
D

B

A
C

E

• B et C sont les backlinks de A
• D et E sont les outlinks de12/27/2013
A
PageRank
22/46



Deux cas du PageRank sont intéressants:

1) PageRank des Pages Web varient
considérablement en termes de nombre de
backlinks qu'ils ont.
Par exemple, la page d'accueil de Netscape a 62 804
backlinks par rapport à la plupart des pages qui ont
juste un peu de backlinks.

12/27/2013
PageRank
23/46

2) Backlinks provenant des pages importantes
véhiculent plus d'importance à une page.

Par exemple, si une page web a un lien de la page
d'accueil de Yahoo, il peut être juste un lien, mais il est
très important

12/27/2013
PageRank
24/46



Conclusion de deux cas du PageRank:
Une page peut avoir un PageRank élevé:

si il ya beaucoup de pages qui pointent vers elle
Ou
si il y a peu de pages qui pointent vers elle mais
qui ont un PageRank élevé
12/27/2013
Exemple 2 PageRank
25/46

A

B

Nous ne connaissons pas le PR des deux pages, donc il nous faut une
valeur de départ : 1.0 par exemple
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )
PR(A)

= 0.15 + 0.85 * ( 1 /1 )

=1

PR(B)

= 0.15 + 0.85 * ( 1 / 1 )

=1

les valeurs ne changent pas...
Prenons une valeur de départ différente : 0

12/27/2013
Exemple PageRank
26/46



Première itération


PR(A) = 0.15 + 0.85 * 0 = 0.15

 PR(B)


= 0.15 + 0.85 * 0.15 = 0.2775

Deuxième itération






PR(A) = 0.15 + 0.85 * 0.2775 = 0.385875

PR(B) = 0.15 + 0.85 * 0.385875 = 0.47799375

Troisième itération




PR(A) = 0.15 + 0.85 * 0.47799375 = 0.5562946875
PR(B) = 0.15 + 0.85 * 0.5562946875 = 0.622850484375
...
12/27/2013
Exemple PageRank
27/46



prenons une valeur 2.0 pour redémarrer notre
expérience.
 PR(A)

= 0.15 + 0.85 * 2 = 1.85
 PR(B) = 0.15 + 0.85 * 1.85 = 1.7225
cela baisse, essayons une fois de plus :
 PR(A) = 0.15 + 0.85 * 1.7225 = 1.614125
 PR(B) = 0.15 + 0.85 * 1.614125 = 1.52200625


Nos valeurs continuent à converger vers 1

12/27/2013
Les modèles de Ranking
28/46

12/27/2013
Language Model For IR
29/46



L'approche du Langage Model For IR : un
document est un bon match pour une requête si
le modèle de document est susceptible de
générer la requête, qui à son tour se produit si
le document contient les mots de la requête

12/27/2013
Query likelihood Model
30/46



P (d | q):
La probabilité qu'un utilisateur interrogeant
une requête q, aura le document d à l'esprit
=> P (d | q) = P (q | d) P (d) / P (q)
P (q) - même pour tous les documents =>
ignoré
P (d) - souvent considérée comme uniforme
dans les documents => ignoré
=>Classement par P (q | d)
12/27/2013
Query likelihood Model
31/46



P (q | d) : la probabilité qu'une requête Q soit
générer par un modèle de langage provenant de
documents d



Algorithme:
Déduire un LM pour chaque document.
Estimation de P (Q/Mdi) , la probabilité de
génération de la requête en fonction de chacun de
ces modèles de document.
Classez les documents selon ces12/27/2013
probabilités

1.
2.

3.
Query likelihood Model
32/46

12/27/2013
Query likelihood Model
33/46

Exemple
:

12/27/2013
Ranking Models
34/46

12/27/2013
Fondateur
35/46



Hypertext Induced Topic Search (HITS) ou
Hubs and Authorities est un algorithme
d’analyse de lien développé par Jon Kleinberg
en 1998 pour prioriser les pages web

12/27/2013
Concept de l’algorithme
36/46



Hits est un algorithme de recherche par
requête qui priorise les pages web en
récupérant tous les in links et les out links
tout en se basant sur l’analyse du contenu
textuel de la requête donnée

12/27/2013
HITS
37/46



Quand un utilisateur fait entrer une requête,
HITS procède comme le suivant:
 Récupère

la liste des pages relatives retournées
par le moteur de recherche

 Classifier

les pages récupérées en 2 types de

Ranking :
authority ranking et hub ranking
12/27/2013
Hubs et Authorities
38/46

A est une authority

A est une hub

• Une page web est nommée Authority si elle est pointée par plusieurs
hyperlink
12/27/2013
• Une page web est nommée Hub si elle pointe sur plusieurs hyperlink
Hubs et Authorities
39/46



Authority : des pages qui contiennent des
informations importantes ciblées pour le sujet




L’Authority contient notre données cibles

Hub: des pages qui contiennent des liens vers
des authorities


Le hub est une page intermédiaire qui nous aide à
trouver notre données cibles

12/27/2013
Le score d’Authority
40/46



Le score d’une page Authority est la somme des
scores de toutes les pages qui pointent vers elle

Sc(
Sc(B C)
)

Sc(
D)

Sc(A)= Sc(B)+ Sc(C)+ Sc(D)
12/27/2013
Le score Authority estime l’importance que apporte le contenu de cette
page
Le score du Hub
41/46



Le score d’une page Hub est la somme des
scores de toutes les pages qu’elle pointe sur
Sc(A)= Sc(B)+ Sc(C)+ Sc(D)

Sc(B
)

Sc(
C)

Sc(
D)

Le score hub estime l’importance des liens qu’elle pointe
12/27/2013
sur
Affichage
42/46



Après avoir calculer les scores des hubs et
authorities, le navigateur affiche les pages web
comme suit:
1.

Les pages Authority par ordre décroissant de
score, qui contiennent les données visées

2.

Les pages Hub par ordre décroissant de score,
qui contiennent les informations qui m’ont aidé à
attendre mon sujet cible
12/27/2013
Conclusion
43/46



Les algorithmes de Ranking facilitent la vie
des utilisateurs de web en évitant que ces
derniers se perdent dans des milliers et des
milliers de pages web non classées

12/27/2013
Références
44/46



Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de
http://homepage.divms.uiowa.edu/~asignori/phd/report/a-surveyof-ranking-algorithms.pdf. (2005)



Ian Rogers. "The Google Pagerank Algorithm and How It
Works". Tiré de http://www.sirgroane.net/google-page-rank/



"Lecture #3: PageRank Algorithm - The Mathematics of Google
Search". Tiré de
http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Le
cture3/lecture3.html

12/11/2013
45/46

MERCI
12/27/2013
46/46

Question ?
12/27/2013

Weitere ähnliche Inhalte

Andere mochten auch

Big Data Analytics using Mahout
Big Data Analytics using MahoutBig Data Analytics using Mahout
Big Data Analytics using MahoutIMC Institute
 
Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...
Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...
Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...Alan Said
 
The Good, Bad and Ugly of Serverless
The Good, Bad and Ugly of ServerlessThe Good, Bad and Ugly of Serverless
The Good, Bad and Ugly of ServerlessPipedrive
 
Yrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisYrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisGuillaume Kpotufe
 
AÑORANZA
AÑORANZAAÑORANZA
AÑORANZAgoya56
 
Weekly actions 25 juin 2010
Weekly actions 25 juin 2010Weekly actions 25 juin 2010
Weekly actions 25 juin 2010Cherradi -
 
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...Université de Franche-Comté
 
Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014
Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014
Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014A3C - Expert Comptable à Dunkerque
 
Calendrier de formation TEE Automne 2012 et Hiver 2013
Calendrier de formation TEE Automne 2012 et Hiver 2013Calendrier de formation TEE Automne 2012 et Hiver 2013
Calendrier de formation TEE Automne 2012 et Hiver 2013Mastera
 
PréSentation Pps Viadeo
PréSentation Pps ViadeoPréSentation Pps Viadeo
PréSentation Pps Viadeojdemaison
 
Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...
Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...
Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...Salon e-tourisme #VeM
 
Ferran i Iker
Ferran i IkerFerran i Iker
Ferran i Ikerggracia2
 
Venise en panoramique 4 ger1
Venise en panoramique 4 ger1Venise en panoramique 4 ger1
Venise en panoramique 4 ger1Saqqarah 31
 
Hamais, longes et points d’anciage mobiles (FR)
Hamais, longes et points d’anciage mobiles (FR)Hamais, longes et points d’anciage mobiles (FR)
Hamais, longes et points d’anciage mobiles (FR)XSPlatforms
 

Andere mochten auch (20)

Big Data Analytics using Mahout
Big Data Analytics using MahoutBig Data Analytics using Mahout
Big Data Analytics using Mahout
 
Clustering
ClusteringClustering
Clustering
 
Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...
Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...
Comparative Recommender System Evaluation: Benchmarking Recommendation Frame...
 
The Good, Bad and Ugly of Serverless
The Good, Bad and Ugly of ServerlessThe Good, Bad and Ugly of Serverless
The Good, Bad and Ugly of Serverless
 
Yrecommender, machine learning sur Hybris
Yrecommender, machine learning sur HybrisYrecommender, machine learning sur Hybris
Yrecommender, machine learning sur Hybris
 
AÑORANZA
AÑORANZAAÑORANZA
AÑORANZA
 
Weekly actions 25 juin 2010
Weekly actions 25 juin 2010Weekly actions 25 juin 2010
Weekly actions 25 juin 2010
 
Cómo narrar en web
Cómo narrar en webCómo narrar en web
Cómo narrar en web
 
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
 
Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014
Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014
Rsi ACOSS Avis Regularisation - Communiqué du 22 septembre 2014
 
Calendrier de formation TEE Automne 2012 et Hiver 2013
Calendrier de formation TEE Automne 2012 et Hiver 2013Calendrier de formation TEE Automne 2012 et Hiver 2013
Calendrier de formation TEE Automne 2012 et Hiver 2013
 
2012 arts and culture fr
2012 arts and culture fr2012 arts and culture fr
2012 arts and culture fr
 
PréSentation Pps Viadeo
PréSentation Pps ViadeoPréSentation Pps Viadeo
PréSentation Pps Viadeo
 
Presentación máster lógica2014
Presentación máster lógica2014Presentación máster lógica2014
Presentación máster lógica2014
 
La coupole mai 2014
La coupole mai 2014La coupole mai 2014
La coupole mai 2014
 
Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...
Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...
Atelier J2 9 Exemples à décortiquer et révélateurs des tendances dans l'hôtel...
 
Ferran i Iker
Ferran i IkerFerran i Iker
Ferran i Iker
 
ALSBLNB Conférence 2014 Saint John - Atelier G - Former une équipe pour l’imp...
ALSBLNB Conférence 2014 Saint John - Atelier G - Former une équipe pour l’imp...ALSBLNB Conférence 2014 Saint John - Atelier G - Former une équipe pour l’imp...
ALSBLNB Conférence 2014 Saint John - Atelier G - Former une équipe pour l’imp...
 
Venise en panoramique 4 ger1
Venise en panoramique 4 ger1Venise en panoramique 4 ger1
Venise en panoramique 4 ger1
 
Hamais, longes et points d’anciage mobiles (FR)
Hamais, longes et points d’anciage mobiles (FR)Hamais, longes et points d’anciage mobiles (FR)
Hamais, longes et points d’anciage mobiles (FR)
 

Ähnlich wie Ranking (par IBRAHIM Sirine et TANIOS Dany)

D3 js-last
D3 js-lastD3 js-last
D3 js-lastTECOS
 
Projet de carriere alissa
Projet de carriere alissaProjet de carriere alissa
Projet de carriere alissaalissabasque
 
Journées SQL Server 2012 - DAX pour les fans de MDX
Journées SQL Server 2012 - DAX pour les fans de MDXJournées SQL Server 2012 - DAX pour les fans de MDX
Journées SQL Server 2012 - DAX pour les fans de MDXDavid Joubert
 
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Bilel Moulahi
 
Le référencement dans Google
Le référencement dans GoogleLe référencement dans Google
Le référencement dans Googlejounayd
 
20150402 meetup r addicts du printemps
20150402  meetup r addicts du printemps20150402  meetup r addicts du printemps
20150402 meetup r addicts du printempsduretteb
 
Projet carrière - IS
Projet carrière - ISProjet carrière - IS
Projet carrière - ISdangauvin13
 
2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...
2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...
2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...aOS Community
 
2019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 365
2019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 3652019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 365
2019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 365Patrick Guimonet
 
"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)
"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)
"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)Abdellah SELASSI
 
Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduceMathieu Dumoulin
 
2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...
2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...
2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...aOS Community
 
2019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 365
2019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 3652019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 365
2019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 365Patrick Guimonet
 
Présentation info
Présentation infoPrésentation info
Présentation infoQuinaThomas
 
Pourquoi et comment utiliser r - Sébastien Brodeur
Pourquoi et comment utiliser r - Sébastien BrodeurPourquoi et comment utiliser r - Sébastien Brodeur
Pourquoi et comment utiliser r - Sébastien BrodeurWeb à Québec
 

Ähnlich wie Ranking (par IBRAHIM Sirine et TANIOS Dany) (20)

D3 js-last
D3 js-lastD3 js-last
D3 js-last
 
Projet de carriere alissa
Projet de carriere alissaProjet de carriere alissa
Projet de carriere alissa
 
carriere
carrierecarriere
carriere
 
Journées SQL Server 2012 - DAX pour les fans de MDX
Journées SQL Server 2012 - DAX pour les fans de MDXJournées SQL Server 2012 - DAX pour les fans de MDX
Journées SQL Server 2012 - DAX pour les fans de MDX
 
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
Définition et évaluation de modèles d'agrégation pour l'estimation de la pert...
 
Le référencement dans Google
Le référencement dans GoogleLe référencement dans Google
Le référencement dans Google
 
20150402 meetup r addicts du printemps
20150402  meetup r addicts du printemps20150402  meetup r addicts du printemps
20150402 meetup r addicts du printemps
 
Projet carrière - IS
Projet carrière - ISProjet carrière - IS
Projet carrière - IS
 
2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...
2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...
2019-03-06 aOS Papeete - 7 - Surfer sur les vagues Microsoft 365 - Patrick Gu...
 
2019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 365
2019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 3652019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 365
2019-03-06 aOS Papeete - Surfer sur les vagues Microsoft 365
 
"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)
"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)
"WakaDroid" API encapsulant les services REST offerts par wakandaDB (nosql)
 
Introduction aux algorithmes map reduce
Introduction aux algorithmes map reduceIntroduction aux algorithmes map reduce
Introduction aux algorithmes map reduce
 
2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...
2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...
2019-02-28 aOS Noumea - 4 - Surfer sur les vagues Microsoft 365 - Patrick Gui...
 
2019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 365
2019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 3652019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 365
2019 02-28 aOS Nouméa - Surfer sur les vagues Microsoft 365
 
TD1.pdf
TD1.pdfTD1.pdf
TD1.pdf
 
Présentation info
Présentation infoPrésentation info
Présentation info
 
Pourquoi et comment utiliser r - Sébastien Brodeur
Pourquoi et comment utiliser r - Sébastien BrodeurPourquoi et comment utiliser r - Sébastien Brodeur
Pourquoi et comment utiliser r - Sébastien Brodeur
 
Bd cm6
Bd cm6Bd cm6
Bd cm6
 
C2i d4 scd-amu 2016
C2i d4 scd-amu 2016C2i d4 scd-amu 2016
C2i d4 scd-amu 2016
 
Projet carrière
Projet carrièreProjet carrière
Projet carrière
 

Mehr von rchbeir

Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)rchbeir
 
SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)rchbeir
 
Crawlers (par DE COURCHELLE Inès et JACOB Sophie)
Crawlers (par DE COURCHELLE Inès et JACOB Sophie)Crawlers (par DE COURCHELLE Inès et JACOB Sophie)
Crawlers (par DE COURCHELLE Inès et JACOB Sophie)rchbeir
 
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)rchbeir
 
NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)rchbeir
 
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)rchbeir
 
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)rchbeir
 
Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)rchbeir
 
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)rchbeir
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrievalrchbeir
 

Mehr von rchbeir (13)

Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
Web ontologie language (par RAFEH Aya et VAILLEUX Arnaud)
 
SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)SS tree (par SYLLA Demba et TALBI Rachid)
SS tree (par SYLLA Demba et TALBI Rachid)
 
Crawlers (par DE COURCHELLE Inès et JACOB Sophie)
Crawlers (par DE COURCHELLE Inès et JACOB Sophie)Crawlers (par DE COURCHELLE Inès et JACOB Sophie)
Crawlers (par DE COURCHELLE Inès et JACOB Sophie)
 
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
Quad-Tree et Kd-Tree (par MARQUES Patricia et OLIVIER Aymeric)
 
NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)NoSQL (par HEGUY Xabier)
NoSQL (par HEGUY Xabier)
 
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
Mpeg7 et comm ontology (par MOHIBE Amine et BENSLIMANE Mohamed-Amine)
 
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
LSI latent (par HATOUM Saria et DONGO ESCALANTE Irvin Franco)
 
Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)Arbre b (par EL HACHEM Marwan et RICHA Elias)
Arbre b (par EL HACHEM Marwan et RICHA Elias)
 
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
Adaptative hypermedia (par MALKI Sara et MAKSIMOVICH Aleksandra)
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrieval
 
Plsql2
Plsql2Plsql2
Plsql2
 
Plsql
PlsqlPlsql
Plsql
 
Sql3
Sql3Sql3
Sql3
 

Ranking (par IBRAHIM Sirine et TANIOS Dany)

  • 1. 1 RANKING Présenté par : IBRAHIM Sirine TANIOS Dany Présenté à : Prof. CHBEIR Richard 12/27/2013
  • 2. Plan 2/46  Introduction au Ranking  Les modèles de Ranking  Vector space model  PageRank  Language Model For IR  HITS  Conclusion 12/27/2013
  • 3. Ranking – Conception Globale 3/46  Lorsque l'utilisateur donne une requête, une comparaison de mots est fait pour obtenir les documents les plus pertinents à la requête. Les documents pertinents sont ensuite classés en fonction de leur degré de pertinence, importance.. C’est le Ranking 12/27/2013
  • 4. Pourquoi le Ranking ? 4/46  Avec le grand nombre de pages web qui existent aujourd'hui, les moteurs de recherche prennent un rôle important dans l'Internet actuel.  Mais même si elles permettent de trouver des pages pertinentes pour un sujet de recherche, de nos jours, le nombre de résultats renvoyés est souvent trop grand pour être exploré avec soin. 12/27/2013
  • 5. Le rôle de Ranking 5/46  Le rôle des algorithmes de classement est donc de: sélectionnez les pages qui sont probablement en mesure de satisfaire les besoins de l'utilisateur, et de les amener dans les premières positions. 12/27/2013
  • 6. Moteur de recherche 6/46 Le moteur de recherche est un simple outil pour nous 12/27/2013
  • 7. Le contenu réel des moteurs 7/46 12/27/2013
  • 8. Les modèles de Ranking 8/46 12/27/2013
  • 9. Les modèles de Ranking 9/46 12/27/2013
  • 10. Vector Space Model 10/46     Vector Space Model a été largement utilisé dans le domaine IR traditionnelle La plupart des moteurs de recherche utilisent également des mesures de similarité basées sur ce modèle pour classer les documents sur le Web Chaque terme , i, dans un document ou une requête, j, possède un poids de valeur réelle, Wij. Le modèle crée un espace dans lequel les documents et les requêtes sont représentés par des vecteurs 12/27/2013
  • 12. Vector space model 12/46  Les poids associés aux termes sont calculés sur la base de deux numéros:   En terme de fréquence fij: le nombre d’occurrence du terme yj dans le document xi Document de fréquence inverse: gj=log(N/dj) avec N est le nombre de documents total et dj est le nombre de documents contenant le terme yj 12/27/2013
  • 13. Vector space model 13/46  TF-IDF [ Term Frequency – Inverst document Frequency ] méthode pour calculer les poids  wij = tfij idfi = tfij log2 (N/ dfi)  Avec tfij=fij / max(fij ) Exemple:  Considérant un document contenant les termes de fréquences données A(3), B(2), C(1)  Supposons une collection contenant 10 000 documents et fréquences des documents pour ces termes sont les suivants: A:50, B:1300, C:250 Donc : A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6 B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0 C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF =12/27/2013 1.8
  • 14. Mesure de similarité 14/46  Une mesure de similarité est une fonction qui calcule le degré de similarité entre deux vecteurs  L'utilisation d'une mesure de similarité entre la requête et chaque document: Permet de classer les documents trouvés dans l'ordre de pertinence présumée But de Ranking 12/27/2013
  • 15. Mesure de similarité 15/46 Similarité entre les vecteurs pour un document di et la requête q peut être calculé comme le produit intérieur vecteur Mesure combien de termes sont identifiés mais pas combien de termes qui ne le sont pas 12/27/2013
  • 16. Mesure de Similarité 16/46  Exemple: D1 = 2T1 + 3T2 + 5T3  D2 = 3T1 + 7T2 + 1T3  => => Q = 0T1 + 0T2 + 2T3 sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2 12/27/2013
  • 17. Mesure de Similarité Cosinus 17/46 MSC mesure le cosinus de l'angle entre les deux vecteurs D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81 D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13 Q = 0T1 + 0T2 + 2T3 12/27/2013
  • 18. Les modèles de Ranking 18/46 12/27/2013
  • 19. PageRank 19/46     PageRank est un algorithme d'analyse des liens qui attribue une pondération numérique à chaque page Web, dans le but de «mesurer» l'importance relative. Une excellente façon de hiérarchiser les résultats des recherches par mot clé web Chaque lien pointant d’une page à une autre est considéré comme un vote pour cette page Le PageRank d'une page A est donnée comme suit : PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) ) 12/27/2013
  • 20. PageRank 20/46 les PageRanks forment un indicateur d’importance pour évaluer les pages Web PageRank est également affiché sur la barre d'outils de votre navigateur si vous avez installé la barre d'outils Google (http://toolbar.google.com/) 12/27/2013
  • 21. PageRank 21/46  Chaque page comporte un certain nombre de outlinks (outedges) et backlinks (inedges) D B A C E • B et C sont les backlinks de A • D et E sont les outlinks de12/27/2013 A
  • 22. PageRank 22/46  Deux cas du PageRank sont intéressants: 1) PageRank des Pages Web varient considérablement en termes de nombre de backlinks qu'ils ont. Par exemple, la page d'accueil de Netscape a 62 804 backlinks par rapport à la plupart des pages qui ont juste un peu de backlinks. 12/27/2013
  • 23. PageRank 23/46 2) Backlinks provenant des pages importantes véhiculent plus d'importance à une page. Par exemple, si une page web a un lien de la page d'accueil de Yahoo, il peut être juste un lien, mais il est très important 12/27/2013
  • 24. PageRank 24/46  Conclusion de deux cas du PageRank: Une page peut avoir un PageRank élevé: si il ya beaucoup de pages qui pointent vers elle Ou si il y a peu de pages qui pointent vers elle mais qui ont un PageRank élevé 12/27/2013
  • 25. Exemple 2 PageRank 25/46 A B Nous ne connaissons pas le PR des deux pages, donc il nous faut une valeur de départ : 1.0 par exemple PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) ) PR(A) = 0.15 + 0.85 * ( 1 /1 ) =1 PR(B) = 0.15 + 0.85 * ( 1 / 1 ) =1 les valeurs ne changent pas... Prenons une valeur de départ différente : 0 12/27/2013
  • 26. Exemple PageRank 26/46  Première itération  PR(A) = 0.15 + 0.85 * 0 = 0.15  PR(B)  = 0.15 + 0.85 * 0.15 = 0.2775 Deuxième itération    PR(A) = 0.15 + 0.85 * 0.2775 = 0.385875 PR(B) = 0.15 + 0.85 * 0.385875 = 0.47799375 Troisième itération    PR(A) = 0.15 + 0.85 * 0.47799375 = 0.5562946875 PR(B) = 0.15 + 0.85 * 0.5562946875 = 0.622850484375 ... 12/27/2013
  • 27. Exemple PageRank 27/46  prenons une valeur 2.0 pour redémarrer notre expérience.  PR(A) = 0.15 + 0.85 * 2 = 1.85  PR(B) = 0.15 + 0.85 * 1.85 = 1.7225 cela baisse, essayons une fois de plus :  PR(A) = 0.15 + 0.85 * 1.7225 = 1.614125  PR(B) = 0.15 + 0.85 * 1.614125 = 1.52200625  Nos valeurs continuent à converger vers 1 12/27/2013
  • 28. Les modèles de Ranking 28/46 12/27/2013
  • 29. Language Model For IR 29/46  L'approche du Langage Model For IR : un document est un bon match pour une requête si le modèle de document est susceptible de générer la requête, qui à son tour se produit si le document contient les mots de la requête 12/27/2013
  • 30. Query likelihood Model 30/46  P (d | q): La probabilité qu'un utilisateur interrogeant une requête q, aura le document d à l'esprit => P (d | q) = P (q | d) P (d) / P (q) P (q) - même pour tous les documents => ignoré P (d) - souvent considérée comme uniforme dans les documents => ignoré =>Classement par P (q | d) 12/27/2013
  • 31. Query likelihood Model 31/46  P (q | d) : la probabilité qu'une requête Q soit générer par un modèle de langage provenant de documents d  Algorithme: Déduire un LM pour chaque document. Estimation de P (Q/Mdi) , la probabilité de génération de la requête en fonction de chacun de ces modèles de document. Classez les documents selon ces12/27/2013 probabilités 1. 2. 3.
  • 35. Fondateur 35/46  Hypertext Induced Topic Search (HITS) ou Hubs and Authorities est un algorithme d’analyse de lien développé par Jon Kleinberg en 1998 pour prioriser les pages web 12/27/2013
  • 36. Concept de l’algorithme 36/46  Hits est un algorithme de recherche par requête qui priorise les pages web en récupérant tous les in links et les out links tout en se basant sur l’analyse du contenu textuel de la requête donnée 12/27/2013
  • 37. HITS 37/46  Quand un utilisateur fait entrer une requête, HITS procède comme le suivant:  Récupère la liste des pages relatives retournées par le moteur de recherche  Classifier les pages récupérées en 2 types de Ranking : authority ranking et hub ranking 12/27/2013
  • 38. Hubs et Authorities 38/46 A est une authority A est une hub • Une page web est nommée Authority si elle est pointée par plusieurs hyperlink 12/27/2013 • Une page web est nommée Hub si elle pointe sur plusieurs hyperlink
  • 39. Hubs et Authorities 39/46  Authority : des pages qui contiennent des informations importantes ciblées pour le sujet   L’Authority contient notre données cibles Hub: des pages qui contiennent des liens vers des authorities  Le hub est une page intermédiaire qui nous aide à trouver notre données cibles 12/27/2013
  • 40. Le score d’Authority 40/46  Le score d’une page Authority est la somme des scores de toutes les pages qui pointent vers elle Sc( Sc(B C) ) Sc( D) Sc(A)= Sc(B)+ Sc(C)+ Sc(D) 12/27/2013 Le score Authority estime l’importance que apporte le contenu de cette page
  • 41. Le score du Hub 41/46  Le score d’une page Hub est la somme des scores de toutes les pages qu’elle pointe sur Sc(A)= Sc(B)+ Sc(C)+ Sc(D) Sc(B ) Sc( C) Sc( D) Le score hub estime l’importance des liens qu’elle pointe 12/27/2013 sur
  • 42. Affichage 42/46  Après avoir calculer les scores des hubs et authorities, le navigateur affiche les pages web comme suit: 1. Les pages Authority par ordre décroissant de score, qui contiennent les données visées 2. Les pages Hub par ordre décroissant de score, qui contiennent les informations qui m’ont aidé à attendre mon sujet cible 12/27/2013
  • 43. Conclusion 43/46  Les algorithmes de Ranking facilitent la vie des utilisateurs de web en évitant que ces derniers se perdent dans des milliers et des milliers de pages web non classées 12/27/2013
  • 44. Références 44/46  Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de http://homepage.divms.uiowa.edu/~asignori/phd/report/a-surveyof-ranking-algorithms.pdf. (2005)  Ian Rogers. "The Google Pagerank Algorithm and How It Works". Tiré de http://www.sirgroane.net/google-page-rank/  "Lecture #3: PageRank Algorithm - The Mathematics of Google Search". Tiré de http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Le cture3/lecture3.html 12/11/2013

Hinweis der Redaktion

  1. fij= frequency of term i in document jMay want to normalize term frequency (tf) by dividing by the frequency of the most common term in the document:tfij=fij/ maxi{fij}dfi = document frequency of termi= number of documents containing termiidfi = inverse document frequency of termi, = log2 (N/ dfi) (N: total number of documents)
  2. D1 est 6 fois mieux que D2 utilisant cosinus similitude mais seulement 5 fois mieux utiliser le produit intérieur
  3. les PageRanks forment une distribution de probabilité sur des pages Web , de sorte que la somme de toutes les pages Web \ ' PageRanks seront une PageRank est également affiché sur la barre d'outils de votre navigateur si vous avez installé la barre d'outils Google (http://toolbar.google.com/)
  4. . Ce couvre à la fois le cas où une page a de nombreux backlinks et quand une page a un peu de backlinks hautement cotées.
  5. . Ce couvre à la fois le cas où une page a de nombreux backlinks et quand une page a un peu de backlinks hautement cotées.
  6. Nous remarquons que les valeurs augmentent à chaque itération.l’algorithme nous précisant que le PR moyen de toutes les pages du Web est égal à 1. Est-ce que nos valeurs de PR calculées ne peuvent pas augmenter indéfiniment et dépasser 1, ce qui invaliderait la formule ?Essayons avec une valeur supérieure pour voir ce qui se passe : prenons une valeur 2.0 pour redémarrer notre expérience.
  7. A l’heure actuelle, Google a près de 4 milliards de pages dans sa base, ce qui pourrait nécessiter plusieurs milliards d’itérations.C’est ici que le facteur d’amortissement joue son rôle. S’il est choisi trop élevé, le calcul demandera un nombre d’itérations énorme, alors que s’il est trop bas les valeurs ne convergeront pas véritablement, mais finiront par osciller autour de la valeur théorique vraie, un peu à la manière d’un pendule.Avec un facteur d’amortissement de 0.85, il nous faut une quarantaine d’itérations pour affiner le calcul du PageRank.
  8. P(d\q): objectifest d avoir le document pertinent a partir de la requete