SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Machine Learning dans les
Moteurs de recherche

8-9 mars 2012

Philippe YONNET
Directeur SEO International
philippe.yonnet@twenga.com
Pourquoi parler de ces algorithmes ?


  Il est fort possible que l’algorithme
  Panda soit un algorithme
  d’apprentissage automatique.

  Son auteur, un dénommé… Panda.

  Il y’a deux Panda connus chez
  Google, tous les deux ont travaillé
  sur des projets de Machine
  Learning…
L’apprentissage automatique


 Machine learning en anglais
 Conception et développement d’algorithmes capables de
  s’autoam
Applications classiques


 Reconnaissance de formes, reconnaissance de caractère
 Robotique
 Classification automatique
Les principaux types d’apprentissage


 Apprentissage supervisé
    Présence d’un « oracle » qui fournit un jeu de réponses désirées
     (exemples ou contre-exemples)
 Apprentissage non supervisé
    Classification automatique / Clustering
    L'algorithme doit découvrir par lui-même la structure plus ou
     moins cachée des données
 Apprentissage par renforcement
    l'algorithme apprend un comportement étant donné une observation.
     L'action de l'algorithme sur l'environnement produit une valeur de retour
     qui guide l'algorithme d'apprentissage.
On identifie d’autres types d’algorithmes : semi-supervisé,
partiellement supervisé…
Quelques grandes catégories d’algorithmes

 Les algorithmes à bases d’arbres de décision
    Data mining, entrepôts de données, aide à la décision, système experts,
      diagnostic
 Le boosting
    Amélioration des systèmes de classification binaire
 Les réseaux de neurones artificiels
 Les algorithmes génétiques
    Sélection naturelle des meilleurs programmes
 L’ILP (inductive logic programming) :
    exemples positifs + exemples négatifs + base de connaissances =
      règles (utile en TAL)
 Les Support Vector Machines
 Les Réseaux Bayésiens
    diagnostic (médical et industriel), l'analyse de risques, la détection
      des spams et le data mining.
L’apprentissage automatique et le spam




                                                                  SPAM




  Classification automatique utilisant l’apprentissage supervisé à partir de
  données étiquetées (classifiées) par un humain (« oracle »). L’objectif est
  de déterminer une fonction opérationnelle séparant correctement les
  points bleus et rouges (courbe verte)
Pourquoi ces algorithmes ont-ils été longtemps
sous-utilisés par les moteurs de recherche?

Longtemps, l’utilisation de ces algorithmes a été bridée par trois
problèmes :

 La difficulté de création des données d’entrainement

 Le temps de calcul et les besoins en ressources

 La faisabilité pure des calculs
Définition d’un classifier

Une première approche possible (et triviale) pour déterminer les lois régissant
un ensemble de données : la régression. L’objectif est de déterminer une courbe
qui donne une approximation correcte des points mesurés. Dans l’exemple de
gauche, la courbe est droite affine y=ax+b. A droite un polynome plus complexe.
Les Support Vector Machines SVM




   Un des principes de la technique des SVM : il existe souvent plusieurs
     frontières permettant de « séparer » des échantillons de points. Les
 meilleures frontières sont celles qui maximisent la distance entre la frontière
   et les points (les « séparateurs à vastes marges »). L’algorithme SVM
       permet d’identifier les frontières donnant le minimum d’erreurs de
                                   classification.
SVM : La recherche d’un hyperplan « frontière »




Recherche d’un hyperplan « frontière » dans la technique des SVM : la frontière ici est
relativement complexe si on la décrit dans l’espace à deux dimensions qui décrit les
données d’entrainement. En transposant le problème dans un espace muldimensionnel (3
dimensions sur le schéma) il peut être possible de trouver un hyperplan (ici un plan), simple
à décrire, qui permet de classifier facilement les données.


                                Tiens tiens… J’ai déjà vu ça quelque part
Panda et les SVM


 Amit Singhal décrit l’algorithme ainsi dans une interview de
  Wired:

 « Vous pouvez imaginer dans un espace muldimensionnel un
  groupe de points, certains points sont rouges, certains points
  sont verts, and pour d’autres c’est un mélange des deux. Votre
  travail est de trouver un hyperplan qui indique que la plupart
  des choses d’un côté de ce plan sont rouges, et que la plupart
  des choses de l’autre côté sont le contraire de « rouge » ».
REFERENCES


 Machine Learning chez Google
    http://research.google.com/pubs/MachineLearning.html
    PLANET: Massively Parallel Learning of Tree Ensembles with MapReduce
     Biswanath Panda, Joshua S. Herbach, Sugato Basu, Roberto J. Bayardo,
     Google, Inc.
     http://www.bayardo.org/ps/vldb2009.pdf
    KDX: An Indexer for Support Vector Machines
     Navneet Panda, Edward Y. Chang, Google Inc
     http://www.computer.org/portal/web/csdl/doi/10.1109/TKDE.2006.101


    OASIS : Large Scale Online Learning of Image Similarity Through Ranking
     Gal Chechik , Varun Sharma, Samy Bengio, Google Inc & Uri Shalit, The Gonda
     brain research center, Bar Ilan University
     www.robots.ox.ac.uk/~vgg/rg/papers/rankingsimilarity.pdf
Références


   Machine Learning chez Bing!
        http://research.microsoft.com/en-us/groups/ml/
        http://research.microsoft.com/en-us/groups/mlp/
        http://research.microsoft.com/en-us/groups/mlpml/
   ...
   Beyond PageRank: Machine Learning for Static Ranking
    Matthew Richardson, Microsoft Research, Amit Prakash MSN, Eric Brill,
    Microsoft Research
         www.inf.unibz.it/~ricci/SDB/slides/fRank-Presentation.pdf
   Machine Learning chez Yahoo!
        http://research.yahoo.com/Machine_Learning
        Developing parallel sequential minimal optimization for fast training support vector machine.
         Yahoo Labs, Cao, L.J.; Keerthi, S.S.; Ong, C.J.; Uvaraj, P.; Fu, X.J.; Lee, H.P.
         http://research.yahoo.com/pub/951

Weitere ähnliche Inhalte

Was ist angesagt?

formation word 2010 partie 1.ppt
formation word 2010 partie 1.pptformation word 2010 partie 1.ppt
formation word 2010 partie 1.ppthamza536322
 
Les systèmes d'information
Les systèmes d'informationLes systèmes d'information
Les systèmes d'informationOumaima Karim
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs ATPENSC-Group
 
Formation word 2010 partie 1
Formation word  2010  partie 1Formation word  2010  partie 1
Formation word 2010 partie 1Alibi Mahdi
 
Analyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationAnalyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationMireille Blay-Fornarino
 
Introduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep LearningIntroduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep LearningNcib Lotfi
 
Travaux Dirigés : Algorithmique et Structure de Données
Travaux Dirigés : Algorithmique et Structure de DonnéesTravaux Dirigés : Algorithmique et Structure de Données
Travaux Dirigés : Algorithmique et Structure de DonnéesAnass41
 
développer un modèle de Machine learning
développer un modèle de Machine learningdévelopper un modèle de Machine learning
développer un modèle de Machine learningHebert Brian Whannou
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Diaporama initiation informatique
Diaporama initiation informatiqueDiaporama initiation informatique
Diaporama initiation informatiquebibriom
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Ines Ouaz
 
Cours complet excel détaillé
Cours complet excel détailléCours complet excel détaillé
Cours complet excel détailléPaul Kamga
 
Chapitre 3 structures séquentielles
Chapitre 3 structures séquentiellesChapitre 3 structures séquentielles
Chapitre 3 structures séquentiellesSana Aroussi
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeMehdi Hamime
 
Cours access
Cours accessCours access
Cours accesskourbali
 

Was ist angesagt? (20)

formation word 2010 partie 1.ppt
formation word 2010 partie 1.pptformation word 2010 partie 1.ppt
formation word 2010 partie 1.ppt
 
Les systèmes d'information
Les systèmes d'informationLes systèmes d'information
Les systèmes d'information
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
Fiche de TP 1 sur les Feuilles de calculs avec les Tableurs
 
Formation word 2010 partie 1
Formation word  2010  partie 1Formation word  2010  partie 1
Formation word 2010 partie 1
 
Analyse et conception des systèmes d’information
Analyse et conception des systèmes d’informationAnalyse et conception des systèmes d’information
Analyse et conception des systèmes d’information
 
Introduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep LearningIntroduction: Intelligence Artificielle, Machine Learning et Deep Learning
Introduction: Intelligence Artificielle, Machine Learning et Deep Learning
 
Travaux Dirigés : Algorithmique et Structure de Données
Travaux Dirigés : Algorithmique et Structure de DonnéesTravaux Dirigés : Algorithmique et Structure de Données
Travaux Dirigés : Algorithmique et Structure de Données
 
développer un modèle de Machine learning
développer un modèle de Machine learningdévelopper un modèle de Machine learning
développer un modèle de Machine learning
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Diaporama initiation informatique
Diaporama initiation informatiqueDiaporama initiation informatique
Diaporama initiation informatique
 
Systeme
SystemeSysteme
Systeme
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Rapport de fin formation
Rapport de fin formationRapport de fin formation
Rapport de fin formation
 
Chap1: Cours en C++
Chap1: Cours en C++Chap1: Cours en C++
Chap1: Cours en C++
 
Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)Travaux dirigés 1: algorithme & structures de données (corrigés)
Travaux dirigés 1: algorithme & structures de données (corrigés)
 
Cours complet excel détaillé
Cours complet excel détailléCours complet excel détaillé
Cours complet excel détaillé
 
Chapitre 3 structures séquentielles
Chapitre 3 structures séquentiellesChapitre 3 structures séquentielles
Chapitre 3 structures séquentielles
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
 
Cours access
Cours accessCours access
Cours access
 

Andere mochten auch

Analyse financière
Analyse financièreAnalyse financière
Analyse financièreAbdo attar
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tousDamien Seguy
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueDidier Girard
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiereSabrine MASTOURA
 
Mahout classification presentation
Mahout classification presentationMahout classification presentation
Mahout classification presentationNaoki Nakatani
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Machine learning
Machine learningMachine learning
Machine learningebiznext
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage AutomatiqueNizar Bechir
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBaseAmal Abid
 
Machine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An IntroductionMachine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An IntroductionVarad Meru
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 

Andere mochten auch (14)

Analyse financière
Analyse financièreAnalyse financière
Analyse financière
 
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
 
Machine learning pour tous
Machine learning pour tousMachine learning pour tous
Machine learning pour tous
 
Mix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation NumériqueMix it2014 - Machine Learning et Régulation Numérique
Mix it2014 - Machine Learning et Régulation Numérique
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiere
 
Mahout classification presentation
Mahout classification presentationMahout classification presentation
Mahout classification presentation
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Mahout clustering
Mahout clusteringMahout clustering
Mahout clustering
 
Machine learning
Machine learningMachine learning
Machine learning
 
Ia project Apprentissage Automatique
Ia project Apprentissage AutomatiqueIa project Apprentissage Automatique
Ia project Apprentissage Automatique
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
TP2 Big Data HBase
TP2 Big Data HBaseTP2 Big Data HBase
TP2 Big Data HBase
 
Machine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An IntroductionMachine Learning and Apache Mahout : An Introduction
Machine Learning and Apache Mahout : An Introduction
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 

Ähnlich wie Apprentissage Automatique et moteurs de recherche

Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelMahdi Zarg Ayouna
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine LearningEuraTechnologies
 
Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?BigBrain Evolution
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and businessDavid Argellies
 
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IAParlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IABigBrain Evolution
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la sciencehabib200
 
Forum Labo Version DEF par Yvon Gervaise.pdf
Forum Labo Version DEF par Yvon Gervaise.pdfForum Labo Version DEF par Yvon Gervaise.pdf
Forum Labo Version DEF par Yvon Gervaise.pdfYvon Gervaise
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Ippon
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docxkhalil Ismail
 
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..YvonGervaise
 
Introduction Azure machine learning
Introduction Azure machine learningIntroduction Azure machine learning
Introduction Azure machine learningsana khiari
 
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024YvonGervaise
 
L'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des LaboratoiresL'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des LaboratoiresYvon Gervaise
 
IA, vous avez dit IA ?
IA, vous avez dit IA ?IA, vous avez dit IA ?
IA, vous avez dit IA ?Ipsos France
 

Ähnlich wie Apprentissage Automatique et moteurs de recherche (20)

test
testtest
test
 
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave EiffelSéminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
Séminaire IA & VA- Dominique Gruyer, Univ Gustave Eiffel
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Euratech'trends : Machine Learning
Euratech'trends : Machine LearningEuratech'trends : Machine Learning
Euratech'trends : Machine Learning
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !Le Machine Learning... tous aux fourneaux !
Le Machine Learning... tous aux fourneaux !
 
Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?Comprenez-vous l’intelligence artificielle ?
Comprenez-vous l’intelligence artificielle ?
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
 
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IAParlez-vous le langage IA ? 30 notions pour comprendre l'IA
Parlez-vous le langage IA ? 30 notions pour comprendre l'IA
 
Comment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la scienceComment le Data et Deep Learning révolutionnent la science
Comment le Data et Deep Learning révolutionnent la science
 
Les algorithmes de tri
Les algorithmes de triLes algorithmes de tri
Les algorithmes de tri
 
Forum Labo Version DEF par Yvon Gervaise.pdf
Forum Labo Version DEF par Yvon Gervaise.pdfForum Labo Version DEF par Yvon Gervaise.pdf
Forum Labo Version DEF par Yvon Gervaise.pdf
 
Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...Démystifions le machine learning avec spark par David Martin pour le Salon B...
Démystifions le machine learning avec spark par David Martin pour le Salon B...
 
Rapport-du-projet CNN.docx
Rapport-du-projet CNN.docxRapport-du-projet CNN.docx
Rapport-du-projet CNN.docx
 
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
 
Introduction Azure machine learning
Introduction Azure machine learningIntroduction Azure machine learning
Introduction Azure machine learning
 
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
L'IA au service des Laboratoire - Conference donnée a Paris le 6 Février 2024
 
L'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des LaboratoiresL'Intelligence Artificielle I.A. au service des Laboratoires
L'Intelligence Artificielle I.A. au service des Laboratoires
 
IA, vous avez dit IA ?
IA, vous avez dit IA ?IA, vous avez dit IA ?
IA, vous avez dit IA ?
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 

Mehr von Philippe YONNET

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxPhilippe YONNET
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxPhilippe YONNET
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxPhilippe YONNET
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxPhilippe YONNET
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperPhilippe YONNET
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Philippe YONNET
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsPhilippe YONNET
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021Philippe YONNET
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEOPhilippe YONNET
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Philippe YONNET
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020Philippe YONNET
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Philippe YONNET
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages ampPhilippe YONNET
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenPhilippe YONNET
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéPhilippe YONNET
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first indexPhilippe YONNET
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?Philippe YONNET
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonPhilippe YONNET
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile PagesPhilippe YONNET
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GooglePhilippe YONNET
 

Mehr von Philippe YONNET (20)

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot Evergreen
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
 

Apprentissage Automatique et moteurs de recherche

  • 1. Machine Learning dans les Moteurs de recherche 8-9 mars 2012 Philippe YONNET Directeur SEO International philippe.yonnet@twenga.com
  • 2. Pourquoi parler de ces algorithmes ? Il est fort possible que l’algorithme Panda soit un algorithme d’apprentissage automatique. Son auteur, un dénommé… Panda. Il y’a deux Panda connus chez Google, tous les deux ont travaillé sur des projets de Machine Learning…
  • 3. L’apprentissage automatique  Machine learning en anglais  Conception et développement d’algorithmes capables de s’autoam
  • 4. Applications classiques  Reconnaissance de formes, reconnaissance de caractère  Robotique  Classification automatique
  • 5. Les principaux types d’apprentissage  Apprentissage supervisé  Présence d’un « oracle » qui fournit un jeu de réponses désirées (exemples ou contre-exemples)  Apprentissage non supervisé  Classification automatique / Clustering  L'algorithme doit découvrir par lui-même la structure plus ou moins cachée des données  Apprentissage par renforcement  l'algorithme apprend un comportement étant donné une observation. L'action de l'algorithme sur l'environnement produit une valeur de retour qui guide l'algorithme d'apprentissage. On identifie d’autres types d’algorithmes : semi-supervisé, partiellement supervisé…
  • 6. Quelques grandes catégories d’algorithmes  Les algorithmes à bases d’arbres de décision  Data mining, entrepôts de données, aide à la décision, système experts, diagnostic  Le boosting  Amélioration des systèmes de classification binaire  Les réseaux de neurones artificiels  Les algorithmes génétiques  Sélection naturelle des meilleurs programmes  L’ILP (inductive logic programming) :  exemples positifs + exemples négatifs + base de connaissances = règles (utile en TAL)  Les Support Vector Machines  Les Réseaux Bayésiens  diagnostic (médical et industriel), l'analyse de risques, la détection des spams et le data mining.
  • 7. L’apprentissage automatique et le spam SPAM Classification automatique utilisant l’apprentissage supervisé à partir de données étiquetées (classifiées) par un humain (« oracle »). L’objectif est de déterminer une fonction opérationnelle séparant correctement les points bleus et rouges (courbe verte)
  • 8. Pourquoi ces algorithmes ont-ils été longtemps sous-utilisés par les moteurs de recherche? Longtemps, l’utilisation de ces algorithmes a été bridée par trois problèmes :  La difficulté de création des données d’entrainement  Le temps de calcul et les besoins en ressources  La faisabilité pure des calculs
  • 9. Définition d’un classifier Une première approche possible (et triviale) pour déterminer les lois régissant un ensemble de données : la régression. L’objectif est de déterminer une courbe qui donne une approximation correcte des points mesurés. Dans l’exemple de gauche, la courbe est droite affine y=ax+b. A droite un polynome plus complexe.
  • 10. Les Support Vector Machines SVM Un des principes de la technique des SVM : il existe souvent plusieurs frontières permettant de « séparer » des échantillons de points. Les meilleures frontières sont celles qui maximisent la distance entre la frontière et les points (les « séparateurs à vastes marges »). L’algorithme SVM permet d’identifier les frontières donnant le minimum d’erreurs de classification.
  • 11. SVM : La recherche d’un hyperplan « frontière » Recherche d’un hyperplan « frontière » dans la technique des SVM : la frontière ici est relativement complexe si on la décrit dans l’espace à deux dimensions qui décrit les données d’entrainement. En transposant le problème dans un espace muldimensionnel (3 dimensions sur le schéma) il peut être possible de trouver un hyperplan (ici un plan), simple à décrire, qui permet de classifier facilement les données. Tiens tiens… J’ai déjà vu ça quelque part
  • 12. Panda et les SVM  Amit Singhal décrit l’algorithme ainsi dans une interview de Wired:  « Vous pouvez imaginer dans un espace muldimensionnel un groupe de points, certains points sont rouges, certains points sont verts, and pour d’autres c’est un mélange des deux. Votre travail est de trouver un hyperplan qui indique que la plupart des choses d’un côté de ce plan sont rouges, et que la plupart des choses de l’autre côté sont le contraire de « rouge » ».
  • 13. REFERENCES  Machine Learning chez Google  http://research.google.com/pubs/MachineLearning.html  PLANET: Massively Parallel Learning of Tree Ensembles with MapReduce Biswanath Panda, Joshua S. Herbach, Sugato Basu, Roberto J. Bayardo, Google, Inc. http://www.bayardo.org/ps/vldb2009.pdf  KDX: An Indexer for Support Vector Machines Navneet Panda, Edward Y. Chang, Google Inc http://www.computer.org/portal/web/csdl/doi/10.1109/TKDE.2006.101  OASIS : Large Scale Online Learning of Image Similarity Through Ranking Gal Chechik , Varun Sharma, Samy Bengio, Google Inc & Uri Shalit, The Gonda brain research center, Bar Ilan University www.robots.ox.ac.uk/~vgg/rg/papers/rankingsimilarity.pdf
  • 14. Références  Machine Learning chez Bing!  http://research.microsoft.com/en-us/groups/ml/  http://research.microsoft.com/en-us/groups/mlp/  http://research.microsoft.com/en-us/groups/mlpml/  ...  Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson, Microsoft Research, Amit Prakash MSN, Eric Brill, Microsoft Research www.inf.unibz.it/~ricci/SDB/slides/fRank-Presentation.pdf  Machine Learning chez Yahoo!  http://research.yahoo.com/Machine_Learning  Developing parallel sequential minimal optimization for fast training support vector machine. Yahoo Labs, Cao, L.J.; Keerthi, S.S.; Ong, C.J.; Uvaraj, P.; Fu, X.J.; Lee, H.P. http://research.yahoo.com/pub/951