SlideShare ist ein Scribd-Unternehmen logo
1 von 40
Downloaden Sie, um offline zu lesen
Cercle Alumni IBM – 18 octobre 2011




                      Vers un ordinateur sachant raisonner….

                                              ….une Synthèse Créative
                                      du meilleur état de l’art des Technologies.


                                                                    Claude Riousset
                                                                    Executive Architect

                                           © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011




                             En Février 2011,
            14 ans après avoir battu Kasparov aux échecs,
           un nouvel ordinateur IBM remportait une série de
          3 parties qui l’opposait aux 2 champions de tous les
             temps du jeu télévisé américain «Jeopardy».




                                      © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011



Agenda

  Qu’est-ce que Watson ?

  Principe du jeu « Jeopardy »

  Les principes et technologies mises en œuvre pour Watson

  Les applications possibles

  Le futur



                                      © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011


Qu’est-ce que Watson?

  Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a
  battu les 2 meilleurs candidats de toute l’histoire du jeu
  (depuis le 30 mars 1964).

  Un ordinateur conçu par une équipe d’IBM Research
  capable de rivaliser avec les humains en répondant à des
  questions posées en langage naturel avec rapidité et
  précision.

  Un système capable de comprendre la signification et le
  contexte du langage humain pour traiter l’information
  rapidement et trouver des réponses précises à des
  questions complexes.




                                        © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011


  Du langage au projet Watson pour Jeopardy, le principe du jeu

            Technologie       Classique    Grands   Citations
                                              TECHNOLOGIE                Savoir   Avant et      6 Catégories
                                           Espaces de Dickens             vivre    Après
                 $200            $200       $200      $200                $200     $200
                                      TOUS LES POLICIERS PEUVENT
                 $400            $400    REMERCIER STEPHANIE$400
                                          $400      $400                           $400
                                       KWOLEK POUR L’INVENTION                                      5 degrés de
                 $600            $600 DE CETTE FIBRE POLYMERE, 5
                                          $600      $600     $600                  $600              Difficulté
                                       FOIS PLUS RESISTANTE QUE
                 $800            $800     $800      $800     $800                  $800
                                                L’ACIER
                $1000            $1000      $1000     $1000              $1000     $1000


                                                                                      Si la réponse est bonne
  L’un des 3 joueurs choisit une
case                                                                                        Le joueur gagne le
                                                                                           montant de la case
  L’animateur lit l’énigme à
voix haute
                                Qu’est-ce que le KEVLAR ? choisit une autre case
                                                         Et
                                                                                      Si la réponse est fausse
  Le 1er joueur qui “buzz” peut                                                            Le joueur perd le montant
répondre                                                                                de la case
                                    2 manches par jeu + une Question finale                les autres joueurs
                                                                                        peuvent “buzzer”
                                    une règle de doublement des points
                                                      © 2011 IBM Corporation
                                                                                                                  5
Cercle Alumni IBM – 18 octobre 2011


Du jeu d’échec au langage…



     Jeu d’échecs
       – Un espace de solution fini et totalement structuré
       – Un nombre limité de mouvement et d’états
       – Des règles mathématiques qui s’appliquent à
       des symboles finis




     Langage humain
       –   Les mots n’ont pas de signification par eux-mêmes
       –   Ils sont associés à une expérience humaine
       –   Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées.
       –   Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une
           signification


                                                 © 2011 IBM Corporation
                                                                                                            6
Cercle Alumni IBM – 18 octobre 2011


 Qu’est-ce qu’une question facile ?

ln((12,546,798 * π)) ^ 2 / 34,567.46 =                       0.00885

Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”,

             Owner                      Serial Number
        David Jones                      45322190-AK
                                                                       Invoice #    Vendor   Payment
                                                                      INV10895      MyBuy     $104.56

     Serial Number                     Type   Invoice #
     45322190-AK                  LapTop      INV10895



      David Jones                                                            Dave     Jones

      David Jones                             =                              David Jones
                                                                                                 ≠
 7                                                  © 2011 IBM Corporation
                                                                                                        7
Cercle Alumni IBM – 18 octobre 2011


Qu’est-ce qu’une question difficile ?

Les programmes informatiques sont nativement explicites, rapides et exigeants pour mener
des calculs sur des nombres et des symboles….alors que le Langage naturel est implicite,
très contextuel, ambigu et souvent imprécis.

                                        Person                         Birth Place     Structured

                                      A. Einstein                         ULM

                                                                                      Unstructured
      Where was X born?
           One day, from among his city views of Ulm, Otto chose a water color to send
           to Albert Einstein as a remembrance of Einstein´s birthplace.




                                        Person                         Organization
                                        J. Welch                            GE
     X ran this?
        If leadership is an art then surely Jack Welch has proved himself a master
           painter during his tenure at GE.
                                              © 2011 IBM Corporation
                                                                                                     8
Cercle Alumni IBM – 18 octobre 2011


Apprentissage Automatique par la “Lecture”




Volumes of Text                       Syntactic Frames                      Semantic Frames

                                                                          Inventors patent inventions (.8)
                                                                          Officials Submit Resignations (.7)
                                                                         People earn degrees at schools (0.9)
                                                                             Fluid is a liquid (.6)
                                                                             Liquid is a fluid (.5)
                                                                                  Vessels Sink (0.7)
                                                                         People sink 8-balls (0.5) (in pool/0.8)




                                               IBM Confidential
                                                © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011

   La correspondance de mots-clés n’est pas suffisante

                              En Mai 1898 le Portugal a célébré                              En Mai, Georges est arrivé
                              le 400eme anniversaire de                                      en Inde après avoir célébré
                              l’arrivée de cet explorateur en                                son anniversaire au
                              Inde.                                                          Portugal.

                                                                                                      Est arrivé

                                                   A célébré                Correspondance                            A célébré



                                       En Mai                               Correspondance       En Mai
                                        1898

                                            400eme                          Correspondance                            anniversaire
                                          anniversaire


“Georges” est la                                          Portugal          Correspondance                            au Portugal
réponse évidente par
                                            L’arrivée
correspondance des
mots-clés cependant
                                                                            Correspondance
l’ordinateur ne doit                               Inde                                                            Inde

pas accorder une
grande confiance à
                                                explorateur                                            Georges
cette réponse.                                                  © 2011 IBM Corporation
                                                                                                                                  10
Cercle Alumni IBM – 18 octobre 2011

   Des éléments plus probables
     En Mai 1898 le Portugal a célébré                                       Le 27 Mai 1498, Vasco da Gama a
     le 400eme anniversaire de                                               débarqué à Kappad Beach
     l’arrivée de cet explorateur en
     Inde.
                                                    Recherche élargie

                                                    Explorer de nombreuses
                                                   hypothèses
                     A célébré
                                                                                               A
                                                    Peser les réponses
                                                                                            débarqué
                                       Portugal
                                                    Différents algorithmes

                          400eme                       Raisonnement
      Mai 1898                                                                                         27 Mai 1498
                          anniversaire                   temporel
                                                                                 Date
                                                                                 Math
                                                         Paraphrase
                                L’arrivée
                                                         statistique
                                                                                 Para-
                                                                                phrases


                               Inde
                                                       Raisonnement                       Kappad Beach
                                                        GeoSpatial
Un résultat                                                                     Geo-
plus probable                                                                    KB

                              explorateur                                                      Vasco da Gama
n’est pas
toujours simple
à obtenir                                   Le résultat n’est toujours pas certain à
                                                         © 2011 IBM Corporation
                                                                100%.                                                11
11
Cercle Alumni IBM – 18 octobre 2011


Le moteur d’analyse de Watson est plus qu’un outil de recherche

• Une recherche sur le Web retourne
  une liste de résultats possibles
  contenant la réponse
       – Les résultats des moteurs de recherche
         sont basés sur leur popularité et leur
         référencement
       – L’utilisateur doit encore analyser le
         résultat pour trouver la meilleure
         réponse

• Le moteur d’analyse de Watson
  comprend la structure et le libellé de la
  question posée
       – Il trouve une réponse spécifique
       – Il classe les réponses en donnant en
         “degré de confiance” basé sur
         l’expérience

• Watson répond à des questions en
  “langage naturel”
       – Qui peut inclure des jeux de mots, de
         l’argot, du jargon et des acronymes qui
         doivent être évalués


[12]                                        © 2011 IBM Corporation   2011-02-23 12
Cercle Alumni IBM – 18 octobre 2011

                                   DeepQA : La Technologie de Watson
  Architecture Massivement Parallèle ; Système probabiliste à base de “preuves”
  Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage
        naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement .
Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus
                                         grand “degré de confiance”

                                                                                                                   Modèles appris
                                                                                                                  pour combiner et
                                                                                                                 peser les “preuves”
                                                                             Sources                         Balance
                                                                             Preuves                        & Combine
                       Sources                                                                                       Models   Models
                      Réponses                                                                Eval
Question                                                  Eval.            Recherche                                 Models   Models
                                                        Réponses
                                                                                            preuve
                                                                            Preuves 100,000’s Scores from
                  Recherche      Generation                                                   forte
                                                                                       many Deep Analysis
                                                              1000’s of                                              Models   Models
                   primaire                              Pieces of Evidence               Algorithms
                                  Réponse
                                       100’s Possible
                                         Answers
           Multiple         100’s
       Interpretations     sources
 Analyse                                                              Evaluation des                                   Classement
                      Décomposition           Génération
Question &                                                           Hypothèses et des               Synthèse        assemblage des
                      De la Question          Hypothèse
  sujet                                                                 “preuves”                                       réponses


                                                                                                                      Réponse et degré
                                       Génération         Hypothèses et évaluation
                                                                                                                        de confiance
                                                               des réponses
                                       Hypothèse
                                                  ...        © 2011 IBM Corporation
                                                                                                                                       13
Cercle Alumni IBM – 18 octobre 2011


La Performance humaine comparée à celle des ordinateurs
                                       Chaque point represente les performances d’un joueur à Jeopardy




                                                               Performance des
                                                                   gagnants
                                                                                                 Performance des
                                                                                                 grands champions




                                  2007 QA Computer System



                               More Confident                                                        Less Confident
[14]                                       Financial Services GTO 2011 -Corporation DISTRIBUTE
                                                               © 2011 IBM DO NOT                                    2011-04-07
                                                                                                                              14
Cercle Alumni IBM – 18 octobre 2011

DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010



                                                                                             v0.8 11/10

                                                                                                       V0.7 04/10

                                      v0.6 10/09

                                                      v0.5 05/09

                                                                v0.4 12/08
                                                                             v0.3 08/08

                                                                                          v0.2 05/08
                                             v0.1 12/07




                                                                               IBM Watson joue dans le
                                                                                domaine des gagnants
                  Baseline 12/06




                                                   © 2011 IBM Corporation
                                                                                                                    15
Cercle Alumni IBM – 18 octobre 2011


 L’infrastructure technique de Watson,
 ou comment gérer plus de 10000 conversations
•Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz.
Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes.


Le système se compose de …                                            Performance et dispositifs
– 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs &      – Puissance de 80 teraflops par seconde (80 trillion
  cluster disque système)                                              d’operations/sec)
– 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM)            – Le processeur P7 est designé pour les charges de traitement
– Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU               massivement parallèle (comme celles de Watson)
  cores (32 cores/node) pour un total de 2,880 cores                 – Le Power 750 comprend des dispositifs de gestion de l’énergie,
– Interconnection a 10gigE (réseau ethernet)                           en faisant le 1er système à 4 processeurs qualifié “ENERGY
                                                                       STAR”


                     Power7




                                                           © 2011 IBM Corporation
                                                                                                                                 16
11
Cercle Alumni IBM – 18 octobre 2011


  Vers de nouveaux domaines d’application



   Santé et Sciences de la Vie
       Diagnostic Assistance                          “In healthcare, we talk about
                                                      turning data into knowledge.
       Evidence-based
       Collaborative Medicine
                                                      That’s really what Watson does.”

   Support Technique:                                 Joe Jasinski
   help-desk, call centers                            Program Director,
                                                      IBM Healthcare and Life Sciences
                                                      Research
   Enterprise knowledge management
   and business intelligence

   Government citizen services

   ….
                                      © 2011 IBM Corporation                             17
11
Cercle Alumni IBM – 18 octobre 2011


                                           DeepQA : Diagnostic en continu
                  Symptômes                                   Traite et synthetise une grande quantité de
                                                                 preuves pour améliorer le diagnostic

                                                                    Diagnosis Models                     Confidence
                        Antécédents
                        Familiaux                                      PB Renal


                        Histoire du Patient                               UTI

                                      Traitements
                                                                        Diabetes

                                 Tests/Résultats
                                                                       Influenza

                                 Notes/Hypotheses
                                                                       hypokalemie


                                                                       esophogitis


                                                                     MostConfident Diagnosis: Rhume
                                                                    Most ConfidentDiagnosis: Diabetes
                                                                     Most Confident Diagnosis: UTI
                                                                    Most Confident Diagnosis: Diabetes and Esophogitis


                                            Grands Volumes de Textes, publications,
                                            Références, DBs etc.en langage naturel
                                                        © 2011 IBM Corporation                                           18
When it comes to the future, there are three kinds of people: those who let it
            happen, those who make it happen, and those who wonder what happened.”

            John M. Richardson, Jr., American academic and author




Claude Riousset, Executive Architect - Systems & Technology Group
Cercle Alumni IBM – 18 octobre 2011




                                      © 2011 IBM Corporation
                                                               20
Cercle Alumni IBM – 18 octobre 2011




                      Vers un ordinateur sachant raisonner….

                                              ….une Synthèse Créative
                                      du meilleur état de l’art des Technologies.


                                                                    Claude Riousset
                                                                    Executive Architect

                                           © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011




                             En Février 2011,
            14 ans après avoir battu Kasparov aux échecs,
           un nouvel ordinateur IBM remportait une série de
          3 parties qui l’opposait aux 2 champions de tous les
             temps du jeu télévisé américain «Jeopardy».




                                      © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011



Agenda

  Qu’est-ce que Watson ?

  Principe du jeu « Jeopardy »

  Les principes et technologies mises en œuvre pour Watson

  Les applications possibles

  Le futur



                                      © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011


Qu’est-ce que Watson?

  Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a
  battu les 2 meilleurs candidats de toute l’histoire du jeu
  (depuis le 30 mars 1964).

  Un ordinateur conçu par une équipe d’IBM Research
  capable de rivaliser avec les humains en répondant à des
  questions posées en langage naturel avec rapidité et
  précision.

  Un système capable de comprendre la signification et le
  contexte du langage humain pour traiter l’information
  rapidement et trouver des réponses précises à des
  questions complexes.




                                        © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011


  Du langage au projet Watson pour Jeopardy, le principe du jeu

            Technologie       Classique    Grands   Citations
                                              TECHNOLOGIE                Savoir   Avant et      6 Catégories
                                           Espaces de Dickens             vivre    Après
                 $200            $200       $200      $200                $200     $200
                                      TOUS LES POLICIERS PEUVENT
                 $400            $400    REMERCIER STEPHANIE$400
                                          $400      $400                           $400
                                       KWOLEK POUR L’INVENTION                                      5 degrés de
                 $600            $600 DE CETTE FIBRE POLYMERE, 5
                                          $600      $600     $600                  $600              Difficulté
                                       FOIS PLUS RESISTANTE QUE
                 $800            $800     $800      $800     $800                  $800
                                                L’ACIER
                $1000            $1000      $1000     $1000              $1000     $1000


                                                                                      Si la réponse est bonne
  L’un des 3 joueurs choisit une
case                                                                                        Le joueur gagne le
                                                                                           montant de la case
  L’animateur lit l’énigme à
voix haute
                                Qu’est-ce que le KEVLAR ? choisit une autre case
                                                         Et
                                                                                      Si la réponse est fausse
  Le 1er joueur qui “buzz” peut                                                            Le joueur perd le montant
répondre                                                                                de la case
                                    2 manches par jeu + une Question finale                les autres joueurs
                                                                                        peuvent “buzzer”
                                    une règle de doublement des points
                                                      © 2011 IBM Corporation
                                                                                                                  5
Cercle Alumni IBM – 18 octobre 2011


Du jeu d’échec au langage…



     Jeu d’échecs
       – Un espace de solution fini et totalement structuré
       – Un nombre limité de mouvement et d’états
       – Des règles mathématiques qui s’appliquent à
       des symboles finis




     Langage humain
       –   Les mots n’ont pas de signification par eux-mêmes
       –   Ils sont associés à une expérience humaine
       –   Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées.
       –   Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une
           signification


                                                 © 2011 IBM Corporation
                                                                                                            6
Cercle Alumni IBM – 18 octobre 2011


 Qu’est-ce qu’une question facile ?

ln((12,546,798 * π)) ^ 2 / 34,567.46 =                       0.00885

Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”,

             Owner                      Serial Number
        David Jones                      45322190-AK
                                                                       Invoice #    Vendor   Payment
                                                                      INV10895      MyBuy     $104.56

     Serial Number                     Type   Invoice #
     45322190-AK                  LapTop      INV10895



      David Jones                                                            Dave     Jones

      David Jones                             =                              David Jones
                                                                                                 ≠
 7                                                  © 2011 IBM Corporation
                                                                                                        7
Cercle Alumni IBM – 18 octobre 2011


Qu’est-ce qu’une question difficile ?

Les programmes informatiques sont nativement explicites, rapides et exigeants pour mener
des calculs sur des nombres et des symboles….alors que le Langage naturel est implicite,
très contextuel, ambigu et souvent imprécis.

                                        Person                         Birth Place     Structured

                                      A. Einstein                         ULM

                                                                                      Unstructured
      Where was X born?
           One day, from among his city views of Ulm, Otto chose a water color to send
           to Albert Einstein as a remembrance of Einstein´s birthplace.




                                        Person                         Organization
                                        J. Welch                            GE
     X ran this?
        If leadership is an art then surely Jack Welch has proved himself a master
           painter during his tenure at GE.
                                              © 2011 IBM Corporation
                                                                                                     8
Cercle Alumni IBM – 18 octobre 2011


Apprentissage Automatique par la “Lecture”




Volumes of Text                       Syntactic Frames                      Semantic Frames

                                                                          Inventors patent inventions (.8)
                                                                          Officials Submit Resignations (.7)
                                                                         People earn degrees at schools (0.9)
                                                                             Fluid is a liquid (.6)
                                                                             Liquid is a fluid (.5)
                                                                                  Vessels Sink (0.7)
                                                                         People sink 8-balls (0.5) (in pool/0.8)




                                               IBM Confidential
                                                © 2011 IBM Corporation
Cercle Alumni IBM – 18 octobre 2011

   La correspondance de mots-clés n’est pas suffisante

                              En Mai 1898 le Portugal a célébré                              En Mai, Georges est arrivé
                              le 400eme anniversaire de                                      en Inde après avoir célébré
                              l’arrivée de cet explorateur en                                son anniversaire au
                              Inde.                                                          Portugal.

                                                                                                      Est arrivé

                                                   A célébré                Correspondance                            A célébré



                                       En Mai                               Correspondance       En Mai
                                        1898

                                            400eme                          Correspondance                            anniversaire
                                          anniversaire


“Georges” est la                                          Portugal          Correspondance                            au Portugal
réponse évidente par
                                            L’arrivée
correspondance des
mots-clés cependant
                                                                            Correspondance
l’ordinateur ne doit                               Inde                                                            Inde

pas accorder une
grande confiance à
                                                explorateur                                            Georges
cette réponse.                                                  © 2011 IBM Corporation
                                                                                                                                  10
Cercle Alumni IBM – 18 octobre 2011

   Des éléments plus probables
     En Mai 1898 le Portugal a célébré                                       Le 27 Mai 1498, Vasco da Gama a
     le 400eme anniversaire de                                               débarqué à Kappad Beach
     l’arrivée de cet explorateur en
     Inde.
                                                    Recherche élargie

                                                    Explorer de nombreuses
                                                   hypothèses
                     A célébré
                                                                                               A
                                                    Peser les réponses
                                                                                            débarqué
                                       Portugal
                                                    Différents algorithmes

                          400eme                       Raisonnement
      Mai 1898                                                                                         27 Mai 1498
                          anniversaire                   temporel
                                                                                 Date
                                                                                 Math
                                                         Paraphrase
                                L’arrivée
                                                         statistique
                                                                                 Para-
                                                                                phrases


                               Inde
                                                       Raisonnement                       Kappad Beach
                                                        GeoSpatial
Un résultat                                                                     Geo-
plus probable                                                                    KB

                              explorateur                                                      Vasco da Gama
n’est pas
toujours simple
à obtenir                                   Le résultat n’est toujours pas certain à
                                                         © 2011 IBM Corporation
                                                                100%.                                                11
11
Cercle Alumni IBM – 18 octobre 2011


Le moteur d’analyse de Watson est plus qu’un outil de recherche

• Une recherche sur le Web retourne
  une liste de résultats possibles
  contenant la réponse
       – Les résultats des moteurs de recherche
         sont basés sur leur popularité et leur
         référencement
       – L’utilisateur doit encore analyser le
         résultat pour trouver la meilleure
         réponse

• Le moteur d’analyse de Watson
  comprend la structure et le libellé de la
  question posée
       – Il trouve une réponse spécifique
       – Il classe les réponses en donnant en
         “degré de confiance” basé sur
         l’expérience

• Watson répond à des questions en
  “langage naturel”
       – Qui peut inclure des jeux de mots, de
         l’argot, du jargon et des acronymes qui
         doivent être évalués


[12]                                        © 2011 IBM Corporation   2011-02-23 12
Cercle Alumni IBM – 18 octobre 2011

                                   DeepQA : La Technologie de Watson
  Architecture Massivement Parallèle ; Système probabiliste à base de “preuves”
  Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage
        naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement .
Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus
                                         grand “degré de confiance”

                                                                                                                   Modèles appris
                                                                                                                  pour combiner et
                                                                                                                 peser les “preuves”
                                                                             Sources                         Balance
                                                                             Preuves                        & Combine
                       Sources                                                                                       Models   Models
                      Réponses                                                                Eval
Question                                                  Eval.            Recherche                                 Models   Models
                                                        Réponses
                                                                                            preuve
                                                                            Preuves 100,000’s Scores from
                  Recherche      Generation                                                   forte
                                                                                       many Deep Analysis
                                                              1000’s of                                              Models   Models
                   primaire                              Pieces of Evidence               Algorithms
                                  Réponse
                                       100’s Possible
                                         Answers
           Multiple         100’s
       Interpretations     sources
 Analyse                                                              Evaluation des                                   Classement
                      Décomposition           Génération
Question &                                                           Hypothèses et des               Synthèse        assemblage des
                      De la Question          Hypothèse
  sujet                                                                 “preuves”                                       réponses


                                                                                                                      Réponse et degré
                                       Génération         Hypothèses et évaluation
                                                                                                                        de confiance
                                                               des réponses
                                       Hypothèse
                                                  ...        © 2011 IBM Corporation
                                                                                                                                       13
Cercle Alumni IBM – 18 octobre 2011


La Performance humaine comparée à celle des ordinateurs
                                       Chaque point represente les performances d’un joueur à Jeopardy




                                                               Performance des
                                                                   gagnants
                                                                                                 Performance des
                                                                                                 grands champions




                                  2007 QA Computer System



                               More Confident                                                        Less Confident
[14]                                       Financial Services GTO 2011 -Corporation DISTRIBUTE
                                                               © 2011 IBM DO NOT                                    2011-04-07
                                                                                                                              14
Cercle Alumni IBM – 18 octobre 2011

DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010



                                                                                             v0.8 11/10

                                                                                                       V0.7 04/10

                                      v0.6 10/09

                                                      v0.5 05/09

                                                                v0.4 12/08
                                                                             v0.3 08/08

                                                                                          v0.2 05/08
                                             v0.1 12/07




                                                                               IBM Watson joue dans le
                                                                                domaine des gagnants
                  Baseline 12/06




                                                   © 2011 IBM Corporation
                                                                                                                    15
Cercle Alumni IBM – 18 octobre 2011


 L’infrastructure technique de Watson,
 ou comment gérer plus de 10000 conversations
•Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz.
Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes.


Le système se compose de …                                            Performance et dispositifs
– 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs &      – Puissance de 80 teraflops par seconde (80 trillion
  cluster disque système)                                              d’operations/sec)
– 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM)            – Le processeur P7 est designé pour les charges de traitement
– Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU               massivement parallèle (comme celles de Watson)
  cores (32 cores/node) pour un total de 2,880 cores                 – Le Power 750 comprend des dispositifs de gestion de l’énergie,
– Interconnection a 10gigE (réseau ethernet)                           en faisant le 1er système à 4 processeurs qualifié “ENERGY
                                                                       STAR”


                     Power7




                                                           © 2011 IBM Corporation
                                                                                                                                 16
11
Cercle Alumni IBM – 18 octobre 2011


  Vers de nouveaux domaines d’application



   Santé et Sciences de la Vie
       Diagnostic Assistance                          “In healthcare, we talk about
                                                      turning data into knowledge.
       Evidence-based
       Collaborative Medicine
                                                      That’s really what Watson does.”

   Support Technique:                                 Joe Jasinski
   help-desk, call centers                            Program Director,
                                                      IBM Healthcare and Life Sciences
                                                      Research
   Enterprise knowledge management
   and business intelligence

   Government citizen services

   ….
                                      © 2011 IBM Corporation                             17
11
Cercle Alumni IBM – 18 octobre 2011


                                           DeepQA : Diagnostic en continu
                  Symptômes                                   Traite et synthetise une grande quantité de
                                                                 preuves pour améliorer le diagnostic

                                                                    Diagnosis Models                     Confidence
                        Antécédents
                        Familiaux                                      PB Renal


                        Histoire du Patient                               UTI

                                      Traitements
                                                                        Diabetes

                                 Tests/Résultats
                                                                       Influenza

                                 Notes/Hypotheses
                                                                       hypokalemie


                                                                       esophogitis


                                                                     MostConfident Diagnosis: Rhume
                                                                    Most ConfidentDiagnosis: Diabetes
                                                                     Most Confident Diagnosis: UTI
                                                                    Most Confident Diagnosis: Diabetes and Esophogitis


                                            Grands Volumes de Textes, publications,
                                            Références, DBs etc.en langage naturel
                                                        © 2011 IBM Corporation                                           18
When it comes to the future, there are three kinds of people: those who let it
            happen, those who make it happen, and those who wonder what happened.”

            John M. Richardson, Jr., American academic and author




Claude Riousset, Executive Architect - Systems & Technology Group
Cercle Alumni IBM – 18 octobre 2011




                                      © 2011 IBM Corporation
                                                               20

Weitere ähnliche Inhalte

Andere mochten auch

"El muncyt: Un museo al servicio de la educación científica"
"El muncyt: Un museo al servicio de la educación científica""El muncyt: Un museo al servicio de la educación científica"
"El muncyt: Un museo al servicio de la educación científica"INTEF
 
Investigacion de Operaciones
Investigacion  de OperacionesInvestigacion  de Operaciones
Investigacion de OperacionesCarol Baez
 
Infolettre avril juin 2014 ambassade d haiti au mexique
Infolettre avril   juin 2014 ambassade d haiti au mexiqueInfolettre avril   juin 2014 ambassade d haiti au mexique
Infolettre avril juin 2014 ambassade d haiti au mexiqueGuy Lamothe
 
Comparateur mutuelle.net
Comparateur mutuelle.netComparateur mutuelle.net
Comparateur mutuelle.netcomparateurm
 
Etude de cas distribution ou le f-commerce - adrien rosier - 2012
Etude de cas   distribution ou le f-commerce - adrien rosier - 2012Etude de cas   distribution ou le f-commerce - adrien rosier - 2012
Etude de cas distribution ou le f-commerce - adrien rosier - 2012Adrien Rosier
 
Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils BoucherieOvalie
 
Adaptamos los estímulos de dos ítems liberados
Adaptamos los estímulos de dos ítems liberadosAdaptamos los estímulos de dos ítems liberados
Adaptamos los estímulos de dos ítems liberadosINTEF
 
Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5
Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5
Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5habiague
 
Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...
Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...
Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...www.jcautentico.com
 
Sondage sur l’emploi et les salaires du design interactif en France - Edition...
Sondage sur l’emploi et les salaires du design interactif en France - Edition...Sondage sur l’emploi et les salaires du design interactif en France - Edition...
Sondage sur l’emploi et les salaires du design interactif en France - Edition...yann le gigan
 
#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)
#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)
#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)yann le gigan
 
Generalitats de l’obesitat
Generalitats de l’obesitatGeneralitats de l’obesitat
Generalitats de l’obesitatrosa1069
 
Carré Rive Gauche - Vernissage Métamorphoses
Carré Rive Gauche - Vernissage MétamorphosesCarré Rive Gauche - Vernissage Métamorphoses
Carré Rive Gauche - Vernissage MétamorphosesAgence Colonnes
 

Andere mochten auch (20)

20153600657211
2015360065721120153600657211
20153600657211
 
Une occasion d'affaires unique en France!
Une occasion d'affaires unique en France!Une occasion d'affaires unique en France!
Une occasion d'affaires unique en France!
 
"El muncyt: Un museo al servicio de la educación científica"
"El muncyt: Un museo al servicio de la educación científica""El muncyt: Un museo al servicio de la educación científica"
"El muncyt: Un museo al servicio de la educación científica"
 
Investigacion de Operaciones
Investigacion  de OperacionesInvestigacion  de Operaciones
Investigacion de Operaciones
 
Infolettre avril juin 2014 ambassade d haiti au mexique
Infolettre avril   juin 2014 ambassade d haiti au mexiqueInfolettre avril   juin 2014 ambassade d haiti au mexique
Infolettre avril juin 2014 ambassade d haiti au mexique
 
Ec development power point
Ec development power pointEc development power point
Ec development power point
 
Atelierphoto
AtelierphotoAtelierphoto
Atelierphoto
 
Comparateur mutuelle.net
Comparateur mutuelle.netComparateur mutuelle.net
Comparateur mutuelle.net
 
Etude de cas distribution ou le f-commerce - adrien rosier - 2012
Etude de cas   distribution ou le f-commerce - adrien rosier - 2012Etude de cas   distribution ou le f-commerce - adrien rosier - 2012
Etude de cas distribution ou le f-commerce - adrien rosier - 2012
 
Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils Rugbypolitan - Edition spéciale poils
Rugbypolitan - Edition spéciale poils
 
Adaptamos los estímulos de dos ítems liberados
Adaptamos los estímulos de dos ítems liberadosAdaptamos los estímulos de dos ítems liberados
Adaptamos los estímulos de dos ítems liberados
 
Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5
Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5
Mode d'emploi robot café Jura giga 5 - Jura Impressa Giga 5
 
Intercolegiados natacion 2014
Intercolegiados natacion 2014Intercolegiados natacion 2014
Intercolegiados natacion 2014
 
Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...
Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...
Proyecto: Mi Querido Viejo, porque 'YO' soy tu sangre mi viejoáLbum de fotogr...
 
Sondage sur l’emploi et les salaires du design interactif en France - Edition...
Sondage sur l’emploi et les salaires du design interactif en France - Edition...Sondage sur l’emploi et les salaires du design interactif en France - Edition...
Sondage sur l’emploi et les salaires du design interactif en France - Edition...
 
Instituto superior tecnologic1
Instituto superior tecnologic1Instituto superior tecnologic1
Instituto superior tecnologic1
 
#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)
#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)
#Culture_numerique saison2 - Dentsu Aegis Network (Juin 2015)
 
Generalitats de l’obesitat
Generalitats de l’obesitatGeneralitats de l’obesitat
Generalitats de l’obesitat
 
Carré Rive Gauche - Vernissage Métamorphoses
Carré Rive Gauche - Vernissage MétamorphosesCarré Rive Gauche - Vernissage Métamorphoses
Carré Rive Gauche - Vernissage Métamorphoses
 
20142010507911
2014201050791120142010507911
20142010507911
 

Mehr von Claude Riousset

Cloud computing & Batch processing: potentiels & perspectives
Cloud computing & Batch processing:  potentiels & perspectives  Cloud computing & Batch processing:  potentiels & perspectives
Cloud computing & Batch processing: potentiels & perspectives Claude Riousset
 
Software Defined Environment - IBM Point of View
Software Defined Environment  - IBM Point of ViewSoftware Defined Environment  - IBM Point of View
Software Defined Environment - IBM Point of ViewClaude Riousset
 
From OpenStack.... towards an Open cloud architecture
From OpenStack.... towards an Open cloud architecture From OpenStack.... towards an Open cloud architecture
From OpenStack.... towards an Open cloud architecture Claude Riousset
 
Présentation IBM SmartCloud Entry 3.1
Présentation IBM SmartCloud Entry 3.1Présentation IBM SmartCloud Entry 3.1
Présentation IBM SmartCloud Entry 3.1Claude Riousset
 
Cercle innovation IBM 2013 - Ile Bendor
Cercle innovation IBM 2013 -  Ile Bendor Cercle innovation IBM 2013 -  Ile Bendor
Cercle innovation IBM 2013 - Ile Bendor Claude Riousset
 
Ibm research gto 2010 v lyon lite
Ibm research gto 2010 v  lyon liteIbm research gto 2010 v  lyon lite
Ibm research gto 2010 v lyon liteClaude Riousset
 
A Fit for Purpose discussion
A Fit for Purpose discussionA Fit for Purpose discussion
A Fit for Purpose discussionClaude Riousset
 
Cloud panorama évolution des solutions d'infrastructure
Cloud   panorama évolution des solutions d'infrastructureCloud   panorama évolution des solutions d'infrastructure
Cloud panorama évolution des solutions d'infrastructureClaude Riousset
 
Comprendre l’offre IBM SmartCloud Foundation, Zoom sur PureSystems
Comprendre l’offre  IBM SmartCloud Foundation, Zoom sur PureSystems Comprendre l’offre  IBM SmartCloud Foundation, Zoom sur PureSystems
Comprendre l’offre IBM SmartCloud Foundation, Zoom sur PureSystems Claude Riousset
 
OpenStack storage new and upcoming from IBM Research
OpenStack storage   new and upcoming from IBM ResearchOpenStack storage   new and upcoming from IBM Research
OpenStack storage new and upcoming from IBM ResearchClaude Riousset
 
Panorama des offres cloud IBM
Panorama des offres cloud IBMPanorama des offres cloud IBM
Panorama des offres cloud IBMClaude Riousset
 

Mehr von Claude Riousset (12)

Osfr summit paris v2
Osfr summit paris v2Osfr summit paris v2
Osfr summit paris v2
 
Cloud computing & Batch processing: potentiels & perspectives
Cloud computing & Batch processing:  potentiels & perspectives  Cloud computing & Batch processing:  potentiels & perspectives
Cloud computing & Batch processing: potentiels & perspectives
 
Software Defined Environment - IBM Point of View
Software Defined Environment  - IBM Point of ViewSoftware Defined Environment  - IBM Point of View
Software Defined Environment - IBM Point of View
 
From OpenStack.... towards an Open cloud architecture
From OpenStack.... towards an Open cloud architecture From OpenStack.... towards an Open cloud architecture
From OpenStack.... towards an Open cloud architecture
 
Présentation IBM SmartCloud Entry 3.1
Présentation IBM SmartCloud Entry 3.1Présentation IBM SmartCloud Entry 3.1
Présentation IBM SmartCloud Entry 3.1
 
Cercle innovation IBM 2013 - Ile Bendor
Cercle innovation IBM 2013 -  Ile Bendor Cercle innovation IBM 2013 -  Ile Bendor
Cercle innovation IBM 2013 - Ile Bendor
 
Ibm research gto 2010 v lyon lite
Ibm research gto 2010 v  lyon liteIbm research gto 2010 v  lyon lite
Ibm research gto 2010 v lyon lite
 
A Fit for Purpose discussion
A Fit for Purpose discussionA Fit for Purpose discussion
A Fit for Purpose discussion
 
Cloud panorama évolution des solutions d'infrastructure
Cloud   panorama évolution des solutions d'infrastructureCloud   panorama évolution des solutions d'infrastructure
Cloud panorama évolution des solutions d'infrastructure
 
Comprendre l’offre IBM SmartCloud Foundation, Zoom sur PureSystems
Comprendre l’offre  IBM SmartCloud Foundation, Zoom sur PureSystems Comprendre l’offre  IBM SmartCloud Foundation, Zoom sur PureSystems
Comprendre l’offre IBM SmartCloud Foundation, Zoom sur PureSystems
 
OpenStack storage new and upcoming from IBM Research
OpenStack storage   new and upcoming from IBM ResearchOpenStack storage   new and upcoming from IBM Research
OpenStack storage new and upcoming from IBM Research
 
Panorama des offres cloud IBM
Panorama des offres cloud IBMPanorama des offres cloud IBM
Panorama des offres cloud IBM
 

IBM Watson

  • 1. Cercle Alumni IBM – 18 octobre 2011 Vers un ordinateur sachant raisonner…. ….une Synthèse Créative du meilleur état de l’art des Technologies. Claude Riousset Executive Architect © 2011 IBM Corporation
  • 2. Cercle Alumni IBM – 18 octobre 2011 En Février 2011, 14 ans après avoir battu Kasparov aux échecs, un nouvel ordinateur IBM remportait une série de 3 parties qui l’opposait aux 2 champions de tous les temps du jeu télévisé américain «Jeopardy». © 2011 IBM Corporation
  • 3. Cercle Alumni IBM – 18 octobre 2011 Agenda Qu’est-ce que Watson ? Principe du jeu « Jeopardy » Les principes et technologies mises en œuvre pour Watson Les applications possibles Le futur © 2011 IBM Corporation
  • 4. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce que Watson? Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a battu les 2 meilleurs candidats de toute l’histoire du jeu (depuis le 30 mars 1964). Un ordinateur conçu par une équipe d’IBM Research capable de rivaliser avec les humains en répondant à des questions posées en langage naturel avec rapidité et précision. Un système capable de comprendre la signification et le contexte du langage humain pour traiter l’information rapidement et trouver des réponses précises à des questions complexes. © 2011 IBM Corporation
  • 5. Cercle Alumni IBM – 18 octobre 2011 Du langage au projet Watson pour Jeopardy, le principe du jeu Technologie Classique Grands Citations TECHNOLOGIE Savoir Avant et 6 Catégories Espaces de Dickens vivre Après $200 $200 $200 $200 $200 $200 TOUS LES POLICIERS PEUVENT $400 $400 REMERCIER STEPHANIE$400 $400 $400 $400 KWOLEK POUR L’INVENTION 5 degrés de $600 $600 DE CETTE FIBRE POLYMERE, 5 $600 $600 $600 $600 Difficulté FOIS PLUS RESISTANTE QUE $800 $800 $800 $800 $800 $800 L’ACIER $1000 $1000 $1000 $1000 $1000 $1000 Si la réponse est bonne L’un des 3 joueurs choisit une case Le joueur gagne le montant de la case L’animateur lit l’énigme à voix haute Qu’est-ce que le KEVLAR ? choisit une autre case Et Si la réponse est fausse Le 1er joueur qui “buzz” peut Le joueur perd le montant répondre de la case 2 manches par jeu + une Question finale les autres joueurs peuvent “buzzer” une règle de doublement des points © 2011 IBM Corporation 5
  • 6. Cercle Alumni IBM – 18 octobre 2011 Du jeu d’échec au langage… Jeu d’échecs – Un espace de solution fini et totalement structuré – Un nombre limité de mouvement et d’états – Des règles mathématiques qui s’appliquent à des symboles finis Langage humain – Les mots n’ont pas de signification par eux-mêmes – Ils sont associés à une expérience humaine – Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées. – Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une signification © 2011 IBM Corporation 6
  • 7. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce qu’une question facile ? ln((12,546,798 * π)) ^ 2 / 34,567.46 = 0.00885 Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”, Owner Serial Number David Jones 45322190-AK Invoice # Vendor Payment INV10895 MyBuy $104.56 Serial Number Type Invoice # 45322190-AK LapTop INV10895 David Jones Dave Jones David Jones = David Jones ≠ 7 © 2011 IBM Corporation 7
  • 8. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce qu’une question difficile ? Les programmes informatiques sont nativement explicites, rapides et exigeants pour mener des calculs sur des nombres et des symboles….alors que le Langage naturel est implicite, très contextuel, ambigu et souvent imprécis. Person Birth Place Structured A. Einstein ULM Unstructured Where was X born? One day, from among his city views of Ulm, Otto chose a water color to send to Albert Einstein as a remembrance of Einstein´s birthplace. Person Organization J. Welch GE X ran this? If leadership is an art then surely Jack Welch has proved himself a master painter during his tenure at GE. © 2011 IBM Corporation 8
  • 9. Cercle Alumni IBM – 18 octobre 2011 Apprentissage Automatique par la “Lecture” Volumes of Text Syntactic Frames Semantic Frames Inventors patent inventions (.8) Officials Submit Resignations (.7) People earn degrees at schools (0.9) Fluid is a liquid (.6) Liquid is a fluid (.5) Vessels Sink (0.7) People sink 8-balls (0.5) (in pool/0.8) IBM Confidential © 2011 IBM Corporation
  • 10. Cercle Alumni IBM – 18 octobre 2011 La correspondance de mots-clés n’est pas suffisante En Mai 1898 le Portugal a célébré En Mai, Georges est arrivé le 400eme anniversaire de en Inde après avoir célébré l’arrivée de cet explorateur en son anniversaire au Inde. Portugal. Est arrivé A célébré Correspondance A célébré En Mai Correspondance En Mai 1898 400eme Correspondance anniversaire anniversaire “Georges” est la Portugal Correspondance au Portugal réponse évidente par L’arrivée correspondance des mots-clés cependant Correspondance l’ordinateur ne doit Inde Inde pas accorder une grande confiance à explorateur Georges cette réponse. © 2011 IBM Corporation 10
  • 11. Cercle Alumni IBM – 18 octobre 2011 Des éléments plus probables En Mai 1898 le Portugal a célébré Le 27 Mai 1498, Vasco da Gama a le 400eme anniversaire de débarqué à Kappad Beach l’arrivée de cet explorateur en Inde. Recherche élargie Explorer de nombreuses hypothèses A célébré A Peser les réponses débarqué Portugal Différents algorithmes 400eme Raisonnement Mai 1898 27 Mai 1498 anniversaire temporel Date Math Paraphrase L’arrivée statistique Para- phrases Inde Raisonnement Kappad Beach GeoSpatial Un résultat Geo- plus probable KB explorateur Vasco da Gama n’est pas toujours simple à obtenir Le résultat n’est toujours pas certain à © 2011 IBM Corporation 100%. 11
  • 12. 11 Cercle Alumni IBM – 18 octobre 2011 Le moteur d’analyse de Watson est plus qu’un outil de recherche • Une recherche sur le Web retourne une liste de résultats possibles contenant la réponse – Les résultats des moteurs de recherche sont basés sur leur popularité et leur référencement – L’utilisateur doit encore analyser le résultat pour trouver la meilleure réponse • Le moteur d’analyse de Watson comprend la structure et le libellé de la question posée – Il trouve une réponse spécifique – Il classe les réponses en donnant en “degré de confiance” basé sur l’expérience • Watson répond à des questions en “langage naturel” – Qui peut inclure des jeux de mots, de l’argot, du jargon et des acronymes qui doivent être évalués [12] © 2011 IBM Corporation 2011-02-23 12
  • 13. Cercle Alumni IBM – 18 octobre 2011 DeepQA : La Technologie de Watson Architecture Massivement Parallèle ; Système probabiliste à base de “preuves” Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement . Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus grand “degré de confiance” Modèles appris pour combiner et peser les “preuves” Sources Balance Preuves & Combine Sources Models Models Réponses Eval Question Eval. Recherche Models Models Réponses preuve Preuves 100,000’s Scores from Recherche Generation forte many Deep Analysis 1000’s of Models Models primaire Pieces of Evidence Algorithms Réponse 100’s Possible Answers Multiple 100’s Interpretations sources Analyse Evaluation des Classement Décomposition Génération Question & Hypothèses et des Synthèse assemblage des De la Question Hypothèse sujet “preuves” réponses Réponse et degré Génération Hypothèses et évaluation de confiance des réponses Hypothèse ... © 2011 IBM Corporation 13
  • 14. Cercle Alumni IBM – 18 octobre 2011 La Performance humaine comparée à celle des ordinateurs Chaque point represente les performances d’un joueur à Jeopardy Performance des gagnants Performance des grands champions 2007 QA Computer System More Confident Less Confident [14] Financial Services GTO 2011 -Corporation DISTRIBUTE © 2011 IBM DO NOT 2011-04-07 14
  • 15. Cercle Alumni IBM – 18 octobre 2011 DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010 v0.8 11/10 V0.7 04/10 v0.6 10/09 v0.5 05/09 v0.4 12/08 v0.3 08/08 v0.2 05/08 v0.1 12/07 IBM Watson joue dans le domaine des gagnants Baseline 12/06 © 2011 IBM Corporation 15
  • 16. Cercle Alumni IBM – 18 octobre 2011 L’infrastructure technique de Watson, ou comment gérer plus de 10000 conversations •Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz. Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes. Le système se compose de … Performance et dispositifs – 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs & – Puissance de 80 teraflops par seconde (80 trillion cluster disque système) d’operations/sec) – 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM) – Le processeur P7 est designé pour les charges de traitement – Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU massivement parallèle (comme celles de Watson) cores (32 cores/node) pour un total de 2,880 cores – Le Power 750 comprend des dispositifs de gestion de l’énergie, – Interconnection a 10gigE (réseau ethernet) en faisant le 1er système à 4 processeurs qualifié “ENERGY STAR” Power7 © 2011 IBM Corporation 16
  • 17. 11 Cercle Alumni IBM – 18 octobre 2011 Vers de nouveaux domaines d’application Santé et Sciences de la Vie Diagnostic Assistance “In healthcare, we talk about turning data into knowledge. Evidence-based Collaborative Medicine That’s really what Watson does.” Support Technique: Joe Jasinski help-desk, call centers Program Director, IBM Healthcare and Life Sciences Research Enterprise knowledge management and business intelligence Government citizen services …. © 2011 IBM Corporation 17
  • 18. 11 Cercle Alumni IBM – 18 octobre 2011 DeepQA : Diagnostic en continu Symptômes Traite et synthetise une grande quantité de preuves pour améliorer le diagnostic Diagnosis Models Confidence Antécédents Familiaux PB Renal Histoire du Patient UTI Traitements Diabetes Tests/Résultats Influenza Notes/Hypotheses hypokalemie esophogitis MostConfident Diagnosis: Rhume Most ConfidentDiagnosis: Diabetes Most Confident Diagnosis: UTI Most Confident Diagnosis: Diabetes and Esophogitis Grands Volumes de Textes, publications, Références, DBs etc.en langage naturel © 2011 IBM Corporation 18
  • 19. When it comes to the future, there are three kinds of people: those who let it happen, those who make it happen, and those who wonder what happened.” John M. Richardson, Jr., American academic and author Claude Riousset, Executive Architect - Systems & Technology Group
  • 20. Cercle Alumni IBM – 18 octobre 2011 © 2011 IBM Corporation 20
  • 21. Cercle Alumni IBM – 18 octobre 2011 Vers un ordinateur sachant raisonner…. ….une Synthèse Créative du meilleur état de l’art des Technologies. Claude Riousset Executive Architect © 2011 IBM Corporation
  • 22. Cercle Alumni IBM – 18 octobre 2011 En Février 2011, 14 ans après avoir battu Kasparov aux échecs, un nouvel ordinateur IBM remportait une série de 3 parties qui l’opposait aux 2 champions de tous les temps du jeu télévisé américain «Jeopardy». © 2011 IBM Corporation
  • 23. Cercle Alumni IBM – 18 octobre 2011 Agenda Qu’est-ce que Watson ? Principe du jeu « Jeopardy » Les principes et technologies mises en œuvre pour Watson Les applications possibles Le futur © 2011 IBM Corporation
  • 24. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce que Watson? Le 1er ordinateur candidat à un jeu télévisé (Jeopardy) qui a battu les 2 meilleurs candidats de toute l’histoire du jeu (depuis le 30 mars 1964). Un ordinateur conçu par une équipe d’IBM Research capable de rivaliser avec les humains en répondant à des questions posées en langage naturel avec rapidité et précision. Un système capable de comprendre la signification et le contexte du langage humain pour traiter l’information rapidement et trouver des réponses précises à des questions complexes. © 2011 IBM Corporation
  • 25. Cercle Alumni IBM – 18 octobre 2011 Du langage au projet Watson pour Jeopardy, le principe du jeu Technologie Classique Grands Citations TECHNOLOGIE Savoir Avant et 6 Catégories Espaces de Dickens vivre Après $200 $200 $200 $200 $200 $200 TOUS LES POLICIERS PEUVENT $400 $400 REMERCIER STEPHANIE$400 $400 $400 $400 KWOLEK POUR L’INVENTION 5 degrés de $600 $600 DE CETTE FIBRE POLYMERE, 5 $600 $600 $600 $600 Difficulté FOIS PLUS RESISTANTE QUE $800 $800 $800 $800 $800 $800 L’ACIER $1000 $1000 $1000 $1000 $1000 $1000 Si la réponse est bonne L’un des 3 joueurs choisit une case Le joueur gagne le montant de la case L’animateur lit l’énigme à voix haute Qu’est-ce que le KEVLAR ? choisit une autre case Et Si la réponse est fausse Le 1er joueur qui “buzz” peut Le joueur perd le montant répondre de la case 2 manches par jeu + une Question finale les autres joueurs peuvent “buzzer” une règle de doublement des points © 2011 IBM Corporation 5
  • 26. Cercle Alumni IBM – 18 octobre 2011 Du jeu d’échec au langage… Jeu d’échecs – Un espace de solution fini et totalement structuré – Un nombre limité de mouvement et d’états – Des règles mathématiques qui s’appliquent à des symboles finis Langage humain – Les mots n’ont pas de signification par eux-mêmes – Ils sont associés à une expérience humaine – Les mots véhiculent et transmettent un espace infini de significations possibles ou supposées. – Les ordinateurs ne savent pas associer les mots à des expériences humaines pour en déduire une signification © 2011 IBM Corporation 6
  • 27. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce qu’une question facile ? ln((12,546,798 * π)) ^ 2 / 34,567.46 = 0.00885 Select Payment where Owner=“David Jones” and Type(Product)=“Laptop”, Owner Serial Number David Jones 45322190-AK Invoice # Vendor Payment INV10895 MyBuy $104.56 Serial Number Type Invoice # 45322190-AK LapTop INV10895 David Jones Dave Jones David Jones = David Jones ≠ 7 © 2011 IBM Corporation 7
  • 28. Cercle Alumni IBM – 18 octobre 2011 Qu’est-ce qu’une question difficile ? Les programmes informatiques sont nativement explicites, rapides et exigeants pour mener des calculs sur des nombres et des symboles….alors que le Langage naturel est implicite, très contextuel, ambigu et souvent imprécis. Person Birth Place Structured A. Einstein ULM Unstructured Where was X born? One day, from among his city views of Ulm, Otto chose a water color to send to Albert Einstein as a remembrance of Einstein´s birthplace. Person Organization J. Welch GE X ran this? If leadership is an art then surely Jack Welch has proved himself a master painter during his tenure at GE. © 2011 IBM Corporation 8
  • 29. Cercle Alumni IBM – 18 octobre 2011 Apprentissage Automatique par la “Lecture” Volumes of Text Syntactic Frames Semantic Frames Inventors patent inventions (.8) Officials Submit Resignations (.7) People earn degrees at schools (0.9) Fluid is a liquid (.6) Liquid is a fluid (.5) Vessels Sink (0.7) People sink 8-balls (0.5) (in pool/0.8) IBM Confidential © 2011 IBM Corporation
  • 30. Cercle Alumni IBM – 18 octobre 2011 La correspondance de mots-clés n’est pas suffisante En Mai 1898 le Portugal a célébré En Mai, Georges est arrivé le 400eme anniversaire de en Inde après avoir célébré l’arrivée de cet explorateur en son anniversaire au Inde. Portugal. Est arrivé A célébré Correspondance A célébré En Mai Correspondance En Mai 1898 400eme Correspondance anniversaire anniversaire “Georges” est la Portugal Correspondance au Portugal réponse évidente par L’arrivée correspondance des mots-clés cependant Correspondance l’ordinateur ne doit Inde Inde pas accorder une grande confiance à explorateur Georges cette réponse. © 2011 IBM Corporation 10
  • 31. Cercle Alumni IBM – 18 octobre 2011 Des éléments plus probables En Mai 1898 le Portugal a célébré Le 27 Mai 1498, Vasco da Gama a le 400eme anniversaire de débarqué à Kappad Beach l’arrivée de cet explorateur en Inde. Recherche élargie Explorer de nombreuses hypothèses A célébré A Peser les réponses débarqué Portugal Différents algorithmes 400eme Raisonnement Mai 1898 27 Mai 1498 anniversaire temporel Date Math Paraphrase L’arrivée statistique Para- phrases Inde Raisonnement Kappad Beach GeoSpatial Un résultat Geo- plus probable KB explorateur Vasco da Gama n’est pas toujours simple à obtenir Le résultat n’est toujours pas certain à © 2011 IBM Corporation 100%. 11
  • 32. 11 Cercle Alumni IBM – 18 octobre 2011 Le moteur d’analyse de Watson est plus qu’un outil de recherche • Une recherche sur le Web retourne une liste de résultats possibles contenant la réponse – Les résultats des moteurs de recherche sont basés sur leur popularité et leur référencement – L’utilisateur doit encore analyser le résultat pour trouver la meilleure réponse • Le moteur d’analyse de Watson comprend la structure et le libellé de la question posée – Il trouve une réponse spécifique – Il classe les réponses en donnant en “degré de confiance” basé sur l’expérience • Watson répond à des questions en “langage naturel” – Qui peut inclure des jeux de mots, de l’argot, du jargon et des acronymes qui doivent être évalués [12] © 2011 IBM Corporation 2011-02-23 12
  • 33. Cercle Alumni IBM – 18 octobre 2011 DeepQA : La Technologie de Watson Architecture Massivement Parallèle ; Système probabiliste à base de “preuves” Génère et pèse de nombreuses hypothèses en utilisant une combinaison de 1000 Traitements en Langage naturel, de recherche d’Information et d’Algorithmes d’apprentissage et de Raisonnement . Le système évalue, pèse et compare différentes types de “preuves” pour donner la réponse qui présente le plus grand “degré de confiance” Modèles appris pour combiner et peser les “preuves” Sources Balance Preuves & Combine Sources Models Models Réponses Eval Question Eval. Recherche Models Models Réponses preuve Preuves 100,000’s Scores from Recherche Generation forte many Deep Analysis 1000’s of Models Models primaire Pieces of Evidence Algorithms Réponse 100’s Possible Answers Multiple 100’s Interpretations sources Analyse Evaluation des Classement Décomposition Génération Question & Hypothèses et des Synthèse assemblage des De la Question Hypothèse sujet “preuves” réponses Réponse et degré Génération Hypothèses et évaluation de confiance des réponses Hypothèse ... © 2011 IBM Corporation 13
  • 34. Cercle Alumni IBM – 18 octobre 2011 La Performance humaine comparée à celle des ordinateurs Chaque point represente les performances d’un joueur à Jeopardy Performance des gagnants Performance des grands champions 2007 QA Computer System More Confident Less Confident [14] Financial Services GTO 2011 -Corporation DISTRIBUTE © 2011 IBM DO NOT 2011-04-07 14
  • 35. Cercle Alumni IBM – 18 octobre 2011 DeepQA: Les progrès dans la précision de la réponse: 12/2006-11/2010 v0.8 11/10 V0.7 04/10 v0.6 10/09 v0.5 05/09 v0.4 12/08 v0.3 08/08 v0.2 05/08 v0.1 12/07 IBM Watson joue dans le domaine des gagnants Baseline 12/06 © 2011 IBM Corporation 15
  • 36. Cercle Alumni IBM – 18 octobre 2011 L’infrastructure technique de Watson, ou comment gérer plus de 10000 conversations •Une question de Jeopardy! demande 2 heures de traitement d’un processeur (core) 2.6Ghz. Le traitement a été optimisé et porté sur 2,880-Core Power750 pour une réponse en 2 à 6 secondes. Le système se compose de … Performance et dispositifs – 10 racks (10 nodes/rack, et 1 rack avec switch, controleurs & – Puissance de 80 teraflops par seconde (80 trillion cluster disque système) d’operations/sec) – 90 HV32 nodes (60 avec 128GB RAM, et 30 avec 256GB RAM) – Le processeur P7 est designé pour les charges de traitement – Chaque node a 4 puces Atlas P7, et chaque puce a 8 CPU massivement parallèle (comme celles de Watson) cores (32 cores/node) pour un total de 2,880 cores – Le Power 750 comprend des dispositifs de gestion de l’énergie, – Interconnection a 10gigE (réseau ethernet) en faisant le 1er système à 4 processeurs qualifié “ENERGY STAR” Power7 © 2011 IBM Corporation 16
  • 37. 11 Cercle Alumni IBM – 18 octobre 2011 Vers de nouveaux domaines d’application Santé et Sciences de la Vie Diagnostic Assistance “In healthcare, we talk about turning data into knowledge. Evidence-based Collaborative Medicine That’s really what Watson does.” Support Technique: Joe Jasinski help-desk, call centers Program Director, IBM Healthcare and Life Sciences Research Enterprise knowledge management and business intelligence Government citizen services …. © 2011 IBM Corporation 17
  • 38. 11 Cercle Alumni IBM – 18 octobre 2011 DeepQA : Diagnostic en continu Symptômes Traite et synthetise une grande quantité de preuves pour améliorer le diagnostic Diagnosis Models Confidence Antécédents Familiaux PB Renal Histoire du Patient UTI Traitements Diabetes Tests/Résultats Influenza Notes/Hypotheses hypokalemie esophogitis MostConfident Diagnosis: Rhume Most ConfidentDiagnosis: Diabetes Most Confident Diagnosis: UTI Most Confident Diagnosis: Diabetes and Esophogitis Grands Volumes de Textes, publications, Références, DBs etc.en langage naturel © 2011 IBM Corporation 18
  • 39. When it comes to the future, there are three kinds of people: those who let it happen, those who make it happen, and those who wonder what happened.” John M. Richardson, Jr., American academic and author Claude Riousset, Executive Architect - Systems & Technology Group
  • 40. Cercle Alumni IBM – 18 octobre 2011 © 2011 IBM Corporation 20