SlideShare ist ein Scribd-Unternehmen logo
1 von 50
Investigating the evaluation                    Étude de L'ÉVALUATION DES
of spoken dialogue systems                    SYSTÈMES DE DIALOGUE PARLÉ
Towards	
  a	
  coordina,on	
  of	
        Pour	
  une	
  coordina,on	
  de	
  pra,ques	
  
heterogeneous	
  prac,ces	
                                d’évalua,on	
  hétérogènes	
  




                                             Soutenance	
  de	
  thèse	
  de	
  Doctorat	
  
                                        Marianne	
  Laurent,	
  Brest,	
  le	
  29/11/2011	
  
Ioannis
              KANELLOS	
  




Philippe                     Marianne
BRETIER	
                    LAURENT	
  




                                           1
Automates
                 Vocaux
                            évaluation
Problématique


                                         Coordination	
  
                                              0




     Modèle de
    description
                                  Exercices de          Conclusions	
  
                                  Comparaison

                                                                          2
P
roblématique
Serveurs vocaux interactifs



      automates vocaux
                                  répondeurs automatiques
systèmes de dialogue


                                                       4
Architecture
        Je ne peux    RECONNAISSANCE
          pas me
       connecter à        VOCALE       COMPRÉHENSION DU
        Internet !                      LANGAGE NATUREL

                                                  GESTIONNAIRE DE
                                                     DIALOGUES


         Avez-vous                       GÉNÉRATION DU
                        SYNTHÈSE        LANGAGE NATUREL
         vérifié vos
          filtres ?
      VOCALE


                                                                    5
Des pratiques d’évaluation




                                                                                                   variés
                                                                            … dans un processus
                                                                           d’ajustement continu




    Faisabilité	
      Correc,ons	
        Ajustements	
                         Supervision	
  




   Études &                                 Tests                 Phase              Mise en
                      Réalisation
spécifications                          utilisateurs              pilote           Exploitation

                                                             Ajustement itératif de la solution



                                                                                                      6
http://www.speech.cs.cmu.edu/letsgo/
                                                   Données
Logs systèmes   Annotations   questionnaires
                                               physiométriques




                                                                                                        5
                                                                                                        6
Evanini et al., 2008
 Le système reconnaît-il avec précision les énoncés de l’utilisateur ?
 Les réponses du système sont telles appropriées et utiles ?
 Le système identifie-t-il le motif d’appel et y répond-il de manière adéquate ?



                                                         Données
 Logs systèmes     Annotations      questionnaires
                                                     physiométriques




                                                                                                           5
                                                                                                           6
ITU-T P.851
                                                   Données
Logs systèmes   Annotations   questionnaires
                                               physiométriques




                                                                               5
                                                                               6
 Fréquence	
  cardiaque	
  
                                                                  	
  
                                                                  Conductance	
  cutanée	
  
                                                                  	
  
                                                                  Fréquence	
  respiratoire	
  
                                                                  	
  
                                                                  Température	
  corporelle	
  
                                                                  	
  
                                                                  Diamètre	
  pupillaire	
  
                                                                  	
  


                                                   Données
Logs systèmes   Annotations   questionnaires
                                               physiométriques




                                                                                                   5
                                                                                                   6
Démarche Compositionnelle	
  
                                                                          PARADISE	
  
                                                                          SERVQUAL	
  
                                                                          WoZ	
  GOLD	
  Standard	
  
                                                                          …	
  

        Tableau de bord                     Métriques haut niveau         Efficience	
  
                                                                          Facilité	
  d’u,lisa,on	
  
                            Agréga,on	
                                   …	
  


                                                                                Durée	
  du	
  dialogue	
  
                          Métriques de base                                     Nombre	
  de	
  tours	
  de	
  parole	
  
                                                                                Nombre	
  de	
  demande	
  d’assistance	
  
                                                                                Temps	
  de	
  réponse	
  du	
  système	
  
                                                            Données             Nombre	
  de	
  raccrochés	
  prématurés	
  
Logs systèmes      Annotations      questionnaires                              Ra,o	
  d’appels	
  abou,s	
  	
  
                                                        physiométriques         Taux	
  d’erreur	
  de	
  la	
  reconnaissance	
  vocale	
  
                                                                                Sa,sfac,on	
  u,lisateur	
  
     Description                   Jugement, comportement                       …	
  

                                                                              Recommandations UIT-T P.851 et P. Supp24
                                                                              Etude d’usages, Orange Labs
                                                                                                                                               5
                                                                                                                                               6
L’évaluation	
  
Définition


             est un processus ajustable qui englobe :
                                                              1   la capture


                                          et	
      2    le traitement
                                                         d’informations Pertinentes



                               pour	
     3        comparer des alternatives
                                                   entre elles ou à une référence
                                                                                      7
Elle Est sous influences	
  
                Objet évalué                              Groupe d’influence
Nature de la
                                                                               traditions &
    décision
                        situation                      Figures                 normes
                                     évaluation
 Ressources &         d’évaluation                 d’identification       Dynamique
  contraintes                                                             de groupe



                  Pas de méthodologie d’évaluation universelle !
                                                                                          8
                                                                                          5
Un support
   d’argumentation
 et de justification
à la prise de décision

                         9
Cohabitation de formes    Adaptées à des contextes de
d’évaluation différentes    mise en œuvre particuliers



    Coordonner                (2)   Décrire et
   les pratiques (1)                 Choisir (3)

                                                         10
                                                          5
1
Coordonner
Pas de méthodologie standard
Homonymie                                          Accomplissement de la tâche,
                                                   Satisfaction utilisateur, etc.
synonymie
                               Capacité à produire un résultat
                Efficience =
                                       Moyens engagés


                                  Durée du dialogue,
                                  Mesure de l’effort cognitif, etc.




                                                                                    12
Pas de méthodologie standard
Homonymie
synonymie                          Efficacité

                                 Pourcentage de tâches résolues
                  Efficience =
                                  Durée moyenne des dialogues

                                                  Performance




                                                                  12
Pas de méthodologie standard
Homonymie
synonymie

            Communication difficile entre acteurs




                                                    12
Alignement des pratiques d’évaluation (≠ standardisation)	
  

Démarche système d’information
Solution informatique décisionnelle


                                                                12
                                                                13
Tableaux                    Analyses
                                                                                    Tableaux de bord
              de bord                   détaillées
                                                                                    personnalisés
Durée du                     Ratio                    Appels
dialogue                  d’erreurs                   aboutis                       Des métriques de base
                                                            Requêtes SQL	
  
                                                                                    communes

                              DataMart	
  
                              (MySQL)	
  


                                                              Routines python	
     Un unique
                                                                                    corpus de données
   Fichier	
  de	
  log	
                     Fichier	
  de	
  log	
  
     système	
  a	
  	
                         système	
  b	
  	
  
  (XML,	
  HTML,	
  …)	
                     (XML,	
  HTML,	
  …)	
  


                                                                                                            14
                                                                                                            12
12
15
12
16
Point
  de vue
                          Tableaux
                           de bord
                                                      Analyses
                                                     détaillées                          Multi
             Durée du                     Ratio                    Appels                Point
                                                                                         Of
             dialogue                  d’erreurs                   aboutis



Traitement                                                                            vieW
                                           DataMart	
  
                                           (MySQL)	
  
                                                                                         Evaluation
                                                                                         Refinement
 Capture
                Fichier	
  de	
  log	
  
                  système	
  a	
  	
  
               (XML,	
  HTML,	
  …)	
  
                                                           Fichier	
  de	
  log	
  
                                                             système	
  b	
  	
  
                                                          (XML,	
  HTML,	
  …)	
         Studio       12
                                                                                                      17
2décrire
alphabet opérateurs
         formules bien formées



                                 12
                                 18
                                 19
Alphabet
 Un corpus de dialogues
 est une suite ordonnée
 d’échantillons temporels
 auxquels on associe        Ex : « l’utilisateur      parle »
 ou non une propriété
                            1	
  



                            0	
  
                                    0	
     500	
               Temps	
  (ms)	
  




                                                                                    20
                                                                                     5
Opérateurs
                                                      non, ou, et,
                                                      ou exclusif, ...
  Ex : Construction d’une fonction     « silence »
L’utilisateur parle	
          U	
  

  Le système parle	
           S	
  

                          U + S	
  

«  silence » 	
       (U + S)
                                                                         21
                                                                         5
E	
   ensemble des échantillons temporels
                            F	
   ensemble des fonctions de E → {0,1}




Une description formelle
 des propriétés est alors
        possible dans F
                                                                 22
                                                                 20
                                                                 12
Le système comprend le mot « horaire »
                                             Limitation
                       (1,0,0,…,	
  0)	
  
   0	
     500ms	
  


                       (0,1,0,…,	
  0)	
  
   0	
     500ms	
  


                       (0,0,1,…,	
  0)	
  
  0	
      500ms	
  



                                              Comment créer des
                                             référentiels adaptés
                                             à chaque propriété ?
                                                                20
                                                                12
                                                                21
                                                                23
le système comprend le mot « horaire »	
          c



l’utilisateur énonce le mot « horaire »	
         h


le mot « horaire » prononcé par                Ph(c)
l’utilisateur est compris par le système	
             0	
          500	
  




                                               Ph(c)
                                                         h1	
     h2	
        h3	
     Occurrences	
  «	
  horaire	
  »	
  prononcés	
  par	
  l’u,lisateur	
  




                                        Projection

Rééchantillonnage                                                                                                                                           24
                                                                                                                                                             5
Hiérarchie de référentiels
                                             Nombre moyen de tours
                                             de parole nécessaires à
Délai de réponse                             la compréhension d’un                      Satisfaction
  du système                                 concept par le système                      utilisateur


  Milliseconde	
     Mot	
     Concept	
         Tour de parole        Phase	
           Dialogue	
  


   Métrique bas niveau…                                                            … haut niveau
                                                                                                   23
                                                                                                   20
                                                                                                   25
                                                                                                   12
Durée du dialogue

Durée d’un tour de parole
                                                                     Vérifié sur les 69 KPI
Nombre de tours de paroles                                           de la recommandation
                                                                     UIT-T P. Supp.24
Délai de réponse du système

Nombre de demandes d'aide par l’utilisateur

Nombre de rejets de la reconnaissance vocale
                                                                     Paramètres décrivant l'interaction
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur
sont compris par le système                                          avec les dialogueurs automatiques
Nombre de répliques où AU MOINS UN des concepts énoncés par
l’utilisateur est compris

Nombre d’énoncés incompréhensibles
                                                                              s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés                             f =∑
                                                                            i    s (PU (UCi ))
...


                                                                                                          20
                                                                                                          25
                                                                                                          27
                                                                                                          12


                                                               €
Durée du dialogue

Durée d’un tour de parole

Nombre de tours de paroles

Délai de réponse du système

Nombre de demandes d'aide par l’utilisateur

Nombre de rejets de la reconnaissance vocale

Nombre de répliques où TOUS les concepts énoncés par l’utilisateur      UCi : l’utilisateur a      SCi : le système
sont compris par le système
                                                                         énoncé le concept i     comprend le concept i
Nombre de répliques où AU MOINS UN des concepts énoncés par
l’utilisateur est compris

Nombre d’énoncés incompréhensibles
                                                                            s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés                           f =∑
                                                                          i    s (PU (UCi ))
...

                                                                                       U : L’utilisateur parle    20
                                                                                                                  25
                                                                                                                  27
                                                                                                                  12


                                                               €
Durée du dialogue

Durée d’un tour de parole système                                    f = S ' + U. f1 ou f = ¬US ' + U. f1
Nombre de tours de paroles

Délai de réponse du système

Nombre de demandes d'aide par l’utilisateur
                                                            €             €
Nombre de rejets de la reconnaissance vocale                         f = ∏i ¬[ pU (UCi ) ⊕ pU (SCi )]
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur
sont compris par le système

Nombre de répliques où AU MOINS UN des concepts énoncés par          f = ∑i ¬[ pU (UCi ) ⊕ pU (SCi )]
l’utilisateur est compris

Nombre d’énoncés incompréhensibles                          €                s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés                            f = ∑i
                                                                                s (PU (UCi ))
...
                                                            €
                                                                                                        20
                                                                                                        25
                                                                                                        27
                                                                                                        12


                                                               €
Efficience
               Mesure	
  de	
  la	
  précision	
  et	
  de	
  la	
              Quan,té	
  de	
  ressources	
  u,lisées	
  pour	
  
              complétude	
  des	
  tâches	
  système	
                        exécuter	
  les	
  différentes	
  tâches	
  du	
  système	
  

                                                                                                  80%	
           20%	
  


R         Complétude	
                                Précision	
  
                                                                                        Temps	
                      Effort	
  humain	
  
           des	
  tâches	
                           des	
  tâches	
  

                                                 %	
  de	
  bonne	
  
      %	
  de	
  transac,ons	
                                                    Durée	
  moyenne	
  
                                             compréhension	
  des	
                                              Mesure	
  de	
  l’effort	
  
    réalisées	
  avec	
  succès	
                                                  d’un	
  dialogue	
  
                                              concepts	
  énoncés	
  



                                                        s (PU (UCi • SCi ))
F                                                     ∑i s (P (UC ))
                                                               U     i




                             €
Système de description	
                 Objectifs
d’un corpus de dialogues               d’évaluation




                           KPIindicators	
  
        F                       key performance	
  



                                                      24
                                                      20
                                                      26
                                                      12
Efficience
                                                                                                                                                     Comparer
                                                                                                                                             Efficience


         Mesure	
  de	
  la	
  précision	
                          Quan,té	
  de	
  ressources	
                   Mesure	
  de	
  la	
                   Temps	
  nécessaire	
  
          et	
  de	
  la	
  complétude	
                            u,lisées	
  pour	
  exécuter	
                  précision	
  des	
                     pour	
  exécuter	
  les	
  
          des	
  tâches	
  système	
                                les	
  tâches	
  du	
  système	
               tâches	
  système	
                    tâches	
  du	
  système	
  
                                                                                                                                                                                         Comparaison
  Complétude	
                   Précision	
  
                                                                   Temps	
              Effort	
  humain	
  
                                                                                                                       Précision	
  
                                                                                                                                                                  Temps	
  
                                                                                                                                                                                         d’arbres de
   des	
  tâches	
              des	
  tâches	
                                                                       des	
  tâches	
  
                                                                                                                                                                                         construction
%	
  de	
  transac,ons	
      %	
  de	
  bonne	
             Durée	
  moyenne	
           Mesure	
  de	
             %	
  de	
  bonne	
                       Nombre	
  de	
  
  réalisées	
  avec	
   compréhension	
  des	
                d’un	
  dialogue	
           l’effort	
             compréhension	
  des	
                     tours	
  de	
  parole	
  
           succès	
        concepts	
  énoncés	
                                                                  concepts	
  énoncés	
  




                               s (P (UCi • SC ))                                                                   par appel : f a = ∑
                                                                                                                                                     s (PU (UCi • SCi ))                 mesures de
                             ∑i sU(P (UC )) i                                                                                                            s (PU (UCi ))
                                                                                                                                                                                         similitude entre
                                                                                                                                                   i
                                     U     i

                                                                                                                                                            ∑             fa
                                                                                                                                                                                         vecteurs de F28 	
  
                                                                                                                                                                 a∈ A
                                                                                                                   Moyenne sur corpus A :
                                                                                                                                                                   A                                    20
                                                                                                                                                                                                        25
                                                                                                                                                                                                        26
                                                                                                                                                                                                        12
          €


                                                                                                             €
Applicable à tout KPI

Non unicité des   Extensible   Capable de distinguer
                                 deux KPI par leur
représentations   discernant       construction



Contre-intuitif   Flexible     Référentiels adaptés
                               au niveau d’intérêt de
                                    chaque KPI




                                                        20
                                                        25
                                                        29
                                                        27
                                                        12
3Choisir
communautés
De pratiques      Quels     Type de solution

                  KPI
                  choisir
                            Objectifs
Phase du projet
                     ?                    20
                                          25
                                          29
                                          27
                                          12
                                          31
Caractériser les communautés
par distribution des niveaux hiérarchiques
                       Appel      Phase      Tour        Concept      Mot          Ms         Appel   Phase   tour   Concept   Mot   Ms

          Marketing    0,86	
     0,14	
       -­‐	
        -­‐	
       -­‐	
       -­‐	
  

  Maîtrise d’ouvrage   0,55	
     0,15	
     0,18	
       0,09	
        -­‐	
     0,03	
  

             Métier    0,52	
     0,05	
     0,26	
       0,11	
        -­‐	
     0,02	
  

          Ergonomie    0,36	
     0,31	
     0,16	
       0,09	
      0,04	
        -­‐	
  

          Technique    0,30	
     0,24	
     0,12	
       0,16	
      0,15	
        -­‐	
  

      Expert Parole    0,22	
     0,20	
     0,18	
       0,16	
      0,22	
        -­‐	
  




  Corpus de KPI en usage au sein des équipes Orange Labs
                                                                                                                                          32
                                                                                                                                          20
                                                                                                                                          30
                                                                                                                                          25
                                                                                                                                          27
                                                                                                                                          12
calcul de distance
                                                                                                                                  Distance ( MOA, Efficience )
                                                                            Appel
                                                            Efficience                                                            = Distribution ( MOA, appel )   0,55
      Phase                                                                                                     Appel              + 0,5 * [ D ( MOA, phase)     0,15
        Mesure	
  de	
  la	
  précision	
  et	
  de	
  la	
          Quan,té	
  de	
  ressources	
  u,lisées	
  pour	
                       + 0,5 D ( MOA, phase)
       complétude	
  des	
  tâches	
  système	
                    exécuter	
  les	
  différentes	
  tâches	
  du	
  système	
  
                                                                                                                                             + 0,5 D ( MOA, concept ) ]
                                                                                      80%	
           20%	
  
 Phase                                           Concept             Appel                                      Appel              + 0,5 * [ D ( MOA, appel )
    Complétude	
                          Précision	
  des	
                                                                                 + 0,2 D ( MOA, appel )
                                                                              Temps	
                Effort	
  humain	
  
     des	
  tâches	
                         tâches	
                                                                                        + 0,8 D ( MOA, appel) ]

 %	
  de	
  transac,ons	
  
                                          %	
  de	
  bonne	
  
                                                                            Durée	
                                               = 1.265
                                        compréhension	
                                                 Mesure	
  de	
  
   réalisées	
  avec	
                                                   moyenne	
  d’un	
  
                                         des	
  concepts	
                                               l’effort	
  
            succès	
                                                       dialogue	
  
                                           énoncés	
  




                                                                                                                                                                   33
                                                                                                                                                                   20
                                                                                                                                                                   25
                                                                                                                                                                   27
                                                                                                                                                                   12
                                                                                                                                                                   31
calcul de distance
                                                            Efficience


        Mesure	
  de	
  la	
  précision	
  et	
  de	
  la	
          Quan,té	
  de	
  ressources	
  u,lisées	
  pour	
  
                                                                                                                                         MArketing    1,821
       complétude	
  des	
  tâches	
  système	
                    exécuter	
  les	
  différentes	
  tâches	
  du	
  système	
  
                                                                                                                                               MOA    1,265
                                                                                      80%	
           20%	
  
                                                                                                                                             Métier   1,258
    Complétude	
                          Précision	
  des	
  
                                                                              Temps	
                Effort	
  humain	
                   Ergonomie    0,982
     des	
  tâches	
                         tâches	
  


                                          %	
  de	
  bonne	
  
                                                                                                                                         Technique    0,817
 %	
  de	
  transac,ons	
                                                   Durée	
  
                                        compréhension	
                                                 Mesure	
  de	
  
   réalisées	
  avec	
  
                                         des	
  concepts	
  
                                                                         moyenne	
  d’un	
  
                                                                                                         l’effort	
                              SLU   0,633
            succès	
                                                       dialogue	
  
                                           énoncés	
  




                                                                           Appel          Phase       tour        Concept         Mot   Ms
                                                                                                                                                              34
                                                                                                                                                              20
                                                                                                                                                              25
                                                                                                                                                              27
                                                                                                                                                              12
                                                                                                                                                              31
Prendre du recul


       Idiolecte   Méthodologies d’évaluation ( Instanciation )

      Sociolecte   Contexte d’évaluation

        Dialecte   Communauté de pratiques

        langage    Système formel

                                                                  32
                                                                  20
                                                                  25
                                                                  35
                                                                  27
                                                                  12
Conclusion
Appréhender	
            Coordonner	
  
Étude sur l’évaluation en
                            Approche système
général, et des automates
                              d’information
  vocaux en particulier


       Comparer	
  
Caractérisation formelle
                                Décrire	
  
                             Modèle formel
 de formes de pratiques
                                               34
                                               20
                                               25
                                               27
                                               37
                                               12
PErspectives

    Enrichir le modèle formel
Appliquer à davantage de domaines
   Intégrer les contributions



                                        38
                                        20
                                        25
                                        35
                                        27
                                        12
?




Merci       20
            25
            27
            39
            36
            12

Weitere ähnliche Inhalte

Andere mochten auch

Classic Caps Flexible Packaging
Classic Caps Flexible PackagingClassic Caps Flexible Packaging
Classic Caps Flexible PackagingAshwani Joshi
 
стежками ліцею №2
стежками  ліцею №2стежками  ліцею №2
стежками ліцею №2lopatairina
 
Relationship between aging immunoglobulin g, and chronic rhinosinusitis
Relationship between aging immunoglobulin g, and chronic rhinosinusitisRelationship between aging immunoglobulin g, and chronic rhinosinusitis
Relationship between aging immunoglobulin g, and chronic rhinosinusitisFrank Reynold
 
7 проблем при постановке задач SEO-специалисту
7 проблем при постановке задач SEO-специалисту7 проблем при постановке задач SEO-специалисту
7 проблем при постановке задач SEO-специалистуУлей
 
La recherche en école d'ingénieur - journée de découverte pour les étudiants
La recherche en école d'ingénieur - journée de découverte pour les étudiantsLa recherche en école d'ingénieur - journée de découverte pour les étudiants
La recherche en école d'ingénieur - journée de découverte pour les étudiantsMarianne Laurent
 
Des outils simples pour booster votre productivité
Des outils simples pour booster votre productivitéDes outils simples pour booster votre productivité
Des outils simples pour booster votre productivitéMarianne Laurent
 
REPORTE FINAL DEL VIAJE A HIDALGO
REPORTE  FINAL DEL VIAJE A HIDALGO REPORTE  FINAL DEL VIAJE A HIDALGO
REPORTE FINAL DEL VIAJE A HIDALGO Moizez Morgan
 
Softplace - Une exploration des écosystèmes de lieux hybrides : livret final
Softplace - Une exploration des écosystèmes de lieux hybrides : livret final Softplace - Une exploration des écosystèmes de lieux hybrides : livret final
Softplace - Une exploration des écosystèmes de lieux hybrides : livret final Fing
 
(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう
(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう
(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えようschoowebcampus
 

Andere mochten auch (18)

Classic Caps Flexible Packaging
Classic Caps Flexible PackagingClassic Caps Flexible Packaging
Classic Caps Flexible Packaging
 
стежками ліцею №2
стежками  ліцею №2стежками  ліцею №2
стежками ліцею №2
 
Relationship between aging immunoglobulin g, and chronic rhinosinusitis
Relationship between aging immunoglobulin g, and chronic rhinosinusitisRelationship between aging immunoglobulin g, and chronic rhinosinusitis
Relationship between aging immunoglobulin g, and chronic rhinosinusitis
 
Gestión
GestiónGestión
Gestión
 
7 проблем при постановке задач SEO-специалисту
7 проблем при постановке задач SEO-специалисту7 проблем при постановке задач SEO-специалисту
7 проблем при постановке задач SEO-специалисту
 
Apostila painel (3)
Apostila painel (3)Apostila painel (3)
Apostila painel (3)
 
Gens i biotecnologia per Patrícia i Mireia
Gens i biotecnologia per Patrícia i MireiaGens i biotecnologia per Patrícia i Mireia
Gens i biotecnologia per Patrícia i Mireia
 
Educ 2D
Educ 2DEduc 2D
Educ 2D
 
La recherche en école d'ingénieur - journée de découverte pour les étudiants
La recherche en école d'ingénieur - journée de découverte pour les étudiantsLa recherche en école d'ingénieur - journée de découverte pour les étudiants
La recherche en école d'ingénieur - journée de découverte pour les étudiants
 
Des outils simples pour booster votre productivité
Des outils simples pour booster votre productivitéDes outils simples pour booster votre productivité
Des outils simples pour booster votre productivité
 
Environmental problems
Environmental problemsEnvironmental problems
Environmental problems
 
Environmental problems(1)
Environmental problems(1)Environmental problems(1)
Environmental problems(1)
 
PhD Defense
PhD DefensePhD Defense
PhD Defense
 
REPORTE FINAL DEL VIAJE A HIDALGO
REPORTE  FINAL DEL VIAJE A HIDALGO REPORTE  FINAL DEL VIAJE A HIDALGO
REPORTE FINAL DEL VIAJE A HIDALGO
 
Pitch training
Pitch trainingPitch training
Pitch training
 
Softplace - Une exploration des écosystèmes de lieux hybrides : livret final
Softplace - Une exploration des écosystèmes de lieux hybrides : livret final Softplace - Une exploration des écosystèmes de lieux hybrides : livret final
Softplace - Une exploration des écosystèmes de lieux hybrides : livret final
 
(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう
(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう
(授業後)人気アプリのマーケティングの現場から学ぶ - 効果的なPR施策を考えよう
 
globo at mapa
globo at mapaglobo at mapa
globo at mapa
 

Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"

  • 1. Investigating the evaluation Étude de L'ÉVALUATION DES of spoken dialogue systems SYSTÈMES DE DIALOGUE PARLÉ Towards  a  coordina,on  of   Pour  une  coordina,on  de  pra,ques   heterogeneous  prac,ces   d’évalua,on  hétérogènes   Soutenance  de  thèse  de  Doctorat   Marianne  Laurent,  Brest,  le  29/11/2011  
  • 2. Ioannis KANELLOS   Philippe Marianne BRETIER   LAURENT   1
  • 3. Automates Vocaux évaluation Problématique Coordination   0 Modèle de description Exercices de Conclusions   Comparaison 2
  • 5. Serveurs vocaux interactifs automates vocaux répondeurs automatiques systèmes de dialogue 4
  • 6. Architecture Je ne peux RECONNAISSANCE pas me connecter à VOCALE COMPRÉHENSION DU Internet ! LANGAGE NATUREL GESTIONNAIRE DE DIALOGUES Avez-vous GÉNÉRATION DU SYNTHÈSE LANGAGE NATUREL vérifié vos filtres ? VOCALE 5
  • 7. Des pratiques d’évaluation variés … dans un processus d’ajustement continu Faisabilité   Correc,ons   Ajustements   Supervision   Études & Tests Phase Mise en Réalisation spécifications utilisateurs pilote Exploitation Ajustement itératif de la solution 6
  • 8. http://www.speech.cs.cmu.edu/letsgo/ Données Logs systèmes Annotations questionnaires physiométriques 5 6
  • 9. Evanini et al., 2008  Le système reconnaît-il avec précision les énoncés de l’utilisateur ?  Les réponses du système sont telles appropriées et utiles ?  Le système identifie-t-il le motif d’appel et y répond-il de manière adéquate ? Données Logs systèmes Annotations questionnaires physiométriques 5 6
  • 10. ITU-T P.851 Données Logs systèmes Annotations questionnaires physiométriques 5 6
  • 11.  Fréquence  cardiaque      Conductance  cutanée      Fréquence  respiratoire      Température  corporelle      Diamètre  pupillaire     Données Logs systèmes Annotations questionnaires physiométriques 5 6
  • 12. Démarche Compositionnelle   PARADISE   SERVQUAL   WoZ  GOLD  Standard   …   Tableau de bord Métriques haut niveau Efficience   Facilité  d’u,lisa,on   Agréga,on   …   Durée  du  dialogue   Métriques de base Nombre  de  tours  de  parole   Nombre  de  demande  d’assistance   Temps  de  réponse  du  système   Données Nombre  de  raccrochés  prématurés   Logs systèmes Annotations questionnaires Ra,o  d’appels  abou,s     physiométriques Taux  d’erreur  de  la  reconnaissance  vocale   Sa,sfac,on  u,lisateur   Description Jugement, comportement …   Recommandations UIT-T P.851 et P. Supp24 Etude d’usages, Orange Labs 5 6
  • 13. L’évaluation   Définition est un processus ajustable qui englobe : 1 la capture et   2 le traitement d’informations Pertinentes pour   3 comparer des alternatives entre elles ou à une référence 7
  • 14. Elle Est sous influences   Objet évalué Groupe d’influence Nature de la traditions & décision situation Figures normes évaluation Ressources & d’évaluation d’identification Dynamique contraintes de groupe Pas de méthodologie d’évaluation universelle ! 8 5
  • 15. Un support d’argumentation et de justification à la prise de décision 9
  • 16. Cohabitation de formes Adaptées à des contextes de d’évaluation différentes mise en œuvre particuliers Coordonner (2) Décrire et les pratiques (1) Choisir (3) 10 5
  • 18. Pas de méthodologie standard Homonymie Accomplissement de la tâche, Satisfaction utilisateur, etc. synonymie Capacité à produire un résultat Efficience = Moyens engagés Durée du dialogue, Mesure de l’effort cognitif, etc. 12
  • 19. Pas de méthodologie standard Homonymie synonymie Efficacité Pourcentage de tâches résolues Efficience = Durée moyenne des dialogues Performance 12
  • 20. Pas de méthodologie standard Homonymie synonymie Communication difficile entre acteurs 12
  • 21. Alignement des pratiques d’évaluation (≠ standardisation)   Démarche système d’information Solution informatique décisionnelle 12 13
  • 22. Tableaux Analyses Tableaux de bord de bord détaillées personnalisés Durée du Ratio Appels dialogue d’erreurs aboutis Des métriques de base Requêtes SQL   communes DataMart   (MySQL)   Routines python   Un unique corpus de données Fichier  de  log   Fichier  de  log   système  a     système  b     (XML,  HTML,  …)   (XML,  HTML,  …)   14 12
  • 23. 12 15
  • 24. 12 16
  • 25. Point de vue Tableaux de bord Analyses détaillées Multi Durée du Ratio Appels Point Of dialogue d’erreurs aboutis Traitement vieW DataMart   (MySQL)   Evaluation Refinement Capture Fichier  de  log   système  a     (XML,  HTML,  …)   Fichier  de  log   système  b     (XML,  HTML,  …)   Studio 12 17
  • 27. alphabet opérateurs formules bien formées 12 18 19
  • 28. Alphabet Un corpus de dialogues est une suite ordonnée d’échantillons temporels auxquels on associe Ex : « l’utilisateur parle » ou non une propriété 1   0   0   500   Temps  (ms)   20 5
  • 29. Opérateurs non, ou, et, ou exclusif, ... Ex : Construction d’une fonction « silence » L’utilisateur parle   U   Le système parle   S   U + S   «  silence »    (U + S) 21 5
  • 30. E   ensemble des échantillons temporels F   ensemble des fonctions de E → {0,1} Une description formelle des propriétés est alors possible dans F 22 20 12
  • 31. Le système comprend le mot « horaire » Limitation (1,0,0,…,  0)   0   500ms   (0,1,0,…,  0)   0   500ms   (0,0,1,…,  0)   0   500ms   Comment créer des référentiels adaptés à chaque propriété ? 20 12 21 23
  • 32. le système comprend le mot « horaire »   c l’utilisateur énonce le mot « horaire »   h le mot « horaire » prononcé par Ph(c) l’utilisateur est compris par le système   0   500   Ph(c) h1   h2   h3   Occurrences  «  horaire  »  prononcés  par  l’u,lisateur   Projection Rééchantillonnage 24 5
  • 33. Hiérarchie de référentiels Nombre moyen de tours de parole nécessaires à Délai de réponse la compréhension d’un Satisfaction du système concept par le système utilisateur Milliseconde   Mot   Concept   Tour de parole Phase   Dialogue   Métrique bas niveau… … haut niveau 23 20 25 12
  • 34. Durée du dialogue Durée d’un tour de parole Vérifié sur les 69 KPI Nombre de tours de paroles de la recommandation UIT-T P. Supp.24 Délai de réponse du système Nombre de demandes d'aide par l’utilisateur Nombre de rejets de la reconnaissance vocale Paramètres décrivant l'interaction Nombre de répliques où TOUS les concepts énoncés par l’utilisateur sont compris par le système avec les dialogueurs automatiques Nombre de répliques où AU MOINS UN des concepts énoncés par l’utilisateur est compris Nombre d’énoncés incompréhensibles s (PU (UCi • SCi )) Ratio de concepts correctement interprétés f =∑ i s (PU (UCi )) ... 20 25 27 12 €
  • 35. Durée du dialogue Durée d’un tour de parole Nombre de tours de paroles Délai de réponse du système Nombre de demandes d'aide par l’utilisateur Nombre de rejets de la reconnaissance vocale Nombre de répliques où TOUS les concepts énoncés par l’utilisateur UCi : l’utilisateur a SCi : le système sont compris par le système énoncé le concept i comprend le concept i Nombre de répliques où AU MOINS UN des concepts énoncés par l’utilisateur est compris Nombre d’énoncés incompréhensibles s (PU (UCi • SCi )) Ratio de concepts correctement interprétés f =∑ i s (PU (UCi )) ... U : L’utilisateur parle 20 25 27 12 €
  • 36. Durée du dialogue Durée d’un tour de parole système f = S ' + U. f1 ou f = ¬US ' + U. f1 Nombre de tours de paroles Délai de réponse du système Nombre de demandes d'aide par l’utilisateur € € Nombre de rejets de la reconnaissance vocale f = ∏i ¬[ pU (UCi ) ⊕ pU (SCi )] Nombre de répliques où TOUS les concepts énoncés par l’utilisateur sont compris par le système Nombre de répliques où AU MOINS UN des concepts énoncés par f = ∑i ¬[ pU (UCi ) ⊕ pU (SCi )] l’utilisateur est compris Nombre d’énoncés incompréhensibles € s (PU (UCi • SCi )) Ratio de concepts correctement interprétés f = ∑i s (PU (UCi )) ... € 20 25 27 12 €
  • 37. Efficience Mesure  de  la  précision  et  de  la   Quan,té  de  ressources  u,lisées  pour   complétude  des  tâches  système   exécuter  les  différentes  tâches  du  système   80%   20%   R Complétude   Précision   Temps   Effort  humain   des  tâches   des  tâches   %  de  bonne   %  de  transac,ons   Durée  moyenne   compréhension  des   Mesure  de  l’effort   réalisées  avec  succès   d’un  dialogue   concepts  énoncés   s (PU (UCi • SCi )) F ∑i s (P (UC )) U i €
  • 38. Système de description   Objectifs d’un corpus de dialogues d’évaluation KPIindicators   F key performance   24 20 26 12
  • 39. Efficience Comparer Efficience Mesure  de  la  précision   Quan,té  de  ressources   Mesure  de  la   Temps  nécessaire   et  de  la  complétude   u,lisées  pour  exécuter   précision  des   pour  exécuter  les   des  tâches  système   les  tâches  du  système   tâches  système   tâches  du  système   Comparaison Complétude   Précision   Temps   Effort  humain   Précision   Temps   d’arbres de des  tâches   des  tâches   des  tâches   construction %  de  transac,ons   %  de  bonne   Durée  moyenne   Mesure  de   %  de  bonne   Nombre  de   réalisées  avec   compréhension  des   d’un  dialogue   l’effort   compréhension  des   tours  de  parole   succès   concepts  énoncés   concepts  énoncés   s (P (UCi • SC )) par appel : f a = ∑ s (PU (UCi • SCi )) mesures de ∑i sU(P (UC )) i s (PU (UCi )) similitude entre i U i ∑ fa vecteurs de F28   a∈ A Moyenne sur corpus A : A 20 25 26 12 € €
  • 40. Applicable à tout KPI Non unicité des Extensible Capable de distinguer deux KPI par leur représentations discernant construction Contre-intuitif Flexible Référentiels adaptés au niveau d’intérêt de chaque KPI 20 25 29 27 12
  • 42. communautés De pratiques Quels Type de solution KPI choisir Objectifs Phase du projet ? 20 25 29 27 12 31
  • 43. Caractériser les communautés par distribution des niveaux hiérarchiques Appel Phase Tour Concept Mot Ms Appel Phase tour Concept Mot Ms Marketing 0,86   0,14   -­‐   -­‐   -­‐   -­‐   Maîtrise d’ouvrage 0,55   0,15   0,18   0,09   -­‐   0,03   Métier 0,52   0,05   0,26   0,11   -­‐   0,02   Ergonomie 0,36   0,31   0,16   0,09   0,04   -­‐   Technique 0,30   0,24   0,12   0,16   0,15   -­‐   Expert Parole 0,22   0,20   0,18   0,16   0,22   -­‐   Corpus de KPI en usage au sein des équipes Orange Labs 32 20 30 25 27 12
  • 44. calcul de distance Distance ( MOA, Efficience ) Appel Efficience = Distribution ( MOA, appel ) 0,55 Phase Appel + 0,5 * [ D ( MOA, phase) 0,15 Mesure  de  la  précision  et  de  la   Quan,té  de  ressources  u,lisées  pour   + 0,5 D ( MOA, phase) complétude  des  tâches  système   exécuter  les  différentes  tâches  du  système   + 0,5 D ( MOA, concept ) ] 80%   20%   Phase Concept Appel Appel + 0,5 * [ D ( MOA, appel ) Complétude   Précision  des   + 0,2 D ( MOA, appel ) Temps   Effort  humain   des  tâches   tâches   + 0,8 D ( MOA, appel) ] %  de  transac,ons   %  de  bonne   Durée   = 1.265 compréhension   Mesure  de   réalisées  avec   moyenne  d’un   des  concepts   l’effort   succès   dialogue   énoncés   33 20 25 27 12 31
  • 45. calcul de distance Efficience Mesure  de  la  précision  et  de  la   Quan,té  de  ressources  u,lisées  pour   MArketing 1,821 complétude  des  tâches  système   exécuter  les  différentes  tâches  du  système   MOA 1,265 80%   20%   Métier 1,258 Complétude   Précision  des   Temps   Effort  humain   Ergonomie 0,982 des  tâches   tâches   %  de  bonne   Technique 0,817 %  de  transac,ons   Durée   compréhension   Mesure  de   réalisées  avec   des  concepts   moyenne  d’un   l’effort   SLU 0,633 succès   dialogue   énoncés   Appel Phase tour Concept Mot Ms 34 20 25 27 12 31
  • 46. Prendre du recul Idiolecte Méthodologies d’évaluation ( Instanciation ) Sociolecte Contexte d’évaluation Dialecte Communauté de pratiques langage Système formel 32 20 25 35 27 12
  • 48. Appréhender   Coordonner   Étude sur l’évaluation en Approche système général, et des automates d’information vocaux en particulier Comparer   Caractérisation formelle Décrire   Modèle formel de formes de pratiques 34 20 25 27 37 12
  • 49. PErspectives Enrichir le modèle formel Appliquer à davantage de domaines Intégrer les contributions 38 20 25 35 27 12
  • 50. ? Merci 20 25 27 39 36 12

Hinweis der Redaktion

  1. Merci monsieur le président, … J’ai l’honneur de vous présenter aujourd’hui les résultats de mon travail de ces trois dernières années, concrétisés dans la thèse que j’ai rédigé en anglais sous le titre de « … ». Pour des raisons évidentes je ferai aujourd’hui la présentation en Français. Il s’agit donc d’une étude de l’évaluation des systèmes de dialogue parlé, suite à laquelle nous proposons : d’une part un modèle conceptuel pour aider à une meilleure appréhension des différentes pratiques d’évaluation, et, d’autre part, un support applicatif pour favoriser la création de synergies entre des pratiques hétérogènes.