This thesis tackles the issue of evaluation in the field of Spoken Dialogue Systems (SDS). Faced with a great disparity of evaluation needs and methods, this work is an attempt to unification between distinct forms of evaluation, locally adjusted according to contextual and applicative factors. It develops the fundamental idea that: evaluation is an argumentative and justificative support process to decision-making. We propose two main contributions, based on an original compositional definition of evaluation metrics. First, observing that the absence of common conceptual foundations for evaluation hinders cooperation within projects, we present an application framework tailored to rationalize the design of evaluation instruments inside and across the project teams. And second, we set up a formal description scheme for SDS evaluation metrics that permits to better discern their construction structures, and endeavour varied comparison exercises.
Design librement inspiré de Erik KLIMCZK (http://noteandpoint.com/documents/pdf/eclimczak-designtalk.pdf)
Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"
1. Investigating the evaluation Étude de L'ÉVALUATION DES
of spoken dialogue systems SYSTÈMES DE DIALOGUE PARLÉ
Towards
a
coordina,on
of
Pour
une
coordina,on
de
pra,ques
heterogeneous
prac,ces
d’évalua,on
hétérogènes
Soutenance
de
thèse
de
Doctorat
Marianne
Laurent,
Brest,
le
29/11/2011
2. Ioannis
KANELLOS
Philippe Marianne
BRETIER
LAURENT
1
3. Automates
Vocaux
évaluation
Problématique
Coordination
0
Modèle de
description
Exercices de Conclusions
Comparaison
2
6. Architecture
Je ne peux RECONNAISSANCE
pas me
connecter à VOCALE COMPRÉHENSION DU
Internet ! LANGAGE NATUREL
GESTIONNAIRE DE
DIALOGUES
Avez-vous GÉNÉRATION DU
SYNTHÈSE LANGAGE NATUREL
vérifié vos
filtres ?
VOCALE
5
7. Des pratiques d’évaluation
variés
… dans un processus
d’ajustement continu
Faisabilité
Correc,ons
Ajustements
Supervision
Études & Tests Phase Mise en
Réalisation
spécifications utilisateurs pilote Exploitation
Ajustement itératif de la solution
6
9. Evanini et al., 2008
Le système reconnaît-il avec précision les énoncés de l’utilisateur ?
Les réponses du système sont telles appropriées et utiles ?
Le système identifie-t-il le motif d’appel et y répond-il de manière adéquate ?
Données
Logs systèmes Annotations questionnaires
physiométriques
5
6
12. Démarche Compositionnelle
PARADISE
SERVQUAL
WoZ
GOLD
Standard
…
Tableau de bord Métriques haut niveau Efficience
Facilité
d’u,lisa,on
Agréga,on
…
Durée
du
dialogue
Métriques de base Nombre
de
tours
de
parole
Nombre
de
demande
d’assistance
Temps
de
réponse
du
système
Données Nombre
de
raccrochés
prématurés
Logs systèmes Annotations questionnaires Ra,o
d’appels
abou,s
physiométriques Taux
d’erreur
de
la
reconnaissance
vocale
Sa,sfac,on
u,lisateur
Description Jugement, comportement …
Recommandations UIT-T P.851 et P. Supp24
Etude d’usages, Orange Labs
5
6
13. L’évaluation
Définition
est un processus ajustable qui englobe :
1 la capture
et
2 le traitement
d’informations Pertinentes
pour
3 comparer des alternatives
entre elles ou à une référence
7
14. Elle Est sous influences
Objet évalué Groupe d’influence
Nature de la
traditions &
décision
situation Figures normes
évaluation
Ressources & d’évaluation d’identification Dynamique
contraintes de groupe
Pas de méthodologie d’évaluation universelle !
8
5
15. Un support
d’argumentation
et de justification
à la prise de décision
9
16. Cohabitation de formes Adaptées à des contextes de
d’évaluation différentes mise en œuvre particuliers
Coordonner (2) Décrire et
les pratiques (1) Choisir (3)
10
5
18. Pas de méthodologie standard
Homonymie Accomplissement de la tâche,
Satisfaction utilisateur, etc.
synonymie
Capacité à produire un résultat
Efficience =
Moyens engagés
Durée du dialogue,
Mesure de l’effort cognitif, etc.
12
19. Pas de méthodologie standard
Homonymie
synonymie Efficacité
Pourcentage de tâches résolues
Efficience =
Durée moyenne des dialogues
Performance
12
20. Pas de méthodologie standard
Homonymie
synonymie
Communication difficile entre acteurs
12
21. Alignement des pratiques d’évaluation (≠ standardisation)
Démarche système d’information
Solution informatique décisionnelle
12
13
22. Tableaux Analyses
Tableaux de bord
de bord détaillées
personnalisés
Durée du Ratio Appels
dialogue d’erreurs aboutis Des métriques de base
Requêtes SQL
communes
DataMart
(MySQL)
Routines python
Un unique
corpus de données
Fichier
de
log
Fichier
de
log
système
a
système
b
(XML,
HTML,
…)
(XML,
HTML,
…)
14
12
25. Point
de vue
Tableaux
de bord
Analyses
détaillées Multi
Durée du Ratio Appels Point
Of
dialogue d’erreurs aboutis
Traitement vieW
DataMart
(MySQL)
Evaluation
Refinement
Capture
Fichier
de
log
système
a
(XML,
HTML,
…)
Fichier
de
log
système
b
(XML,
HTML,
…)
Studio 12
17
28. Alphabet
Un corpus de dialogues
est une suite ordonnée
d’échantillons temporels
auxquels on associe Ex : « l’utilisateur parle »
ou non une propriété
1
0
0
500
Temps
(ms)
20
5
29. Opérateurs
non, ou, et,
ou exclusif, ...
Ex : Construction d’une fonction « silence »
L’utilisateur parle
U
Le système parle
S
U + S
« silence »
(U + S)
21
5
30. E
ensemble des échantillons temporels
F
ensemble des fonctions de E → {0,1}
Une description formelle
des propriétés est alors
possible dans F
22
20
12
31. Le système comprend le mot « horaire »
Limitation
(1,0,0,…,
0)
0
500ms
(0,1,0,…,
0)
0
500ms
(0,0,1,…,
0)
0
500ms
Comment créer des
référentiels adaptés
à chaque propriété ?
20
12
21
23
32. le système comprend le mot « horaire »
c
l’utilisateur énonce le mot « horaire »
h
le mot « horaire » prononcé par Ph(c)
l’utilisateur est compris par le système
0
500
Ph(c)
h1
h2
h3
Occurrences
«
horaire
»
prononcés
par
l’u,lisateur
Projection
Rééchantillonnage 24
5
33. Hiérarchie de référentiels
Nombre moyen de tours
de parole nécessaires à
Délai de réponse la compréhension d’un Satisfaction
du système concept par le système utilisateur
Milliseconde
Mot
Concept
Tour de parole Phase
Dialogue
Métrique bas niveau… … haut niveau
23
20
25
12
34. Durée du dialogue
Durée d’un tour de parole
Vérifié sur les 69 KPI
Nombre de tours de paroles de la recommandation
UIT-T P. Supp.24
Délai de réponse du système
Nombre de demandes d'aide par l’utilisateur
Nombre de rejets de la reconnaissance vocale
Paramètres décrivant l'interaction
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur
sont compris par le système avec les dialogueurs automatiques
Nombre de répliques où AU MOINS UN des concepts énoncés par
l’utilisateur est compris
Nombre d’énoncés incompréhensibles
s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés f =∑
i s (PU (UCi ))
...
20
25
27
12
€
35. Durée du dialogue
Durée d’un tour de parole
Nombre de tours de paroles
Délai de réponse du système
Nombre de demandes d'aide par l’utilisateur
Nombre de rejets de la reconnaissance vocale
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur UCi : l’utilisateur a SCi : le système
sont compris par le système
énoncé le concept i comprend le concept i
Nombre de répliques où AU MOINS UN des concepts énoncés par
l’utilisateur est compris
Nombre d’énoncés incompréhensibles
s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés f =∑
i s (PU (UCi ))
...
U : L’utilisateur parle 20
25
27
12
€
36. Durée du dialogue
Durée d’un tour de parole système f = S ' + U. f1 ou f = ¬US ' + U. f1
Nombre de tours de paroles
Délai de réponse du système
Nombre de demandes d'aide par l’utilisateur
€ €
Nombre de rejets de la reconnaissance vocale f = ∏i ¬[ pU (UCi ) ⊕ pU (SCi )]
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur
sont compris par le système
Nombre de répliques où AU MOINS UN des concepts énoncés par f = ∑i ¬[ pU (UCi ) ⊕ pU (SCi )]
l’utilisateur est compris
Nombre d’énoncés incompréhensibles € s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés f = ∑i
s (PU (UCi ))
...
€
20
25
27
12
€
37. Efficience
Mesure
de
la
précision
et
de
la
Quan,té
de
ressources
u,lisées
pour
complétude
des
tâches
système
exécuter
les
différentes
tâches
du
système
80%
20%
R Complétude
Précision
Temps
Effort
humain
des
tâches
des
tâches
%
de
bonne
%
de
transac,ons
Durée
moyenne
compréhension
des
Mesure
de
l’effort
réalisées
avec
succès
d’un
dialogue
concepts
énoncés
s (PU (UCi • SCi ))
F ∑i s (P (UC ))
U i
€
38. Système de description
Objectifs
d’un corpus de dialogues d’évaluation
KPIindicators
F key performance
24
20
26
12
39. Efficience
Comparer
Efficience
Mesure
de
la
précision
Quan,té
de
ressources
Mesure
de
la
Temps
nécessaire
et
de
la
complétude
u,lisées
pour
exécuter
précision
des
pour
exécuter
les
des
tâches
système
les
tâches
du
système
tâches
système
tâches
du
système
Comparaison
Complétude
Précision
Temps
Effort
humain
Précision
Temps
d’arbres de
des
tâches
des
tâches
des
tâches
construction
%
de
transac,ons
%
de
bonne
Durée
moyenne
Mesure
de
%
de
bonne
Nombre
de
réalisées
avec
compréhension
des
d’un
dialogue
l’effort
compréhension
des
tours
de
parole
succès
concepts
énoncés
concepts
énoncés
s (P (UCi • SC )) par appel : f a = ∑
s (PU (UCi • SCi )) mesures de
∑i sU(P (UC )) i s (PU (UCi ))
similitude entre
i
U i
∑ fa
vecteurs de F28
a∈ A
Moyenne sur corpus A :
A 20
25
26
12
€
€
40. Applicable à tout KPI
Non unicité des Extensible Capable de distinguer
deux KPI par leur
représentations discernant construction
Contre-intuitif Flexible Référentiels adaptés
au niveau d’intérêt de
chaque KPI
20
25
29
27
12
42. communautés
De pratiques Quels Type de solution
KPI
choisir
Objectifs
Phase du projet
? 20
25
29
27
12
31
43. Caractériser les communautés
par distribution des niveaux hiérarchiques
Appel Phase Tour Concept Mot Ms Appel Phase tour Concept Mot Ms
Marketing 0,86
0,14
-‐
-‐
-‐
-‐
Maîtrise d’ouvrage 0,55
0,15
0,18
0,09
-‐
0,03
Métier 0,52
0,05
0,26
0,11
-‐
0,02
Ergonomie 0,36
0,31
0,16
0,09
0,04
-‐
Technique 0,30
0,24
0,12
0,16
0,15
-‐
Expert Parole 0,22
0,20
0,18
0,16
0,22
-‐
Corpus de KPI en usage au sein des équipes Orange Labs
32
20
30
25
27
12
44. calcul de distance
Distance ( MOA, Efficience )
Appel
Efficience = Distribution ( MOA, appel ) 0,55
Phase Appel + 0,5 * [ D ( MOA, phase) 0,15
Mesure
de
la
précision
et
de
la
Quan,té
de
ressources
u,lisées
pour
+ 0,5 D ( MOA, phase)
complétude
des
tâches
système
exécuter
les
différentes
tâches
du
système
+ 0,5 D ( MOA, concept ) ]
80%
20%
Phase Concept Appel Appel + 0,5 * [ D ( MOA, appel )
Complétude
Précision
des
+ 0,2 D ( MOA, appel )
Temps
Effort
humain
des
tâches
tâches
+ 0,8 D ( MOA, appel) ]
%
de
transac,ons
%
de
bonne
Durée
= 1.265
compréhension
Mesure
de
réalisées
avec
moyenne
d’un
des
concepts
l’effort
succès
dialogue
énoncés
33
20
25
27
12
31
45. calcul de distance
Efficience
Mesure
de
la
précision
et
de
la
Quan,té
de
ressources
u,lisées
pour
MArketing 1,821
complétude
des
tâches
système
exécuter
les
différentes
tâches
du
système
MOA 1,265
80%
20%
Métier 1,258
Complétude
Précision
des
Temps
Effort
humain
Ergonomie 0,982
des
tâches
tâches
%
de
bonne
Technique 0,817
%
de
transac,ons
Durée
compréhension
Mesure
de
réalisées
avec
des
concepts
moyenne
d’un
l’effort
SLU 0,633
succès
dialogue
énoncés
Appel Phase tour Concept Mot Ms
34
20
25
27
12
31
46. Prendre du recul
Idiolecte Méthodologies d’évaluation ( Instanciation )
Sociolecte Contexte d’évaluation
Dialecte Communauté de pratiques
langage Système formel
32
20
25
35
27
12
48. Appréhender
Coordonner
Étude sur l’évaluation en
Approche système
général, et des automates
d’information
vocaux en particulier
Comparer
Caractérisation formelle
Décrire
Modèle formel
de formes de pratiques
34
20
25
27
37
12
49. PErspectives
Enrichir le modèle formel
Appliquer à davantage de domaines
Intégrer les contributions
38
20
25
35
27
12
Merci monsieur le président, … J’ai l’honneur de vous présenter aujourd’hui les résultats de mon travail de ces trois dernières années, concrétisés dans la thèse que j’ai rédigé en anglais sous le titre de « … ». Pour des raisons évidentes je ferai aujourd’hui la présentation en Français. Il s’agit donc d’une étude de l’évaluation des systèmes de dialogue parlé, suite à laquelle nous proposons : d’une part un modèle conceptuel pour aider à une meilleure appréhension des différentes pratiques d’évaluation, et, d’autre part, un support applicatif pour favoriser la création de synergies entre des pratiques hétérogènes.