Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"

Investigating the evaluation Étude de L'ÉVALUATION DES
of spoken dialogue systems SYSTÈMES DE DIALOGUE PARLÉ
Towards
a
coordina,on
of
Pour
une
coordina,on
de
pra,ques

heterogeneous
prac,ces
d’évalua,on
hétérogènes

Soutenance
de
thèse
de
Doctorat

Marianne
Laurent,
Brest,
le
29/11/2011

Ioannis
KANELLOS

Philippe Marianne
BRETIER
LAURENT

1

Automates
Vocaux
évaluation
Problématique

Coordination

0

Modèle de
description
Exercices de Conclusions

Comparaison

2

Serveurs vocaux interactifs

automates vocaux
répondeurs automatiques
systèmes de dialogue

4

Architecture
Je ne peux RECONNAISSANCE
pas me
connecter à VOCALE COMPRÉHENSION DU
Internet ! LANGAGE NATUREL

GESTIONNAIRE DE
DIALOGUES

Avez-vous GÉNÉRATION DU
SYNTHÈSE LANGAGE NATUREL
vériﬁé vos
ﬁltres ?
VOCALE

5

Des pratiques d’évaluation

variés
… dans un processus
d’ajustement continu

Faisabilité
Correc,ons
Ajustements
Supervision

Études & Tests Phase Mise en
Réalisation
spécifications utilisateurs pilote Exploitation

Ajustement itératif de la solution

6

http://www.speech.cs.cmu.edu/letsgo/
Données
Logs systèmes Annotations questionnaires
physiométriques

5
6

Evanini et al., 2008
 Le système reconnaît-il avec précision les énoncés de l’utilisateur ?
 Les réponses du système sont telles appropriées et utiles ?
 Le système identifie-t-il le motif d’appel et y répond-il de manière adéquate ?

Données
physiométriques

5
6

ITU-T P.851
Données
physiométriques

5
6

 Fréquence
cardiaque

 Conductance
cutanée

 Fréquence
respiratoire

 Température
corporelle

 Diamètre
pupillaire

Données
physiométriques

5
6

Démarche Compositionnelle

PARADISE

SERVQUAL

WoZ
GOLD
Standard

…

Tableau de bord Métriques haut niveau Eﬃcience

Facilité
d’u,lisa,on

Agréga,on
…

Durée
du
dialogue

Métriques de base Nombre
de
tours
de
parole

Nombre
de
demande
d’assistance

Temps
de
réponse
du
système

Données Nombre
de
raccrochés
prématurés

Logs systèmes Annotations questionnaires Ra,o
d’appels
abou,s

physiométriques Taux
d’erreur
de
la
reconnaissance
vocale

Sa,sfac,on
u,lisateur

Description Jugement, comportement …

Recommandations UIT-T P.851 et P. Supp24
Etude d’usages, Orange Labs
5
6

L’évaluation

Définition

est un processus ajustable qui englobe :
1 la capture

et
2 le traitement
d’informations Pertinentes

pour
3 comparer des alternatives
entre elles ou à une référence
7

Elle Est sous influences

Objet évalué Groupe d’influence
Nature de la
traditions &
décision
situation Figures normes
évaluation
Ressources & d’évaluation d’identification Dynamique
contraintes de groupe

Pas de méthodologie d’évaluation universelle !
8
5

Un support
d’argumentation
et de justification
à la prise de décision

9

Cohabitation de formes Adaptées à des contextes de
d’évaluation différentes mise en œuvre particuliers

Coordonner (2) Décrire et
les pratiques (1) Choisir (3)

10
5

Pas de méthodologie standard
Homonymie Accomplissement de la tâche,
Satisfaction utilisateur, etc.
synonymie
Capacité à produire un résultat
Efficience =
Moyens engagés

Durée du dialogue,
Mesure de l’effort cognitif, etc.

12

Homonymie
synonymie Efficacité

Pourcentage de tâches résolues
Efficience =
Durée moyenne des dialogues

Performance

12

Homonymie
synonymie

Communication difficile entre acteurs

12

Alignement des pratiques d’évaluation (≠ standardisation)

Démarche système d’information
Solution informatique décisionnelle

12
13

Tableaux Analyses
Tableaux de bord
de bord détaillées
personnalisés
Durée du Ratio Appels
dialogue d’erreurs aboutis Des métriques de base
Requêtes SQL

communes

DataMart

(MySQL)

Routines python
Un unique
corpus de données
Fichier
de
log
Fichier
de
log

système
a

système
b

(XML,
HTML,
…)
(XML,
HTML,
…)

14
12

Point
de vue
Tableaux
de bord
Analyses
détaillées Multi
Durée du Ratio Appels Point
Of
dialogue d’erreurs aboutis

Traitement vieW
DataMart

(MySQL)

Evaluation
Refinement
Capture
Fichier
de
log

système
a

(XML,
HTML,
…)

Fichier
de
log

système
b

(XML,
HTML,
…)
Studio 12
17

alphabet opérateurs
formules bien formées

12
18
19

Alphabet
Un corpus de dialogues
est une suite ordonnée
d’échantillons temporels
auxquels on associe Ex : « l’utilisateur parle »
ou non une propriété
1

0

0
500
Temps
(ms)

20
5

Opérateurs
non, ou, et,
ou exclusif, ...
Ex : Construction d’une fonction « silence »
L’utilisateur parle
U

Le système parle
S

U + S

« silence »
(U + S)
21
5

E
ensemble des échantillons temporels
F
ensemble des fonctions de E → {0,1}

Une description formelle
des propriétés est alors
possible dans F
22
20
12

Le système comprend le mot « horaire »
Limitation
(1,0,0,…,
0)

0
500ms

(0,1,0,…,
0)

0
500ms

(0,0,1,…,
0)

0
500ms

Comment créer des
référentiels adaptés
à chaque propriété ?
20
12
21
23

le système comprend le mot « horaire »
c

l’utilisateur énonce le mot « horaire »
h

le mot « horaire » prononcé par Ph(c)
l’utilisateur est compris par le système
0
500

Ph(c)
h1
h2
h3
Occurrences
«
horaire
»
prononcés
par
l’u,lisateur

Projection

Rééchantillonnage 24
5

Hiérarchie de référentiels
Nombre moyen de tours
de parole nécessaires à
Délai de réponse la compréhension d’un Satisfaction
du système concept par le système utilisateur

Milliseconde
Mot
Concept
Tour de parole Phase
Dialogue

Métrique bas niveau… … haut niveau
23
20
25
12

Durée du dialogue

Durée d’un tour de parole
Vérifié sur les 69 KPI
Nombre de tours de paroles de la recommandation
UIT-T P. Supp.24
Délai de réponse du système

Nombre de demandes d'aide par l’utilisateur

Nombre de rejets de la reconnaissance vocale
Paramètres décrivant l'interaction
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur
sont compris par le système avec les dialogueurs automatiques
Nombre de répliques où AU MOINS UN des concepts énoncés par
l’utilisateur est compris

Nombre d’énoncés incompréhensibles
s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés f =∑
i s (PU (UCi ))
...

20
25
27
12

€

Durée du dialogue

Durée d’un tour de parole

Nombre de tours de paroles



Nombre de rejets de la reconnaissance vocale

Nombre de répliques où TOUS les concepts énoncés par l’utilisateur UCi : l’utilisateur a SCi : le système
sont compris par le système
énoncé le concept i comprend le concept i
Nombre de répliques où AU MOINS UN des concepts énoncés par

Nombre d’énoncés incompréhensibles
Ratio de concepts correctement interprétés f =∑
i s (PU (UCi ))
...

U : L’utilisateur parle 20
25
27
12

€

Durée du dialogue

Durée d’un tour de parole système f = S ' + U. f1 ou f = ¬US ' + U. f1
Nombre de tours de paroles


€ €
Nombre de rejets de la reconnaissance vocale f = ∏i ¬[ pU (UCi ) ⊕ pU (SCi )]
Nombre de répliques où TOUS les concepts énoncés par l’utilisateur
sont compris par le système

Nombre de répliques où AU MOINS UN des concepts énoncés par f = ∑i ¬[ pU (UCi ) ⊕ pU (SCi )]

Nombre d’énoncés incompréhensibles € s (PU (UCi • SCi ))
Ratio de concepts correctement interprétés f = ∑i
s (PU (UCi ))
...
€
20
25
27
12

€

Efficience
Mesure
de
la
précision
et
de
la
Quan,té
de
ressources
u,lisées
pour

complétude
des
tâches
système
exécuter
les
différentes
tâches
du
système

80%
20%

R Complétude
Précision

Temps
Effort
humain

des
tâches
des
tâches

%
de
bonne

%
de
transac,ons
Durée
moyenne

compréhension
des
Mesure
de
l’effort

réalisées
avec
succès
d’un
dialogue

concepts
énoncés

F ∑i s (P (UC ))
U i

€

Système de description
Objectifs
d’un corpus de dialogues d’évaluation

KPIindicators

F key performance

24
20
26
12

Efficience
Comparer
Efficience

Mesure
de
la
précision
Quan,té
de
ressources
Mesure
de
la
Temps
nécessaire

et
de
la
complétude
u,lisées
pour
exécuter
précision
des
pour
exécuter
les

des
tâches
système
les
tâches
du
système
tâches
système
tâches
du
système

Comparaison
Complétude
Précision

Temps
Eﬀort
humain

Précision

Temps

d’arbres de
des
tâches
des
tâches
des
tâches

construction
%
de
transac,ons
%
de
bonne
Durée
moyenne
Mesure
de
%
de
bonne
Nombre
de

réalisées
avec
compréhension
des
d’un
dialogue
l’eﬀort
compréhension
des
tours
de
parole

succès
concepts
énoncés
concepts
énoncés

s (P (UCi • SC )) par appel : f a = ∑
s (PU (UCi • SCi )) mesures de
∑i sU(P (UC )) i s (PU (UCi ))
similitude entre
i
U i

∑ fa
vecteurs de F28

a∈ A
Moyenne sur corpus A :
A 20
25
26
12
€

€

Applicable à tout KPI

Non unicité des Extensible Capable de distinguer
deux KPI par leur
représentations discernant construction

Contre-intuitif Flexible Référentiels adaptés
au niveau d’intérêt de
chaque KPI

20
25
29
27
12

communautés
De pratiques Quels Type de solution

KPI
choisir
Objectifs
Phase du projet
? 20
25
29
27
12
31

Caractériser les communautés
par distribution des niveaux hiérarchiques
Appel Phase Tour Concept Mot Ms Appel Phase tour Concept Mot Ms

Marketing 0,86
0,14
-‐
-‐
-‐
-‐

Maîtrise d’ouvrage 0,55
0,15
0,18
0,09
-‐
0,03

Métier 0,52
0,05
0,26
0,11
-‐
0,02

Ergonomie 0,36
0,31
0,16
0,09
0,04
-‐

Technique 0,30
0,24
0,12
0,16
0,15
-‐

Expert Parole 0,22
0,20
0,18
0,16
0,22
-‐

Corpus de KPI en usage au sein des équipes Orange Labs
32
20
30
25
27
12

calcul de distance
Distance ( MOA, Efficience )
Appel
Efficience = Distribution ( MOA, appel ) 0,55
Phase Appel + 0,5 * [ D ( MOA, phase) 0,15
Mesure
de
la
précision
et
de
la
Quan,té
de
ressources
u,lisées
pour
+ 0,5 D ( MOA, phase)
complétude
des
tâches
système
exécuter
les
différentes
tâches
du
système

+ 0,5 D ( MOA, concept ) ]
80%
20%

Phase Concept Appel Appel + 0,5 * [ D ( MOA, appel )
Complétude
Précision
des
+ 0,2 D ( MOA, appel )
Temps
Effort
humain

des
tâches
tâches
+ 0,8 D ( MOA, appel) ]

%
de
transac,ons

%
de
bonne

Durée
= 1.265
compréhension
Mesure
de

réalisées
avec
moyenne
d’un

des
concepts
l’effort

succès
dialogue

énoncés

33
20
25
27
12
31

calcul de distance
Efficience

Mesure
de
la
précision
et
de
la
Quan,té
de
ressources
u,lisées
pour

MArketing 1,821
complétude
des
tâches
système
exécuter
les
différentes
tâches
du
système

MOA 1,265
80%
20%

Métier 1,258
Complétude
Précision
des

Temps
Effort
humain
Ergonomie 0,982
des
tâches
tâches

%
de
bonne

Technique 0,817
%
de
transac,ons
Durée

compréhension
Mesure
de

réalisées
avec

des
concepts

moyenne
d’un

l’effort
SLU 0,633
succès
dialogue

énoncés

Appel Phase tour Concept Mot Ms
34
20
25
27
12
31

Prendre du recul

Idiolecte Méthodologies d’évaluation ( Instanciation )

Sociolecte Contexte d’évaluation

Dialecte Communauté de pratiques

langage Système formel

32
20
25
35
27
12

Appréhender
Coordonner

Étude sur l’évaluation en
Approche système
général, et des automates
d’information
vocaux en particulier

Comparer

Caractérisation formelle
Décrire

Modèle formel
de formes de pratiques
34
20
25
27
37
12

PErspectives

Enrichir le modèle formel
Appliquer à davantage de domaines
Intégrer les contributions

38
20
25
35
27
12

?

Merci 20
25
27
39
36
12

Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (18)

Soutenance de thèse : "Étude de l'évaluation des systèmes de dialogue parlé : Pour une coordination de pratiques d’évaluation hétérogènes"

Hinweis der Redaktion