SlideShare ist ein Scribd-Unternehmen logo
1 von 94
Downloaden Sie, um offline zu lesen
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
La traduction automatique statistique dans un
contexte multimodal
Th`ese pr´esent´ee par
Haithem Afli
dirig´ee par
Lo¨ıc Barrault & Holger Schwenk
7 juillet 2014
1/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Le DEPART de la th`ese
Projet DEPART
Documents Ecrits et Paroles – Reconnaissance et Traduction
Financ´e par la r´egion des Pays de la Loire
Partenaires : LST/LIUM, TALN/LINA et IVC/IRCCyN
Objectifs :
La r´esolution de probl`emes scientifiques et technologiques
mettant en jeu des donn´ees multimodales et multilingues
2/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Axes de recherches
Axe1
Collection multim´edia multilingue
Axe 2
Analyse conjointe et traduction
Axe 3
Adaptation des m´ethodes et donn´ees aux diff´erents types de
documents multim´edia
3/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Axes de recherches
Axe1
Collection multim´edia multilingue
Axe 2
Analyse conjointe et traduction
Notre tˆache : traduction de documents multimodaux
Axe 3
Adaptation des m´ethodes et donn´ees aux diff´erents types de
documents multim´edia
3/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
5 Conclusion et perspectives
4/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
5/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
5/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
5/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Mod´elisation
Mod`ele de Langue : P(t)
→ estim´e `a l’aide de textes monolingues en langue cible
5/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Mod´elisation
Mod`ele de Langue : P(t)
→ estim´e `a l’aide de textes monolingues en langue cible
Mod`ele de Traduction : P(s|t)
→ estim´e `a l’aide de textes bilingues
5/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Traduction automatique statistique (TAS)
Approche statistique, selon la formule suivante :
t∗
= arg max
t
P(s|t)P(t)
t∗ : meilleure traduction possible
langue source s et langue cible t
Mod´elisation
Mod`ele de Langue : P(t)
→ estim´e `a l’aide de textes monolingues en langue cible
Mod`ele de Traduction : P(s|t)
→ estim´e `a l’aide de textes bilingues
Des outils tels que Moses et Joshua sont disponibles
⇒ Besoin de donn´ees parall`eles
5/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Corpus parall`ele : bitexte
Textes qui sont des traductions l’un
de l’autre
Ressource essentielle pour la TAS
Donn´ees d’entraˆınement pour les
mod`eles de traduction statistiques
Disponible en quantit´e limit´ee
langues
domaines sp´ecifiques
Coˆuteux et long `a construire
Traduction des phrases ...
⇒ Besoin d’autres solutions et sources
Pierre de Rosette
6/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Exploitation des corpus comparables
Pas parall`eles au sens strict
Contiennent les mˆemes informations
Disponibles en grande quantit´e et en de nombreuses langues
Principalement `a partir de sources journalistiques (newswire)
AFP, Al JAZEERA, BBC ...
Projets r´ecents : ACCURAT..
7/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Donn´ees de modalit´es diff´erentes
www.coursera.org/
amara.org/
8/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Objectif : exploiter des corpus comparables multimodaux
Extraction des données
parallèles
Textes parallèles
Audio (L1) Textes (L2)
9/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
D´efinition. Un corpus multimodal comparable est une collection
de donn´ees de diff´erentes modalit´es qui contiennent les mˆemes
informations, mais ne sont pas des traductions exactes les unes des
autres.
10/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Probl´ematiques
Faisabilit´e
Les corpus comparables multimodaux sont-ils utilisables pour
extraire du texte parall`ele ?
11/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Probl´ematiques
Faisabilit´e
Les corpus comparables multimodaux sont-ils utilisables pour
extraire du texte parall`ele ?
Qualit´e
Est-il possible d’am´eliorer un syst`eme de traduction avec les
donn´ees extraites ?
11/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Probl´ematiques
Faisabilit´e
Les corpus comparables multimodaux sont-ils utilisables pour
extraire du texte parall`ele ?
Qualit´e
Est-il possible d’am´eliorer un syst`eme de traduction avec les
donn´ees extraites ?
Efficacit´e
Comment tirer parti au mieux des donn´ees disponibles ?
⇒ Besoin de construction de corpus multimodal (cas d’´etude)
11/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus TED-LIUM
TED : expos´es scientifiques oraux en anglais disponibles avec
leurs traductions en plusieurs langues, dont le fran¸cais
Traduction
Audio (en)
Texte (fr)
12/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus TED-LIUM
Tˆache : exploiter des donn´ees de IWSLT’11
→ d´etaill´ee dans [Rousseau et al., 2011]
→ traduire des discours de TED de l’anglais vers le fran¸cais
utiliser la partie audio en anglais (TEDasr)
enrichir avec des textes parall`eles (TEDbi)
Donn´ees # mots
TEDasr 1.8M
TEDbi 1.9M
13/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus bimodal Euronews
Audio comparable
Textes comparables
Transcription
Transcription
Extraction des donn´ees sur la p´eriode 2010 `a 2012
14/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Construction
Premi`ere phase :
1 t´el´echargement de la liste des articles
→ en deux langues (fran¸cais/anglais)
2 conservation de l’intersection
→ la liste des articles qui ont des correspondances comparables
Deuxi`eme phase :
1 rep´erage du nom et du domaine de la vid´eo
2 r´ecup´eration des vid´eos et des textes qui correspondent
3 extraction du flux audio de la vid´eo
→ conversion dans le format utilis´e pour le syst`eme RAP
15/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Traduction automatique statistique
Corpus parall`eles et corpus comparables
Construction du corpus multimodal comparable
Le corpus Euronews-LIUM
Nombre de mots et de phrases de la transcription automatique
de la partie audio anglais
# mots # phrases
2.2 M 76 K
Quantit´e en termes de mots de la partie texte anglais/fran¸cais
# mots Fr # mots En
6.2 M 6.1 M
Plusieurs domaines : ´economie, sport, culture, Europe, style
de vie, politique et sciences.
16/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Plan
1 Introduction
2 Travaux pr´ec´edents
Principales m´ethodes existantes
La m´ethode de traduction automatique
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
5 Conclusion et perspectives
17/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
Alignement : utilisation de mod`eles d’alignement de mots
pour estimer la proximit´e de deux documents (ou phrases) en
langue source et cible [Brown et al., 1991].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
Alignement : utilisation de mod`eles d’alignement de mots
pour estimer la proximit´e de deux documents (ou phrases) en
langue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire les
mots source et utilisation de m´ethodes de RI
[Munteanu and Marcu, 2005].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Principales m´ethodes existantes
Webcrawling : utilisation des URLs pour trouver des
documents correspondants [Resnik and Smith, 2003].
Alignement : utilisation de mod`eles d’alignement de mots
pour estimer la proximit´e de deux documents (ou phrases) en
langue source et cible [Brown et al., 1991].
RI crosslingue : utilisation d’un lexique pour traduire les
mots source et utilisation de m´ethodes de RI
[Munteanu and Marcu, 2005].
Traduction automatique : utilisation d’un syst`eme de TAS
pour traduire les documents et utilisation de m´ethodes de RI
[AbduI-Rauf and Schwenk, 2009].
18/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Principales m´ethodes existantes
La m´ethode de traduction automatique
Corpus comparable
(textes) ----------
----------
----------
----------
TAS
----------
----------
----------
----------
----------
----------
........
...............
--
-
--
-
--
-
--
-
--
-
--
-
-------- ---------
-------- -------------
-------- -------------
-------- ---------
articles d'actualités
datés
articles de Gigaword
(+- 5 jours)
phrases candidates
---- ----
---- ----
---- ----
---- ----
--
-
--
-
--
-
--
-
tail removal
Filtrage
(TER,WER,TER+)
phrases parallèles
Traduction
Abdul-Rauf et
Schwenk, 2009
lexique
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
Classifieur
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
---- ----
........
Phrases candidates
Phrases parallèlesPaires d'articles
Corpus comparable
Sélection
d'articles
sélection de
phrases
candidates
sélection de
phrases
parallèles
Corpus parallèle
Munteanu et
Marcu, 2005
19/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
4 Extraction de segments parall`eles
5 Conclusion et perspectives
20/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
3 Utiliser les traductions
comme requˆetes de RI
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
3 Utiliser les traductions
comme requˆetes de RI
4 Utiliser le TER entre
la requˆete et le r´esultat de
RI comme m´etrique
de filtrage
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Premi`ere approche propos´ee [Afli et al., 2012]
Etapes
1 Transcrire les donn´ees audio
2 Traduire ces transcriptions
3 Utiliser les traductions
comme requˆetes de RI
4 Utiliser le TER entre
la requˆete et le r´esultat de
RI comme m´etrique
de filtrage
5 G´en´erer le bitexte
Audio L1
Trans. L1
Trad. L2
Texte L2
RAP
TAS
RI
Textes L2
Corpus
multimodal
Bitextes
Phrases
L2
Filtrage
21/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (1) : faisabilit´e
Analyse de l’impact des
erreurs commises par les
diff´erents modules
Exp 1 : le syst`eme de RAP
et de TAS ne commettent
aucune erreur.
Exp 1
Réf. de trad.
Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (1) : faisabilit´e
Analyse de l’impact des
erreurs commises par les
diff´erents modules
Exp 1 : le syst`eme de RAP
et de TAS ne commettent
aucune erreur.
Exp 2 : erreurs du syst`eme
de traduction.
Exp 1 Exp 2
Réf. de trans.
En
Trad. auto.
Fr
Texte Fr
TAS
RI
Réf. de trad.
Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (1) : faisabilit´e
Analyse de l’impact des
erreurs commises par les
diff´erents modules
Exp 1 : le syst`eme de RAP
et de TAS ne commettent
aucune erreur.
Exp 2 : erreurs du syst`eme
de traduction.
Exp 3 : cas r´eel,
enchaˆınement de tous les
modules automatiques
TED audio
Trans. auto.
En
Trad. auto.
Fr
Texte Fr
RAP
TAS
RI
Exp 1 Exp 2 Exp 3
Réf. de trans.
En
Trad. auto.
Fr
Texte Fr
TAS
RI
Réf. de trad.
Fr
Texte Fr
RI
Données génériques +% Réf. fr
22/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (2)
Analyse de l’importance du degr´e de similarit´e
23/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Cadre exp´erimental (2)
Analyse de l’importance du degr´e de similarit´e
→ construction artificielle de 4 corpus comparables avec
diff´erents degr´es de similarit´e
le cˆot´e source est toujours le mˆeme
la partie cible est compos´ee d’un grand corpus g´en´erique
auquel est ajout´e 25%, 50%, 75% et 100% des traductions de
r´ef´erence
23/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Donn´ees
´Evaluation de l’approche
les donn´ees extraites sont r´einject´ees dans le syst`eme de base
les syst`emes sont ´evalu´es automatiquement avec BLEU
Entraˆınement
bitextes # mots g´en´eriques
nc7 3.7M oui
eparl7 56.4M oui
Corpus de d´eveloppement et de test
Dev # mots
devTED.en 36k
devEuronews 74k
Test # mots
tstTED.en 8.7k
tstEuronews 61k
24/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exp´erimentation : modules
RAP : syst`eme 5-passes fond´e sur CMU Sphinx
WER d’environ 18%
TAS : syst`eme `a base de segment utilisant Moses
entraˆın´e sur les donn´ees g´en´eriques
RI : utilisation de l’outil Lemur
indexation de toutes les donn´ees cibles (en fran¸cais)
25/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un
supercomputer parce qu’ils savent comment prendre ..
26/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un
supercomputer parce qu’ils savent comment prendre ..
Phrase trouv´ee (sortie RI) : ... vous prenez un
superordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : extraction
Phrase en anglais (sortie RAP) : ... you get a
supercomputer because they know how to take ...
Phrase trouv´ee (sortie RI) : ... vous prenez un
superordinateur car ils savent comment concentrer ...
26/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Exemple de d´eroulement : am´elioration
Test audio
Sortie ASR a supercomputer has calculated
that humans and only ...
R´ef´erence a supercomputer has calculated
that humans have only ...
Traductions de la sortie ASR
Syst`eme de base un supercomputer
a calcul´e que les humains et seulement ...
Syst`eme adapt´e un superordinateur
a calcul´e que les humains et seulement ...
R´ef´erence un superordinateur a calcul´e
que les humains n’avaient plus que ...
27/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : filtrage
22.5
23
23.5
24
24.5
0 20 40 60 80 100
scoreBLEU
TER threshold
Exp1
Exp2
Exp3
22
22.5
23
23.5
24
24.5
25
25.5
26
0 20 40 60 80 100
scoreBLEU
seuil TER
Exp1
Exp2
Exp3
Donn´ees g´en´eriques + 25% TEDbi
Donn´ees g´en´eriques + 100% TEDbi
28/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : filtrage
le choix du seuil de TER ad´equat d´epend de la nature des
donn´ees
le meilleur seuil pour les donn´ees TED est dans l’intervalle
[80-90]
→ le seuil de 80 est retenu pour le filtrage des r´esultats
⇒ ce choix est confirm´e par les r´esultats obtenus sur TestTED
29/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
30/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’am´eliorer le syst`eme de TAS
→ faisabilit´e
30/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’am´eliorer le syst`eme de TAS
→ faisabilit´e
moins d’impacts des erreurs de TAS
→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese de r´esultats : enchaˆınement des modules
Comparaison des donn´ees extraites dans les diff´erentes Exp
Exp´erience DevTED TstTED
Syst`eme de base 22.93 23.96
Exp1 (ref TAS) 24.14 25.14
Exp2 (ref RAP) 23.90 25.15
Exp3 (RAP+TAS+RI) 23.40 24.69
les phrases extraites permettent d’am´eliorer le syst`eme de TAS
→ faisabilit´e
moins d’impacts des erreurs de TAS
→ plus en RAP
30/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : degr´e de comparabilit´e
Scores BLEU pour diff´erents degr´es de comparabilit´e
Exp´erience DevTED TstTED # mots inject´es
Syst`eme de base 22.93 23.96 -
25% TEDbi 23.11 24.40 ∼110k
50% TEDbi 23.27 24.58 ∼215k
75% TEDbi 23.43 24.42 ∼293k
100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
31/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : degr´e de comparabilit´e
Scores BLEU pour diff´erents degr´es de comparabilit´e
Exp´erience DevTED TstTED # mots inject´es
Syst`eme de base 22.93 23.96 -
25% TEDbi 23.11 24.40 ∼110k
50% TEDbi 23.27 24.58 ∼215k
75% TEDbi 23.43 24.42 ∼293k
100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs r´esultats avec 75% et 100%
les modules de RI et filtrage sont tr`es importants
31/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Synth`ese des r´esultats : degr´e de comparabilit´e
Scores BLEU pour diff´erents degr´es de comparabilit´e
Exp´erience DevTED TstTED # mots inject´es
Syst`eme de base 22.93 23.96 -
25% TEDbi 23.11 24.40 ∼110k
50% TEDbi 23.27 24.58 ∼215k
75% TEDbi 23.43 24.42 ∼293k
100% TEDbi 23.40 24.69 ∼393k
TEDbi 1.9 M
meilleurs r´esultats avec 75% et 100%
les modules de RI et filtrage sont tr`es importants
quantit´es faibles
31/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Discussion
Constat
Les phrases parall`eles extraites am´eliorent les syst`emes de
traduction
mais la quantit´e est faible
→ Comment optimiser l’exploitation des corpus pour extraire
davantage de donn´ees parall`eles ?
Types d’erreurs
Les phrases les plus longues ont un TER ´elev´e
⇒ exclues par le filtrage mˆeme si elles contiennent de bonnes
traductions
32/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Approche l´eg`erement supervis´ee (unsup)
Objectif : compl´eter les r´esultats de la RI
En
Fr
TAS
En-Fr
En Fr
2
1
En Fr
Filtrage
de
données
33/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Approche l´eg`erement supervis´ee (unsup)
Objectif : compl´eter les r´esultats de la RI
En
Fr
TAS
En-Fr
En Fr
2
1
En Fr
Filtrage
de
données
2 ´etapes [Schwenk, 2009] :
traduction des donn´ees monolingues (anglais) avec le syst`eme
de base
filtrage des r´esultats pour ´eliminer les paires de phrases non
d´esir´ees
33/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
RI & unsup : r´esultats
22.5
23
23.5
24
24.5
70 75 80 85 90 95 100
ScoreBLEU
Seuil TER
RI + Unsup
Baseline
RI
pas d’am´elioration significative
⇒ Chercher d’autres solutions pour augmenter la couverture
34/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Approche propos´ee
Conditions exp´erimentales et r´esultats
Discussion
Adaptation non supervis´ee
Segments parall`eles
35/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
5 Conclusion et perspectives
36/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Extraction des segments parall`eles
L’approche associative : reposer sur des mesures comme
l’information mutuelle ou le rapport de vraisemblance
[Munteanu and Marcu, 2006]
[Hewavitharana and Vogel, 2011]
L’alignement : d´eterminer le meilleur ensemble de liens
d’alignement entre des groupes de mots sources et cibles de
chaque paire de phrases ou documents
[Quirk et al., 2007]
[Riesa and Marcu, 2012].
37/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
M´ethode propos´ee [Afli et al., 2013]
1 g´en´erer tous les segments
possibles
→ segments de 2 `a 10 mots
la sortie du syst`eme RAP
Audio L1
Phrases L1
Traductions L2
Segments
L2
RAP
TAS
RI
Textes L2
Corpus
Comparable
multimodal
Données
Parallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
M´ethode propos´ee [Afli et al., 2013]
1 g´en´erer tous les segments
possibles
→ segments de 2 `a 10 mots
la sortie du syst`eme RAP
le corpus texte de RI
Audio L1
Phrases L1
Traductions L2
Segments
L2
RAP
TAS
RI
Textes L2
Corpus
Comparable
multimodal
Données
Parallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
M´ethode propos´ee [Afli et al., 2013]
1 g´en´erer tous les segments
possibles
→ segments de 2 `a 10 mots
la sortie du syst`eme RAP
le corpus texte de RI
2 appliquer la mˆeme
m´ethode d’extraction
utilis´ee dans SentExtract
⇒ aligner les segments
parall`eles
Audio L1
Phrases L1
Traductions L2
Segments
L2
RAP
TAS
RI
Textes L2
Corpus
Comparable
multimodal
Données
Parallèles
Filtrage
Segments L1
Découpage
Segments L2
Découpage
38/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
PhrExtract vs SentExtract, donn´ees TED
TER SentExtract PhrExtract
0 22.86 23.39
10 22.97 23.35
20 23.06 23.53
30 22.95 23.39
40 22.92 23.45
50 23.26 23.54
60 23.10 23.70
70 23.29 23.41
80 23.40 23.40
90 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
PhrExtract vs SentExtract, donn´ees TED
TER SentExtract PhrExtract
0 22.86 23.39
10 22.97 23.35
20 23.06 23.53
30 22.95 23.39
40 22.92 23.45
50 23.26 23.54
60 23.10 23.70
70 23.29 23.41
80 23.40 23.40
90 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
PhrExtract vs SentExtract, donn´ees TED
TER SentExtract PhrExtract
0 22.86 23.39
10 22.97 23.35
20 23.06 23.53
30 22.95 23.39
40 22.92 23.45
50 23.26 23.54
60 23.10 23.70
70 23.29 23.41
80 23.40 23.40
90 23.39 23.18
100 23.34 23.26
Baseline 22.93
39/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Application sur les donn´ees Euronews
TER # mots (fr) devEuronews tstEuronews
0 90 k 29.95 27.13
20 168 k 30.01 27.33
30 322 k 30.04 27.59
40 769 k 29.92 27.45
50 1.9 M 30.03 27.27
60 3.1M 29.92 27.30
70 5.7M 29.83 27.11
80 12.39 M 29.73 27.10
90 25.7 M 29.73 26.88
100 40.3 M 29.52 26.53
Baseline 60.1M 25.19 22.12
40/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Application sur les donn´ees Euronews
TER # mots (fr) devEuronews tstEuronews
0 90 k 29.95 27.13
20 168 k 30.01 27.33
30 322 k 30.04 27.59
40 769 k 29.92 27.45
50 1.9 M 30.03 27.27
60 3.1M 29.92 27.30
70 5.7M 29.83 27.11
80 12.39 M 29.73 27.10
90 25.7 M 29.73 26.88
100 40.3 M 29.52 26.53
Baseline 60.1M 25.19 22.12
40/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Discussion
Am´elioration des r´esultats
redondance
Approche actuelle de filtrage :
seuil de TER entre traduction et r´esultat de RI
´Ecueils :
approche empirique pour d´eterminer le seuil
statique
41/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Discussion
Am´elioration des r´esultats
redondance
Approche actuelle de filtrage :
seuil de TER entre traduction et r´esultat de RI
´Ecueils :
approche empirique pour d´eterminer le seuil
statique
⇒ Utilisation de la m´ethode LLR (Log Likelihood Ratio)
[Munteanu and Marcu, 2006]
41/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Filtrage avec LLR
LLR :
le rapport de vraisemblance
l’ind´ependance des
paires de mots qui co-occurent
LLR faible
→ mots ind´ependants
LLR augmente
→ mots associ´es
[Munteanu and Marcu, 2006]
42/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le syst`eme
d’extraction des phrases,
consid´er´ees quasi parall`eles
Audio L1
Phrases L1
Traductions L2
Phrases
L2
RAP
TAS
Texts L2
Corpus
Comparable
multimodal
Phrases
Quasi-
Parallèles
RI
Corpus parallèle
de base
Lexique
LLR
Génération des
Segments
Lex.
Extraction
Apprentissage
Segments
parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le syst`eme
d’extraction des phrases,
consid´er´ees quasi parall`eles
2 construire le lexique LLR lex
`a partir des donn´ees
d’apprentissage du TAS
Audio L1
Phrases L1
Traductions L2
Phrases
L2
RAP
TAS
Texts L2
Corpus
Comparable
multimodal
Phrases
Quasi-
Parallèles
RI
Corpus parallèle
de base
Lexique
LLR
Génération des
Segments
Lex.
Extraction
Apprentissage
Segments
parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
SenExtract +LLR lex : architecture [Afli et al., 2014]
1 utiliser le syst`eme
d’extraction des phrases,
consid´er´ees quasi parall`eles
2 construire le lexique LLR lex
`a partir des donn´ees
d’apprentissage du TAS
3 d´etecter, `a l’aide du lexique,
les fragments parall`eles dans
les phrases g´en´er´ees
Audio L1
Phrases L1
Traductions L2
Phrases
L2
RAP
TAS
Texts L2
Corpus
Comparable
multimodal
Phrases
Quasi-
Parallèles
RI
Corpus parallèle
de base
Lexique
LLR
Génération des
Segments
Lex.
Extraction
Apprentissage
Segments
parallèles
43/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees TED
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 60) 321 k 322 k
SenExtract +LLR lex 236 k 224 k
Scores BLEU
Syst`emes devTED tstTED
Baseline 22.93 23.96
PhrExtract (TER 60) 23.70 24.84
SenExtract +LLR lex 23.63 24.88
44/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees TED
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 60) 321 k 322 k
SenExtract +LLR lex 236 k 224 k
Scores BLEU
Syst`emes devTED tstTED
Baseline 22.93 23.96
PhrExtract (TER 60) 23.70 24.84
SenExtract +LLR lex 23.63 24.88
44/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees Euronews
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 30) 16.6 M 13.8 M
SenExtract +LLR lex 1.6 M 2.2 M
Scores BLEU
Syst`emes devEuronews tstEuronews
Baseline 25.19 22.12
PhrExtract (TER 30) 30.04 27.59
SenExtract +LLR lex 30.00 27.47
45/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
R´esultats : donn´ees Euronews
Quantit´es de donn´ees extraites
M´ethodes # mots (en) # mots (fr)
PhrExtract (TER 30) 16.6 M 13.8 M
SenExtract +LLR lex 1.6 M 2.2 M
Scores BLEU
Syst`emes devEuronews tstEuronews
Baseline 25.19 22.12
PhrExtract (TER 30) 30.04 27.59
SenExtract +LLR lex 30.00 27.47
45/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
M´ethode PhrExtract
Discussion
M´ethode SenExtract +LLR lex
Discussion
M´ethode plus efficace
r´esultats similaires au meilleur seuil TER
moins de quantit´e de donn´ees : plus de pr´ecision dans la
s´election des donn´ees pertinentes
Besoin de plus d’am´eliorations
optimiser l’exploitation des corpus
46/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Plan
1 Introduction
2 Travaux pr´ec´edents
3 Extraction de phrases parall`eles
4 Extraction de segments parall`eles
5 Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
47/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Conclusion
Construction du corpus bimodal Euronews LIUM
Extraction des donn´ees sur la p´eriode 2010 `a 2012
Mettre `a disposition `a la communaut´e
→ corpus et bitextes extraits
Mise `a jour du corpus TED LIUM
partie texte en fran¸cais correspond `a TEDbi
Mettre `a disposition `a la communaut´e
→ corpus brut et bitextes extraits
48/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Conclusion
Extension de l’utilisation de corpus comparables `a des donn´ees
multimodales, i.e. audio cˆot´e source et texte cˆot´e cible
D´eveloppement des syst`emes d’acquisition des donn´ees
comparables multimodales et d’extraction de textes parall`eles
→ totalement automatique
Extension de la m´ethode pour extraire des segments parall`eles
Am´elioration du module de filtrage de nos syst`emes : du
filtrage TER vers le filtrage LLR
M´ethodes valid´ees sur diff´erents corpus et tˆaches (TED et
Euronews)
adaptation d’un syst`eme g´en´erique
am´elioration d’un syst`eme du domaine
49/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Perspectives
Ce travail ouvre la voie `a l’exploitation des donn´ees multimodales
pour la TA
Am´elioration de la m´ethode PhrExtract en changeant la
segmentation des phrases
groupes syntaxiques
connaissances linguistiques
l’alignement en groupe de mots du syst`eme de TAS
Am´elioration de la m´ethode SentExtract en essayant d’autres
techniques de filtrage
Utilisation de la m´ethode Unsup avec les phrases courtes
Application des m´ethodes d’extraction sur d’autres domaines
de sp´ecialit´e
50/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Merci pour votre attention.
Universitédu Maine
U
51/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
AbduI-Rauf, S. and Schwenk, H. (2009).
On the use of comparable corpora to improve smt
performance.
In Proceedings of the 12th Conference of the European
Chapter of the Association for Computational Linguistics,
EACL ’09, pages 16–23, Stroudsburg, PA, USA. Association
for Computational Linguistics.
Afli, H., Barrault, L., and Schwenk, H. (2012).
Parallel texts extraction from multimodal comparable corpora.
In JapTAL, volume 7614 of Lecture Notes in Computer
Science, pages 40–51. Springer.
Afli, H., Barrault, L., and Schwenk, H. (2013).
Multimodal comparable corpora as resources for extracting
parallel data : Parallel phrases extraction.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
International Joint Conference on Natural Language
Processing.
Afli, H., Barrault, L., and Schwenk, H. (2014).
Multimodal comparable corpora for machine translation.
LREC 2014, 7th Workshop on Building and Using Comparable
Corpora, Building Resources for Machine Translation Research.
Bisazza, A., Ruiz, N., and Federico, M. (2011).
Fill-up versus interpolation methods for phrase-based smt
adaptation.
International Workshop on Spoken Language Translation 2011.
Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D.,
Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S.
(1990).
A statistical approach to machine translation.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Comput. Linguist., 16 :79–85.
Brown, P. F., Lai, J. C., and Mercer, R. L. (1991).
Aligning sentences in parallel corpora.
In Proceedings of the 29th annual meeting on Association for
Computational Linguistics, ACL ’91, pages 169–176.
Dunning, T. (1993).
Accurate methods for the statistics of surprise and
coincidence.
Comput. Linguist., 19(1) :61–74.
Hewavitharana, S. and Vogel, S. (2011).
Extracting parallel phrases from comparable data.
In Proceedings of the 4th Workshop on Building and Using
Comparable Corpora : Comparable Corpora and the Web,
BUCC ’11, pages 61–68.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Munteanu, D. S. and Marcu, D. (2005).
Improving Machine Translation Performance by Exploiting
Non-Parallel Corpora.
Computational Linguistics, 31(4) :477–504.
Munteanu, D. S. and Marcu, D. (2006).
Extracting parallel sub-sentential fragments from non-parallel
corpora.
In Proceedings of the 21st International Conference on
Computational Linguistics and the 44th annual meeting of the
Association for Computational Linguistics, ACL-44, pages
81–88.
Quirk, Q., Udupa, R., and Menezes, A. (2007).
Generative models of noisy translations with applications to
parallel fragment extraction.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
In In Proceedings of MT Summit XI, European Association for
Machine Translation.
Resnik, P. and Smith, N. A. (2003).
The web as a parallel corpus.
Comput. Linguist., 29 :349–380.
Riesa, J. and Marcu, D. (2012).
Automatic parallel fragment extraction from noisy data.
In Proceedings of the 2012 Conference of the North American
Chapter of the Association for Computational Linguistics :
Human Language Technologies, NAACL HLT ’12, pages
538–542.
Rousseau, A., Bougares, F., Del´eglise, P., Schwenk, H., and
Est`eve, Y. (2011).
LIUM’s systems for the IWSLT 2011 speech translation tasks.
International Workshop on Spoken Language Translation 2011.
51/ 51 Haithem Afli La TAS dans un contexte multimodal
Introduction
Travaux pr´ec´edents
Extraction de phrases parall`eles
Extraction de segments parall`eles
Conclusion et perspectives
Cr´eation du corpus multimodal
Nouvelles m´ethodes
Perspectives
Schwenk, H. (2009).
Translation model adaptation for an arabic/french news
translation system by lightly-supervised training.
MT Summit.
51/ 51 Haithem Afli La TAS dans un contexte multimodal

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Présentation de thèse Haithem AFLI

  • 1. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives La traduction automatique statistique dans un contexte multimodal Th`ese pr´esent´ee par Haithem Afli dirig´ee par Lo¨ıc Barrault & Holger Schwenk 7 juillet 2014 1/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 2. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Le DEPART de la th`ese Projet DEPART Documents Ecrits et Paroles – Reconnaissance et Traduction Financ´e par la r´egion des Pays de la Loire Partenaires : LST/LIUM, TALN/LINA et IVC/IRCCyN Objectifs : La r´esolution de probl`emes scientifiques et technologiques mettant en jeu des donn´ees multimodales et multilingues 2/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 3. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Axes de recherches Axe1 Collection multim´edia multilingue Axe 2 Analyse conjointe et traduction Axe 3 Adaptation des m´ethodes et donn´ees aux diff´erents types de documents multim´edia 3/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 4. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Axes de recherches Axe1 Collection multim´edia multilingue Axe 2 Analyse conjointe et traduction Notre tˆache : traduction de documents multimodaux Axe 3 Adaptation des m´ethodes et donn´ees aux diff´erents types de documents multim´edia 3/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 5. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles 5 Conclusion et perspectives 4/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 6. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 7. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 8. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 9. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t Mod´elisation Mod`ele de Langue : P(t) → estim´e `a l’aide de textes monolingues en langue cible 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 10. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t Mod´elisation Mod`ele de Langue : P(t) → estim´e `a l’aide de textes monolingues en langue cible Mod`ele de Traduction : P(s|t) → estim´e `a l’aide de textes bilingues 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 11. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Traduction automatique statistique (TAS) Approche statistique, selon la formule suivante : t∗ = arg max t P(s|t)P(t) t∗ : meilleure traduction possible langue source s et langue cible t Mod´elisation Mod`ele de Langue : P(t) → estim´e `a l’aide de textes monolingues en langue cible Mod`ele de Traduction : P(s|t) → estim´e `a l’aide de textes bilingues Des outils tels que Moses et Joshua sont disponibles ⇒ Besoin de donn´ees parall`eles 5/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 12. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Corpus parall`ele : bitexte Textes qui sont des traductions l’un de l’autre Ressource essentielle pour la TAS Donn´ees d’entraˆınement pour les mod`eles de traduction statistiques Disponible en quantit´e limit´ee langues domaines sp´ecifiques Coˆuteux et long `a construire Traduction des phrases ... ⇒ Besoin d’autres solutions et sources Pierre de Rosette 6/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 13. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Exploitation des corpus comparables Pas parall`eles au sens strict Contiennent les mˆemes informations Disponibles en grande quantit´e et en de nombreuses langues Principalement `a partir de sources journalistiques (newswire) AFP, Al JAZEERA, BBC ... Projets r´ecents : ACCURAT.. 7/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 14. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Donn´ees de modalit´es diff´erentes www.coursera.org/ amara.org/ 8/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 15. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Objectif : exploiter des corpus comparables multimodaux Extraction des données parallèles Textes parallèles Audio (L1) Textes (L2) 9/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 16. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable D´efinition. Un corpus multimodal comparable est une collection de donn´ees de diff´erentes modalit´es qui contiennent les mˆemes informations, mais ne sont pas des traductions exactes les unes des autres. 10/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 17. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Probl´ematiques Faisabilit´e Les corpus comparables multimodaux sont-ils utilisables pour extraire du texte parall`ele ? 11/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 18. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Probl´ematiques Faisabilit´e Les corpus comparables multimodaux sont-ils utilisables pour extraire du texte parall`ele ? Qualit´e Est-il possible d’am´eliorer un syst`eme de traduction avec les donn´ees extraites ? 11/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 19. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Probl´ematiques Faisabilit´e Les corpus comparables multimodaux sont-ils utilisables pour extraire du texte parall`ele ? Qualit´e Est-il possible d’am´eliorer un syst`eme de traduction avec les donn´ees extraites ? Efficacit´e Comment tirer parti au mieux des donn´ees disponibles ? ⇒ Besoin de construction de corpus multimodal (cas d’´etude) 11/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 20. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus TED-LIUM TED : expos´es scientifiques oraux en anglais disponibles avec leurs traductions en plusieurs langues, dont le fran¸cais Traduction Audio (en) Texte (fr) 12/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 21. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus TED-LIUM Tˆache : exploiter des donn´ees de IWSLT’11 → d´etaill´ee dans [Rousseau et al., 2011] → traduire des discours de TED de l’anglais vers le fran¸cais utiliser la partie audio en anglais (TEDasr) enrichir avec des textes parall`eles (TEDbi) Donn´ees # mots TEDasr 1.8M TEDbi 1.9M 13/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 22. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus bimodal Euronews Audio comparable Textes comparables Transcription Transcription Extraction des donn´ees sur la p´eriode 2010 `a 2012 14/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 23. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Construction Premi`ere phase : 1 t´el´echargement de la liste des articles → en deux langues (fran¸cais/anglais) 2 conservation de l’intersection → la liste des articles qui ont des correspondances comparables Deuxi`eme phase : 1 rep´erage du nom et du domaine de la vid´eo 2 r´ecup´eration des vid´eos et des textes qui correspondent 3 extraction du flux audio de la vid´eo → conversion dans le format utilis´e pour le syst`eme RAP 15/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 24. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Traduction automatique statistique Corpus parall`eles et corpus comparables Construction du corpus multimodal comparable Le corpus Euronews-LIUM Nombre de mots et de phrases de la transcription automatique de la partie audio anglais # mots # phrases 2.2 M 76 K Quantit´e en termes de mots de la partie texte anglais/fran¸cais # mots Fr # mots En 6.2 M 6.1 M Plusieurs domaines : ´economie, sport, culture, Europe, style de vie, politique et sciences. 16/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 25. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Plan 1 Introduction 2 Travaux pr´ec´edents Principales m´ethodes existantes La m´ethode de traduction automatique 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles 5 Conclusion et perspectives 17/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 26. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 27. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. Alignement : utilisation de mod`eles d’alignement de mots pour estimer la proximit´e de deux documents (ou phrases) en langue source et cible [Brown et al., 1991]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 28. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. Alignement : utilisation de mod`eles d’alignement de mots pour estimer la proximit´e de deux documents (ou phrases) en langue source et cible [Brown et al., 1991]. RI crosslingue : utilisation d’un lexique pour traduire les mots source et utilisation de m´ethodes de RI [Munteanu and Marcu, 2005]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 29. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Principales m´ethodes existantes Webcrawling : utilisation des URLs pour trouver des documents correspondants [Resnik and Smith, 2003]. Alignement : utilisation de mod`eles d’alignement de mots pour estimer la proximit´e de deux documents (ou phrases) en langue source et cible [Brown et al., 1991]. RI crosslingue : utilisation d’un lexique pour traduire les mots source et utilisation de m´ethodes de RI [Munteanu and Marcu, 2005]. Traduction automatique : utilisation d’un syst`eme de TAS pour traduire les documents et utilisation de m´ethodes de RI [AbduI-Rauf and Schwenk, 2009]. 18/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 30. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Principales m´ethodes existantes La m´ethode de traduction automatique Corpus comparable (textes) ---------- ---------- ---------- ---------- TAS ---------- ---------- ---------- ---------- ---------- ---------- ........ ............... -- - -- - -- - -- - -- - -- - -------- --------- -------- ------------- -------- ------------- -------- --------- articles d'actualités datés articles de Gigaword (+- 5 jours) phrases candidates ---- ---- ---- ---- ---- ---- ---- ---- -- - -- - -- - -- - tail removal Filtrage (TER,WER,TER+) phrases parallèles Traduction Abdul-Rauf et Schwenk, 2009 lexique ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- Classifieur ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ---- ........ Phrases candidates Phrases parallèlesPaires d'articles Corpus comparable Sélection d'articles sélection de phrases candidates sélection de phrases parallèles Corpus parallèle Munteanu et Marcu, 2005 19/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 31. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee 4 Extraction de segments parall`eles 5 Conclusion et perspectives 20/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 32. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 33. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 34. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions 3 Utiliser les traductions comme requˆetes de RI Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 35. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions 3 Utiliser les traductions comme requˆetes de RI 4 Utiliser le TER entre la requˆete et le r´esultat de RI comme m´etrique de filtrage Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 36. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Premi`ere approche propos´ee [Afli et al., 2012] Etapes 1 Transcrire les donn´ees audio 2 Traduire ces transcriptions 3 Utiliser les traductions comme requˆetes de RI 4 Utiliser le TER entre la requˆete et le r´esultat de RI comme m´etrique de filtrage 5 G´en´erer le bitexte Audio L1 Trans. L1 Trad. L2 Texte L2 RAP TAS RI Textes L2 Corpus multimodal Bitextes Phrases L2 Filtrage 21/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 37. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (1) : faisabilit´e Analyse de l’impact des erreurs commises par les diff´erents modules Exp 1 : le syst`eme de RAP et de TAS ne commettent aucune erreur. Exp 1 Réf. de trad. Fr Texte Fr RI Données génériques +% Réf. fr 22/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 38. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (1) : faisabilit´e Analyse de l’impact des erreurs commises par les diff´erents modules Exp 1 : le syst`eme de RAP et de TAS ne commettent aucune erreur. Exp 2 : erreurs du syst`eme de traduction. Exp 1 Exp 2 Réf. de trans. En Trad. auto. Fr Texte Fr TAS RI Réf. de trad. Fr Texte Fr RI Données génériques +% Réf. fr 22/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 39. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (1) : faisabilit´e Analyse de l’impact des erreurs commises par les diff´erents modules Exp 1 : le syst`eme de RAP et de TAS ne commettent aucune erreur. Exp 2 : erreurs du syst`eme de traduction. Exp 3 : cas r´eel, enchaˆınement de tous les modules automatiques TED audio Trans. auto. En Trad. auto. Fr Texte Fr RAP TAS RI Exp 1 Exp 2 Exp 3 Réf. de trans. En Trad. auto. Fr Texte Fr TAS RI Réf. de trad. Fr Texte Fr RI Données génériques +% Réf. fr 22/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 40. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (2) Analyse de l’importance du degr´e de similarit´e 23/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 41. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Cadre exp´erimental (2) Analyse de l’importance du degr´e de similarit´e → construction artificielle de 4 corpus comparables avec diff´erents degr´es de similarit´e le cˆot´e source est toujours le mˆeme la partie cible est compos´ee d’un grand corpus g´en´erique auquel est ajout´e 25%, 50%, 75% et 100% des traductions de r´ef´erence 23/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 42. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Donn´ees ´Evaluation de l’approche les donn´ees extraites sont r´einject´ees dans le syst`eme de base les syst`emes sont ´evalu´es automatiquement avec BLEU Entraˆınement bitextes # mots g´en´eriques nc7 3.7M oui eparl7 56.4M oui Corpus de d´eveloppement et de test Dev # mots devTED.en 36k devEuronews 74k Test # mots tstTED.en 8.7k tstEuronews 61k 24/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 43. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exp´erimentation : modules RAP : syst`eme 5-passes fond´e sur CMU Sphinx WER d’environ 18% TAS : syst`eme `a base de segment utilisant Moses entraˆın´e sur les donn´ees g´en´eriques RI : utilisation de l’outil Lemur indexation de toutes les donn´ees cibles (en fran¸cais) 25/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 44. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 45. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un supercomputer parce qu’ils savent comment prendre .. 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 46. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... Requˆete en fran¸cais (sortie TAS) : ... vous obtenez un supercomputer parce qu’ils savent comment prendre .. Phrase trouv´ee (sortie RI) : ... vous prenez un superordinateur car ils savent comment concentrer ... 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 47. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : extraction Phrase en anglais (sortie RAP) : ... you get a supercomputer because they know how to take ... Phrase trouv´ee (sortie RI) : ... vous prenez un superordinateur car ils savent comment concentrer ... 26/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 48. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Exemple de d´eroulement : am´elioration Test audio Sortie ASR a supercomputer has calculated that humans and only ... R´ef´erence a supercomputer has calculated that humans have only ... Traductions de la sortie ASR Syst`eme de base un supercomputer a calcul´e que les humains et seulement ... Syst`eme adapt´e un superordinateur a calcul´e que les humains et seulement ... R´ef´erence un superordinateur a calcul´e que les humains n’avaient plus que ... 27/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 49. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : filtrage 22.5 23 23.5 24 24.5 0 20 40 60 80 100 scoreBLEU TER threshold Exp1 Exp2 Exp3 22 22.5 23 23.5 24 24.5 25 25.5 26 0 20 40 60 80 100 scoreBLEU seuil TER Exp1 Exp2 Exp3 Donn´ees g´en´eriques + 25% TEDbi Donn´ees g´en´eriques + 100% TEDbi 28/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 50. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : filtrage le choix du seuil de TER ad´equat d´epend de la nature des donn´ees le meilleur seuil pour les donn´ees TED est dans l’intervalle [80-90] → le seuil de 80 est retenu pour le filtrage des r´esultats ⇒ ce choix est confirm´e par les r´esultats obtenus sur TestTED 29/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 51. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 52. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 les phrases extraites permettent d’am´eliorer le syst`eme de TAS → faisabilit´e 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 53. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 les phrases extraites permettent d’am´eliorer le syst`eme de TAS → faisabilit´e moins d’impacts des erreurs de TAS → plus en RAP 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 54. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese de r´esultats : enchaˆınement des modules Comparaison des donn´ees extraites dans les diff´erentes Exp Exp´erience DevTED TstTED Syst`eme de base 22.93 23.96 Exp1 (ref TAS) 24.14 25.14 Exp2 (ref RAP) 23.90 25.15 Exp3 (RAP+TAS+RI) 23.40 24.69 les phrases extraites permettent d’am´eliorer le syst`eme de TAS → faisabilit´e moins d’impacts des erreurs de TAS → plus en RAP 30/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 55. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : degr´e de comparabilit´e Scores BLEU pour diff´erents degr´es de comparabilit´e Exp´erience DevTED TstTED # mots inject´es Syst`eme de base 22.93 23.96 - 25% TEDbi 23.11 24.40 ∼110k 50% TEDbi 23.27 24.58 ∼215k 75% TEDbi 23.43 24.42 ∼293k 100% TEDbi 23.40 24.69 ∼393k TEDbi 1.9 M 31/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 56. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : degr´e de comparabilit´e Scores BLEU pour diff´erents degr´es de comparabilit´e Exp´erience DevTED TstTED # mots inject´es Syst`eme de base 22.93 23.96 - 25% TEDbi 23.11 24.40 ∼110k 50% TEDbi 23.27 24.58 ∼215k 75% TEDbi 23.43 24.42 ∼293k 100% TEDbi 23.40 24.69 ∼393k TEDbi 1.9 M meilleurs r´esultats avec 75% et 100% les modules de RI et filtrage sont tr`es importants 31/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 57. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Synth`ese des r´esultats : degr´e de comparabilit´e Scores BLEU pour diff´erents degr´es de comparabilit´e Exp´erience DevTED TstTED # mots inject´es Syst`eme de base 22.93 23.96 - 25% TEDbi 23.11 24.40 ∼110k 50% TEDbi 23.27 24.58 ∼215k 75% TEDbi 23.43 24.42 ∼293k 100% TEDbi 23.40 24.69 ∼393k TEDbi 1.9 M meilleurs r´esultats avec 75% et 100% les modules de RI et filtrage sont tr`es importants quantit´es faibles 31/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 58. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Discussion Constat Les phrases parall`eles extraites am´eliorent les syst`emes de traduction mais la quantit´e est faible → Comment optimiser l’exploitation des corpus pour extraire davantage de donn´ees parall`eles ? Types d’erreurs Les phrases les plus longues ont un TER ´elev´e ⇒ exclues par le filtrage mˆeme si elles contiennent de bonnes traductions 32/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 59. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Approche l´eg`erement supervis´ee (unsup) Objectif : compl´eter les r´esultats de la RI En Fr TAS En-Fr En Fr 2 1 En Fr Filtrage de données 33/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 60. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Approche l´eg`erement supervis´ee (unsup) Objectif : compl´eter les r´esultats de la RI En Fr TAS En-Fr En Fr 2 1 En Fr Filtrage de données 2 ´etapes [Schwenk, 2009] : traduction des donn´ees monolingues (anglais) avec le syst`eme de base filtrage des r´esultats pour ´eliminer les paires de phrases non d´esir´ees 33/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 61. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee RI & unsup : r´esultats 22.5 23 23.5 24 24.5 70 75 80 85 90 95 100 ScoreBLEU Seuil TER RI + Unsup Baseline RI pas d’am´elioration significative ⇒ Chercher d’autres solutions pour augmenter la couverture 34/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 62. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Approche propos´ee Conditions exp´erimentales et r´esultats Discussion Adaptation non supervis´ee Segments parall`eles 35/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 63. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex 5 Conclusion et perspectives 36/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 64. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Extraction des segments parall`eles L’approche associative : reposer sur des mesures comme l’information mutuelle ou le rapport de vraisemblance [Munteanu and Marcu, 2006] [Hewavitharana and Vogel, 2011] L’alignement : d´eterminer le meilleur ensemble de liens d’alignement entre des groupes de mots sources et cibles de chaque paire de phrases ou documents [Quirk et al., 2007] [Riesa and Marcu, 2012]. 37/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 65. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex M´ethode propos´ee [Afli et al., 2013] 1 g´en´erer tous les segments possibles → segments de 2 `a 10 mots la sortie du syst`eme RAP Audio L1 Phrases L1 Traductions L2 Segments L2 RAP TAS RI Textes L2 Corpus Comparable multimodal Données Parallèles Filtrage Segments L1 Découpage Segments L2 Découpage 38/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 66. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex M´ethode propos´ee [Afli et al., 2013] 1 g´en´erer tous les segments possibles → segments de 2 `a 10 mots la sortie du syst`eme RAP le corpus texte de RI Audio L1 Phrases L1 Traductions L2 Segments L2 RAP TAS RI Textes L2 Corpus Comparable multimodal Données Parallèles Filtrage Segments L1 Découpage Segments L2 Découpage 38/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 67. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex M´ethode propos´ee [Afli et al., 2013] 1 g´en´erer tous les segments possibles → segments de 2 `a 10 mots la sortie du syst`eme RAP le corpus texte de RI 2 appliquer la mˆeme m´ethode d’extraction utilis´ee dans SentExtract ⇒ aligner les segments parall`eles Audio L1 Phrases L1 Traductions L2 Segments L2 RAP TAS RI Textes L2 Corpus Comparable multimodal Données Parallèles Filtrage Segments L1 Découpage Segments L2 Découpage 38/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 68. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex PhrExtract vs SentExtract, donn´ees TED TER SentExtract PhrExtract 0 22.86 23.39 10 22.97 23.35 20 23.06 23.53 30 22.95 23.39 40 22.92 23.45 50 23.26 23.54 60 23.10 23.70 70 23.29 23.41 80 23.40 23.40 90 23.39 23.18 100 23.34 23.26 Baseline 22.93 39/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 69. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex PhrExtract vs SentExtract, donn´ees TED TER SentExtract PhrExtract 0 22.86 23.39 10 22.97 23.35 20 23.06 23.53 30 22.95 23.39 40 22.92 23.45 50 23.26 23.54 60 23.10 23.70 70 23.29 23.41 80 23.40 23.40 90 23.39 23.18 100 23.34 23.26 Baseline 22.93 39/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 70. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex PhrExtract vs SentExtract, donn´ees TED TER SentExtract PhrExtract 0 22.86 23.39 10 22.97 23.35 20 23.06 23.53 30 22.95 23.39 40 22.92 23.45 50 23.26 23.54 60 23.10 23.70 70 23.29 23.41 80 23.40 23.40 90 23.39 23.18 100 23.34 23.26 Baseline 22.93 39/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 71. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Application sur les donn´ees Euronews TER # mots (fr) devEuronews tstEuronews 0 90 k 29.95 27.13 20 168 k 30.01 27.33 30 322 k 30.04 27.59 40 769 k 29.92 27.45 50 1.9 M 30.03 27.27 60 3.1M 29.92 27.30 70 5.7M 29.83 27.11 80 12.39 M 29.73 27.10 90 25.7 M 29.73 26.88 100 40.3 M 29.52 26.53 Baseline 60.1M 25.19 22.12 40/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 72. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Application sur les donn´ees Euronews TER # mots (fr) devEuronews tstEuronews 0 90 k 29.95 27.13 20 168 k 30.01 27.33 30 322 k 30.04 27.59 40 769 k 29.92 27.45 50 1.9 M 30.03 27.27 60 3.1M 29.92 27.30 70 5.7M 29.83 27.11 80 12.39 M 29.73 27.10 90 25.7 M 29.73 26.88 100 40.3 M 29.52 26.53 Baseline 60.1M 25.19 22.12 40/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 73. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Discussion Am´elioration des r´esultats redondance Approche actuelle de filtrage : seuil de TER entre traduction et r´esultat de RI ´Ecueils : approche empirique pour d´eterminer le seuil statique 41/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 74. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Discussion Am´elioration des r´esultats redondance Approche actuelle de filtrage : seuil de TER entre traduction et r´esultat de RI ´Ecueils : approche empirique pour d´eterminer le seuil statique ⇒ Utilisation de la m´ethode LLR (Log Likelihood Ratio) [Munteanu and Marcu, 2006] 41/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 75. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Filtrage avec LLR LLR : le rapport de vraisemblance l’ind´ependance des paires de mots qui co-occurent LLR faible → mots ind´ependants LLR augmente → mots associ´es [Munteanu and Marcu, 2006] 42/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 76. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex SenExtract +LLR lex : architecture [Afli et al., 2014] 1 utiliser le syst`eme d’extraction des phrases, consid´er´ees quasi parall`eles Audio L1 Phrases L1 Traductions L2 Phrases L2 RAP TAS Texts L2 Corpus Comparable multimodal Phrases Quasi- Parallèles RI Corpus parallèle de base Lexique LLR Génération des Segments Lex. Extraction Apprentissage Segments parallèles 43/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 77. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex SenExtract +LLR lex : architecture [Afli et al., 2014] 1 utiliser le syst`eme d’extraction des phrases, consid´er´ees quasi parall`eles 2 construire le lexique LLR lex `a partir des donn´ees d’apprentissage du TAS Audio L1 Phrases L1 Traductions L2 Phrases L2 RAP TAS Texts L2 Corpus Comparable multimodal Phrases Quasi- Parallèles RI Corpus parallèle de base Lexique LLR Génération des Segments Lex. Extraction Apprentissage Segments parallèles 43/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 78. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex SenExtract +LLR lex : architecture [Afli et al., 2014] 1 utiliser le syst`eme d’extraction des phrases, consid´er´ees quasi parall`eles 2 construire le lexique LLR lex `a partir des donn´ees d’apprentissage du TAS 3 d´etecter, `a l’aide du lexique, les fragments parall`eles dans les phrases g´en´er´ees Audio L1 Phrases L1 Traductions L2 Phrases L2 RAP TAS Texts L2 Corpus Comparable multimodal Phrases Quasi- Parallèles RI Corpus parallèle de base Lexique LLR Génération des Segments Lex. Extraction Apprentissage Segments parallèles 43/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 79. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees TED Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 60) 321 k 322 k SenExtract +LLR lex 236 k 224 k Scores BLEU Syst`emes devTED tstTED Baseline 22.93 23.96 PhrExtract (TER 60) 23.70 24.84 SenExtract +LLR lex 23.63 24.88 44/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 80. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees TED Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 60) 321 k 322 k SenExtract +LLR lex 236 k 224 k Scores BLEU Syst`emes devTED tstTED Baseline 22.93 23.96 PhrExtract (TER 60) 23.70 24.84 SenExtract +LLR lex 23.63 24.88 44/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 81. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees Euronews Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 30) 16.6 M 13.8 M SenExtract +LLR lex 1.6 M 2.2 M Scores BLEU Syst`emes devEuronews tstEuronews Baseline 25.19 22.12 PhrExtract (TER 30) 30.04 27.59 SenExtract +LLR lex 30.00 27.47 45/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 82. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex R´esultats : donn´ees Euronews Quantit´es de donn´ees extraites M´ethodes # mots (en) # mots (fr) PhrExtract (TER 30) 16.6 M 13.8 M SenExtract +LLR lex 1.6 M 2.2 M Scores BLEU Syst`emes devEuronews tstEuronews Baseline 25.19 22.12 PhrExtract (TER 30) 30.04 27.59 SenExtract +LLR lex 30.00 27.47 45/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 83. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives M´ethode PhrExtract Discussion M´ethode SenExtract +LLR lex Discussion M´ethode plus efficace r´esultats similaires au meilleur seuil TER moins de quantit´e de donn´ees : plus de pr´ecision dans la s´election des donn´ees pertinentes Besoin de plus d’am´eliorations optimiser l’exploitation des corpus 46/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 84. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Plan 1 Introduction 2 Travaux pr´ec´edents 3 Extraction de phrases parall`eles 4 Extraction de segments parall`eles 5 Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives 47/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 85. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Conclusion Construction du corpus bimodal Euronews LIUM Extraction des donn´ees sur la p´eriode 2010 `a 2012 Mettre `a disposition `a la communaut´e → corpus et bitextes extraits Mise `a jour du corpus TED LIUM partie texte en fran¸cais correspond `a TEDbi Mettre `a disposition `a la communaut´e → corpus brut et bitextes extraits 48/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 86. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Conclusion Extension de l’utilisation de corpus comparables `a des donn´ees multimodales, i.e. audio cˆot´e source et texte cˆot´e cible D´eveloppement des syst`emes d’acquisition des donn´ees comparables multimodales et d’extraction de textes parall`eles → totalement automatique Extension de la m´ethode pour extraire des segments parall`eles Am´elioration du module de filtrage de nos syst`emes : du filtrage TER vers le filtrage LLR M´ethodes valid´ees sur diff´erents corpus et tˆaches (TED et Euronews) adaptation d’un syst`eme g´en´erique am´elioration d’un syst`eme du domaine 49/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 87. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Perspectives Ce travail ouvre la voie `a l’exploitation des donn´ees multimodales pour la TA Am´elioration de la m´ethode PhrExtract en changeant la segmentation des phrases groupes syntaxiques connaissances linguistiques l’alignement en groupe de mots du syst`eme de TAS Am´elioration de la m´ethode SentExtract en essayant d’autres techniques de filtrage Utilisation de la m´ethode Unsup avec les phrases courtes Application des m´ethodes d’extraction sur d’autres domaines de sp´ecialit´e 50/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 88. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Merci pour votre attention. Universitédu Maine U 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 89. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives AbduI-Rauf, S. and Schwenk, H. (2009). On the use of comparable corpora to improve smt performance. In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, EACL ’09, pages 16–23, Stroudsburg, PA, USA. Association for Computational Linguistics. Afli, H., Barrault, L., and Schwenk, H. (2012). Parallel texts extraction from multimodal comparable corpora. In JapTAL, volume 7614 of Lecture Notes in Computer Science, pages 40–51. Springer. Afli, H., Barrault, L., and Schwenk, H. (2013). Multimodal comparable corpora as resources for extracting parallel data : Parallel phrases extraction. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 90. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives International Joint Conference on Natural Language Processing. Afli, H., Barrault, L., and Schwenk, H. (2014). Multimodal comparable corpora for machine translation. LREC 2014, 7th Workshop on Building and Using Comparable Corpora, Building Resources for Machine Translation Research. Bisazza, A., Ruiz, N., and Federico, M. (2011). Fill-up versus interpolation methods for phrase-based smt adaptation. International Workshop on Spoken Language Translation 2011. Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S. (1990). A statistical approach to machine translation. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 91. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Comput. Linguist., 16 :79–85. Brown, P. F., Lai, J. C., and Mercer, R. L. (1991). Aligning sentences in parallel corpora. In Proceedings of the 29th annual meeting on Association for Computational Linguistics, ACL ’91, pages 169–176. Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Comput. Linguist., 19(1) :61–74. Hewavitharana, S. and Vogel, S. (2011). Extracting parallel phrases from comparable data. In Proceedings of the 4th Workshop on Building and Using Comparable Corpora : Comparable Corpora and the Web, BUCC ’11, pages 61–68. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 92. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Munteanu, D. S. and Marcu, D. (2005). Improving Machine Translation Performance by Exploiting Non-Parallel Corpora. Computational Linguistics, 31(4) :477–504. Munteanu, D. S. and Marcu, D. (2006). Extracting parallel sub-sentential fragments from non-parallel corpora. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, ACL-44, pages 81–88. Quirk, Q., Udupa, R., and Menezes, A. (2007). Generative models of noisy translations with applications to parallel fragment extraction. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 93. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives In In Proceedings of MT Summit XI, European Association for Machine Translation. Resnik, P. and Smith, N. A. (2003). The web as a parallel corpus. Comput. Linguist., 29 :349–380. Riesa, J. and Marcu, D. (2012). Automatic parallel fragment extraction from noisy data. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, NAACL HLT ’12, pages 538–542. Rousseau, A., Bougares, F., Del´eglise, P., Schwenk, H., and Est`eve, Y. (2011). LIUM’s systems for the IWSLT 2011 speech translation tasks. International Workshop on Spoken Language Translation 2011. 51/ 51 Haithem Afli La TAS dans un contexte multimodal
  • 94. Introduction Travaux pr´ec´edents Extraction de phrases parall`eles Extraction de segments parall`eles Conclusion et perspectives Cr´eation du corpus multimodal Nouvelles m´ethodes Perspectives Schwenk, H. (2009). Translation model adaptation for an arabic/french news translation system by lightly-supervised training. MT Summit. 51/ 51 Haithem Afli La TAS dans un contexte multimodal