1. Analyse des performances de
modèles de langage sub-lexicale
pour des langues peu-dotées à
morphologie riche
Hadrien Gelas1,2, Solomon Teferra Abate2,
Laurent Besacier2, François Pellegrino1
1Laboratoire DDL, CNRS - Université de Lyon, France
2LIG, CNRS - Université Joseph Fourier Grenoble, France
2. Introduction Résultats
1 2 3
Segmentation
des données
textuelles
6. Reconnaissance
Automatique de la
Parole (RAP)
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
J Sorties
texte
7. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
AMH : 20h de parole lue
SWH : 2h30 de parole lue
+ 10h de broadcast news
J Sorties
texte
8. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
65k mots les plus fréquents
pour les 2 langues
J Sorties
texte
9. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
AMH : 2.3M de mots
SWH : 28M de mots
J Sorties
texte
19. Approche #3
Découpage en syllabe à partir de
règles suivant les contraintes
phonologiques et structurelles des
langues respectives
liste de mots
3
liste de syllabes
20. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
On apprend des modèles de
langage à partir des corpus
segmentés en sous-unités
J Sorties
texte
21. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
Nécessite de reconstruire les
sorties au niveau mot ! J Sorties
texte
22. Etiquetage #1
_AFX : Une frontière (MB) est a joutée
à la gauche (ou droite) de la
segmentation laissant la « racine »
isolé.
ki tabu 3
kiMB tabu 3
kitabu
23. Etiquetage #2
_ALL : Une frontière (MB) est a joutée
de chaque côté de la segmentation.
Distinguant ainsi chaque racine par
sa position (ROOT, MBROOT, ROOTMB,
MBROOTMB)
ki tabu 3
kiMB MBtabu 3
kitabu
24. Etiquetage #3
_POS : Pour les syllabes, nous avons
a joutés à la syllabe la position de la
syllabe dans le mot.
ki ta bu 3
1ki 2ta 3bu kitabu
3
25. Résultats (WER)
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
3 J Sorties
texte