1. Création de modèle de langue fr
On a utilisé les corpus suivant :
EuroParl_fr: 2 M phrases
MultiUN_fr : 9,9 M phrases
News_fr: 90 k phrases
Opensub_fr : 4,3M phrases
Trames_fr : 20k phrases
Wit3_fr : 87 k phrases
Total : 16,5 MTotal : 16,5 M
3. Création de modèle de traduction
On a utilisé les corpus suivant :
News_ar/fr: 90 k phrases
Opensub_ar/fr : 4,3M phrases
Trames_ar/fr : 20k phrases
Wit3_ar/fr : 87 k phrases
Total : 4,5 MTotal : 4,5 M
6. Évaluation
CorpusCorpus Score nouvelScore nouvel
systèmesystème
Score ancienScore ancien
systèmesystème
C2C2 Dev 19,39 19,7
Test 17,67 18,7
C3C3 Dev 13,73 15,7
Test 10,94 13,43
C4C4 Dev 14,37 14,94
Test 13,14 16,10
7. Création de modèle de traduction
V2
On a utilisé les corpus suivant :
News_ar/fr: 90 k phrases
Opensub_ar/fr : 4,3M phrases
Trames_ar/fr : 20k phrases
Wit3_ar/fr : 87 k phrases
MultiUn_ar/fr : 9,9M phrases
Total : 14,4 MTotal : 14,4 M