DH EHESS Odyssée : Marianne Reboul

Projet Odysseus
Outil de comparaison automatique de
traductions

1.Uneétudehistorique :
N.B. : Pour Google Ngram, attention aux résultats faussés

2.Unexerciced'analysestylistique :
Traduction de Salomon Certon : 1604
Muse raconte moy l'homme fin & rusé
Qui si longtemps erra, depuis qu'il eut
rasé
Le sacré mur de Troye, & d'hommes &
de villes
Remarqua les façons farrouches &
civiles,
Il eut en son esprit en courant sur les
mers
Des douleurs en grand nombre, & des
travaux amers.
Traduction de Philippe Jaccottet : 1955
Ô Muse, contemoi l’aventure de
l’Inventif :
celui qui pilla Troie, qui pendant des
années erra,
voyant beaucoup de villes, découvrant
beaucoup d’usages,
souffrant beaucoup d’angoisses dans
son âme sur la mer
?
Quelques chiffres :
6 vers pour Certon
4 vers pour Jaccottet
53 mots pour Certon
32 pour Jaccottet

3.Pourquoifaire ?
● Corpus : 207 traductions différentes
>>> une centaine de traductions intégrales
>>> plusieurs dizaines de millions de mots
>>> 95 ans à compter seulement
● Objectivité :
>>> pas de théorie a priori
>>> remise en cause permanente avec outils évolutifs

I. Les phases de
preprocessing

Les outils de base
● Segmentation :
<ID1>Mentès, fils d’Anchialus, et il règne sur les</ID1>
<ID2>Taphiens, peuple fort appliqué, à la marine. Ainsi
parla</ID2>
● Tokénisation :
1/ Avant tokenisation :
{[Car, de toutes les femmes du palais c'était celle qui avait
le plus d'affection pour lui.]}
2/ Après tokenisation :
{[Car] [,] [de] [toutes] [les] [femmes] [du] [palais] [c] [']
[était] [celle] [qui] [avait] [le] [plus] [d'affection] [pour] [lui]}

Les outils de base (suite)
● Lemmatisation :
1/Avant lemmatisation :
{[Car, de toutes les femmes du palais c'était celle qui
avait le plus d'affection pour lui.]}
2/Après lemmatisation :
{[Car] [,] [de] [tout] [le] [femme] [du] [palais] [c] ['] [être]
[celui] [qui] [avoir] [le] [plus] [d'affection] [pour] [lui]}
N.B. : 2 types de lemmatiseurs :
✔ grammaire à état fini (dits « rule-based »)
✔ statistiques (dont l'apprentissage dépend entièrement de l'entraînement sur un
corpus)

Les outils de base (fin)
● Etiquetage syntaxique léger :
Puis le peuple des morts par mes voeux et prières imploré,
je saisis les deux bêtes, leur tranchai la gorge sur le trou.
Puis : ADV // le : DET:ART // peuple : NOM // des :
PRP:det // morts : NOM // par : PRP // mes : DET:POS //
voeux : NOM // et : KON // prières : NOM // imploré :
VER:pper // , : PUN // je : PRO:PER // saisis : VER:pres //
les : DET:ART // deux : NUM // bêtes : NOM // , : PUN //
leur : PRO:PER // tranchai : VER:simp // la : DET:ART //
gorge : NOM // sur : PRP // le : DET:ART // trou : NOM //

Quelques outils utiles
● Tokénisation du français : Freeling, NLTK, OpenNLP et
StanfordCoreNLP, Bonsai de l'équipe Alpage et TreeTagger
(la plupart des fautes : formes compositionnelles)
● Lemmatisation du français : LgeRM, Morfette, Unitex,
TreeTagger, etc.
● POSTagging français (étiquetage syntaxique léger) : ceux
que j'utilise : TreeTagger, StanfordTagger,
OpenNLPTagger
● Treebanks, etc : MaltParser, MSTParser et Berkeley
Parser (mentionnons aussi le FRMG Parser, et le LFG
Parser)

L'alignement humain/machine
S1/C1
+
S1/C2
+
C1/C2
(S, C1)
/
(S, C2)
(S, C1)/(S, C2)/(S, C3)
OU
(Comp(Cna, Cnb))/(Comp(Cn'a, Cn'b))
etc.

Le texte pivot
G.XI.1
G.XI.2
G.XI.3
G.XI.4
Grec
D.XI.1
D.XI.2
D.XI.3
D.XI.4
Dacier
L.XI.1
L.XI.2
L.XI.3
L.XI.4
Lebrun
B.XI.1
B.XI.2
B.XI.3
B.XI.4
Berard

L'alignement (biséquentiel ici)
POStagging : noms propres
Source Cible
Prétraitement Needleman-Wunsch
Sac de séquences :
n séquences texte S
n séquences texte C

La vectorisation : pourquoi ?
Source Cible
<IDx>M , , μ οῦσα πολύτροπον ὃς άλα
, </IDx>πολλὰ πλάγξθη ἐπεὶ
<IDx>Muse , qu'il faut me dire , Celui
qui tant erra quand , de</IDx>
<IDy>T ροίης ἱερὸν πτολίεθρον
: ’ ἔπερσεν πολλῶν δ ἀνθρώπων ἴδεν
</IDy>ἄστεα καὶ νόον ἔγνω
<IDy>Troade , il eut pillé la ville sainte
, Celui qui visita les cités de tant
d'hommes et connut leur esprit</IDy>
Trg1 : Ulysse sur les vaisseaux recourbés vers Ilion
Src1 : δυσσ οςὈ ῆ λιον ε ς ε πωλον βη κοίλ σ' ν νηυσίνἼ ἰ ὔ ἔ ῃ ἐ ὶ
Trg2 : Cyclope tua dans sa caverne profonde
Src2 : Κύκλωψ ν σπ ϊ γλαφυρἐ ῆ ῷ
Trg3 : le fils chéri d'Ulysse
Src3 : δυσσ οςὈ ῆ φίλος υ όςἱ
Vecteur d’ δυσσ ος :Ὀ ῆ 1 0 1
Vecteur d’Ulysse : 1 0 1
Vecteur de Κύκλωψ : 0 1 0
Vecteur de Cyclope : 0 1 0

III. Interface et comparaison
statistique

1.cDesexemplesconcrets(entreautres)
Traductions Françaises

Merci de votre attention
Pour toutes questions :
odysseuspolymetis2010@gmail.com

DH EHESS Odyssée : Marianne Reboul

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Empfohlen

Empfohlen (20)

DH EHESS Odyssée : Marianne Reboul