Séminaire Digital Humanities de l'EHESS, séance du 6 avril 2016 : L’Odyssée aujourd’hui. Projets de recherche et d’enseignement, avec Marianne Reboul, Arnaud Laborderie, Aurélien Berra et des étudiants de master.
Annonce du séminaire : http://philologia.hypotheses.org/1610.
7. Les outils de base
● Segmentation :
<ID1>Mentès, fils d’Anchialus, et il règne sur les</ID1>
<ID2>Taphiens, peuple fort appliqué, à la marine. Ainsi
parla</ID2>
● Tokénisation :
1/ Avant tokenisation :
{[Car, de toutes les femmes du palais c'était celle qui avait
le plus d'affection pour lui.]}
2/ Après tokenisation :
{[Car] [,] [de] [toutes] [les] [femmes] [du] [palais] [c] [']
[était] [celle] [qui] [avait] [le] [plus] [d'affection] [pour] [lui]}
8. Les outils de base (suite)
● Lemmatisation :
1/Avant lemmatisation :
{[Car, de toutes les femmes du palais c'était celle qui
avait le plus d'affection pour lui.]}
2/Après lemmatisation :
{[Car] [,] [de] [tout] [le] [femme] [du] [palais] [c] ['] [être]
[celui] [qui] [avoir] [le] [plus] [d'affection] [pour] [lui]}
N.B. : 2 types de lemmatiseurs :
✔ grammaire à état fini (dits « rule-based »)
✔ statistiques (dont l'apprentissage dépend entièrement de l'entraînement sur un
corpus)
9. Les outils de base (fin)
● Etiquetage syntaxique léger :
Puis le peuple des morts par mes voeux et prières imploré,
je saisis les deux bêtes, leur tranchai la gorge sur le trou.
Puis : ADV // le : DET:ART // peuple : NOM // des :
PRP:det // morts : NOM // par : PRP // mes : DET:POS //
voeux : NOM // et : KON // prières : NOM // imploré :
VER:pper // , : PUN // je : PRO:PER // saisis : VER:pres //
les : DET:ART // deux : NUM // bêtes : NOM // , : PUN //
leur : PRO:PER // tranchai : VER:simp // la : DET:ART //
gorge : NOM // sur : PRP // le : DET:ART // trou : NOM //
10. Quelques outils utiles
● Tokénisation du français : Freeling, NLTK, OpenNLP et
StanfordCoreNLP, Bonsai de l'équipe Alpage et TreeTagger
(la plupart des fautes : formes compositionnelles)
● Lemmatisation du français : LgeRM, Morfette, Unitex,
TreeTagger, etc.
● POSTagging français (étiquetage syntaxique léger) : ceux
que j'utilise : TreeTagger, StanfordTagger,
OpenNLPTagger
● Treebanks, etc : MaltParser, MSTParser et Berkeley
Parser (mentionnons aussi le FRMG Parser, et le LFG
Parser)