Cergar atala09

Analyse syntaxique du français parlé
Christophe Cerisara Claire Gardent
CNRS/LORIA, Nancy CNRS/LORIA, Nancy
Equipe Parole, Bat. C Equipe Talaris, Bat. B
615, rue du jardin botanique 615, rue du jardin botanique
54600 Villers lès Nancy 54600 Villers lès Nancy
christophe.cerisara@loria.fr claire.gardent@loria.fr

Abstract 2003) et des analyseurs plus procéduraux (Bouri-
gault et al., 2005; Francopoulo, 2005) ; les analy-
Il existe pour le Français de nombreux sys-
seurs symboliques et les analyseurs stochastiques
tèmes d’analyse syntaxique. Cependant,
(Candito et al., 2009a; Arun and Keller, 2005;
la plupart de ces analyseurs sont conçus
Schluter and van Genabith, 2008).
pour la langue écrite. Dans cet article,
Cependant, ces analyseurs sont conçus pour
nous nous concentrons sur la langue orale
traiter la langue écrite. Ils ne permettent ni de trai-
et présentons une infrastructure logicielle
ter des spécificités de la langue orale telles que les
pour le développement d’un analyseur de
disfluences (répétitions, hésitations, corrections),
la langue orale. Nous discutons les résul-
ni de traiter du caractère imparfait des transcrip-
tats d’expériences préliminaires et mon-
tions produites par les systèmes de reconnaissance
trons en particulier, qu’après apprentis-
automatique de la parole (SRAP).
sage sur un corpus oral de petite taille (en-
Récemment, (Nasr and Béchet, 2009) ont pré-
viron 20 000 mots), l’analyseur stochas-
senté un modèle d’analyse syntaxique de l’oral
tique utilisé exhibe un score de rattache-
spontané en deux étapes. La première étape uti-
ment en dépendances typées variant entre
lise des techniques (automates) et ressources
70.3% et 71.8% selon le degré de vérifica-
(lexiques, grammaires) symboliques pour associer
tion de la référence manuelle (vérification
à chaque verbe présent dans le graphe d’hypo-
ou non par un linguiste expert). Nous uti-
thèses produites par le SRAP, un ensemble d’hy-
lisons également l’infrastructure dévelop-
pothèses concernant le cadre valenciel de ce verbe
pée pour entraîner l’analyseur sur une par-
dans le contexte considéré. Ce premier module est
tie du corpus mis à disposition par la cam-
générique. Le second module en revanche, est spé-
pagne EASY 2007 (Hamon et al., 2008) et
cifique à une application et exploite un corpus an-
obtenons une F-mesure de 50 % sur une
noté manuellement pour ordonner les hypothèses
partie de ce corpus.
produites par le premier module. Le modèle est
1 Introduction évalué sur le corpus média par examen des ré-
sultats sur le verbe réserver. Sur 187 occurrences
Comme l’a montré la campagne d’évaluation de ce verbe, la précision en dépendances typées
des analyseurs syntaxiques menée dans le cadre (pourcentage d’actants reconnus correctement) est
de l’action EASy/EVALDA1 , il existe pour le de 91.1% pour une transcription manuelle du flux
Français, divers systèmes d’analyse syntaxique. oral et de 80.4% pour une transcription automa-
Le spectre couvert inclut l’ analyse syntagma- tique.
tique profonde (Villemonte de La Clergerie, 2005; Nous explorons ici une piste alternative natu-
Boullier et al., 2005; Roussanaly et al., 2005; Bon- relle étant donné l’état de l’art en analyse syn-
fante et al., 2003) et l’analyse en dépendances taxique à savoir, le développement d’un analyseur
(Bourigault et al., 2005; Francopoulo, 2005) ; les stochastique supervisé. Les motivations derrière
analyseurs basés sur des grammaires déclaratives ce travail sont doubles.
(Villemonte de La Clergerie, 2005; Boullier et al., Premièrement, l’analyse syntaxique de l’oral
2005; Roussanaly et al., 2005; Bonfante et al., est un défi intéressant et il semble naturel d’exa-
1
http://www.technolangue.net/ miner dans quelle mesure, les techniques utili-
article198.html sées pour l’analyse du texte écrit sont transpo-

F IG . 1 – Interface graphique de JS YNATS

sables à la transcription, manuelle ou automatique, de l’art, les résultats obtenus sont encourageants
d’un énoncé oral. Si l’analyseur de (Nasr and compte tenu de la taille très réduite des corpus
Béchet, 2009) est d’une précision remarquable, d’apprentissage et de la courbe de progression.
l’analyse qu’il produit est une analyse partielle où L’organisation de l’article est la suivante. Dans
seuls le verbe et ses dépendants sont analysés. Par la section 2, nous présentons le schéma d’anno-
contraste, un analyseur supervisé acquis à partir tation utilisé et le comparons aux schémas d’an-
d’un corpus arboré pour l’oral permettrait une ana- notations en dépendances existants pour le fran-
lyse complète de la phrase. çais à savoir, le format Easy/Passage et le format
Deuxièmement, un analyseur stochastique per- proposé récemment par (Candito et al., 2009a). La
met d’associer une probabilité à chaque analyse section 3 présente le logiciel (JS YNATS ) utilisé
produite. Or une piste possible pour l’améliora- pour l’annotation, l’apprentissage, l’analyse syn-
tion des systèmes de reconnaissance de la parole taxique et l’évaluation. La section 4 est consacrée
est l’intégration dans le processus de reconnais- à la description des premières expériences réali-
sance, de connaissances syntaxiques et en parti- sées avec l’environnement logiciel JS YNATS . La
culier, d’une mesure de confiance syntaxique per- section 5 conclut l’article.
mettant de réordonner les hypothèses produites
par le SRAP. Dans ce contexte, un analyseur sto- 2 Schéma d’annotation
chastique est un apport important. Comme le montre la dernière campagne d’éva-
Nous présentons dans cet article une infrastruc- luation sur l’analyse syntaxico-sémantique multi-
ture linguistique et logicielle permettant d’envisa- lingues (CoNLL-2009 Shared Task : Syntactic and
ger le développement d’un analyseur syntaxique Semantic Dependencies in Multiple Languages),
stochastique pour le Français parlé. Cette infra- des schémas d’annotations en dépendances syn-
structure vise à faciliter la réutilisation de l’analy- taxiques (et sémantiques) ont été définis et utili-
seur stochastique MALT (Nivre et al., 2007) pour le sés pour de nombreuses langues dont en particu-
français parlé. Elle comprend (i) la définition d’un lier, la catalan, le chinois, l’anglais, l’allemand, le
schéma d’annotation en dépendances appelé RAP - tchèque, l’espagnol et le japonais.
SODYS et (ii) un environnement logiciel permet- Pour le français, on peut recenser le schéma
tant l’annotation syntaxique, l’apprentissage sur EASY (Gendner et al., 2008), le schéma récem-
un corpus annoté, l’analyse syntaxique et l’évalua- ment défini par l’équipe INRIA ALPAGE (Can-
tion par rapport à une référence. dito et al., 2009b) et dans une moindre mesure, le
Nous décrivons plusieurs expériences prélimi- schéma d’anotation des dépendants verbaux utilisé
naires faites avec l’environnement présenté : l’ap- pour le corpus arboré de Paris 7 (Abeillé, 2004).
prentissage et l’évaluation, à partir d’un corpus de
petite taille, d’un analyseur pour la transcription 2.1 Le schéma EASY
manuelle du français parlé ; la comparaison pour Le schéma d’annotation EASY n’est pas réel-
cet analyseur d’une évaluation sur un corpus ar- lement un schéma d’annotation en dépendances
boré validé par une expert linguiste avec une éva- syntaxiques puisqu’il n’impose (et parfois ne per-
luation par validation croisée sur un corpus an- met) pas que l’annotation syntaxique d’une phrase
noté manuellement par des étudiantes de licence ; soit une structure de dépendances. En effet, ce
et l’apprentissage à partir du corpus de dévelop- schéma préconise une annotation mixte en consti-
pement EASY 2007, d’un analyseur stochastique tuants et dépendances telle que les relations de
pour le français écrit. Bien qu’encore loin de l’état dépendances ne relient pas uniquement des mots

comme dans une structure de dépendances clas- dination (cc ), juxtaposition (juxt ), complément
sique, mais également des mots et des constituants réfléchi (ref ), partie d’une locution multi-mots
ou des constituants et des constituants. De plus, (MultiMots ), expression figée (dummy ).
comme l’indique le tableau 2, le schéma d’anno- Le tableau 2 résume les points communs et les
tation choisi ne couvre pas l’ensemble des rela- divergences d’avec les schémas existants. Plus gé-
tions de dépendances syntaxiques possibles entre néralement, les choix faits pour le schéma d’anno-
les mots. Par exemple, la relation entre un nom tation résultent d’un objectif double.
et un déterminant n’est pas incluse. Néanmoins, Premièrement, l’annotation syntaxique doit per-
en ajoutant au schéma d’annotation les relations mettre de distinguer les transcriptions erronées
manquantes et en limitant l’emploi de ces relations des transcriptions correctes produites par le sys-
aux relations mot-mot, il est possible d’utiliser le tème de reconnaissance de la parole. En d’autres
schéma EASY pour une annotation en structure termes, les structures de dépendances produites
de dépendances. Comme le tableau 2 l’indique, ce doivent encoder des connaissances syntaxiques
schéma est de fait relativement proche du schéma fines. C’est ce qui justifie par exemple l’annota-
ALPAGE utilisé pour une annotation en dépen- tion des réfléchis : comme tous les verbes n’ac-
dances. ceptent pas la forme pronominale, cette annotation
2.2 Le schéma ALPAGE peut permettre de détecter une phrase peu probable
syntaxiquement lorsqu’un tel verbe apparait dans
Le schéma récemment défini par l’équipe IN- une structure incluant un argument réfléchi.
RIA ALPAGE reprend le schéma d’anotation des
Deuxièmement, la structure syntaxique doit
dépendants verbaux utilisé pour le corpus arboré
permettre à plus long terme le calcul sémantique
de Paris 7 (Abeillé, 2004) et l’étend aux cas et gou-
afin de pouvoir également intégrer des connais-
verneurs non annotés dans ce corpus dont en parti-
sances sémantiques dans le processus de recon-
culier, les gouverneurs non verbaux. Les structures
naissance de la parole. Pour cette raison, les ar-
résultant de l’annotation sont des arbres orien-
guments des nominaux déverbaux sont annotés
tés où les noeuds correspondent aux formes flé-
comme tels.
chies de la phrase et où les arcs sont étiquettés par
l’une des relations de dépendances permises par le Les différences avec le schéma ALPAGE
schéma. Les relations utilisées sont listées dans le portent sur la précision de l’annotation.
tableau 2 et sont au nombre de 19. La distinction argument/ajout étant difficile à
faire pour les annotatrices, nous avons décidé
2.3 Le schéma RAPSODYS dans un premier temps, de ne pas différencier
Nous utilisons un schéma qui s’inspire des deux les A- et De-objets des autres objets préposition-
schémas précédents (EASY et ALPAGE) et per- nels. Cette différenciation sera faite lors d’une
met une annotation en arbres de dépendances. Les deuxième passe par des linguistes experts. A l’in-
noeuds de l’arbre sont les tokens identifiés par la verse, les juxtapositions et appositions, très fré-
reconnaissance de la parole ou par la transcrip- quentes à l’oral, justifient l’ajout des relations sup-
tion humaine de l’oral. Les arcs sont étiquettés plémentaires correspondantes. La relation dummy
par l’une des relations de dépendances définies par est utilisée comme dans le schéma ALPAGE pour
le schéma. Comme dans le schéma ALPAGE, le les expressions figées (réfléchis intrinsèques, cli-
schéma n’impose pas la projectivité si bien que la tiques figées, etc.) mais également pour l’annota-
projection d’un noeud ne correspond pas nécessai- tion des répétitions et des hésitations. La relation
rement à un segment continu de la phrase analy- PONCT n’est pas utilisée car absente des transcrip-
sée. tions. Comme dans le schéma EASY, les modi-
Les relations utilisées sont les suivantes : sujet fieurs sont différenciés suivant le type de leur gou-
(suj), objet (obj ), objet prépositionnel (pobj ), at- verneur (verbe, nom, adjectif) afin de faciliter la
tribut du sujet (atts ), attribut de l’objet (atto ), mo- comparaison avec les données EASY.
difieur de verbe (modV ), de nom (modN ), d’ad- Comme le tableau 2 le montre, le passage d’un
jectif (modAdj ) ou d’adverbe (modAdv ), complé- schéma d’annotation à un autre est relativement
ment d’une préposition, d’un complémenteur ou simple. La conversion du format RAPSODYS vers
d’un pronom relatif (comp ), auxiliaire verbal (aux le format EASY est essentiellement une conver-
), apposition (appos ), déterminant (det ), coor- sion par traduction ou élimination de relations

(e.g., suj devient SUJ_V et det est éliminé). La suivantes :
conversion vers le format ALPAGE implique en – Annotation : permet d’annoter des textes sui-
outre soit de regrouper plusieurs catégories en une vant le schéma d’annotation présenté dans la
seule (e.g., regrouper de_obj, a_obj et p_obj sous section précédente
p_obj), soit de différencier une catégorie unique – Analyse : permet d’analyser du texte avec
en plusieurs sous-catégories (e.g., mod en modV , l’analyseur MALT
modAdj , modAdv , modP ). – Apprentissage : permet d’entraîner l’analy-
seur MALT sur un ensemble de fichiers anno-
3 Environnement logiciel tés
– Evaluation : permet de calculer les perfor-
Il existe de nombreux environnements pour mances de l’analyseur par rapport à un corpus
l’annotation de corpus en dépendances syn- de référence
taxiques tels que par exemple, GRAPH (Salvo, Le logiciel implémenté en Java est dis-
2006), Annotate (Plaehen and Brants, 2000), ponible à l’url http://talc.loria.fr/
DTAG (Kromann, 2003) and CDG (White, 2000), GraphEdit.html. Il est portable et un clic suf-
easyref (de la Clergerie, 2008). Cependant, nous fit à son installation sous Windows comme sous
désirions avoir à disposition un outil qui répondent Linux ou MacOsX. L’annotation se fait par un jeu
aux critères listés par (Reidsma et al., 2004) et plus simple d’opérations curseurs sur une interface gra-
précisément, un outil qui satisfasse les contraintes phique WYSIWYG2 . Les formats produits sont
suivantes : des formats texte ou XML, Syntex ou ConLL (voir
– Facilité d’installation et portabilité : l’anno- infra).
tation étant faite en télé-travail par des étu-
diantes sans formation informatique, la faci- 3.1 Annotation
lité d’installation et d’utilisation est un critère L’outil d’annotation est un outil de visualisation
primordial. Le logiciel doit pouvoir être ins- et d’édition de structures syntaxiques en dépen-
tallé rapidement et simplement sur les trois dances qui permet d’annoter du texte conformé-
grands types de système d’exploitation ac- ment au schéma d’annotation JS YNATS . L’édi-
tuellement en usage (MacOS, Linux, Win- tion se fait par des raccourcis claviers opérant sur
dows). une interface graphique. Le texte d’entrée peut être
– Facilité d’utilisation : l’annotation étant un ou non analysé. En pratique, l’annotation se fait
travail fastidieux, il est essentiel que l’inter- par correction des analyses produites par MALT
face d’annotation soit aussi ergonomique et . Le format d’entrée et de sortie est le format
simple d’utilisation que possible. ConLL. L’outil accepte également le format texte
– Extensibilité : l’environnement doit pouvoir et XML utilisé par l’analyseur Syntex (Bourigault
être modifié pour répondre à l’évolution des et al., 2005). Une copie d’écran illustrant les re-
besoins dictés par un projet de recherche tels présentations manipulées est donnée en Figure 1.
que par exemple, des besoins en annotation
mais également en apprentissage, analyse et 3.2 Analyse
évaluation.
La fonctionalité d’analyse permet d’analyser du
– Compatibilité : afin de permettre l’évaluation
texte avec l’analyseur MALT . Elle prend en entrée
des résultats et des outils développés, il im-
un fichier texte et produit en sortie un fichier texte
porte que les fichiers annotés soient produits
où chaque phrase contenue dans le fichier entrant
dans un format compatible avec les formats
est annotée avec l’analyse produite par l’analy-
utilisés par la communauté scientifique tels
seur MALT (format ConLL). Actuellement, l’ana-
que par exemple, le format ConLL pour l’an-
lyse en dépendances de MALT est précédée d’une
notation syntaxique.
phase d’annotation automatique des séquences de
Un examen rapide des logiciels existants mon-
mots en classes morpho-syntaxiques. Cette ana-
trant qu’aucun de ceux-ci ne permettaient de ré-
lyse morpho-syntaxique est réalisée par l’outil
pondre à l’ensemble de ces critères, nous avons
TreeTagger. Nous envisageons à court terme d’éli-
développé un environnement logiciel, appelé JS Y-
miner cette dépendance de la plate-forme propo-
NATS pour Java software for Syntax Analysis of
2
Transcribed Speech qui intégre les fonctionnalités What you see is what you get

sée vis-à-vis de TreeTagger afin d’intégrer l’en- 3.4 Evaluation
semble des outils nécessaires au sein d’un logiciel L’environnement JS YNATS permet également
unique 100 % Java. d’évaluer les performances d’un analyseur produi-
En pratique, la fonctionalité d’analyse est uti- sant des données au format ConLL. Les scripts
lisée pour la pré-annotation syntaxique des textes d’évaluation sont directement adaptés des scripts
permettant ainsi aux annotatrices de travailler sur distribués pour les campagnes ConLL, et calculent
des textes pré-annotés plutôt que sur des textes donc les mêmes métriques, en particulier le “score
sans aucune annotation syntaxique. Comme l’ana- de rattachement en dépendances typées” (Labeled
lyseur est ré-entrainé à chaque nouvelle phase Attachment Score ou LAS) (Surdeanu et al., 2008)
d’annotation, la qualité des pré-annotations croît utilisé dans cet article, qui représente le pourcen-
avec le temps, diminuant ainsi les temps d’annota- tage de mots pour lesquels le système a prédit le
tion. En outre, la pré-annotation est généralement bon gouverneur et le bon type de dépendance.
correcte au niveau des syntagmes de base (groupes
nominaux et prépositionnels non récursifs, noyau 4 Cadre expérimental et évaluation
verbal, subordonnées relatives simples, etc.), ce
Nous utilisons JS YNATS pour développer un
qui permet aux annotatrices de se concentrer sur
corpus oral annoté syntaxiquement et entraîner
les questions plus complexes liées au rattachement
l’analyseur MALT .
de ces syntagmes entre eux.
4.1 Corpus utilisé et procédure d’annotation

3.3 Apprentissage Le corpus utilisé pour l’apprentissage et le
test est issu du corpus d’informations radio-
JS YNATS permet d’entraîner MALT sur un en- diffusées produit par le projet Technolangue ES-
semble de fichiers contenant du texte annoté syn- TER 2003-2005 (Gravier et al., 2004). Le corpus
taxiquement et morpho-syntaxiquement. Des ou- ESTER comporte les transcriptions manuelles de
tils de conversion de formats permettent de sup- 37 heures d’émissions radiophoniques d’informa-
porter les formats ConLL, XML (Syntex) et Tree- tion francophone (années 1998 - 1999 et 2003).
Tagger. L’algorithme déterministe de Nivre-Eager Les transcriptions manuelles de ESTER étant des-
est utilisé pour l’analyse, et sa version “oracle” tinées au calcul du taux de reconnaissance des sys-
produit pour l’apprentissage un ensemble de vec- tèmes de reconnaissance automatique de la parole,
teurs d’observation, chaque vecteur étant associé à seuls les mots complets sont annotés : ainsi, les
une des quatre “actions” de l’algorithme de Nivre répétitions sont annotées si les mots répétés sont
(Shift, Reduce, Left-Arc et Right-Arc). Les vec- complets, les “euh” d’hésitation sont considérés
teurs d’observation incluent les informations sui- comme des mots et sont donc également anno-
vantes, qui sont celles proposées par défaut dans tés, mais par contre les bruits, les mots incomplets,
MALT :
bref tout ce qui ne fait pas partie du “lexique” de
reconnaissance, n’est pas annoté. Pour ce travail,
– Formes fléchies et lemmes des deux mots po- nous avons également supprimé toute information
tentiellement dépendants (L et R) ; de ponctuation avant l’étape d’analyse syntaxique,
– Forme fléchie du mot suivant R ; car les sorties des systèmes de transcription auto-
– Forme fléchie du mot gouvernant L ; matique ne disposent pas de ces informations.
– Classes morpho-syntaxiques de L et R, du Un sous-ensemble de ce corpus composé de 20
mot précédant L, et des trois mots suivants 000 mots est extrait d’émissions de France-Inter
R; datées de 1999. Ce sous-corpus est annoté auto-
– Types des dépendances issues de L, des dé- matiquement en classes morpho-syntaxiques par
pendants les plus à gauche et à droite de L, et l’outil TreeTagger (Schmid, 1995), puis converti
du dépendant le plus à gauche de R. au format CONLL. Ensuite, ce corpus enrichi
Cet ensemble de vecteurs et leurs classes as- est resegmenté en phrases manuellement, puis
sociées constitue le corpus d’apprentissage d’un annoté également manuellement en dépendances
classifieur à base de machines à vecteurs supports syntaxiques selon le guide d’annotation décrit pré-
(SVM) servant dans MALT à décider des dépen- cédemment. Cette annotation en dépendances est
dances à établir. en fait réalisée itérativement : chaque itération est

décomposée en deux phases, respectivement une 2009a)) et la courbe de progression (Figure 3) est
phase d’annotation automatique en dépendances encourageante.
réalisée par l’analyseur MALT entraîné avec les Nous avons également étudié l’influence de
données de l’itération précédente, suivie d’une l’étape supplémentaire de vérification des anno-
phase de correction manuelle de ces dépendances. tations en dépendance par une linguiste expert en
Les itérations ont pour objectif d’accroître la taille incluant neuf dixièmes du corpus de test (vérifié)
du corpus, et un nouveau corpus est considéré dans l’apprentissage de MALT , et en testant sur
à chaque itération. L’itération initiale est réalisée le dixième restant. Le taux de dépendances cor-
avec un petit corpus de 458 mots annoté entière- rectes final est calculé par validation croisée, en
ment manuellement qui sert à entraîner une pre- faisant varier le dixième du corpus réservé au test.
mière version de l’analyseur MALT . Une petite di- Le score LAS passe alors de 70.3% (aucune phrase
zaine d’itérations permettent d’aboutir au corpus d’apprentissage n’a été vérifiée par la linguiste ex-
décrit dans cet article. pert) à 71.8%. Ce résultat suggère que les erreurs
Ce corpus annoté est alors divisé en deux par- d’annotation, qui sont présentes en bien plus grand
ties, respectivement pour l’apprentissage et le test nombre dans le corpus non vérifié, semblent avoir
de MALT : un impact relativement limité sur les performances
– Apprentissage : La partie du corpus réser- du système, ce qui résulte probablement du fait
vée à l’apprentissage contient 13135 mots et que l’apprentissage statistique du classifieur tend
12199 dépendances. Cette partie est utilisée à éliminer les erreurs non corrélées et assimilables
telle quelle pour l’apprentissage de Malt. à du bruit.
– Test : La partie du corpus reservée au test su- Nous avons enfin entraîné le système sur les
bit une phase supplémentaire de vérification données annotées fournies par la campagne d’éva-
et de correction par une linguiste expert. Elle luation des analyseurs syntaxiques EASY. Une
contient 5 305 mots et 4 905 dépendances. évaluation préliminaire sur le fichier littéraire_1 de
Au terme d’environ 6 semaines d’annotation, ce corpus donne une F-mesure de 50% en dépen-
environ 20 000 mots ont pu être annotés par 4 an- dances typées.
notatrices. Les annotatrices étaient des étudiantes
de linguistique en deuxième et troisième année de 5 Conclusion
licence.
Cet article présente un environnement logiciel
4.2 Apprentissage et résultats pour l’apprentissage d’analyseurs en dépendances
MALT est un système pour l’apprentissage syntaxiques et l’applique à l’apprentissage d’ana-
d’analyseurs en dépendances syntaxiques. A par- lyseurs en dépendances pour le Français oral et
tir d’un corpus annoté, le système apprend à écrit.
projeter des traits syntaxiques et morphosyn- Les résultats préliminaires obtenus à partir de
taxiques sur des décisions d’analyse (shift, reduce, corpus restreints sont encourageants et permettent
création d’arcs de dépendances). C’est un sys- d’espérer avoir prochainement à disposition un
tème libre source implanté en Java et disponible analyseur syntaxique de l’oral raisonnablement
à l’url http://w3.msi.vxu.se/~nivre/ précis. Nous envisageons d’améliorer les perfor-
research/MaltParser.html. mances à la fois par une annotation plus extensive
Nous avons entrainé le système MALT sur le et par la mise en place de techniques d’appren-
corpus d’apprentissage décrit au paragraphe pré- tissage semi-supervisées comme la méthodologie
cédent. Les résultats sont largement inférieurs à d’apprentissage actif afin d’augmenter la taille du
l’état de l’art pour le texte écrit avec un score corpus d’apprentissage.
LAS de 71.8 % en dépendances typées. Par com- Cet analyseur ayant pour objectif principal
paraison, l’analyseur développé par (Candito et d’extraire des informations syntaxiques sur un cor-
al., 2009a) pour le texte écrit a une précision de pus transmis automatiquement, il reste encore à
86.56 % . Ils s’expliquent cependant par la taille évaluer ses performances sur des transcriptions au-
réduite du corpus d’apprentissage (15 000 mots tomatiques et son impact sur la détection des dif-
contre 385 458 pour le corpus arboré utilisé pour férents types d’erreurs de la reconnaissance, inser-
apprendre les dépendances par (Candito et al., tions, omissions et substitutions.

Acknowledgments. web pour la syntaxe. Traitement automatique des
langues, 49(2) :247–270.
Nous remercions l’INRIA pour le financement M. T. Kromann. 2003. The danish dependency tree-
de l’Action de Recherche Concertée RAPSODYS bank and the dtag treebank tool. In Proceedings
et le pôle TALC (“Traitement automatique des of the 2nd Workshop on Treebanks and Linguistic
langues et des connaissances”) du contrat plan Theories,, Sweden.
Etat-Région MISN (“Modélisation, Information et Alexis Nasr and Frédéric Béchet. 2009. Analyse
Systèmes Numériques”) pour le financement de syntaxique en dépendances de l’oral spontané. In
Conférence annuelle sur le Traitement Automatique
l’opération ALIGNE. des Langues Naturelles - TALN 2009, Senlis.
Joakim Nivre, Jens Hall, Jens Nilsson, A. Chanev,
G. Eryigit, S. Kübler, S. Marinov, and E. Marsi.
Bibliographie 2007. Maltparser : A language-independent system
Anne Abeillé. 2004. Guide des annotateurs : Anno- for data-driven dependency parsing. Natural Lan-
tation fonctionnelle. Technical report, Université de guage Engineering, 13(2) :95–135.
Paris 7. O. Plaehen and T. Brants. 2000. Annotate - an efficient
Abhishek Arun and Frank Keller. 2005. Lexicalization interactive annotation tool. In Proceedings of the 6th
in crosslinguistic probabilistic parsing : The case of Applied Natural Language Processing Conference,
french. In Proceedings of the 43rd Annual Mee- Seattle.
ting of the Association for Computational Linguis- D. Reidsma, D. Hofs, and N. Jovanovi. 2004. Desi-
tics, pages 306–313, Ann Arbor, MI. gning focused and efficient annotation tools. In Hu-
Guillaume Bonfante, Bruno Guillaume, and Guy Per- man Media Interaction research group, Centre for
rier. 2003. Analyse syntaxique électrostatique. Telematics and Information Technology, Enschede.
Traitement Automatique des Langues, 44(3) :93– Azim Roussanaly, Benoît Crabbé, and Jérôme Perrin.
120. 2005. Premier bilan de la participation du LORIA
Pierre Boullier, Benoit Sagot, and Lionel Clément. à la campagne d’évaluation EASY. In 12e Confé-
2005. Un analyseur lfg efficace pour le français : rence annuelle sur le Traitement Automatique des
Sxlfg. In Actes de TALN 05, pages 403–40. Langues Naturelles - TALN 2005, Dourdan, France,
06. ATALA.
Didier Bourigault, Cécile Fabre, Cécile Frérot, Marie-
Paule Jacques, and S. Ozdowska. 2005. Syntex, J. M. J. Salvo. 2006. Openjgraph - java graph and
un analyseur syntaxique de corpus. In actes du col- graph drawing project. http://openjgraph.
loque TALN. sourceforge.net/.
Marie-Hélène Candito, Benoit Crabbé, and Djamé Sed- Natalie Schluter and Josef van Genabith. 2008.
dah. 2009a. On statistical parsing of french with Treebank-based acquisition of lfg parsing resources
supervised and semi-supervised strategies. In Pro- for french. In LREC.
ceedings EACL Workshop 2009 : Grammatical Infe- H. Schmid. 1995. Improvements in part-of-speech tag-
rence for computational linguistics. ging with an application to german. In Proc. Work-
Marie-H´ lène Candito, Benoit Crabbé, and Mathieu shop EACL SIGDAT, Dublin.
Falco. 2009b. Dépendances syntaxiques de surface M. Surdeanu, R. Johansson, A. Meyers, L. Marquez,
pour le français. Technical report, Université de Pa- and J. Nivre. 2008. The conll-2008 shared task on
ris 7. joint parsing of syntactic and semantic dependencies
Eric Villemonte de la Clergerie. 2008. A collaborative conll 2008. In Proc. 12th Conference on Computa-
infrastructure for handling syntactic annotations. In tional Natural Language Learning, pages 159–177,
First International Workshop on "Automated Syn- Manchester, August.
tactic Annotations for Interoperable Language Re- Éric Villemonte de La Clergerie. 2005. DyALog : a
sources", Hong-Kong. tabular logic programming based environment for
Gil Francopoulo. 2005. Tagparser et technolangue- NLP. In Proceedings of 2nd International Work-
easy. In Actes de l’atelier Easy, TALN. shop on Constraint Solving and Language Proces-
sing (CSLP’05), Barcelona, Spain, October.
Véronique Gendner, Anne Vilnat, Laurence Monceaux,
Patrick Paroubek, Isabelle Robba, and Gil Franco- C. White. 2000. Rapid Grammar Development and
poulo. 2008. Les annotations syntaxique de réfé- Parsing : Constraint Dependency Grammar with
rence peas, version 1.11. Technical report, Projet Abstract Role Values. Ph.D. thesis, Purdue Univer-
ANR Passage. sity., West Lafayette, Indiana,.
G. Gravier, J.-F. Bonastre, S. Galliano, E. Geoffrois,
K. Mc Tait, and K. Choukri. 2004. Ester, une
campagne d’évaluation des systèmes d’indexation
d’émissions radiophoniques. In Proc. JEP, Fez.
Olivier Hamon, Patrick Paroubek, and Djamel Mos-
tefa. 2008. Sews : un serveur d’évaluation orienté

RAPSODYS (18) ALPAGE (19) P7 (8) EASY (14)
suj suj SUJ SUJ_V
obj obj OBJ COD_V
pobj p_obj P-OBJ CPL_V
de_obj DE-OBJ CPL_V
a_obj A-OBJ
dep
atts ats ATS ATB_SO
atto ato ATO
modV mod MOD MOD_V
ref
dummy aff
aux aux_pass
aux_caus
det det
modN mod MOD_N
comp arg_cons, arg_comp, obj, p_obj COMP
cc coord, arg_coord COORD
multimots
ponct
modA MOD_A
modaDV MOD_R
MOD_P
appos APP
juxt JUXT

F IG . 2 – Relations utilisées par les schémas d’annotation pour le français
Le nombre suivant le nom des schémas indique le nombre de relations postulé par chaque schéma

75

70

65

60

55

50

45

40
0 2000 4000 6000 8000 10000 12000 14000

F IG . 3 – Évolution du score de rattachement en dépendances typées (score LAS) obtenu par JS YNATS
en fonction de la taille du corpus d’apprentissage. L’axe des abscisses représente le nombre de mots
utilisés pour apprendre MALT .

Cergar atala09

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Cergar atala09

Similaire à Cergar atala09 (18)

Cergar atala09