SlideShare une entreprise Scribd logo
1  sur  8
Télécharger pour lire hors ligne
Analyse syntaxique du français parlé
              Christophe Cerisara                                Claire Gardent
              CNRS/LORIA, Nancy                               CNRS/LORIA, Nancy
              Equipe Parole, Bat. C                           Equipe Talaris, Bat. B
           615, rue du jardin botanique                    615, rue du jardin botanique
             54600 Villers lès Nancy                         54600 Villers lès Nancy
      christophe.cerisara@loria.fr                       claire.gardent@loria.fr


                     Abstract                          2003) et des analyseurs plus procéduraux (Bouri-
                                                       gault et al., 2005; Francopoulo, 2005) ; les analy-
    Il existe pour le Français de nombreux sys-
                                                       seurs symboliques et les analyseurs stochastiques
    tèmes d’analyse syntaxique. Cependant,
                                                       (Candito et al., 2009a; Arun and Keller, 2005;
    la plupart de ces analyseurs sont conçus
                                                       Schluter and van Genabith, 2008).
    pour la langue écrite. Dans cet article,
                                                          Cependant, ces analyseurs sont conçus pour
    nous nous concentrons sur la langue orale
                                                       traiter la langue écrite. Ils ne permettent ni de trai-
    et présentons une infrastructure logicielle
                                                       ter des spécificités de la langue orale telles que les
    pour le développement d’un analyseur de
                                                       disfluences (répétitions, hésitations, corrections),
    la langue orale. Nous discutons les résul-
                                                       ni de traiter du caractère imparfait des transcrip-
    tats d’expériences préliminaires et mon-
                                                       tions produites par les systèmes de reconnaissance
    trons en particulier, qu’après apprentis-
                                                       automatique de la parole (SRAP).
    sage sur un corpus oral de petite taille (en-
                                                          Récemment, (Nasr and Béchet, 2009) ont pré-
    viron 20 000 mots), l’analyseur stochas-
                                                       senté un modèle d’analyse syntaxique de l’oral
    tique utilisé exhibe un score de rattache-
                                                       spontané en deux étapes. La première étape uti-
    ment en dépendances typées variant entre
                                                       lise des techniques (automates) et ressources
    70.3% et 71.8% selon le degré de vérifica-
                                                       (lexiques, grammaires) symboliques pour associer
    tion de la référence manuelle (vérification
                                                       à chaque verbe présent dans le graphe d’hypo-
    ou non par un linguiste expert). Nous uti-
                                                       thèses produites par le SRAP, un ensemble d’hy-
    lisons également l’infrastructure dévelop-
                                                       pothèses concernant le cadre valenciel de ce verbe
    pée pour entraîner l’analyseur sur une par-
                                                       dans le contexte considéré. Ce premier module est
    tie du corpus mis à disposition par la cam-
                                                       générique. Le second module en revanche, est spé-
    pagne EASY 2007 (Hamon et al., 2008) et
                                                       cifique à une application et exploite un corpus an-
    obtenons une F-mesure de 50 % sur une
                                                       noté manuellement pour ordonner les hypothèses
    partie de ce corpus.
                                                       produites par le premier module. Le modèle est
1   Introduction                                       évalué sur le corpus média par examen des ré-
                                                       sultats sur le verbe réserver. Sur 187 occurrences
   Comme l’a montré la campagne d’évaluation           de ce verbe, la précision en dépendances typées
des analyseurs syntaxiques menée dans le cadre         (pourcentage d’actants reconnus correctement) est
de l’action EASy/EVALDA1 , il existe pour le           de 91.1% pour une transcription manuelle du flux
Français, divers systèmes d’analyse syntaxique.        oral et de 80.4% pour une transcription automa-
Le spectre couvert inclut l’ analyse syntagma-         tique.
tique profonde (Villemonte de La Clergerie, 2005;         Nous explorons ici une piste alternative natu-
Boullier et al., 2005; Roussanaly et al., 2005; Bon-   relle étant donné l’état de l’art en analyse syn-
fante et al., 2003) et l’analyse en dépendances        taxique à savoir, le développement d’un analyseur
(Bourigault et al., 2005; Francopoulo, 2005) ; les     stochastique supervisé. Les motivations derrière
analyseurs basés sur des grammaires déclaratives       ce travail sont doubles.
(Villemonte de La Clergerie, 2005; Boullier et al.,       Premièrement, l’analyse syntaxique de l’oral
2005; Roussanaly et al., 2005; Bonfante et al.,        est un défi intéressant et il semble naturel d’exa-
  1
    http://www.technolangue.net/                       miner dans quelle mesure, les techniques utili-
article198.html                                        sées pour l’analyse du texte écrit sont transpo-
F IG . 1 – Interface graphique de JS YNATS


sables à la transcription, manuelle ou automatique,       de l’art, les résultats obtenus sont encourageants
d’un énoncé oral. Si l’analyseur de (Nasr and             compte tenu de la taille très réduite des corpus
Béchet, 2009) est d’une précision remarquable,            d’apprentissage et de la courbe de progression.
l’analyse qu’il produit est une analyse partielle où         L’organisation de l’article est la suivante. Dans
seuls le verbe et ses dépendants sont analysés. Par       la section 2, nous présentons le schéma d’anno-
contraste, un analyseur supervisé acquis à partir         tation utilisé et le comparons aux schémas d’an-
d’un corpus arboré pour l’oral permettrait une ana-       notations en dépendances existants pour le fran-
lyse complète de la phrase.                               çais à savoir, le format Easy/Passage et le format
   Deuxièmement, un analyseur stochastique per-           proposé récemment par (Candito et al., 2009a). La
met d’associer une probabilité à chaque analyse           section 3 présente le logiciel (JS YNATS ) utilisé
produite. Or une piste possible pour l’améliora-          pour l’annotation, l’apprentissage, l’analyse syn-
tion des systèmes de reconnaissance de la parole          taxique et l’évaluation. La section 4 est consacrée
est l’intégration dans le processus de reconnais-         à la description des premières expériences réali-
sance, de connaissances syntaxiques et en parti-          sées avec l’environnement logiciel JS YNATS . La
culier, d’une mesure de confiance syntaxique per-          section 5 conclut l’article.
mettant de réordonner les hypothèses produites
par le SRAP. Dans ce contexte, un analyseur sto-          2 Schéma d’annotation
chastique est un apport important.                           Comme le montre la dernière campagne d’éva-
   Nous présentons dans cet article une infrastruc-       luation sur l’analyse syntaxico-sémantique multi-
ture linguistique et logicielle permettant d’envisa-      lingues (CoNLL-2009 Shared Task : Syntactic and
ger le développement d’un analyseur syntaxique            Semantic Dependencies in Multiple Languages),
stochastique pour le Français parlé. Cette infra-         des schémas d’annotations en dépendances syn-
structure vise à faciliter la réutilisation de l’analy-   taxiques (et sémantiques) ont été définis et utili-
seur stochastique MALT (Nivre et al., 2007) pour le       sés pour de nombreuses langues dont en particu-
français parlé. Elle comprend (i) la définition d’un       lier, la catalan, le chinois, l’anglais, l’allemand, le
schéma d’annotation en dépendances appelé RAP -           tchèque, l’espagnol et le japonais.
SODYS et (ii) un environnement logiciel permet-              Pour le français, on peut recenser le schéma
tant l’annotation syntaxique, l’apprentissage sur         EASY (Gendner et al., 2008), le schéma récem-
un corpus annoté, l’analyse syntaxique et l’évalua-       ment défini par l’équipe INRIA ALPAGE (Can-
tion par rapport à une référence.                         dito et al., 2009b) et dans une moindre mesure, le
   Nous décrivons plusieurs expériences prélimi-          schéma d’anotation des dépendants verbaux utilisé
naires faites avec l’environnement présenté : l’ap-       pour le corpus arboré de Paris 7 (Abeillé, 2004).
prentissage et l’évaluation, à partir d’un corpus de
petite taille, d’un analyseur pour la transcription       2.1   Le schéma EASY
manuelle du français parlé ; la comparaison pour            Le schéma d’annotation EASY n’est pas réel-
cet analyseur d’une évaluation sur un corpus ar-          lement un schéma d’annotation en dépendances
boré validé par une expert linguiste avec une éva-        syntaxiques puisqu’il n’impose (et parfois ne per-
luation par validation croisée sur un corpus an-          met) pas que l’annotation syntaxique d’une phrase
noté manuellement par des étudiantes de licence ;         soit une structure de dépendances. En effet, ce
et l’apprentissage à partir du corpus de dévelop-         schéma préconise une annotation mixte en consti-
pement EASY 2007, d’un analyseur stochastique             tuants et dépendances telle que les relations de
pour le français écrit. Bien qu’encore loin de l’état     dépendances ne relient pas uniquement des mots
comme dans une structure de dépendances clas-               dination (cc ), juxtaposition (juxt ), complément
sique, mais également des mots et des constituants          réfléchi (ref ), partie d’une locution multi-mots
ou des constituants et des constituants. De plus,           (MultiMots ), expression figée (dummy ).
comme l’indique le tableau 2, le schéma d’anno-                Le tableau 2 résume les points communs et les
tation choisi ne couvre pas l’ensemble des rela-            divergences d’avec les schémas existants. Plus gé-
tions de dépendances syntaxiques possibles entre            néralement, les choix faits pour le schéma d’anno-
les mots. Par exemple, la relation entre un nom             tation résultent d’un objectif double.
et un déterminant n’est pas incluse. Néanmoins,                Premièrement, l’annotation syntaxique doit per-
en ajoutant au schéma d’annotation les relations            mettre de distinguer les transcriptions erronées
manquantes et en limitant l’emploi de ces relations         des transcriptions correctes produites par le sys-
aux relations mot-mot, il est possible d’utiliser le        tème de reconnaissance de la parole. En d’autres
schéma EASY pour une annotation en structure                termes, les structures de dépendances produites
de dépendances. Comme le tableau 2 l’indique, ce            doivent encoder des connaissances syntaxiques
schéma est de fait relativement proche du schéma            fines. C’est ce qui justifie par exemple l’annota-
ALPAGE utilisé pour une annotation en dépen-                tion des réfléchis : comme tous les verbes n’ac-
dances.                                                     ceptent pas la forme pronominale, cette annotation
2.2 Le schéma ALPAGE                                        peut permettre de détecter une phrase peu probable
                                                            syntaxiquement lorsqu’un tel verbe apparait dans
   Le schéma récemment défini par l’équipe IN-               une structure incluant un argument réfléchi.
RIA ALPAGE reprend le schéma d’anotation des
                                                               Deuxièmement, la structure syntaxique doit
dépendants verbaux utilisé pour le corpus arboré
                                                            permettre à plus long terme le calcul sémantique
de Paris 7 (Abeillé, 2004) et l’étend aux cas et gou-
                                                            afin de pouvoir également intégrer des connais-
verneurs non annotés dans ce corpus dont en parti-
                                                            sances sémantiques dans le processus de recon-
culier, les gouverneurs non verbaux. Les structures
                                                            naissance de la parole. Pour cette raison, les ar-
résultant de l’annotation sont des arbres orien-
                                                            guments des nominaux déverbaux sont annotés
tés où les noeuds correspondent aux formes flé-
                                                            comme tels.
chies de la phrase et où les arcs sont étiquettés par
l’une des relations de dépendances permises par le             Les différences avec le schéma ALPAGE
schéma. Les relations utilisées sont listées dans le        portent sur la précision de l’annotation.
tableau 2 et sont au nombre de 19.                             La distinction argument/ajout étant difficile à
                                                            faire pour les annotatrices, nous avons décidé
2.3 Le schéma RAPSODYS                                      dans un premier temps, de ne pas différencier
   Nous utilisons un schéma qui s’inspire des deux          les A- et De-objets des autres objets préposition-
schémas précédents (EASY et ALPAGE) et per-                 nels. Cette différenciation sera faite lors d’une
met une annotation en arbres de dépendances. Les            deuxième passe par des linguistes experts. A l’in-
noeuds de l’arbre sont les tokens identifiés par la          verse, les juxtapositions et appositions, très fré-
reconnaissance de la parole ou par la transcrip-            quentes à l’oral, justifient l’ajout des relations sup-
tion humaine de l’oral. Les arcs sont étiquettés            plémentaires correspondantes. La relation dummy
par l’une des relations de dépendances définies par          est utilisée comme dans le schéma ALPAGE pour
le schéma. Comme dans le schéma ALPAGE, le                  les expressions figées (réfléchis intrinsèques, cli-
schéma n’impose pas la projectivité si bien que la          tiques figées, etc.) mais également pour l’annota-
projection d’un noeud ne correspond pas nécessai-           tion des répétitions et des hésitations. La relation
rement à un segment continu de la phrase analy-             PONCT n’est pas utilisée car absente des transcrip-
sée.                                                        tions. Comme dans le schéma EASY, les modi-
   Les relations utilisées sont les suivantes : sujet       fieurs sont différenciés suivant le type de leur gou-
(suj), objet (obj ), objet prépositionnel (pobj ), at-      verneur (verbe, nom, adjectif) afin de faciliter la
tribut du sujet (atts ), attribut de l’objet (atto ), mo-   comparaison avec les données EASY.
difieur de verbe (modV ), de nom (modN ), d’ad-                 Comme le tableau 2 le montre, le passage d’un
jectif (modAdj ) ou d’adverbe (modAdv ), complé-            schéma d’annotation à un autre est relativement
ment d’une préposition, d’un complémenteur ou               simple. La conversion du format RAPSODYS vers
d’un pronom relatif (comp ), auxiliaire verbal (aux         le format EASY est essentiellement une conver-
), apposition (appos ), déterminant (det ), coor-           sion par traduction ou élimination de relations
(e.g., suj devient SUJ_V et det est éliminé). La            suivantes :
conversion vers le format ALPAGE implique en                   – Annotation : permet d’annoter des textes sui-
outre soit de regrouper plusieurs catégories en une              vant le schéma d’annotation présenté dans la
seule (e.g., regrouper de_obj, a_obj et p_obj sous               section précédente
p_obj), soit de différencier une catégorie unique              – Analyse : permet d’analyser du texte avec
en plusieurs sous-catégories (e.g., mod en modV ,                l’analyseur MALT
modAdj , modAdv , modP ).                                      – Apprentissage : permet d’entraîner l’analy-
                                                                 seur MALT sur un ensemble de fichiers anno-
3   Environnement logiciel                                       tés
                                                               – Evaluation : permet de calculer les perfor-
   Il existe de nombreux environnements pour                     mances de l’analyseur par rapport à un corpus
l’annotation de corpus en dépendances syn-                       de référence
taxiques tels que par exemple, GRAPH (Salvo,                   Le logiciel implémenté en Java est dis-
2006), Annotate (Plaehen and Brants, 2000),                 ponible à l’url http://talc.loria.fr/
DTAG (Kromann, 2003) and CDG (White, 2000),                 GraphEdit.html. Il est portable et un clic suf-
easyref (de la Clergerie, 2008). Cependant, nous            fit à son installation sous Windows comme sous
désirions avoir à disposition un outil qui répondent        Linux ou MacOsX. L’annotation se fait par un jeu
aux critères listés par (Reidsma et al., 2004) et plus      simple d’opérations curseurs sur une interface gra-
précisément, un outil qui satisfasse les contraintes        phique WYSIWYG2 . Les formats produits sont
suivantes :                                                 des formats texte ou XML, Syntex ou ConLL (voir
   – Facilité d’installation et portabilité : l’anno-       infra).
      tation étant faite en télé-travail par des étu-
      diantes sans formation informatique, la faci-         3.1      Annotation
      lité d’installation et d’utilisation est un critère      L’outil d’annotation est un outil de visualisation
      primordial. Le logiciel doit pouvoir être ins-        et d’édition de structures syntaxiques en dépen-
      tallé rapidement et simplement sur les trois          dances qui permet d’annoter du texte conformé-
      grands types de système d’exploitation ac-            ment au schéma d’annotation JS YNATS . L’édi-
      tuellement en usage (MacOS, Linux, Win-               tion se fait par des raccourcis claviers opérant sur
      dows).                                                une interface graphique. Le texte d’entrée peut être
   – Facilité d’utilisation : l’annotation étant un         ou non analysé. En pratique, l’annotation se fait
      travail fastidieux, il est essentiel que l’inter-     par correction des analyses produites par MALT
      face d’annotation soit aussi ergonomique et           . Le format d’entrée et de sortie est le format
      simple d’utilisation que possible.                    ConLL. L’outil accepte également le format texte
   – Extensibilité : l’environnement doit pouvoir           et XML utilisé par l’analyseur Syntex (Bourigault
      être modifié pour répondre à l’évolution des           et al., 2005). Une copie d’écran illustrant les re-
      besoins dictés par un projet de recherche tels        présentations manipulées est donnée en Figure 1.
      que par exemple, des besoins en annotation
      mais également en apprentissage, analyse et           3.2      Analyse
      évaluation.
                                                               La fonctionalité d’analyse permet d’analyser du
   – Compatibilité : afin de permettre l’évaluation
                                                            texte avec l’analyseur MALT . Elle prend en entrée
      des résultats et des outils développés, il im-
                                                            un fichier texte et produit en sortie un fichier texte
      porte que les fichiers annotés soient produits
                                                            où chaque phrase contenue dans le fichier entrant
      dans un format compatible avec les formats
                                                            est annotée avec l’analyse produite par l’analy-
      utilisés par la communauté scientifique tels
                                                            seur MALT (format ConLL). Actuellement, l’ana-
      que par exemple, le format ConLL pour l’an-
                                                            lyse en dépendances de MALT est précédée d’une
      notation syntaxique.
                                                            phase d’annotation automatique des séquences de
   Un examen rapide des logiciels existants mon-
                                                            mots en classes morpho-syntaxiques. Cette ana-
trant qu’aucun de ceux-ci ne permettaient de ré-
                                                            lyse morpho-syntaxique est réalisée par l’outil
pondre à l’ensemble de ces critères, nous avons
                                                            TreeTagger. Nous envisageons à court terme d’éli-
développé un environnement logiciel, appelé JS Y-
                                                            miner cette dépendance de la plate-forme propo-
NATS pour Java software for Syntax Analysis of
                                                               2
Transcribed Speech qui intégre les fonctionnalités                 What you see is what you get
sée vis-à-vis de TreeTagger afin d’intégrer l’en-      3.4   Evaluation
semble des outils nécessaires au sein d’un logiciel      L’environnement JS YNATS permet également
unique 100 % Java.                                    d’évaluer les performances d’un analyseur produi-
   En pratique, la fonctionalité d’analyse est uti-   sant des données au format ConLL. Les scripts
lisée pour la pré-annotation syntaxique des textes    d’évaluation sont directement adaptés des scripts
permettant ainsi aux annotatrices de travailler sur   distribués pour les campagnes ConLL, et calculent
des textes pré-annotés plutôt que sur des textes      donc les mêmes métriques, en particulier le “score
sans aucune annotation syntaxique. Comme l’ana-       de rattachement en dépendances typées” (Labeled
lyseur est ré-entrainé à chaque nouvelle phase        Attachment Score ou LAS) (Surdeanu et al., 2008)
d’annotation, la qualité des pré-annotations croît    utilisé dans cet article, qui représente le pourcen-
avec le temps, diminuant ainsi les temps d’annota-    tage de mots pour lesquels le système a prédit le
tion. En outre, la pré-annotation est généralement    bon gouverneur et le bon type de dépendance.
correcte au niveau des syntagmes de base (groupes
nominaux et prépositionnels non récursifs, noyau      4 Cadre expérimental et évaluation
verbal, subordonnées relatives simples, etc.), ce
                                                         Nous utilisons JS YNATS pour développer un
qui permet aux annotatrices de se concentrer sur
                                                      corpus oral annoté syntaxiquement et entraîner
les questions plus complexes liées au rattachement
                                                      l’analyseur MALT .
de ces syntagmes entre eux.
                                                      4.1   Corpus utilisé et procédure d’annotation

3.3 Apprentissage                                        Le corpus utilisé pour l’apprentissage et le
                                                      test est issu du corpus d’informations radio-
   JS YNATS permet d’entraîner MALT sur un en-        diffusées produit par le projet Technolangue ES-
semble de fichiers contenant du texte annoté syn-      TER 2003-2005 (Gravier et al., 2004). Le corpus
taxiquement et morpho-syntaxiquement. Des ou-         ESTER comporte les transcriptions manuelles de
tils de conversion de formats permettent de sup-      37 heures d’émissions radiophoniques d’informa-
porter les formats ConLL, XML (Syntex) et Tree-       tion francophone (années 1998 - 1999 et 2003).
Tagger. L’algorithme déterministe de Nivre-Eager      Les transcriptions manuelles de ESTER étant des-
est utilisé pour l’analyse, et sa version “oracle”    tinées au calcul du taux de reconnaissance des sys-
produit pour l’apprentissage un ensemble de vec-      tèmes de reconnaissance automatique de la parole,
teurs d’observation, chaque vecteur étant associé à   seuls les mots complets sont annotés : ainsi, les
une des quatre “actions” de l’algorithme de Nivre     répétitions sont annotées si les mots répétés sont
(Shift, Reduce, Left-Arc et Right-Arc). Les vec-      complets, les “euh” d’hésitation sont considérés
teurs d’observation incluent les informations sui-    comme des mots et sont donc également anno-
vantes, qui sont celles proposées par défaut dans     tés, mais par contre les bruits, les mots incomplets,
MALT :
                                                      bref tout ce qui ne fait pas partie du “lexique” de
                                                      reconnaissance, n’est pas annoté. Pour ce travail,
  – Formes fléchies et lemmes des deux mots po-        nous avons également supprimé toute information
    tentiellement dépendants (L et R) ;               de ponctuation avant l’étape d’analyse syntaxique,
  – Forme fléchie du mot suivant R ;                   car les sorties des systèmes de transcription auto-
  – Forme fléchie du mot gouvernant L ;                matique ne disposent pas de ces informations.
  – Classes morpho-syntaxiques de L et R, du             Un sous-ensemble de ce corpus composé de 20
    mot précédant L, et des trois mots suivants       000 mots est extrait d’émissions de France-Inter
    R;                                                datées de 1999. Ce sous-corpus est annoté auto-
  – Types des dépendances issues de L, des dé-        matiquement en classes morpho-syntaxiques par
    pendants les plus à gauche et à droite de L, et   l’outil TreeTagger (Schmid, 1995), puis converti
    du dépendant le plus à gauche de R.               au format CONLL. Ensuite, ce corpus enrichi
   Cet ensemble de vecteurs et leurs classes as-      est resegmenté en phrases manuellement, puis
sociées constitue le corpus d’apprentissage d’un      annoté également manuellement en dépendances
classifieur à base de machines à vecteurs supports     syntaxiques selon le guide d’annotation décrit pré-
(SVM) servant dans MALT à décider des dépen-          cédemment. Cette annotation en dépendances est
dances à établir.                                     en fait réalisée itérativement : chaque itération est
décomposée en deux phases, respectivement une            2009a)) et la courbe de progression (Figure 3) est
phase d’annotation automatique en dépendances            encourageante.
réalisée par l’analyseur MALT entraîné avec les             Nous avons également étudié l’influence de
données de l’itération précédente, suivie d’une          l’étape supplémentaire de vérification des anno-
phase de correction manuelle de ces dépendances.         tations en dépendance par une linguiste expert en
Les itérations ont pour objectif d’accroître la taille   incluant neuf dixièmes du corpus de test (vérifié)
du corpus, et un nouveau corpus est considéré            dans l’apprentissage de MALT , et en testant sur
à chaque itération. L’itération initiale est réalisée    le dixième restant. Le taux de dépendances cor-
avec un petit corpus de 458 mots annoté entière-         rectes final est calculé par validation croisée, en
ment manuellement qui sert à entraîner une pre-          faisant varier le dixième du corpus réservé au test.
mière version de l’analyseur MALT . Une petite di-       Le score LAS passe alors de 70.3% (aucune phrase
zaine d’itérations permettent d’aboutir au corpus        d’apprentissage n’a été vérifiée par la linguiste ex-
décrit dans cet article.                                 pert) à 71.8%. Ce résultat suggère que les erreurs
   Ce corpus annoté est alors divisé en deux par-        d’annotation, qui sont présentes en bien plus grand
ties, respectivement pour l’apprentissage et le test     nombre dans le corpus non vérifié, semblent avoir
de MALT :                                                un impact relativement limité sur les performances
   – Apprentissage : La partie du corpus réser-          du système, ce qui résulte probablement du fait
      vée à l’apprentissage contient 13135 mots et       que l’apprentissage statistique du classifieur tend
      12199 dépendances. Cette partie est utilisée       à éliminer les erreurs non corrélées et assimilables
      telle quelle pour l’apprentissage de Malt.         à du bruit.
   – Test : La partie du corpus reservée au test su-        Nous avons enfin entraîné le système sur les
      bit une phase supplémentaire de vérification        données annotées fournies par la campagne d’éva-
      et de correction par une linguiste expert. Elle    luation des analyseurs syntaxiques EASY. Une
      contient 5 305 mots et 4 905 dépendances.          évaluation préliminaire sur le fichier littéraire_1 de
   Au terme d’environ 6 semaines d’annotation,           ce corpus donne une F-mesure de 50% en dépen-
environ 20 000 mots ont pu être annotés par 4 an-        dances typées.
notatrices. Les annotatrices étaient des étudiantes
de linguistique en deuxième et troisième année de        5 Conclusion
licence.
                                                            Cet article présente un environnement logiciel
4.2 Apprentissage et résultats                           pour l’apprentissage d’analyseurs en dépendances
   MALT est un système pour l’apprentissage              syntaxiques et l’applique à l’apprentissage d’ana-
d’analyseurs en dépendances syntaxiques. A par-          lyseurs en dépendances pour le Français oral et
tir d’un corpus annoté, le système apprend à             écrit.
projeter des traits syntaxiques et morphosyn-               Les résultats préliminaires obtenus à partir de
taxiques sur des décisions d’analyse (shift, reduce,     corpus restreints sont encourageants et permettent
création d’arcs de dépendances). C’est un sys-           d’espérer avoir prochainement à disposition un
tème libre source implanté en Java et disponible         analyseur syntaxique de l’oral raisonnablement
à l’url http://w3.msi.vxu.se/~nivre/                     précis. Nous envisageons d’améliorer les perfor-
research/MaltParser.html.                                mances à la fois par une annotation plus extensive
   Nous avons entrainé le système MALT sur le            et par la mise en place de techniques d’appren-
corpus d’apprentissage décrit au paragraphe pré-         tissage semi-supervisées comme la méthodologie
cédent. Les résultats sont largement inférieurs à        d’apprentissage actif afin d’augmenter la taille du
l’état de l’art pour le texte écrit avec un score        corpus d’apprentissage.
LAS de 71.8 % en dépendances typées. Par com-               Cet analyseur ayant pour objectif principal
paraison, l’analyseur développé par (Candito et          d’extraire des informations syntaxiques sur un cor-
al., 2009a) pour le texte écrit a une précision de       pus transmis automatiquement, il reste encore à
86.56 % . Ils s’expliquent cependant par la taille       évaluer ses performances sur des transcriptions au-
réduite du corpus d’apprentissage (15 000 mots           tomatiques et son impact sur la détection des dif-
contre 385 458 pour le corpus arboré utilisé pour        férents types d’erreurs de la reconnaissance, inser-
apprendre les dépendances par (Candito et al.,           tions, omissions et substitutions.
Acknowledgments.                                               web pour la syntaxe. Traitement automatique des
                                                               langues, 49(2) :247–270.
   Nous remercions l’INRIA pour le financement               M. T. Kromann. 2003. The danish dependency tree-
de l’Action de Recherche Concertée RAPSODYS                    bank and the dtag treebank tool. In Proceedings
et le pôle TALC (“Traitement automatique des                   of the 2nd Workshop on Treebanks and Linguistic
langues et des connaissances”) du contrat plan                 Theories,, Sweden.
Etat-Région MISN (“Modélisation, Information et             Alexis Nasr and Frédéric Béchet. 2009. Analyse
Systèmes Numériques”) pour le financement de                    syntaxique en dépendances de l’oral spontané. In
                                                               Conférence annuelle sur le Traitement Automatique
l’opération ALIGNE.                                            des Langues Naturelles - TALN 2009, Senlis.
                                                            Joakim Nivre, Jens Hall, Jens Nilsson, A. Chanev,
                                                               G. Eryigit, S. Kübler, S. Marinov, and E. Marsi.
Bibliographie                                                  2007. Maltparser : A language-independent system
Anne Abeillé. 2004. Guide des annotateurs : Anno-              for data-driven dependency parsing. Natural Lan-
   tation fonctionnelle. Technical report, Université de       guage Engineering, 13(2) :95–135.
   Paris 7.                                                 O. Plaehen and T. Brants. 2000. Annotate - an efficient
Abhishek Arun and Frank Keller. 2005. Lexicalization           interactive annotation tool. In Proceedings of the 6th
   in crosslinguistic probabilistic parsing : The case of      Applied Natural Language Processing Conference,
   french. In Proceedings of the 43rd Annual Mee-              Seattle.
   ting of the Association for Computational Linguis-       D. Reidsma, D. Hofs, and N. Jovanovi. 2004. Desi-
   tics, pages 306–313, Ann Arbor, MI.                         gning focused and efficient annotation tools. In Hu-
Guillaume Bonfante, Bruno Guillaume, and Guy Per-              man Media Interaction research group, Centre for
   rier. 2003. Analyse syntaxique électrostatique.             Telematics and Information Technology, Enschede.
   Traitement Automatique des Langues, 44(3) :93–           Azim Roussanaly, Benoît Crabbé, and Jérôme Perrin.
   120.                                                        2005. Premier bilan de la participation du LORIA
Pierre Boullier, Benoit Sagot, and Lionel Clément.             à la campagne d’évaluation EASY. In 12e Confé-
   2005. Un analyseur lfg efficace pour le français :           rence annuelle sur le Traitement Automatique des
   Sxlfg. In Actes de TALN 05, pages 403–40.                   Langues Naturelles - TALN 2005, Dourdan, France,
                                                               06. ATALA.
Didier Bourigault, Cécile Fabre, Cécile Frérot, Marie-
   Paule Jacques, and S. Ozdowska. 2005. Syntex,            J. M. J. Salvo. 2006. Openjgraph - java graph and
   un analyseur syntaxique de corpus. In actes du col-         graph drawing project. http://openjgraph.
   loque TALN.                                                 sourceforge.net/.
Marie-Hélène Candito, Benoit Crabbé, and Djamé Sed-         Natalie Schluter and Josef van Genabith.           2008.
   dah. 2009a. On statistical parsing of french with           Treebank-based acquisition of lfg parsing resources
   supervised and semi-supervised strategies. In Pro-          for french. In LREC.
   ceedings EACL Workshop 2009 : Grammatical Infe-          H. Schmid. 1995. Improvements in part-of-speech tag-
   rence for computational linguistics.                        ging with an application to german. In Proc. Work-
Marie-H´  lène Candito, Benoit Crabbé, and Mathieu             shop EACL SIGDAT, Dublin.
   Falco. 2009b. Dépendances syntaxiques de surface         M. Surdeanu, R. Johansson, A. Meyers, L. Marquez,
   pour le français. Technical report, Université de Pa-       and J. Nivre. 2008. The conll-2008 shared task on
   ris 7.                                                      joint parsing of syntactic and semantic dependencies
Eric Villemonte de la Clergerie. 2008. A collaborative         conll 2008. In Proc. 12th Conference on Computa-
   infrastructure for handling syntactic annotations. In       tional Natural Language Learning, pages 159–177,
   First International Workshop on "Automated Syn-             Manchester, August.
   tactic Annotations for Interoperable Language Re-        Éric Villemonte de La Clergerie. 2005. DyALog : a
   sources", Hong-Kong.                                        tabular logic programming based environment for
Gil Francopoulo. 2005. Tagparser et technolangue-              NLP. In Proceedings of 2nd International Work-
   easy. In Actes de l’atelier Easy, TALN.                     shop on Constraint Solving and Language Proces-
                                                               sing (CSLP’05), Barcelona, Spain, October.
Véronique Gendner, Anne Vilnat, Laurence Monceaux,
   Patrick Paroubek, Isabelle Robba, and Gil Franco-        C. White. 2000. Rapid Grammar Development and
   poulo. 2008. Les annotations syntaxique de réfé-            Parsing : Constraint Dependency Grammar with
   rence peas, version 1.11. Technical report, Projet          Abstract Role Values. Ph.D. thesis, Purdue Univer-
   ANR Passage.                                                sity., West Lafayette, Indiana,.
G. Gravier, J.-F. Bonastre, S. Galliano, E. Geoffrois,
   K. Mc Tait, and K. Choukri. 2004. Ester, une
   campagne d’évaluation des systèmes d’indexation
   d’émissions radiophoniques. In Proc. JEP, Fez.
Olivier Hamon, Patrick Paroubek, and Djamel Mos-
   tefa. 2008. Sews : un serveur d’évaluation orienté
RAPSODYS (18)        ALPAGE (19)                      P7 (8)    EASY (14)
            suj                  suj                              SUJ       SUJ_V
            obj                  obj                              OBJ       COD_V
            pobj                 p_obj                            P-OBJ     CPL_V
                                 de_obj                           DE-OBJ    CPL_V
                                 a_obj                            A-OBJ
                                 dep
            atts                 ats                              ATS       ATB_SO
            atto                 ato                              ATO
            modV                 mod                              MOD       MOD_V
            ref
            dummy                aff
            aux                  aux_pass
                                 aux_caus
            det                  det
            modN                 mod                                        MOD_N
            comp                 arg_cons, arg_comp, obj, p_obj             COMP
            cc                   coord, arg_coord                           COORD
            multimots
                                 ponct
            modA                                                            MOD_A
            modaDV                                                          MOD_R
                                                                            MOD_P
            appos                                                           APP
            juxt                                                            JUXT

F IG . 2 – Relations utilisées par les schémas d’annotation pour le français
Le nombre suivant le nom des schémas indique le nombre de relations postulé par chaque schéma



               75

               70

               65

               60

               55

               50

               45

               40
                    0     2000      4000      6000      8000      10000    12000    14000

F IG . 3 – Évolution du score de rattachement en dépendances typées (score LAS) obtenu par JS YNATS
en fonction de la taille du corpus d’apprentissage. L’axe des abscisses représente le nombre de mots
utilisés pour apprendre MALT .

Contenu connexe

En vedette

Traitons nos gens comme des machines
Traitons nos gens comme des machinesTraitons nos gens comme des machines
Traitons nos gens comme des machinesMario Côté, CRHA
 
Math 2éme année lycée
Math 2éme année lycéeMath 2éme année lycée
Math 2éme année lycéeTaha Can
 
Clés de l'inboud marketing
Clés de l'inboud marketingClés de l'inboud marketing
Clés de l'inboud marketingLoyalty Company
 
2937368 curso-completo-de-linux-ubuntu
2937368 curso-completo-de-linux-ubuntu2937368 curso-completo-de-linux-ubuntu
2937368 curso-completo-de-linux-ubuntuetac24
 
Association Nagham: Rapport moral 2010
Association Nagham: Rapport moral 2010 Association Nagham: Rapport moral 2010
Association Nagham: Rapport moral 2010 ucefon
 
Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...
Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...
Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...Antoine Mercier-ame
 
Dossier de production eisenberg - Sustainable performance Groupe n°6
Dossier de production eisenberg - Sustainable performance Groupe n°6Dossier de production eisenberg - Sustainable performance Groupe n°6
Dossier de production eisenberg - Sustainable performance Groupe n°6Kenny Duflos
 
Factpsyperf
FactpsyperfFactpsyperf
FactpsyperfGentric
 
Module 4A - FR - La promotion de l'utilisation des données: introduction
Module 4A - FR - La promotion de l'utilisation des données: introductionModule 4A - FR - La promotion de l'utilisation des données: introduction
Module 4A - FR - La promotion de l'utilisation des données: introductionAlberto González-Talaván
 
Trabajar desde casa?
Trabajar desde casa?Trabajar desde casa?
Trabajar desde casa?victorp1987
 
Sierra Club QC
Sierra Club QCSierra Club QC
Sierra Club QCRoseBas
 
grupo 01_ reunitilIZAR
grupo 01_  reunitilIZARgrupo 01_  reunitilIZAR
grupo 01_ reunitilIZARtallera
 
Développement international, trouvez et étudiez votre marché cible !
Développement international, trouvez et étudiez votre marché cible ! Développement international, trouvez et étudiez votre marché cible !
Développement international, trouvez et étudiez votre marché cible ! WSI France
 
Manifestaciones de la energía interna de la Tierra
Manifestaciones de la energía interna de la TierraManifestaciones de la energía interna de la Tierra
Manifestaciones de la energía interna de la Tierraguestc96c297
 

En vedette (20)

Audience
AudienceAudience
Audience
 
Traitons nos gens comme des machines
Traitons nos gens comme des machinesTraitons nos gens comme des machines
Traitons nos gens comme des machines
 
Fatla
FatlaFatla
Fatla
 
Math 2éme année lycée
Math 2éme année lycéeMath 2éme année lycée
Math 2éme année lycée
 
Clés de l'inboud marketing
Clés de l'inboud marketingClés de l'inboud marketing
Clés de l'inboud marketing
 
2937368 curso-completo-de-linux-ubuntu
2937368 curso-completo-de-linux-ubuntu2937368 curso-completo-de-linux-ubuntu
2937368 curso-completo-de-linux-ubuntu
 
Association Nagham: Rapport moral 2010
Association Nagham: Rapport moral 2010 Association Nagham: Rapport moral 2010
Association Nagham: Rapport moral 2010
 
Reglament itf 2013
Reglament itf 2013Reglament itf 2013
Reglament itf 2013
 
Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...
Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...
Ame gallery dans la série le monde de l'art selon e.t -291013 jean dupuis à l...
 
Arb 8 virtu
Arb 8 virtuArb 8 virtu
Arb 8 virtu
 
Dossier de production eisenberg - Sustainable performance Groupe n°6
Dossier de production eisenberg - Sustainable performance Groupe n°6Dossier de production eisenberg - Sustainable performance Groupe n°6
Dossier de production eisenberg - Sustainable performance Groupe n°6
 
Dossier kandinsky final
Dossier kandinsky finalDossier kandinsky final
Dossier kandinsky final
 
Factpsyperf
FactpsyperfFactpsyperf
Factpsyperf
 
Module 4A - FR - La promotion de l'utilisation des données: introduction
Module 4A - FR - La promotion de l'utilisation des données: introductionModule 4A - FR - La promotion de l'utilisation des données: introduction
Module 4A - FR - La promotion de l'utilisation des données: introduction
 
Trabajar desde casa?
Trabajar desde casa?Trabajar desde casa?
Trabajar desde casa?
 
Sierra Club QC
Sierra Club QCSierra Club QC
Sierra Club QC
 
grupo 01_ reunitilIZAR
grupo 01_  reunitilIZARgrupo 01_  reunitilIZAR
grupo 01_ reunitilIZAR
 
Développement international, trouvez et étudiez votre marché cible !
Développement international, trouvez et étudiez votre marché cible ! Développement international, trouvez et étudiez votre marché cible !
Développement international, trouvez et étudiez votre marché cible !
 
Los desechos y el reciclaje
Los desechos y el reciclajeLos desechos y el reciclaje
Los desechos y el reciclaje
 
Manifestaciones de la energía interna de la Tierra
Manifestaciones de la energía interna de la TierraManifestaciones de la energía interna de la Tierra
Manifestaciones de la energía interna de la Tierra
 

Similaire à Cergar atala09

Arabic Speech Recognition System Using CMU-Sphinx4
Arabic Speech Recognition System Using CMU-Sphinx4Arabic Speech Recognition System Using CMU-Sphinx4
Arabic Speech Recognition System Using CMU-Sphinx4Tony Lisko
 
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Patrick Tremblay
 
L’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informationsL’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informationsAref Jdey
 
Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Stefane Fermigier
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...JUSTINDAVONDAMBAT
 
Invited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis awardInvited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis awardEstelle Delpech
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-MLbabelmoi
 
TALN 2013 - Lexiques bilingues & corpus comparables
TALN 2013 - Lexiques bilingues & corpus comparablesTALN 2013 - Lexiques bilingues & corpus comparables
TALN 2013 - Lexiques bilingues & corpus comparablesChristophe Tricot
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantimap8slide
 
Collatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsCollatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsEquipex Biblissima
 

Similaire à Cergar atala09 (18)

les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
Rapport Tal Master 1
Rapport Tal Master 1Rapport Tal Master 1
Rapport Tal Master 1
 
Arabic Speech Recognition System Using CMU-Sphinx4
Arabic Speech Recognition System Using CMU-Sphinx4Arabic Speech Recognition System Using CMU-Sphinx4
Arabic Speech Recognition System Using CMU-Sphinx4
 
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing. Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
Maîtrise / Soutien phonétique / Soutenance Patrick Tremblay, ing., M.Ing.
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Word Embedding
Word EmbeddingWord Embedding
Word Embedding
 
L’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informationsL’apport du Web sémantique à la recherche d’informations
L’apport du Web sémantique à la recherche d’informations
 
Drools
DroolsDrools
Drools
 
Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010Samar - Premier bilan d'étape - Oct. 2010
Samar - Premier bilan d'étape - Oct. 2010
 
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
Sinitier_a_la_programmation_et_a_loriente_objet__avec_des_exemples_en_C_C_C_J...
 
Invited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis awardInvited speaker, ATALA 2014 Ph. D. Thesis award
Invited speaker, ATALA 2014 Ph. D. Thesis award
 
AFLS-EMM-ML
AFLS-EMM-MLAFLS-EMM-ML
AFLS-EMM-ML
 
TALN 2013 - Lexiques bilingues & corpus comparables
TALN 2013 - Lexiques bilingues & corpus comparablesTALN 2013 - Lexiques bilingues & corpus comparables
TALN 2013 - Lexiques bilingues & corpus comparables
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quanti
 
Collatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsCollatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latins
 
Soutenance7dec[1]
Soutenance7dec[1]Soutenance7dec[1]
Soutenance7dec[1]
 
Cv robin lenogue
Cv robin lenogueCv robin lenogue
Cv robin lenogue
 

Cergar atala09

  • 1. Analyse syntaxique du français parlé Christophe Cerisara Claire Gardent CNRS/LORIA, Nancy CNRS/LORIA, Nancy Equipe Parole, Bat. C Equipe Talaris, Bat. B 615, rue du jardin botanique 615, rue du jardin botanique 54600 Villers lès Nancy 54600 Villers lès Nancy christophe.cerisara@loria.fr claire.gardent@loria.fr Abstract 2003) et des analyseurs plus procéduraux (Bouri- gault et al., 2005; Francopoulo, 2005) ; les analy- Il existe pour le Français de nombreux sys- seurs symboliques et les analyseurs stochastiques tèmes d’analyse syntaxique. Cependant, (Candito et al., 2009a; Arun and Keller, 2005; la plupart de ces analyseurs sont conçus Schluter and van Genabith, 2008). pour la langue écrite. Dans cet article, Cependant, ces analyseurs sont conçus pour nous nous concentrons sur la langue orale traiter la langue écrite. Ils ne permettent ni de trai- et présentons une infrastructure logicielle ter des spécificités de la langue orale telles que les pour le développement d’un analyseur de disfluences (répétitions, hésitations, corrections), la langue orale. Nous discutons les résul- ni de traiter du caractère imparfait des transcrip- tats d’expériences préliminaires et mon- tions produites par les systèmes de reconnaissance trons en particulier, qu’après apprentis- automatique de la parole (SRAP). sage sur un corpus oral de petite taille (en- Récemment, (Nasr and Béchet, 2009) ont pré- viron 20 000 mots), l’analyseur stochas- senté un modèle d’analyse syntaxique de l’oral tique utilisé exhibe un score de rattache- spontané en deux étapes. La première étape uti- ment en dépendances typées variant entre lise des techniques (automates) et ressources 70.3% et 71.8% selon le degré de vérifica- (lexiques, grammaires) symboliques pour associer tion de la référence manuelle (vérification à chaque verbe présent dans le graphe d’hypo- ou non par un linguiste expert). Nous uti- thèses produites par le SRAP, un ensemble d’hy- lisons également l’infrastructure dévelop- pothèses concernant le cadre valenciel de ce verbe pée pour entraîner l’analyseur sur une par- dans le contexte considéré. Ce premier module est tie du corpus mis à disposition par la cam- générique. Le second module en revanche, est spé- pagne EASY 2007 (Hamon et al., 2008) et cifique à une application et exploite un corpus an- obtenons une F-mesure de 50 % sur une noté manuellement pour ordonner les hypothèses partie de ce corpus. produites par le premier module. Le modèle est 1 Introduction évalué sur le corpus média par examen des ré- sultats sur le verbe réserver. Sur 187 occurrences Comme l’a montré la campagne d’évaluation de ce verbe, la précision en dépendances typées des analyseurs syntaxiques menée dans le cadre (pourcentage d’actants reconnus correctement) est de l’action EASy/EVALDA1 , il existe pour le de 91.1% pour une transcription manuelle du flux Français, divers systèmes d’analyse syntaxique. oral et de 80.4% pour une transcription automa- Le spectre couvert inclut l’ analyse syntagma- tique. tique profonde (Villemonte de La Clergerie, 2005; Nous explorons ici une piste alternative natu- Boullier et al., 2005; Roussanaly et al., 2005; Bon- relle étant donné l’état de l’art en analyse syn- fante et al., 2003) et l’analyse en dépendances taxique à savoir, le développement d’un analyseur (Bourigault et al., 2005; Francopoulo, 2005) ; les stochastique supervisé. Les motivations derrière analyseurs basés sur des grammaires déclaratives ce travail sont doubles. (Villemonte de La Clergerie, 2005; Boullier et al., Premièrement, l’analyse syntaxique de l’oral 2005; Roussanaly et al., 2005; Bonfante et al., est un défi intéressant et il semble naturel d’exa- 1 http://www.technolangue.net/ miner dans quelle mesure, les techniques utili- article198.html sées pour l’analyse du texte écrit sont transpo-
  • 2. F IG . 1 – Interface graphique de JS YNATS sables à la transcription, manuelle ou automatique, de l’art, les résultats obtenus sont encourageants d’un énoncé oral. Si l’analyseur de (Nasr and compte tenu de la taille très réduite des corpus Béchet, 2009) est d’une précision remarquable, d’apprentissage et de la courbe de progression. l’analyse qu’il produit est une analyse partielle où L’organisation de l’article est la suivante. Dans seuls le verbe et ses dépendants sont analysés. Par la section 2, nous présentons le schéma d’anno- contraste, un analyseur supervisé acquis à partir tation utilisé et le comparons aux schémas d’an- d’un corpus arboré pour l’oral permettrait une ana- notations en dépendances existants pour le fran- lyse complète de la phrase. çais à savoir, le format Easy/Passage et le format Deuxièmement, un analyseur stochastique per- proposé récemment par (Candito et al., 2009a). La met d’associer une probabilité à chaque analyse section 3 présente le logiciel (JS YNATS ) utilisé produite. Or une piste possible pour l’améliora- pour l’annotation, l’apprentissage, l’analyse syn- tion des systèmes de reconnaissance de la parole taxique et l’évaluation. La section 4 est consacrée est l’intégration dans le processus de reconnais- à la description des premières expériences réali- sance, de connaissances syntaxiques et en parti- sées avec l’environnement logiciel JS YNATS . La culier, d’une mesure de confiance syntaxique per- section 5 conclut l’article. mettant de réordonner les hypothèses produites par le SRAP. Dans ce contexte, un analyseur sto- 2 Schéma d’annotation chastique est un apport important. Comme le montre la dernière campagne d’éva- Nous présentons dans cet article une infrastruc- luation sur l’analyse syntaxico-sémantique multi- ture linguistique et logicielle permettant d’envisa- lingues (CoNLL-2009 Shared Task : Syntactic and ger le développement d’un analyseur syntaxique Semantic Dependencies in Multiple Languages), stochastique pour le Français parlé. Cette infra- des schémas d’annotations en dépendances syn- structure vise à faciliter la réutilisation de l’analy- taxiques (et sémantiques) ont été définis et utili- seur stochastique MALT (Nivre et al., 2007) pour le sés pour de nombreuses langues dont en particu- français parlé. Elle comprend (i) la définition d’un lier, la catalan, le chinois, l’anglais, l’allemand, le schéma d’annotation en dépendances appelé RAP - tchèque, l’espagnol et le japonais. SODYS et (ii) un environnement logiciel permet- Pour le français, on peut recenser le schéma tant l’annotation syntaxique, l’apprentissage sur EASY (Gendner et al., 2008), le schéma récem- un corpus annoté, l’analyse syntaxique et l’évalua- ment défini par l’équipe INRIA ALPAGE (Can- tion par rapport à une référence. dito et al., 2009b) et dans une moindre mesure, le Nous décrivons plusieurs expériences prélimi- schéma d’anotation des dépendants verbaux utilisé naires faites avec l’environnement présenté : l’ap- pour le corpus arboré de Paris 7 (Abeillé, 2004). prentissage et l’évaluation, à partir d’un corpus de petite taille, d’un analyseur pour la transcription 2.1 Le schéma EASY manuelle du français parlé ; la comparaison pour Le schéma d’annotation EASY n’est pas réel- cet analyseur d’une évaluation sur un corpus ar- lement un schéma d’annotation en dépendances boré validé par une expert linguiste avec une éva- syntaxiques puisqu’il n’impose (et parfois ne per- luation par validation croisée sur un corpus an- met) pas que l’annotation syntaxique d’une phrase noté manuellement par des étudiantes de licence ; soit une structure de dépendances. En effet, ce et l’apprentissage à partir du corpus de dévelop- schéma préconise une annotation mixte en consti- pement EASY 2007, d’un analyseur stochastique tuants et dépendances telle que les relations de pour le français écrit. Bien qu’encore loin de l’état dépendances ne relient pas uniquement des mots
  • 3. comme dans une structure de dépendances clas- dination (cc ), juxtaposition (juxt ), complément sique, mais également des mots et des constituants réfléchi (ref ), partie d’une locution multi-mots ou des constituants et des constituants. De plus, (MultiMots ), expression figée (dummy ). comme l’indique le tableau 2, le schéma d’anno- Le tableau 2 résume les points communs et les tation choisi ne couvre pas l’ensemble des rela- divergences d’avec les schémas existants. Plus gé- tions de dépendances syntaxiques possibles entre néralement, les choix faits pour le schéma d’anno- les mots. Par exemple, la relation entre un nom tation résultent d’un objectif double. et un déterminant n’est pas incluse. Néanmoins, Premièrement, l’annotation syntaxique doit per- en ajoutant au schéma d’annotation les relations mettre de distinguer les transcriptions erronées manquantes et en limitant l’emploi de ces relations des transcriptions correctes produites par le sys- aux relations mot-mot, il est possible d’utiliser le tème de reconnaissance de la parole. En d’autres schéma EASY pour une annotation en structure termes, les structures de dépendances produites de dépendances. Comme le tableau 2 l’indique, ce doivent encoder des connaissances syntaxiques schéma est de fait relativement proche du schéma fines. C’est ce qui justifie par exemple l’annota- ALPAGE utilisé pour une annotation en dépen- tion des réfléchis : comme tous les verbes n’ac- dances. ceptent pas la forme pronominale, cette annotation 2.2 Le schéma ALPAGE peut permettre de détecter une phrase peu probable syntaxiquement lorsqu’un tel verbe apparait dans Le schéma récemment défini par l’équipe IN- une structure incluant un argument réfléchi. RIA ALPAGE reprend le schéma d’anotation des Deuxièmement, la structure syntaxique doit dépendants verbaux utilisé pour le corpus arboré permettre à plus long terme le calcul sémantique de Paris 7 (Abeillé, 2004) et l’étend aux cas et gou- afin de pouvoir également intégrer des connais- verneurs non annotés dans ce corpus dont en parti- sances sémantiques dans le processus de recon- culier, les gouverneurs non verbaux. Les structures naissance de la parole. Pour cette raison, les ar- résultant de l’annotation sont des arbres orien- guments des nominaux déverbaux sont annotés tés où les noeuds correspondent aux formes flé- comme tels. chies de la phrase et où les arcs sont étiquettés par l’une des relations de dépendances permises par le Les différences avec le schéma ALPAGE schéma. Les relations utilisées sont listées dans le portent sur la précision de l’annotation. tableau 2 et sont au nombre de 19. La distinction argument/ajout étant difficile à faire pour les annotatrices, nous avons décidé 2.3 Le schéma RAPSODYS dans un premier temps, de ne pas différencier Nous utilisons un schéma qui s’inspire des deux les A- et De-objets des autres objets préposition- schémas précédents (EASY et ALPAGE) et per- nels. Cette différenciation sera faite lors d’une met une annotation en arbres de dépendances. Les deuxième passe par des linguistes experts. A l’in- noeuds de l’arbre sont les tokens identifiés par la verse, les juxtapositions et appositions, très fré- reconnaissance de la parole ou par la transcrip- quentes à l’oral, justifient l’ajout des relations sup- tion humaine de l’oral. Les arcs sont étiquettés plémentaires correspondantes. La relation dummy par l’une des relations de dépendances définies par est utilisée comme dans le schéma ALPAGE pour le schéma. Comme dans le schéma ALPAGE, le les expressions figées (réfléchis intrinsèques, cli- schéma n’impose pas la projectivité si bien que la tiques figées, etc.) mais également pour l’annota- projection d’un noeud ne correspond pas nécessai- tion des répétitions et des hésitations. La relation rement à un segment continu de la phrase analy- PONCT n’est pas utilisée car absente des transcrip- sée. tions. Comme dans le schéma EASY, les modi- Les relations utilisées sont les suivantes : sujet fieurs sont différenciés suivant le type de leur gou- (suj), objet (obj ), objet prépositionnel (pobj ), at- verneur (verbe, nom, adjectif) afin de faciliter la tribut du sujet (atts ), attribut de l’objet (atto ), mo- comparaison avec les données EASY. difieur de verbe (modV ), de nom (modN ), d’ad- Comme le tableau 2 le montre, le passage d’un jectif (modAdj ) ou d’adverbe (modAdv ), complé- schéma d’annotation à un autre est relativement ment d’une préposition, d’un complémenteur ou simple. La conversion du format RAPSODYS vers d’un pronom relatif (comp ), auxiliaire verbal (aux le format EASY est essentiellement une conver- ), apposition (appos ), déterminant (det ), coor- sion par traduction ou élimination de relations
  • 4. (e.g., suj devient SUJ_V et det est éliminé). La suivantes : conversion vers le format ALPAGE implique en – Annotation : permet d’annoter des textes sui- outre soit de regrouper plusieurs catégories en une vant le schéma d’annotation présenté dans la seule (e.g., regrouper de_obj, a_obj et p_obj sous section précédente p_obj), soit de différencier une catégorie unique – Analyse : permet d’analyser du texte avec en plusieurs sous-catégories (e.g., mod en modV , l’analyseur MALT modAdj , modAdv , modP ). – Apprentissage : permet d’entraîner l’analy- seur MALT sur un ensemble de fichiers anno- 3 Environnement logiciel tés – Evaluation : permet de calculer les perfor- Il existe de nombreux environnements pour mances de l’analyseur par rapport à un corpus l’annotation de corpus en dépendances syn- de référence taxiques tels que par exemple, GRAPH (Salvo, Le logiciel implémenté en Java est dis- 2006), Annotate (Plaehen and Brants, 2000), ponible à l’url http://talc.loria.fr/ DTAG (Kromann, 2003) and CDG (White, 2000), GraphEdit.html. Il est portable et un clic suf- easyref (de la Clergerie, 2008). Cependant, nous fit à son installation sous Windows comme sous désirions avoir à disposition un outil qui répondent Linux ou MacOsX. L’annotation se fait par un jeu aux critères listés par (Reidsma et al., 2004) et plus simple d’opérations curseurs sur une interface gra- précisément, un outil qui satisfasse les contraintes phique WYSIWYG2 . Les formats produits sont suivantes : des formats texte ou XML, Syntex ou ConLL (voir – Facilité d’installation et portabilité : l’anno- infra). tation étant faite en télé-travail par des étu- diantes sans formation informatique, la faci- 3.1 Annotation lité d’installation et d’utilisation est un critère L’outil d’annotation est un outil de visualisation primordial. Le logiciel doit pouvoir être ins- et d’édition de structures syntaxiques en dépen- tallé rapidement et simplement sur les trois dances qui permet d’annoter du texte conformé- grands types de système d’exploitation ac- ment au schéma d’annotation JS YNATS . L’édi- tuellement en usage (MacOS, Linux, Win- tion se fait par des raccourcis claviers opérant sur dows). une interface graphique. Le texte d’entrée peut être – Facilité d’utilisation : l’annotation étant un ou non analysé. En pratique, l’annotation se fait travail fastidieux, il est essentiel que l’inter- par correction des analyses produites par MALT face d’annotation soit aussi ergonomique et . Le format d’entrée et de sortie est le format simple d’utilisation que possible. ConLL. L’outil accepte également le format texte – Extensibilité : l’environnement doit pouvoir et XML utilisé par l’analyseur Syntex (Bourigault être modifié pour répondre à l’évolution des et al., 2005). Une copie d’écran illustrant les re- besoins dictés par un projet de recherche tels présentations manipulées est donnée en Figure 1. que par exemple, des besoins en annotation mais également en apprentissage, analyse et 3.2 Analyse évaluation. La fonctionalité d’analyse permet d’analyser du – Compatibilité : afin de permettre l’évaluation texte avec l’analyseur MALT . Elle prend en entrée des résultats et des outils développés, il im- un fichier texte et produit en sortie un fichier texte porte que les fichiers annotés soient produits où chaque phrase contenue dans le fichier entrant dans un format compatible avec les formats est annotée avec l’analyse produite par l’analy- utilisés par la communauté scientifique tels seur MALT (format ConLL). Actuellement, l’ana- que par exemple, le format ConLL pour l’an- lyse en dépendances de MALT est précédée d’une notation syntaxique. phase d’annotation automatique des séquences de Un examen rapide des logiciels existants mon- mots en classes morpho-syntaxiques. Cette ana- trant qu’aucun de ceux-ci ne permettaient de ré- lyse morpho-syntaxique est réalisée par l’outil pondre à l’ensemble de ces critères, nous avons TreeTagger. Nous envisageons à court terme d’éli- développé un environnement logiciel, appelé JS Y- miner cette dépendance de la plate-forme propo- NATS pour Java software for Syntax Analysis of 2 Transcribed Speech qui intégre les fonctionnalités What you see is what you get
  • 5. sée vis-à-vis de TreeTagger afin d’intégrer l’en- 3.4 Evaluation semble des outils nécessaires au sein d’un logiciel L’environnement JS YNATS permet également unique 100 % Java. d’évaluer les performances d’un analyseur produi- En pratique, la fonctionalité d’analyse est uti- sant des données au format ConLL. Les scripts lisée pour la pré-annotation syntaxique des textes d’évaluation sont directement adaptés des scripts permettant ainsi aux annotatrices de travailler sur distribués pour les campagnes ConLL, et calculent des textes pré-annotés plutôt que sur des textes donc les mêmes métriques, en particulier le “score sans aucune annotation syntaxique. Comme l’ana- de rattachement en dépendances typées” (Labeled lyseur est ré-entrainé à chaque nouvelle phase Attachment Score ou LAS) (Surdeanu et al., 2008) d’annotation, la qualité des pré-annotations croît utilisé dans cet article, qui représente le pourcen- avec le temps, diminuant ainsi les temps d’annota- tage de mots pour lesquels le système a prédit le tion. En outre, la pré-annotation est généralement bon gouverneur et le bon type de dépendance. correcte au niveau des syntagmes de base (groupes nominaux et prépositionnels non récursifs, noyau 4 Cadre expérimental et évaluation verbal, subordonnées relatives simples, etc.), ce Nous utilisons JS YNATS pour développer un qui permet aux annotatrices de se concentrer sur corpus oral annoté syntaxiquement et entraîner les questions plus complexes liées au rattachement l’analyseur MALT . de ces syntagmes entre eux. 4.1 Corpus utilisé et procédure d’annotation 3.3 Apprentissage Le corpus utilisé pour l’apprentissage et le test est issu du corpus d’informations radio- JS YNATS permet d’entraîner MALT sur un en- diffusées produit par le projet Technolangue ES- semble de fichiers contenant du texte annoté syn- TER 2003-2005 (Gravier et al., 2004). Le corpus taxiquement et morpho-syntaxiquement. Des ou- ESTER comporte les transcriptions manuelles de tils de conversion de formats permettent de sup- 37 heures d’émissions radiophoniques d’informa- porter les formats ConLL, XML (Syntex) et Tree- tion francophone (années 1998 - 1999 et 2003). Tagger. L’algorithme déterministe de Nivre-Eager Les transcriptions manuelles de ESTER étant des- est utilisé pour l’analyse, et sa version “oracle” tinées au calcul du taux de reconnaissance des sys- produit pour l’apprentissage un ensemble de vec- tèmes de reconnaissance automatique de la parole, teurs d’observation, chaque vecteur étant associé à seuls les mots complets sont annotés : ainsi, les une des quatre “actions” de l’algorithme de Nivre répétitions sont annotées si les mots répétés sont (Shift, Reduce, Left-Arc et Right-Arc). Les vec- complets, les “euh” d’hésitation sont considérés teurs d’observation incluent les informations sui- comme des mots et sont donc également anno- vantes, qui sont celles proposées par défaut dans tés, mais par contre les bruits, les mots incomplets, MALT : bref tout ce qui ne fait pas partie du “lexique” de reconnaissance, n’est pas annoté. Pour ce travail, – Formes fléchies et lemmes des deux mots po- nous avons également supprimé toute information tentiellement dépendants (L et R) ; de ponctuation avant l’étape d’analyse syntaxique, – Forme fléchie du mot suivant R ; car les sorties des systèmes de transcription auto- – Forme fléchie du mot gouvernant L ; matique ne disposent pas de ces informations. – Classes morpho-syntaxiques de L et R, du Un sous-ensemble de ce corpus composé de 20 mot précédant L, et des trois mots suivants 000 mots est extrait d’émissions de France-Inter R; datées de 1999. Ce sous-corpus est annoté auto- – Types des dépendances issues de L, des dé- matiquement en classes morpho-syntaxiques par pendants les plus à gauche et à droite de L, et l’outil TreeTagger (Schmid, 1995), puis converti du dépendant le plus à gauche de R. au format CONLL. Ensuite, ce corpus enrichi Cet ensemble de vecteurs et leurs classes as- est resegmenté en phrases manuellement, puis sociées constitue le corpus d’apprentissage d’un annoté également manuellement en dépendances classifieur à base de machines à vecteurs supports syntaxiques selon le guide d’annotation décrit pré- (SVM) servant dans MALT à décider des dépen- cédemment. Cette annotation en dépendances est dances à établir. en fait réalisée itérativement : chaque itération est
  • 6. décomposée en deux phases, respectivement une 2009a)) et la courbe de progression (Figure 3) est phase d’annotation automatique en dépendances encourageante. réalisée par l’analyseur MALT entraîné avec les Nous avons également étudié l’influence de données de l’itération précédente, suivie d’une l’étape supplémentaire de vérification des anno- phase de correction manuelle de ces dépendances. tations en dépendance par une linguiste expert en Les itérations ont pour objectif d’accroître la taille incluant neuf dixièmes du corpus de test (vérifié) du corpus, et un nouveau corpus est considéré dans l’apprentissage de MALT , et en testant sur à chaque itération. L’itération initiale est réalisée le dixième restant. Le taux de dépendances cor- avec un petit corpus de 458 mots annoté entière- rectes final est calculé par validation croisée, en ment manuellement qui sert à entraîner une pre- faisant varier le dixième du corpus réservé au test. mière version de l’analyseur MALT . Une petite di- Le score LAS passe alors de 70.3% (aucune phrase zaine d’itérations permettent d’aboutir au corpus d’apprentissage n’a été vérifiée par la linguiste ex- décrit dans cet article. pert) à 71.8%. Ce résultat suggère que les erreurs Ce corpus annoté est alors divisé en deux par- d’annotation, qui sont présentes en bien plus grand ties, respectivement pour l’apprentissage et le test nombre dans le corpus non vérifié, semblent avoir de MALT : un impact relativement limité sur les performances – Apprentissage : La partie du corpus réser- du système, ce qui résulte probablement du fait vée à l’apprentissage contient 13135 mots et que l’apprentissage statistique du classifieur tend 12199 dépendances. Cette partie est utilisée à éliminer les erreurs non corrélées et assimilables telle quelle pour l’apprentissage de Malt. à du bruit. – Test : La partie du corpus reservée au test su- Nous avons enfin entraîné le système sur les bit une phase supplémentaire de vérification données annotées fournies par la campagne d’éva- et de correction par une linguiste expert. Elle luation des analyseurs syntaxiques EASY. Une contient 5 305 mots et 4 905 dépendances. évaluation préliminaire sur le fichier littéraire_1 de Au terme d’environ 6 semaines d’annotation, ce corpus donne une F-mesure de 50% en dépen- environ 20 000 mots ont pu être annotés par 4 an- dances typées. notatrices. Les annotatrices étaient des étudiantes de linguistique en deuxième et troisième année de 5 Conclusion licence. Cet article présente un environnement logiciel 4.2 Apprentissage et résultats pour l’apprentissage d’analyseurs en dépendances MALT est un système pour l’apprentissage syntaxiques et l’applique à l’apprentissage d’ana- d’analyseurs en dépendances syntaxiques. A par- lyseurs en dépendances pour le Français oral et tir d’un corpus annoté, le système apprend à écrit. projeter des traits syntaxiques et morphosyn- Les résultats préliminaires obtenus à partir de taxiques sur des décisions d’analyse (shift, reduce, corpus restreints sont encourageants et permettent création d’arcs de dépendances). C’est un sys- d’espérer avoir prochainement à disposition un tème libre source implanté en Java et disponible analyseur syntaxique de l’oral raisonnablement à l’url http://w3.msi.vxu.se/~nivre/ précis. Nous envisageons d’améliorer les perfor- research/MaltParser.html. mances à la fois par une annotation plus extensive Nous avons entrainé le système MALT sur le et par la mise en place de techniques d’appren- corpus d’apprentissage décrit au paragraphe pré- tissage semi-supervisées comme la méthodologie cédent. Les résultats sont largement inférieurs à d’apprentissage actif afin d’augmenter la taille du l’état de l’art pour le texte écrit avec un score corpus d’apprentissage. LAS de 71.8 % en dépendances typées. Par com- Cet analyseur ayant pour objectif principal paraison, l’analyseur développé par (Candito et d’extraire des informations syntaxiques sur un cor- al., 2009a) pour le texte écrit a une précision de pus transmis automatiquement, il reste encore à 86.56 % . Ils s’expliquent cependant par la taille évaluer ses performances sur des transcriptions au- réduite du corpus d’apprentissage (15 000 mots tomatiques et son impact sur la détection des dif- contre 385 458 pour le corpus arboré utilisé pour férents types d’erreurs de la reconnaissance, inser- apprendre les dépendances par (Candito et al., tions, omissions et substitutions.
  • 7. Acknowledgments. web pour la syntaxe. Traitement automatique des langues, 49(2) :247–270. Nous remercions l’INRIA pour le financement M. T. Kromann. 2003. The danish dependency tree- de l’Action de Recherche Concertée RAPSODYS bank and the dtag treebank tool. In Proceedings et le pôle TALC (“Traitement automatique des of the 2nd Workshop on Treebanks and Linguistic langues et des connaissances”) du contrat plan Theories,, Sweden. Etat-Région MISN (“Modélisation, Information et Alexis Nasr and Frédéric Béchet. 2009. Analyse Systèmes Numériques”) pour le financement de syntaxique en dépendances de l’oral spontané. In Conférence annuelle sur le Traitement Automatique l’opération ALIGNE. des Langues Naturelles - TALN 2009, Senlis. Joakim Nivre, Jens Hall, Jens Nilsson, A. Chanev, G. Eryigit, S. Kübler, S. Marinov, and E. Marsi. Bibliographie 2007. Maltparser : A language-independent system Anne Abeillé. 2004. Guide des annotateurs : Anno- for data-driven dependency parsing. Natural Lan- tation fonctionnelle. Technical report, Université de guage Engineering, 13(2) :95–135. Paris 7. O. Plaehen and T. Brants. 2000. Annotate - an efficient Abhishek Arun and Frank Keller. 2005. Lexicalization interactive annotation tool. In Proceedings of the 6th in crosslinguistic probabilistic parsing : The case of Applied Natural Language Processing Conference, french. In Proceedings of the 43rd Annual Mee- Seattle. ting of the Association for Computational Linguis- D. Reidsma, D. Hofs, and N. Jovanovi. 2004. Desi- tics, pages 306–313, Ann Arbor, MI. gning focused and efficient annotation tools. In Hu- Guillaume Bonfante, Bruno Guillaume, and Guy Per- man Media Interaction research group, Centre for rier. 2003. Analyse syntaxique électrostatique. Telematics and Information Technology, Enschede. Traitement Automatique des Langues, 44(3) :93– Azim Roussanaly, Benoît Crabbé, and Jérôme Perrin. 120. 2005. Premier bilan de la participation du LORIA Pierre Boullier, Benoit Sagot, and Lionel Clément. à la campagne d’évaluation EASY. In 12e Confé- 2005. Un analyseur lfg efficace pour le français : rence annuelle sur le Traitement Automatique des Sxlfg. In Actes de TALN 05, pages 403–40. Langues Naturelles - TALN 2005, Dourdan, France, 06. ATALA. Didier Bourigault, Cécile Fabre, Cécile Frérot, Marie- Paule Jacques, and S. Ozdowska. 2005. Syntex, J. M. J. Salvo. 2006. Openjgraph - java graph and un analyseur syntaxique de corpus. In actes du col- graph drawing project. http://openjgraph. loque TALN. sourceforge.net/. Marie-Hélène Candito, Benoit Crabbé, and Djamé Sed- Natalie Schluter and Josef van Genabith. 2008. dah. 2009a. On statistical parsing of french with Treebank-based acquisition of lfg parsing resources supervised and semi-supervised strategies. In Pro- for french. In LREC. ceedings EACL Workshop 2009 : Grammatical Infe- H. Schmid. 1995. Improvements in part-of-speech tag- rence for computational linguistics. ging with an application to german. In Proc. Work- Marie-H´ lène Candito, Benoit Crabbé, and Mathieu shop EACL SIGDAT, Dublin. Falco. 2009b. Dépendances syntaxiques de surface M. Surdeanu, R. Johansson, A. Meyers, L. Marquez, pour le français. Technical report, Université de Pa- and J. Nivre. 2008. The conll-2008 shared task on ris 7. joint parsing of syntactic and semantic dependencies Eric Villemonte de la Clergerie. 2008. A collaborative conll 2008. In Proc. 12th Conference on Computa- infrastructure for handling syntactic annotations. In tional Natural Language Learning, pages 159–177, First International Workshop on "Automated Syn- Manchester, August. tactic Annotations for Interoperable Language Re- Éric Villemonte de La Clergerie. 2005. DyALog : a sources", Hong-Kong. tabular logic programming based environment for Gil Francopoulo. 2005. Tagparser et technolangue- NLP. In Proceedings of 2nd International Work- easy. In Actes de l’atelier Easy, TALN. shop on Constraint Solving and Language Proces- sing (CSLP’05), Barcelona, Spain, October. Véronique Gendner, Anne Vilnat, Laurence Monceaux, Patrick Paroubek, Isabelle Robba, and Gil Franco- C. White. 2000. Rapid Grammar Development and poulo. 2008. Les annotations syntaxique de réfé- Parsing : Constraint Dependency Grammar with rence peas, version 1.11. Technical report, Projet Abstract Role Values. Ph.D. thesis, Purdue Univer- ANR Passage. sity., West Lafayette, Indiana,. G. Gravier, J.-F. Bonastre, S. Galliano, E. Geoffrois, K. Mc Tait, and K. Choukri. 2004. Ester, une campagne d’évaluation des systèmes d’indexation d’émissions radiophoniques. In Proc. JEP, Fez. Olivier Hamon, Patrick Paroubek, and Djamel Mos- tefa. 2008. Sews : un serveur d’évaluation orienté
  • 8. RAPSODYS (18) ALPAGE (19) P7 (8) EASY (14) suj suj SUJ SUJ_V obj obj OBJ COD_V pobj p_obj P-OBJ CPL_V de_obj DE-OBJ CPL_V a_obj A-OBJ dep atts ats ATS ATB_SO atto ato ATO modV mod MOD MOD_V ref dummy aff aux aux_pass aux_caus det det modN mod MOD_N comp arg_cons, arg_comp, obj, p_obj COMP cc coord, arg_coord COORD multimots ponct modA MOD_A modaDV MOD_R MOD_P appos APP juxt JUXT F IG . 2 – Relations utilisées par les schémas d’annotation pour le français Le nombre suivant le nom des schémas indique le nombre de relations postulé par chaque schéma 75 70 65 60 55 50 45 40 0 2000 4000 6000 8000 10000 12000 14000 F IG . 3 – Évolution du score de rattachement en dépendances typées (score LAS) obtenu par JS YNATS en fonction de la taille du corpus d’apprentissage. L’axe des abscisses représente le nombre de mots utilisés pour apprendre MALT .