SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Downloaden Sie, um offline zu lesen
Vers une nouvelle approche de la
correction grammaticale automatique

            Agnès Souque
     Doctorante, Laboratoire Lidilem,
     Université Stendhal – Grenoble 3
  Doctorante – conseil auprès de Linagora
                                            1
Qui suis-je...

Une quot;Talistequot;
  –   TAL : Traitement Automatique des Langues
  –   Traitement informatique des données
      langagières
  –   Intégration de modèles linguistiques dans des
      applications informatiques

  –   => correction orthographique, grammaticale



                                                      2
Sommaire


●
    Existant
●
    Amélioration du correcteur LanguageTool
●
    Les limites
●
    Reconsidération du problème




                                              3
Existant
                      Précédents travaux

●
    Correction grammaticale ≠ orthographique


●
    Pas de correcteur grammatical générique libre
    pour le français


●
    Projet de correcteur grammatical français libre
    pour OpenOffice.org
    –   Travaux de M. Lechelt sur An Gramadóir


                                                      4
Existant
                         Structure des correcteurs grammaticaux
           Texte à

                             Segmentation du texte en phrases, puis en
           vérifier
                         ➔
TOKENISATION
         phrases et
           tokens
                             tokens (mots + ponctuations)
 T Étiquetage
 A morpho-
                         ➔
                             Étiquetage des mots avec les informations
 G syntaxique
 G
 I
      texte étiqueté         sur leurs catégories et sous-catégories.
 N Désambi-
 G guïsation             ➔
                             Réduction du nombre d'étiquettes (tags)
        texte étiqueté
        désambiguïsé         par mot.
  CHUNKING
          Phrases
        segmentées
                         ➔
                             Segmentation à un niveau intermédiaire
         en chunks
 DÉTECTION
                             entre la phrase et le mot.
 DES FAUTES
 règles d'erreurs
                         ➔
                             Détection des fautes par correspondance
                             entre le texte et un modèle dans une règle.
ou de grammaire

        Texte corrigé

                                                                           5
Existant
                      Correcteur grammatical libre LanguageTool
                            Créé par Daniel Naber pour l'anglais
           Texte à
           vérifier     ●

TOKENISATION
         phrases et
           tokens
                        ●
                            Extension d'OpenOffice.org
 T Étiquetage
 A morpho-
                        ●
                            Structure :
 G syntaxique
 G
 I
      texte étiqueté
                             –   Pas de désambiguïsation, ni de chunking
                                 Règles d'erreurs en XML
 N Désambi-
 G guïsation                 –
       texte étiqueté
       texte étiqueté
       désambiguïsé
       désambiguïsé
                            <rule name=quot;ma (m'a)quot; id=quot;MAquot;>
  CHUNKING                     <pattern>
          Phrases                  <token>ma</token>
        segmentées
         en chunks                 <token postag_regexp=quot;yesquot; postag=quot;V.*quot;/>
 DÉTECTION
 DES FAUTES
                               </pattern>
 règles d'erreurs
                               <message>Vouliez-vous écrire m'a ?</message>
ou de grammaire                <example type=quot;correctquot;>Il m'a répondu</example>
        Texte corrigé          <example type=quot;incorrectquot;>Il ma répondu</example>
                            </rule>                                            6
Améliorations de LanguageTool
           Texte à

                            Ajout de la désambiguïsation :
           vérifier
                        ●
TOKENISATION

                                 Règle : quot;sa + verbe = fauxquot;
         phrases et
           tokens            –
 T Étiquetage
 A morpho-              Sa porte est fermée => faux car porte est ambigu
 G syntaxique
 G    texte étiqueté
                                               (nom, mais aussi verbe)
 I
 N Désambi-
 G guïsation
                        ●
                            Ajout de la segmentation en chunks :
     texte étiqueté
     désambiguïsé
                             –   Délimitation de groupes de mots
  CHUNKING
          Phrases
                        * [Les enfants] [en situation] [de blocage] [vont utilisé]
        segmentées
         en chunks
                            [le code restreint]
 DÉTECTION
 DES FAUTES
                        ●
                            Ajout de l'unification :
 règles d'erreurs
ou de grammaire
                             –   détermine si bons accords dans les chunks
        Texte corrigé            ou pas
                                                                               7
Améliorations de LanguageTool

●
    Nouvelles règles de corrections :
    –   Règles créées pour Gramadóir réécrites en XML :
         ●
             généralisations, regroupements => 450 règles sur les
             groupes nominaux au départ, réduites à 4
    –   Création de règles à partir de l'analyse d'un corpus
        de fautes (corpus COVAREC – Lidilem Grenoble 3)
●
    Erreurs détectées par LanguageTool :
    –   Confusion d'homophones : ça/sa, a/à, son/sont, etc.
    –   Accords au sein des groupes nominaux:*des formule
    –   Erreurs au sein des groupes verbaux : * j'ai trouver
    –   Accords sujet-verbe : * on devrez
                                                                    8
Les limites

Pattern-matching rigide :
  –   Prévoir toutes les contextes de fautes possibles
       ●
           Travail très coûteux,
       ●
           à refaire pour chaque langue
       ●
           Explosion combinatoire des
           règles dans les groupes nominaux




  –   Silence/bruit (orthographe, étiquetage, etc.)
  –   Limitation au contexte immédiat
                                                         9
Reconsidération du problème
        Nouvelle approche de la correction grammaticale

●
    Sortir de l'approche en couches quot;top-downquot;:
    1)Segmentation
    2)Étiquetage
    3)Correction

●
    Sortir du cercle vicieux de cette approche :
    ➢
        Pas d'erreur > bon étiquetage > bonne détection


●
    Sortir de l'approche énumérative et déclarative
    des fautes
                                                          10
Reconsidération du problème
      Nouvelle approche de la correction grammaticale

Nouvelle approche quot;left-rightquot;

  –   Analyse morpho-syntaxique et correction
      grammaticale au fur et à mesure de la lecture

  * Les premiers linguistes on donc d'abord écouté
    [GN----------------------][ erreur
              => problème d'attendu à droite du groupe nominal

  –   Détection d'incohérences, déclaration de ce qui
      est attendu, au lieu des fautes
                                                                 11
Reconsidération du problème
        Nouvelle approche de la correction grammaticale

●
    Reconsidération complète du formalisme et du
    traitement
●
    Conception d'un analyseur morpho-syntaxique
    robuste
●
    Constitution d'un corpus d'erreurs
    –   Définition d'une typologie des erreurs
    –   Validation de l'analyseur
●
    Formalisme de description générique


                                                      12
Merci de votre attention



   agnes.souque@free.fr

                           13

Weitere ähnliche Inhalte

Mehr von guest3be047

OBM : la solution collaborative libre
OBM : la solution collaborative libre OBM : la solution collaborative libre
OBM : la solution collaborative libre guest3be047
 
Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre guest3be047
 
Utilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open SourceUtilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open Sourceguest3be047
 
Embarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apportsEmbarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apportsguest3be047
 
Virtualisation par logiciels libres
Virtualisation par logiciels libresVirtualisation par logiciels libres
Virtualisation par logiciels libresguest3be047
 
Roadmap OOo 2008
Roadmap OOo 2008Roadmap OOo 2008
Roadmap OOo 2008guest3be047
 
Bonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision NagiosBonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision Nagiosguest3be047
 
NaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervisionNaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervisionguest3be047
 
CD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReToCD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReToguest3be047
 
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PMEOBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PMEguest3be047
 
Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI guest3be047
 

Mehr von guest3be047 (11)

OBM : la solution collaborative libre
OBM : la solution collaborative libre OBM : la solution collaborative libre
OBM : la solution collaborative libre
 
Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre
 
Utilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open SourceUtilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open Source
 
Embarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apportsEmbarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apports
 
Virtualisation par logiciels libres
Virtualisation par logiciels libresVirtualisation par logiciels libres
Virtualisation par logiciels libres
 
Roadmap OOo 2008
Roadmap OOo 2008Roadmap OOo 2008
Roadmap OOo 2008
 
Bonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision NagiosBonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision Nagios
 
NaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervisionNaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervision
 
CD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReToCD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReTo
 
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PMEOBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
 
Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI
 

Vers une nouvelle approche de la correction grammaticale automatique

  • 1. Vers une nouvelle approche de la correction grammaticale automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora 1
  • 2. Qui suis-je... Une quot;Talistequot; – TAL : Traitement Automatique des Langues – Traitement informatique des données langagières – Intégration de modèles linguistiques dans des applications informatiques – => correction orthographique, grammaticale 2
  • 3. Sommaire ● Existant ● Amélioration du correcteur LanguageTool ● Les limites ● Reconsidération du problème 3
  • 4. Existant Précédents travaux ● Correction grammaticale ≠ orthographique ● Pas de correcteur grammatical générique libre pour le français ● Projet de correcteur grammatical français libre pour OpenOffice.org – Travaux de M. Lechelt sur An Gramadóir 4
  • 5. Existant Structure des correcteurs grammaticaux Texte à Segmentation du texte en phrases, puis en vérifier ➔ TOKENISATION phrases et tokens tokens (mots + ponctuations) T Étiquetage A morpho- ➔ Étiquetage des mots avec les informations G syntaxique G I texte étiqueté sur leurs catégories et sous-catégories. N Désambi- G guïsation ➔ Réduction du nombre d'étiquettes (tags) texte étiqueté désambiguïsé par mot. CHUNKING Phrases segmentées ➔ Segmentation à un niveau intermédiaire en chunks DÉTECTION entre la phrase et le mot. DES FAUTES règles d'erreurs ➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle. ou de grammaire Texte corrigé 5
  • 6. Existant Correcteur grammatical libre LanguageTool Créé par Daniel Naber pour l'anglais Texte à vérifier ● TOKENISATION phrases et tokens ● Extension d'OpenOffice.org T Étiquetage A morpho- ● Structure : G syntaxique G I texte étiqueté – Pas de désambiguïsation, ni de chunking Règles d'erreurs en XML N Désambi- G guïsation – texte étiqueté texte étiqueté désambiguïsé désambiguïsé <rule name=quot;ma (m'a)quot; id=quot;MAquot;> CHUNKING <pattern> Phrases <token>ma</token> segmentées en chunks <token postag_regexp=quot;yesquot; postag=quot;V.*quot;/> DÉTECTION DES FAUTES </pattern> règles d'erreurs <message>Vouliez-vous écrire m'a ?</message> ou de grammaire <example type=quot;correctquot;>Il m'a répondu</example> Texte corrigé <example type=quot;incorrectquot;>Il ma répondu</example> </rule> 6
  • 7. Améliorations de LanguageTool Texte à Ajout de la désambiguïsation : vérifier ● TOKENISATION Règle : quot;sa + verbe = fauxquot; phrases et tokens – T Étiquetage A morpho- Sa porte est fermée => faux car porte est ambigu G syntaxique G texte étiqueté (nom, mais aussi verbe) I N Désambi- G guïsation ● Ajout de la segmentation en chunks : texte étiqueté désambiguïsé – Délimitation de groupes de mots CHUNKING Phrases * [Les enfants] [en situation] [de blocage] [vont utilisé] segmentées en chunks [le code restreint] DÉTECTION DES FAUTES ● Ajout de l'unification : règles d'erreurs ou de grammaire – détermine si bons accords dans les chunks Texte corrigé ou pas 7
  • 8. Améliorations de LanguageTool ● Nouvelles règles de corrections : – Règles créées pour Gramadóir réécrites en XML : ● généralisations, regroupements => 450 règles sur les groupes nominaux au départ, réduites à 4 – Création de règles à partir de l'analyse d'un corpus de fautes (corpus COVAREC – Lidilem Grenoble 3) ● Erreurs détectées par LanguageTool : – Confusion d'homophones : ça/sa, a/à, son/sont, etc. – Accords au sein des groupes nominaux:*des formule – Erreurs au sein des groupes verbaux : * j'ai trouver – Accords sujet-verbe : * on devrez 8
  • 9. Les limites Pattern-matching rigide : – Prévoir toutes les contextes de fautes possibles ● Travail très coûteux, ● à refaire pour chaque langue ● Explosion combinatoire des règles dans les groupes nominaux – Silence/bruit (orthographe, étiquetage, etc.) – Limitation au contexte immédiat 9
  • 10. Reconsidération du problème Nouvelle approche de la correction grammaticale ● Sortir de l'approche en couches quot;top-downquot;: 1)Segmentation 2)Étiquetage 3)Correction ● Sortir du cercle vicieux de cette approche : ➢ Pas d'erreur > bon étiquetage > bonne détection ● Sortir de l'approche énumérative et déclarative des fautes 10
  • 11. Reconsidération du problème Nouvelle approche de la correction grammaticale Nouvelle approche quot;left-rightquot; – Analyse morpho-syntaxique et correction grammaticale au fur et à mesure de la lecture * Les premiers linguistes on donc d'abord écouté [GN----------------------][ erreur => problème d'attendu à droite du groupe nominal – Détection d'incohérences, déclaration de ce qui est attendu, au lieu des fautes 11
  • 12. Reconsidération du problème Nouvelle approche de la correction grammaticale ● Reconsidération complète du formalisme et du traitement ● Conception d'un analyseur morpho-syntaxique robuste ● Constitution d'un corpus d'erreurs – Définition d'une typologie des erreurs – Validation de l'analyseur ● Formalisme de description générique 12
  • 13. Merci de votre attention agnes.souque@free.fr 13