Vers une nouvelle approche de la correction grammaticale automatique

Vers une nouvelle approche de la
correction grammaticale automatique

Agnès Souque
Doctorante, Laboratoire Lidilem,
Université Stendhal – Grenoble 3
Doctorante – conseil auprès de Linagora
1

Qui suis-je...

Une quot;Talistequot;
– TAL : Traitement Automatique des Langues
– Traitement informatique des données
langagières
– Intégration de modèles linguistiques dans des
applications informatiques

– => correction orthographique, grammaticale

2

Sommaire

●
Existant
●
Amélioration du correcteur LanguageTool
●
Les limites
●
Reconsidération du problème

3

Existant
Précédents travaux

●
Correction grammaticale ≠ orthographique

●
Pas de correcteur grammatical générique libre
pour le français

●
Projet de correcteur grammatical français libre
pour OpenOffice.org
– Travaux de M. Lechelt sur An Gramadóir

4

Existant
Structure des correcteurs grammaticaux
Texte à

Segmentation du texte en phrases, puis en
vérifier
➔
TOKENISATION
phrases et
tokens
tokens (mots + ponctuations)
T Étiquetage
A morpho-
➔
Étiquetage des mots avec les informations
G syntaxique
G
I
texte étiqueté sur leurs catégories et sous-catégories.
N Désambi-
G guïsation ➔
Réduction du nombre d'étiquettes (tags)
texte étiqueté
désambiguïsé par mot.
CHUNKING
Phrases
segmentées
➔
Segmentation à un niveau intermédiaire
en chunks
DÉTECTION
entre la phrase et le mot.
DES FAUTES
règles d'erreurs
➔
Détection des fautes par correspondance
entre le texte et un modèle dans une règle.
ou de grammaire

Texte corrigé

5

Existant
Correcteur grammatical libre LanguageTool
Créé par Daniel Naber pour l'anglais
Texte à
vérifier ●

TOKENISATION
phrases et
tokens
●
Extension d'OpenOffice.org
T Étiquetage
A morpho-
●
Structure :
G syntaxique
G
I
texte étiqueté
– Pas de désambiguïsation, ni de chunking
Règles d'erreurs en XML
N Désambi-
G guïsation –
texte étiqueté
texte étiqueté
désambiguïsé
désambiguïsé
<rule name=quot;ma (m'a)quot; id=quot;MAquot;>
CHUNKING <pattern>
Phrases <token>ma</token>
segmentées
en chunks <token postag_regexp=quot;yesquot; postag=quot;V.*quot;/>
DÉTECTION
DES FAUTES
</pattern>
règles d'erreurs
<message>Vouliez-vous écrire m'a ?</message>
ou de grammaire <example type=quot;correctquot;>Il m'a répondu</example>
Texte corrigé <example type=quot;incorrectquot;>Il ma répondu</example>
</rule> 6

Améliorations de LanguageTool
Texte à

Ajout de la désambiguïsation :
vérifier
●
TOKENISATION

Règle : quot;sa + verbe = fauxquot;
phrases et
tokens –
T Étiquetage
A morpho- Sa porte est fermée => faux car porte est ambigu
G syntaxique
G texte étiqueté
(nom, mais aussi verbe)
I
N Désambi-
G guïsation
●
Ajout de la segmentation en chunks :
texte étiqueté
désambiguïsé
– Délimitation de groupes de mots
CHUNKING
Phrases
* [Les enfants] [en situation] [de blocage] [vont utilisé]
segmentées
en chunks
[le code restreint]
DÉTECTION
DES FAUTES
●
Ajout de l'unification :
règles d'erreurs
ou de grammaire
– détermine si bons accords dans les chunks
Texte corrigé ou pas
7

Améliorations de LanguageTool

●
Nouvelles règles de corrections :
– Règles créées pour Gramadóir réécrites en XML :
●
généralisations, regroupements => 450 règles sur les
groupes nominaux au départ, réduites à 4
– Création de règles à partir de l'analyse d'un corpus
de fautes (corpus COVAREC – Lidilem Grenoble 3)
●
Erreurs détectées par LanguageTool :
– Confusion d'homophones : ça/sa, a/à, son/sont, etc.
– Accords au sein des groupes nominaux:*des formule
– Erreurs au sein des groupes verbaux : * j'ai trouver
– Accords sujet-verbe : * on devrez
8

Les limites

Pattern-matching rigide :
– Prévoir toutes les contextes de fautes possibles
●
Travail très coûteux,
●
à refaire pour chaque langue
●
Explosion combinatoire des
règles dans les groupes nominaux

– Silence/bruit (orthographe, étiquetage, etc.)
– Limitation au contexte immédiat
9

Nouvelle approche de la correction grammaticale

●
Sortir de l'approche en couches quot;top-downquot;:
1)Segmentation
2)Étiquetage
3)Correction

●
Sortir du cercle vicieux de cette approche :
➢
Pas d'erreur > bon étiquetage > bonne détection

●
Sortir de l'approche énumérative et déclarative
des fautes
10


Nouvelle approche quot;left-rightquot;

– Analyse morpho-syntaxique et correction
grammaticale au fur et à mesure de la lecture

* Les premiers linguistes on donc d'abord écouté
[GN----------------------][ erreur
=> problème d'attendu à droite du groupe nominal

– Détection d'incohérences, déclaration de ce qui
est attendu, au lieu des fautes
11


●
Reconsidération complète du formalisme et du
traitement
●
Conception d'un analyseur morpho-syntaxique
robuste
●
Constitution d'un corpus d'erreurs
– Définition d'une typologie des erreurs
– Validation de l'analyseur
●
Formalisme de description générique

12

Merci de votre attention

agnes.souque@free.fr

13

Vers une nouvelle approche de la correction grammaticale automatique

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von guest3be047

Mehr von guest3be047 (11)

Vers une nouvelle approche de la correction grammaticale automatique