Vers une nouvelle approche de la correction grammaticale automatique
1. Vers une nouvelle approche de la
correction grammaticale automatique
Agnès Souque
Doctorante, Laboratoire Lidilem,
Université Stendhal – Grenoble 3
Doctorante – conseil auprès de Linagora
1
2. Qui suis-je...
Une quot;Talistequot;
– TAL : Traitement Automatique des Langues
– Traitement informatique des données
langagières
– Intégration de modèles linguistiques dans des
applications informatiques
– => correction orthographique, grammaticale
2
3. Sommaire
●
Existant
●
Amélioration du correcteur LanguageTool
●
Les limites
●
Reconsidération du problème
3
4. Existant
Précédents travaux
●
Correction grammaticale ≠ orthographique
●
Pas de correcteur grammatical générique libre
pour le français
●
Projet de correcteur grammatical français libre
pour OpenOffice.org
– Travaux de M. Lechelt sur An Gramadóir
4
5. Existant
Structure des correcteurs grammaticaux
Texte à
Segmentation du texte en phrases, puis en
vérifier
➔
TOKENISATION
phrases et
tokens
tokens (mots + ponctuations)
T Étiquetage
A morpho-
➔
Étiquetage des mots avec les informations
G syntaxique
G
I
texte étiqueté sur leurs catégories et sous-catégories.
N Désambi-
G guïsation ➔
Réduction du nombre d'étiquettes (tags)
texte étiqueté
désambiguïsé par mot.
CHUNKING
Phrases
segmentées
➔
Segmentation à un niveau intermédiaire
en chunks
DÉTECTION
entre la phrase et le mot.
DES FAUTES
règles d'erreurs
➔
Détection des fautes par correspondance
entre le texte et un modèle dans une règle.
ou de grammaire
Texte corrigé
5
6. Existant
Correcteur grammatical libre LanguageTool
Créé par Daniel Naber pour l'anglais
Texte à
vérifier ●
TOKENISATION
phrases et
tokens
●
Extension d'OpenOffice.org
T Étiquetage
A morpho-
●
Structure :
G syntaxique
G
I
texte étiqueté
– Pas de désambiguïsation, ni de chunking
Règles d'erreurs en XML
N Désambi-
G guïsation –
texte étiqueté
texte étiqueté
désambiguïsé
désambiguïsé
<rule name=quot;ma (m'a)quot; id=quot;MAquot;>
CHUNKING <pattern>
Phrases <token>ma</token>
segmentées
en chunks <token postag_regexp=quot;yesquot; postag=quot;V.*quot;/>
DÉTECTION
DES FAUTES
</pattern>
règles d'erreurs
<message>Vouliez-vous écrire m'a ?</message>
ou de grammaire <example type=quot;correctquot;>Il m'a répondu</example>
Texte corrigé <example type=quot;incorrectquot;>Il ma répondu</example>
</rule> 6
7. Améliorations de LanguageTool
Texte à
Ajout de la désambiguïsation :
vérifier
●
TOKENISATION
Règle : quot;sa + verbe = fauxquot;
phrases et
tokens –
T Étiquetage
A morpho- Sa porte est fermée => faux car porte est ambigu
G syntaxique
G texte étiqueté
(nom, mais aussi verbe)
I
N Désambi-
G guïsation
●
Ajout de la segmentation en chunks :
texte étiqueté
désambiguïsé
– Délimitation de groupes de mots
CHUNKING
Phrases
* [Les enfants] [en situation] [de blocage] [vont utilisé]
segmentées
en chunks
[le code restreint]
DÉTECTION
DES FAUTES
●
Ajout de l'unification :
règles d'erreurs
ou de grammaire
– détermine si bons accords dans les chunks
Texte corrigé ou pas
7
8. Améliorations de LanguageTool
●
Nouvelles règles de corrections :
– Règles créées pour Gramadóir réécrites en XML :
●
généralisations, regroupements => 450 règles sur les
groupes nominaux au départ, réduites à 4
– Création de règles à partir de l'analyse d'un corpus
de fautes (corpus COVAREC – Lidilem Grenoble 3)
●
Erreurs détectées par LanguageTool :
– Confusion d'homophones : ça/sa, a/à, son/sont, etc.
– Accords au sein des groupes nominaux:*des formule
– Erreurs au sein des groupes verbaux : * j'ai trouver
– Accords sujet-verbe : * on devrez
8
9. Les limites
Pattern-matching rigide :
– Prévoir toutes les contextes de fautes possibles
●
Travail très coûteux,
●
à refaire pour chaque langue
●
Explosion combinatoire des
règles dans les groupes nominaux
– Silence/bruit (orthographe, étiquetage, etc.)
– Limitation au contexte immédiat
9
10. Reconsidération du problème
Nouvelle approche de la correction grammaticale
●
Sortir de l'approche en couches quot;top-downquot;:
1)Segmentation
2)Étiquetage
3)Correction
●
Sortir du cercle vicieux de cette approche :
➢
Pas d'erreur > bon étiquetage > bonne détection
●
Sortir de l'approche énumérative et déclarative
des fautes
10
11. Reconsidération du problème
Nouvelle approche de la correction grammaticale
Nouvelle approche quot;left-rightquot;
– Analyse morpho-syntaxique et correction
grammaticale au fur et à mesure de la lecture
* Les premiers linguistes on donc d'abord écouté
[GN----------------------][ erreur
=> problème d'attendu à droite du groupe nominal
– Détection d'incohérences, déclaration de ce qui
est attendu, au lieu des fautes
11
12. Reconsidération du problème
Nouvelle approche de la correction grammaticale
●
Reconsidération complète du formalisme et du
traitement
●
Conception d'un analyseur morpho-syntaxique
robuste
●
Constitution d'un corpus d'erreurs
– Définition d'une typologie des erreurs
– Validation de l'analyseur
●
Formalisme de description générique
12