Conception et développement d'une marketplace basée sur l'architecture micros...
Génération automatique de questions à partir de textes en français
1. Université catholique de Louvain
Faculté de Philosophie, Arts et Lettres
G ÉNÉRATION AUTOMATIQUE DE
Q UESTIONS À PARTIR DE T EXTES EN
F RANÇAIS
Mémoire présenté par
L OUIS DE V IRON
en vue de l’obtention du diplôme de
M ASTER EN L INGUISTIQUE
à finalité spécialisée en Traitement Automatique du Langage
P ROMOTEUR : D R . R ICHARD B EAUFORT
Année académique 2010-2011
2.
3. R EMERCIEMENTS
Au moment de conclure ce mémoire, et de facto mes cinq années d’études, je
tiens à adresser quelques remerciements aux personnes qui m’ont aidé à faire de
cette période un passage inoubliable, tant sur le plan personnel que sur le plan
académique.
Je remercie d’abord Monsieur Richard Beaufort, mon promoteur, pour ces deux
années de collaboration qui ont abouti au présent travail. Ses nombreux conseils,
ses remarques, son souci de la perfection et les entretiens qu’il m’a accordés
m’ont beaucoup appris et j’espère qu’ils auront contribué à faire de ce mémoire
un travail de qualité.
Je tiens également à exprimer ma profonde gratitude à Mesdames Delphine
Bernhard et Véronique Moriceau, ainsi qu’à Monsieur Xavier Tannier pour leur
encadrement d’une qualité exceptionnelle durant les deux mois de stage passés
au LIMSI. Leurs conseils et encouragements à aller de l’avant m’ont énormément
stimulé et fait progresser. Je remercie aussi tous les membres du groupe ILES pour
l’agréable accueil qu’ils m’ont réservé parmi eux.
Merci à Mademoiselle Alice Bardiaux pour sa relecture attentive de ce travail et
à Monsieur Michael Zock pour ses précieux conseils critiques.
Si ces deux années de master en linguistique furent un succès pour moi et une
si bonne formation, je le dois également à un encadrement de qualité. C’est
pourquoi je tiens à remercier Messieurs Sébastien Combéfis, Thomas François et
Hubert Naets pour leur disponibilité à toute épreuve.
Je remercie également Mademoiselle Louise-Amélie Cougnon de m’avoir
proposé une première immersion professionnelle dans le monde du TAL, et les
autres membres du CENTAL qui m’ont chaleureusement accueilli parmi eux pour
mon baptême de feu dans le monde de la recherche en juin dernier à Montpellier.
3
4. On ne réalise heureusement pas ses études tout seul et si j’ai pu passer
d’agréables moments sur les bancs des auditoires – et en dehors – durant ces deux
années de master, je le dois à mes fidèles camarades de promotion Florence,
Stéphanie, Cédric et Denis. Merci à vous pour cette entraide et l’amitié que nous
avons pu nouer dans l’« adversité ».
Je m’en voudrais d’oublier tous ceux qui ont partagé ma vie estudiantine et qui
ont collaboré à mon accomplissement extra-académique durant ces cinq années.
Je pense à mes amis du Campagnol, du Cercle FLTR, de l’ANLO, de la Schola, des
Blancs Chevaux, d’UTUC, à mes Amis de La Rue, et plus particulièrement à tous
ceux qui ont accompagné mon quotidien, à la Rue des Sports et à La Coquille.
Enfin, j’adresse mon dernier – et non le moindre – remerciement à Brieuc,
Aymeric et Éléonore pour leur complicité fraternelle ainsi qu’à mes parents, qui
m’ont donné la chance inestimable d’entamer des études et les moyens de les
achever, grâce à un soutien sans faille et une écoute toujours attentive.
Louis de Viron
Août 2011
4
13. Si le domaine des systèmes de questions-réponses 1 – consistant en la recherche
d’une réponse à une question donnée à partir d’une collection de documents –
est aujourd’hui en pleine expansion dans le monde du Traitement Automatique
du Langage (TAL), celui de la génération automatique de questions (GAQ) 2 est
largement moins populaire, du moins dans le monde francophone. En effet, alors
que de nombreuses recherches dans ce domaine ont été entamées pour l’anglais,
la littérature ne recense aucun article traitant de cette problématique en français,
à l’exception d’un travail d’étudiant introductif (Brette et Lescuyer, 2006).
La génération automatique de questions à partir de textes, dans sa forme ac-
tuelle, consiste en la transformation de phrases déclaratives en phrases interro-
gatives et constitue globalement l’opération inverse des systèmes de questions-
réponses. Grossièrement, elle part d’une réponse donnée sous forme de phrase
pour formuler la question correspondante. La tâche est complexe et mobilise
un grand nombre de ressources et outils du TAL, comme l’analyse syntaxique, la
résolution d’anaphores, la reconnaissance d’entités nommées ou encore la sim-
plification de texte. Les domaines d’application de ce type d’outil sont par ailleurs
variés et souvent motivés par un but pédagogique. Outre la création de tests et de
questionnaires à choix multiples, la génération automatique de questions peut
également servir à améliorer les systèmes de dialogue homme-machine ou les
systèmes de questions-réponses interactifs.
Notre mémoire se situe dans le contexte d’absence de ressources satisfaisantes
en français. Notre objectif est de proposer une méthodologie pour générer des
questions en français qui puisse mener à la création d’un outil concret. Pour ce
faire, une large réflexion théorique préalable est nécessaire pour implémenter
1. eng. : Question Answering (QA).
2. eng. : Question Generation (QG).
13
14. un système performant. Dès lors, le présent travail se compose de trois parties,
articulées selon une dynamique temporelle que l’on pourrait qualifier de « passé-
présent-futur ».
Le passé. La première partie, intitulée état de l’art, définit le cadre théorique de
notre objet d’étude. Nous y posons les réflexions préalables à l’implémentation
d’un générateur de questions. D’une part, nous étudions en profondeur la notion
de question. D’autre part, nous présentons le domaine de la génération automa-
tique de questions à travers une comparaison avec la génération automatique de
textes et un état de l’art de la discipline qui présente les principaux outils existants
en anglais.
Le présent. La deuxième partie présente l’implémentation d’un générateur au-
tomatique de questions pour le français. Elle fait suite à des travaux réalisés en
2010 dans le cadre d’un stage de deux mois au LIMSI, sous l’encadrement de
Delphine Bernhard, Xavier Tannier et Véronique Moriceau. Nous y développons
en détail notre méthodologie et exposons les résultats que nous avons obtenus,
après les avoir soumis à une évaluation.
Le futur. La troisième partie suggère des pistes de réflexions pour les éventuels
développements futurs de notre travail. Nous nous basons sur les limites soulevées
par l’évaluation pour identifier les problèmes majeurs et proposer des solutions
pour y remédier. En outre, nous exposons des améliorations supplémentaires qui
mériteraient d’être implémentées pour rendre le générateur plus performant et
plus complet.
Par ce travail, nous espérons montrer l’intérêt de la génération automatique
de questions, souvent effacée au profit des systèmes de questions-réponses. Le
14
15. parallèle avec la citation de Lévi-Strauss qui ouvre ce mémoire est dès lors établi et
pourrait constituer un bon slogan pour résumer notre travail si elle était traduite
de la manière suivante :
« Le meilleur système n’est pas celui qui fournit les vraies réponses,
c’est celui qui pose les vraies questions. »
Nous n’irons pas si loin et notre intention n’est évidemment pas de provoquer
les chercheurs en questions-réponses, mais bien de montrer que la génération
automatique de questions est bel et bien un domaine qui mérite qu’on s’y attarde
quelque peu. Telle est la raison d’être de ce mémoire.
15
18. Dans cette partie, nous présentons un état de l’art de la génération automa-
tique de questions. Le premier chapitre propose une large réflexion sur la notion
de question, que nous abordons selon deux points de vue principaux, en défi-
nissant d’une part une typologie des questions et d’autre part leur structure à
un niveau plus formel, tout en s’interrogeant sur les mécanismes mobilisés pour
passer d’une phrase déclarative à une phrase interrogative. Nous nous intéressons
ensuite au domaine de la génération automatique et au statut particulier que
revêt la génération de questions au sein de celui-ci. Nous présentons différentes
méthodologies utilisées en génération automatique de questions tout en réfléchis-
sant à ses différents domaines d’application, montrant que ce domaine d’études
est susceptible de donner lieu à de nombreuses applications concrètes.
18
19. CHAPITRE 1
LA NOTION DE QUESTION : DÉFINITION,
TYPOLOGIE ET STRUCTURE
Les phrases interrogatives ont fait l’objet de nombreuses études, notamment
en linguistique, en psychologie cognitive et en sciences de l’information et de la
documentation (Pomerantz, 2005 ; Moignet, 1966 ; Jacques, 1981). En traitement
automatique du langage, la recherche sur ce thème s’est surtout concentrée sur
le développement des systèmes de questions-réponses, donnant lieu à de nom-
breuses tentatives de typologies (Lehnert, 1978 ; Zock et Mitkov, 1991 ; Diekema
et al., 2003 ; Dang et al., 2006 ; Giampiccolo et al., 2007 ; Moriceau et al., 2010).
Dans ce chapitre, après une première définition très générale de la notion
de question, nous parcourons la littérature en vue d’établir une typologie de
questions qui puisse servir de base à la génération automatique. Nous étudions
ensuite la question d’un point de vue plus formel en examinant ce qui la définit
syntaxiquement et la distingue des phrases déclaratives. Enfin, nous présentons
un système de règles écrit par Langacker (1965) pour transformer des phrases
19
20. déclaratives en phrases interrogatives.
Le but de ce chapitre est d’obtenir une définition exhaustive de la notion de
question, qui a pour vocation de constituer une base théorique pertinente pour la
génération automatique.
1.1 Définition et typologie
Le Bon Usage (Grevisse et Goosse, 2007) définit la phrase interrogative de la
manière suivante :
« Par la phrase interrogative, on demande une information à l’interlocuteur. »
Complétant cette définition basique, les auteurs relèvent quatre types de ques-
tions :
– disjonctive : la question énonce une alternative (Tu sors ou je te sors ?)
– fictive : la question n’appelle pas de réponse (Qui sait ?)
– oratoire : on admet comme évidente la réponse à la question (Ne vous avais-
je pas averti ?)
– délibérative : le locuteur s’adresse à lui-même (Que faire à présent ?)
Zock et Mitkov (1991) notent que l’on peut classer les questions selon différents
points de vue. Ils en relèvent trois :
– Point de vue pragmatique, fonctionnel : ce point de vue fait référence à
la théorie des actes de langage (Searle, 1995 ; Austin, 1999). Les questions
sont classées selon l’acte qu’elles accomplissent. Néanmoins, cette théorie
est très descriptive et peu applicable concrètement dans un système de
génération. Nous ne l’abordons pas dans le cadre de ce travail.
20
21. – Point de vue linguistique : la classification passe outre le sens pour se baser
sur la forme et la structure des questions.
– Point de vue conceptuel : la typologie se base sur l’objet de la question (lieu,
temps...).
Cette section traite des classifications linguistique et conceptuelle en parcourant
les travaux de quelques auteurs qui s’y sont intéressés. Nous mettons en exergue
l’intérêt et la complémentarité de l’une et l’autre approche dans le cadre de la
génération automatique de questions.
1.1.1 Classification linguistique
Le Bon Usage (Grevisse et Goosse, 2007) opère deux distinctions au sein des
questions, menant à une première typologie basique :
1. Il oppose les phrases interrogatives directes, de forme interrogative (1) et
les interrogatives indirectes qui sont contenues dans une phrase énoncia-
tive, injonctive ou interrogative et introduites par un verbe de demande
(2).
(1) Reviens-tu demain à la maison ?
(2) Il se demande si tu reviens demain à la maison.
Dans le cadre de ce travail, nous laissons de côté ce deuxième type d’interro-
gative pour se concentrer sur la formation des questions, entendues comme
des phrases interrogatives directes. Dorénavant, nous utilisons indifférem-
ment les termes question et phrase interrogative par souci de simplicité.
2. À l’instar de Danjoux-Flaux et Dessaux (1976), Le Bon Usage distingue les
phrases interrogatives globales ou totales (exemple 3) 1 , dont la réponse
1. La littérature use indifféremment des appellations globales et totales.
21
22. peut-être oui ou non, des phrases interrogatives partielles, pour lesquelles
l’interrogation porte sur un élément que le locuteur ignore (exemple 4) 2 .
(3) Reviens-tu demain ?
(4) Quand reviens-tu ?
Le tableau 1.1 synthétise cette opposition sur la base de différents paradigmes.
Question totale Question partielle
Mot interrogatif / pronom (qui, que, quoi, lequel,
combien)
déterminant (quel, combien de)
adverbe (comment, où, pourquoi,
quand)
Tournure est-ce en tête de phrase en tête de phrase, précédée du mot
que interrogatif
Portée de l’inter- sur le verbe (éventuellement en re- sur un élément que le locuteur
rogation lation avec un autre élément) ignore
Réponse oui/non conforme à l’interrogatif utilisé
Ex : Où va-t-il ? À Bruxelles (où -
lieu)
Intonation montante en partie descendante
TABLEAU 1.1 – L’opposition questions totales - questions partielles
Certains auteurs ont également proposé de classifier les questions selon leur
mot interrogatif. On parle alors de classification en wh-words. Cette classification
regroupe tous les interrogatifs anglais commençant par wh- (who, what, which,
when, where, why), ainsi que l’adverbe interrogatif how 3 . Robinson et Rackraw
(1972a ; 1972b) définissent ces mots comme le panel complet des mots lexicaux
marqués interrogativement et qui peuvent être utilisés dans un environnement lin-
guistique similaire. Ces wh-words sont beaucoup utilisés en théorie journalistique.
2. Dans le domaine des systèmes de questions-réponses, on utilise également les oppositions
« booléennes/factuelles » et « fermées/ouvertes ».
3. Les correspondants français de ces mots sont : qui, que/quoi, quel, quand, où, pourquoi et
comment.
22
23. Ils constituent en effet les éléments les plus importants qui doivent composer le
premier paragraphe d’un article (Pomerantz, 2005).
Avec ces sept mots, une autre typologie de questions se dégage. Certes, toutes
les questions ne s’y retrouvent pas – les questions totales, par exemples, sont
mises de côté – et cette typologie n’est donc pas exhaustive, mais elle offre un
début de classification intéressant.
Zock et Mitkov (1991) envisagent les limites de ce type de classification, relevant
l’ambiguïté possible de ces mots interrogatifs. Ils donnent l’exemple du mot
comment qui peut renvoyer à un état (5), à une méthode (6), à la valeur d’un
attribut (7) ou encore ou à des éléments plus spécifiques, comme par exemple un
moyen de transport (8).
(5) Comment vas-tu ?
(6) Comment as-tu résolu ce problème ?
(7) Comment est ta maison, rouge ou blanche ?
(8) Comment es-tu venu, en train ou à vélo ?
1.1.2 Catégorisation conceptuelle
Lehnert (1978) introduit la notion de focus pour établir une catégorisation
conceptuelle des questions. Elle définit le focus comme le concept qui incarne
l’attente d’information exprimée par la question et postule que, tant que son focus
n’est pas déterminé, une question ne peut être comprise clairement.
Exemple : dans la question « Où est né Barack Obama ? », tant que le focus
« compléter un concept » n’est pas clairement déterminé par l’interlocuteur
ou la machine qui doit fournir la réponse, la question n’est pas comprise et
la réponse adéquate ne peut être fournie.
23
24. La typologie de Lehnert est reprise en français dans le tableau 1.2.
Catégorie Exemple
1 Antécédent causal Pourquoi Jean a-t-il quitté Paris ?
2 Orientation vers un but Pourquoi Marie a-t-elle acheté ce livre ?
3 Capacité Que doit-il faire pour gagner ?
4 Conséquence causale Que s’est-il passé après qu’il est parti ?
5 Vérification Est-il vraiment parti ?
6 Disjonction Est-il à Londres ou à Glasgow ?
7 Procédure Comment dois-je faire pour te rejoindre ?
8 Compléter un concept Quand est-il arrivé ?
9 Attente Pourquoi n’est-il pas parti ?
10 Jugement Que devrait-il faire pour survivre ?
11 Quantification Combien de personnes étaient présentes ?
12 Spécification d’un élément De quelle couleur sont ses yeux ?
13 Requête Peux-tu me passer le sel ?
TABLEAU 1.2 – La typologie conceptuelle de Lehnert
Graesser (1994) ajoute à cette typologie les cinq catégories reprises dans le ta-
bleau 1.3. Notons que la catégorie assertion correspond aux phrases interrogatives
indirectes que nous avons décidé de ne pas traiter dans le cadre de ce travail.
Catégorie Exemple
1 Comparaison Dans quelle mesure ces deux villes sont-
elles comparables ?
2 Définition Qu’est-ce qu’une onde magnétique ?
3 Exemple Qu’y a-t-il comme exemple de cette théo-
rie ?
4 Interprétation Que s’est-il passé hier ?
5 Assertion J’ai besoin de savoir quelle est ta taille.
TABLEAU 1.3 – Les cinq catégories additionnelles de Graesser
Zock et Mitkov (1991) avancent quatre objections à la typologie de Lehnert :
1. Certaines catégories méritent d’être affinées. Quantification, par exemple,
devrait comprendre les sous-catégories durée, fréquence...
2. Certaines catégories sont trop précises. Les questions 9, 10 et 11 seraient
par exemple classées dans trois catégories différentes (jugement, procédure
24
25. et capacité) alors qu’elles pourraient toutes les trois être classées dans la
catégorie procédure.
(9) Comment t’es-tu arrangé avec John ?
(10) Comment John a retrouvé son livre ?
(11) Comment allons-nous manger ce soir ?
3. La catégorie compléter un concept est trop large pour définir les wh-questions.
En effet, toute question, à part les questions totales, demande une complé-
tion de concept.
4. Le métalangage, i.e. les explications relatives à la typologie et au choix des ca-
tégories, est parfois trop exotique pour convenir à un locuteur quelconque.
La campagne d’évaluation de systèmes de questions-réponses CLEF 4 établit
une autre typologie de questions, plus générale. Trois types sont relevés et divisés
en sous-catégories (Giampiccolo et al., 2007). Ces catégories se basent sur le type
de réponse attendue à la question posée :
1. Questions factuelles : questions basées sur des faits
– Personne
(12) Qui est le président français ? Nicolas Sarkozy
– Temps
(13) Quand est mort Jean-Paul II ? En 2005
– Lieu
(14) Où est né Mozart ? À Salzbourg
– Organisation
(15) À quel parti appartient Didier Reynders ? Au Mouvement
Réformateur
– Mesure
(16) Quelle hauteur fait la tour Eiffel ? 324 mètres
– Nombre
(17) Combien d’habitants y a-t-il en Belgique ? 10 827 519
– Objet
(18) De quoi est faite une table ? De bois
4. http://clef-campaign.org
25
26. – Autres
(19) Quel traité a été signé en 1979 ? Le traité de paix entre
Israël et Égypte
2. Questions définitoires : questions de type Qui/Qu(e) est X ?
– Personne
(20) Qui est Robert de Niro ? Un acteur de cinéma
– Organisation
(21) Qu’est-ce que la Douma ? Le parlement russe
– Objet
(22) Qu’est-ce qu’une assiette ? Un plat dans lequel on
mange
– Autres
(23) Qu’est-ce que l’Eurovision ? Un concours de musique
3. Questions listes : questions qui requièrent une réponse contenant un
nombre déterminé d’unités
(24) Quels sont les aéroports de Londres ? Gatwick, Stansed,
Heathrow, Luton et City
Dans un article traitant des « questions complexes » (Moriceau et al., 2010), les
auteurs complètent cette typologie. Outre les catégories factuelle – qu’ils défi-
nissent comme regroupant les questions globales et celles portant sur des entités
– et définition 5 , ils mettent au jour deux nouvelles catégories :
1. Opinion
(25) Que vous inspire ce film ?
2. Explication
– Processus ou séquence de processus : correspond à la majorité des
questions en comment
(26) Comment faire une note de bas de page en LTEX ?
A
– Conséquence ou liste de conséquences :
(27) Que provoque le gel sur les routes ?
– Raison ou liste de raisons : correspond aux questions en pourquoi
– Cause
(28) Pourquoi un chercheur gagne-t-il moins qu’un trader ?
– But
(29) Pourquoi le gouvernement a-t-il prêté de l’argent aux
banques ?
– Obligation
(30) Pourquoi doit-on obéir aux lois ?
5. Ils ne traitent pas dans l’article des questions de type liste.
26
27. Une typologie axée sur la question
Zock et Mitkov (1991) reprochent à ces typologies d’être davantage axées sur
les réponses que sur les questions. Ils veulent pouvoir s’affranchir de la réponse
et identifier le type d’élément sur lequel porte la question. À terme, l’intérêt est
de créer un système sur la base de cette typologie qui permet à un utilisateur
d’interagir librement avec une base de données. La démarche se situe donc dans
une optique de génération de questions, davantage que les classements présentés
jusqu’ici, comme l’indique la citation suivante :
« Our goal [...] is not to specify how to answer a question, but how to ask it. To
this end we need to make a taxonomy of questions. » (Zock et Mitkov, 1991)
La taxonomie proposée est très fine. Elle ne traite par contre que des questions
portant sur un élément et non des questions portant sur des phrases entières,
comme les questions globales. Les auteurs relèvent 14 grands types de questions,
divisés chacun en catégories plus fines. Cette typologie est présentée dans le
tableau 1.4. Les exemples sont présents pour donner une indication de la structure
de ces types de questions et des éléments qui doivent s’y trouver (préposition,
mot interrogatif, sujet animé ou inanimé...).
Type Sous-Type Exemple
Question-rôle Agent-Objet Qui as-tu vu ?
Co-agent Avec qui es-tu venu ?
Bénéficiaire- À qui as-tu offert ce cadeau ?
Destination
Source De qui as-tu reçu ce cadeau ?
Moyens-Instruments Qu’a-t-il utilisé pour creuser ?
Instrumentalité Avec quoi vais-je creuser ?
Possesseur-Relation À qui appartient ce livre ?
À qui est cet enfant ?
Question-évènement Évènement Qu’est-ce qu’il s’est passé ?
Action Qu’a-t-il fait ?
Spécification d’un trait Identité Quel est ton nom ?
Origine D’où vient-il ?
27
28. Temps Quelle heure est-il à Londres ?
Âge Quel âge a-t-il ?
Taille Quelle est la taille de cette personne ?
Couleur Quelle est la couleur de cette maison ?
Prix Combien coûte cette moto ?
Question de degré Vitesse À quelle vitesse roule-t-il ?
Âge Quel âge a-t-il ?
Question de manière (ac- Comment a-t-il dormi ?
tion)
Spécification (choix d’un Quel est le plus intelligent des deux ?
élément parmi d’autres)
Quantité Longueur De quelle longueur est ce lac ?
Fréquence À quelle fréquence cela arrive-t-il ?
Distance À quelle distance se situe Istanbul ?
Intelligence À quel point John est-il intelligent ?
État émotionnel À quel point l’aimes-tu ?
Question spatiale Emplacement Où habites-tu ?
Direction-Destination Où vas-tu ?
Source-Origine D’où viens-tu ?
Contenance Dans quoi gardez-vous le beurre ?
Question temporelle Point À quelle heure décolle ton avion ?
Unité de temps Quel jour sommmes-nous ?
Fréquence À quelle fréquence prends-tu le train ?
Durée Depuis combien de temps travailles-
tu ?
Passé-Présent Depuis quand travailles-tu ?
Point final Jusque quand travailles-tu ?
Raison Cause Pourquoi a-t-elle quitté son emploi ?
Motivation Pourquoi veux-tu faire ça ?
Convention Pourquoi dit-on « merci » ?
Hypothèse Conséquence Que se passe-t-il si je fais ça ?
Condition Quand pourrai-je dormir ?
Méthode Comment résoudre ce problème ?
Structure et fonctionne- Comment est organisé ce pays ?
ment
Comment éteindre l’ordinateur ?
TABLEAU 1.4 : La Typologie de Zock et Mitkov
28
29. 1.1.3 Synthèse : une classification « mixte »
Nous avons relevé deux types de classification, l’une axée sur un point de vue
linguistique et l’autre basée sur un point de vue conceptuel. Ces deux axes de
recherche apportent chacun leurs éléments intéressants, mais ne sont pas contra-
dictoires pour autant. Afin de montrer la complémentarité des deux approches,
nous les avons synthétisées pour proposer une typologie « mixte » en établissant
une catégorisation conceptuelle au sein d’une classification linguistique, basée
sur les wh-words. Dans une optique de développement d’un système de règles de
génération, nous pensons que les wh-words sont un point de départ intéressant
en ce sens qu’ils réalisent globalement toutes les fonctions syntaxiques possibles
dans une phrase donnée 6 . Nous affinons ensuite cette première catégorisation en
associant à chacun de ces mots interrogatifs les concepts qui leur correspondent.
De cette manière, chaque concept est relié au mot interrogatif approprié. Cette
typologie est reprise dans le tableau 1.5. Une catégorie est ajoutée afin de prendre
en compte les questions globales, qui ne contiennent pas de mot interrogatif.
6. Nous incluons pour chaque wh-word la possibilité d’être précédé d’une préposition.
29
30. wh-word Concept Exemple
Qui Personne Qui a offert ce cadeau à Pierre ?
Que/Quoi Définition Qu’est-ce qu’une onde ?
Matière De quoi est faite cette table ?
Opinion Qu’en penses-tu ?
Conséquence Que provoque le gel sur les routes ?
Évènement Que s’est-il passé samedi ?
Action Qu’a-t-il fait de mal ?
Quand Point temporel fixe Quand est né Barack Obama ?
Fréquence Quand prends-tu le train ?
Passé-Présent Depuis quand travailles-tu ?
Présent-Futur Jusque quand travailles-tu ?
Où Emplacement Où habites-tu ?
Source-Origine D’où viens-tu ?
Direction-Destination Où vas-tu ?
Pourquoi Cause Pourquoi a-t-elle quitté son emploi ?
But Pourquoi roule-t-il si vite ?
Convention-obligation Pourquoi doit-on dire « merci » ?
Comment Procédure Comment faut-il écrire une lettre ?
Structure Comment est organisé ce pays ?
Spécification d’un élément Comment est cette fille ?
Quel (lequel) Spécification d’un élément De quelle couleur sont ses yeux ?
Quelle est la capitale de la Belgique ?
Liste Quels sont les aéroports de Londres ?
Combien Quantification Combien de chats a-t-elle ?
Prix Combien coûte ce tableau ?
Questions globales Vérification Est-il vraiment parti ?
Requête Peux-tu me passer le sel ?
TABLEAU 1.5 – Synthèse : typologie mixte des questions
Cette typologie que nous avons élaborée prend tout son sens dans le cadre de la
génération de questions. De cette manière, dans une phrase quelconque, chaque
élément susceptible d’être interrogé devra pouvoir être associé à un concept. Une
fois ce concept détecté, il suffira de le relier au mot interrogatif approprié afin de
générer une question à partir de celui-ci.
30
31. 1.2 La question d’un point de vue formel
Dans cette section, nous étudions la question à un niveau plus grammatical.
Nous y décrivons la façon dont elle se construit, en proposant une définition
qui se veut pertinente et précise et qui doit pouvoir servir de base à la généra-
tion automatique de questions. À cette fin, nous développons trois éléments qui
nous semblent fondamentaux : le marquage des questions, en cherchant à déter-
miner ce qui les distingue radicalement des propositions déclaratives, les mots
interrogatifs et l’inversion sujet-verbe.
1.2.1 Le marquage des questions
Le marquage de la question se fait principalement au niveau de l’intonation
à l’oral et par un point d’interrogation final à l’écrit. La langue écrite soignée
aura tendance à y ajouter une inversion sujet-verbe tandis que l’oral et la langue
écrite moins soignée préfèreront l’usage de l’introductif « est-ce que » (Grevisse
et Goosse, 2007). Nuançant ce constat, Danjoux-Flaux et Dessaux (1976) s’inter-
rogent sur le caractère distinctif de ces marques pour l’interrogation et objectent
que s’il existe des traits qui indiquent l’interrogation, ceux-ci sont polyvalents
et ne se limitent pas strictement à ce type d’énoncé. C’est le cas notamment de
l’inversion sujet-verbe que l’on retrouve tant dans les phrases assertives qu’inter-
rogatives, comme le montrent les deux exemples suivants :
(31) Comment va-t-il ?
(32) Ainsi va-t-il de temps en temps au marché.
Si les traits relevés sont donc bien représentatifs des questions, ils ne sont
pas pour autant spécifiques à celles-ci et ne permettent pas de les distinguer de
tous les autres types de phrases. Néanmoins, à l’écrit, l’inversion sujet-verbe
31
32. et la tournure est-ce que semblent être de bons indicateurs pour déterminer
qu’une phrase donnée est interrogative. Tout en émettant une certaine réserve,
on pourrait également affirmer qu’ils constituent, avec le point d’interrogation
final, les traits minimaux d’une question formulée dans un registre standard.
1.2.2 Les mots interrogatifs
Comme l’indique le tableau 1.1 à la page 22, les mots interrogatifs prennent
principalement trois formes. Ils peuvent être soit un pronom, soit un détermi-
nant, soit un adverbe. Ces mots interrogatifs se placent généralement en tête de
proposition, même si trois exceptions quant à leur position sont à souligner :
– Si la question comporte deux mots interrogatifs, le deuxième suit le verbe :
(33) Qui fait quoi ?
– Si le mot interrogatif est la tête d’un syntagme prépositionnel, la préposition
le précède :
(34) Depuis quand est-il là ?
– Il arrive, dans un registre moins normé, que le mot interrogatif se retrouve à
la place du mot qu’il substitue :
(35) Il part quand [demain] ?
Les pronoms interrogatifs Qui, que et quoi sont invariables et entrainent un
accord au masculin singulier pour tous leurs compléments. Par exemple, la phrase
« Qui est heureuse ? » n’est normalement pas acceptée et doit être corrigée pour
donner « Qui est heureux ? » (Danjoux-Flaux et Dessaux, 1976 :149).
Les adverbes où, quand, combien peuvent être précédés d’une préposition au
sein de la question ou même contenir la préposition en eux.
32
33. (36) Luc va vers Lyon → Vers où Luc va-t-il ?
(37) Luc est dans le jardin → Où Luc est-il ?
Les mots interrogatifs ont donc des sources lexicales variables (substantifs,
infinitifs, adjectifs, propositions complétives ou infinitives, syntagmes préposi-
tionnels...). De ce fait, le panel d’éléments pouvant faire l’objet d’interrogations est
large et, dans le cadre de la génération automatique de questions, il est nécessaire
de pouvoir traiter tous ces cas afin de produire des interrogations sur chacun de
ces éléments.
Comportement face aux modifieurs
Danjoux-Flaux et Dessaux (1976) soulignent le comportement différent des
interrogatifs face aux modifieurs. Les modifieurs sont « les expansions du nom
dans un groupe nominal » (Molinier et Levrier, 2000 :21) (adjectifs, compléments
du nom, relatives). Nous illustrons ces différents comportements dans le tableau
1.6. Pour chaque type d’interrogatif, nous donnons trois exemples de phrases,
chacun de ceux-ci utilisant un type de modifieur. Nous testons ensuite la validité
de la paire « interrogatif-modifieur ». Les exemples précédés d’un astérisque sont
non-valides. L’intérêt de cette recherche est de définir plus tard des patrons cor-
rects de phrases interrogatives en évitant d’associer un mot interrogatif avec un
modifieur qu’il n’accepte pas.
Comp. adjectival en de Comp. nominal Relative
Adverbes interrogatifs *Pourquoi d’agréable *Pourquoi des gens *Pourquoi qui est agréable
Pronoms interrogatifs Qui d’agréable *Qui des gens Qui, qui est agréable
Déterminants interrogatifs *Lequel d’agréable Lequel des gens Lequel, qui est agréable
TABLEAU 1.6 – Interrogatifs et modifieurs
33
34. Le choix entre qui, que et quoi
Le choix entre ces trois pronoms n’est pas anodin et mérite d’être expliqué dans
une étude préalable au développement d’un outil de génération automatique
de questions. En effet, si ces trois occurrences ne peuvent être utilisées indiffé-
remment, il est important de comprendre les facteurs qui président au choix de
l’une ou l’autre forme. Il faut pour cela distinguer trois cas, relatifs à la fonction
du pronom dans la phrase.
Si l’interrogatif a la fonction de sujet et que ce sujet est animé, il prendra la
forme qui (38). En revanche, s’il est inanimé, il prendra la forme qu’est-ce qui (39),
les formes que et quoi étant très rarement attestées (Danjoux-Flaux et Dessaux,
1976 :150).
(38) Jean joue avec son chien → Qui joue avec son chien ?
(39) Fumer tue → Qu’est-ce qui tue ?
Quand l’interrogatif a la fonction d’attribut du sujet, l’opposition entre qui
d’une part et que et quoi d’autre part, dépasse le clivage entre animé et inanimé
et se résout dans la forme de la réponse à la question. Dans le cas des animés
par exemple, alors que qui demande un syntagme nominal comprenant un dé-
terminant, comme dans l’exemple 40, que demande un syntagme nominal sans
déterminant, comme dans l’exemple 41. Si la réponse est un adjectif, on utilisera
plutôt l’interrogatif comment (voir l’exemple 42).
(40) Luc est un concierge → Qui est Luc ?
(41) Luc est concierge → Qu’est Luc ?
(42) Luc est intelligent → Comment est Luc ?
34
35. Dans tous les autres cas, le choix entre ces termes est déterminé par le caractère
animé ou inanimé du mot qu’il remplace. Si ce mot est animé, le pronom pren-
dra la forme qui (43, 44) et dans le cas contraire, il prendra la forme que s’il est
complément direct (45) et quoi sinon (46).
(43) Le chat amuse Jean→ Qui amuse le chat ?
(44) Jean donne une pomme à Pierre→ À qui Jean donne-t-il une
pomme ?
(45) Jean mange une pomme→ Que mange Jean ?
(46) Jean joue au football → À quoi joue Jean ?
Rôle de la construction du verbe dans le choix des interrogatifs
Danjoux et Dessaux (1976) se basent sur les travaux de Maurice Gross (1968) et
ses tables de Lexique-Grammaire pour montrer que le choix des interrogatifs est
souvent contraint par le verbe utilisé dans la phrase. Ils étudient ce phénomène à
travers les constructions complétives et infinitives. Ils remarquent entre autres
qu’avec des infinitives construites à partir d’un verbe de mouvement ou causatif
de mouvement, la question qui en résulte sera régulièrement introduite par où.
(47) Il emmène Luc voir Marie → Où emmène-t-il Luc ?
Grévisse et Goosse (2007) montrent que quand l’interrogation porte sur le
verbe, il n’existe pas de mot interrogatif qui permette de former la question. Pour
contrer ce problème, il faut alors recourir au verbe substitut faire ou, à défaut, aux
verbes se passer ou y avoir pour former une question en que (Grevisse et Goosse,
2007 ; Danjoux-Flaux et Dessaux, 1976).
(48) Le vieux mur peut tomber
– *Que peut le vieux mur ?
– Que peut faire le vieux mur ?
35
36. Par ces deux exemples, les auteurs montrent que le choix de l’interrogatif est
loin d’être évident et que les contraintes qui s’exercent sur lui ne sont pas seule-
ment liées à son référent et à ses caractéristiques (animé, inanimé, complétive,
infinitive), mais aussi au contexte linguistique dans lequel il s’inscrit.
1.2.3 L’inversion sujet-verbe
L’inversion se réalise différemment selon que le sujet est un pronom personnel
(ou le pronom ce) ou non. Nous distinguons ci-dessous ces deux cas avant d’évo-
quer l’introducteur est-ce que et son statut particulier (Grevisse et Goosse, 2007 ;
Langacker, 1965 ; Danjoux-Flaux et Dessaux, 1976).
Le sujet est un pronom personnel ou le pronom ce
Aux temps simples, on procède à une inversion sujet-verbe classique, avec
l’insertion d’un trait d’union entre les deux.
(49) Il vient → Vient-il ?
Aux temps composés et au passif, le pronom est inséré entre l’auxiliaire et le
participe passé.
(50) Il est venu → Est-il venu ?
Ces deux règles comportent toutefois deux exceptions :
– L’inversion n’est pas réalisée à la 1ère personne du singulier de l’indicatif
présent pour les verbes ne se terminant pas par -e (*fais-je).
– L’inversion n’est pas réalisée pour les temps composés de être quand
le sujet est ce (*a-ce été) ainsi qu’à la troisième personne du pluriel de
l’indicatif passé simple (*fussent-ce).
36
37. Dans certains cas par ailleurs, le verbe se voit modifié avec l’inversion :
– À la première personne du singulier de l’indicatif présent, les verbes se
terminant en -e changent leur e en é (aimé-je)
– À la troisième personne, quand le verbe se termine par une voyelle, on
ajoute, par analogie à la prononciation, un -t- avant le pronom.
Le sujet n’est ni un pronom personnel, ni le pronom ce
– Interrogations globales
On procède à une inversion complexe. Cela signifie que le sujet reste à sa place
initiale, mais qu’il est repris après le verbe sous la forme d’un pronom personnel à
la troisième personne, accordé en genre et en nombre avec le sujet.
(51) Jean est parti travailler → Jean est-il parti travailler ?
– Interrogations partielles
Cinq cas de figures sont à envisager :
1. L’interrogation commence par un pronom interrogatif sujet ou par un dé-
terminant interrogatif se rapportant au sujet : pas d’inversion
(52) Jean est parti → Qui est parti ?
2. L’interrogation commence par quel, qui est attribut ou se rapporte à l’attri-
but : on procède à une inversion simple du sujet
(53) Quels sont ces bruits sourds ?
3. L’interrogation commence par que, qui est complément direct ou attribut
du sujet avec un verbe copule autre que être : inversion simple
(54) Jean mange une pomme → Que mange Jean ?
4. Le mot interrogatif est pourquoi : on procède à une inversion complexe
(sujet - verbe - reprise du pronom)
37
38. (55) Jean est parti parce qu’il était malade → Pourquoi Jean est-il
parti ?
5. Dans tous les autres cas : on fait soit une inversion complexe, soit une
inversion simple
(56) Jean est parti à Paris → Où est parti Jean ? ou Où Jean est-il
parti ?
L’introducteur est-ce que
« Ces tours avec est-ce que (interrogation globale et interrogation partielle)
sont souvent considérés comme peu élégants et lourds. Ils sont très anciens
pourtant, et les classiques ne les rebutaient pas. Ils se rencontrent parfois
dans la langue littéraire la plus élaborée, mais moins souvent aujourd’hui
qu’hier, semble-t-il. »(Grevisse et Goosse, 2007)
Le Bon Usage évoque donc cette différence de prestige entre les deux variantes
(inversion et tournure en est-ce que) dans la formulation des questions. Il cite
d’ailleurs une préférence de l’Académie française pour l’inversion dans les ques-
tions.
Néanmoins, cette tournure en est-ce que permet de contourner certains inter-
dits liés à l’inversion.
– Impossibilité d’inversion à la première personne du singulier de l’indicatif
présent :
(57) *Perds-je ? - Est-ce que je perds ?
– Problème d’inversion avec le pronom
(58) ce : *furent-ce ses derniers mot ? - Est-ce que ce furent ses der-
niers mots ?
– Interdiction du pronom interrogatif sujet neutre :
(59) *Que m’oblige à faire ça ? - Qu’est-ce qui m’oblige à faire ça ?
– Difficulté d’identifier sujet et objet :
(60) Qui aime Jean ? - Qui est-ce qui aime Jean ?
Ces constructions sont invariables en temps et en genre. Elles ne sont conju-
guées qu’à l’indicatif présent, à la troisième personne du singulier. Les questions
de l’exemple 61 illustrent l’invariabilité de ces tournures.
38
39. (61) Est-ce que Jean est revenu ? Sont-ce que les enfants sons reve-
nus ? Sera-ce que Jean reviendra ?
L’utilisation de ces constructions diffère selon le caractère global ou partiel de
l’interrogation.
– Interrogations globales
Dans ce cas, l’introducteur est-ce que est en tête de phrase, suivi du sujet, sans
reprise pronominale.
– Interrogations partielles
La tournure est-ce que se place après le mot interrogatif et est suivie du sujet, sans
reprise pronominale. Si l’interrogatif est sujet, est-ce que se mue en est-ce qui.
Synthèse
L’inversion sujet-verbe est une thématique complexe et dépend entre autres de
la nature nominale ou pronominale du sujet. Nous reprenons dans le tableau 1.7
une synthèse des différents types d’inversion en jugeant de leur acceptabilité. Les
phrases non acceptées sont précédées d’un astérisque.
Nom Pronom
Inversion simple
Interrogation partielle Quand vient Jean ? Quand vient-il ?
Interrogation totale *Viendra Jean ? Viendra-t-il ?
Interrogation totale est- *Est-ce que viendra Jean ? *Est-ce que viendra-t-il ?
ce que
Inversion complexe
Interrogation partielle Quand Jean vient-il ? /
*Que Luc dit-il ?
*Qui nage-t-il bien ?
Interrogation totale Jean viendra-t-il ? /
Interrogation totale est- *Est-ce que Jean viendra-t-il ? /
ce que
TABLEAU 1.7 – L’inversion sujet-verbe
39
40. 1.3 De la déclarative à l’interrogative : les règles trans-
formationnelles de Langacker
Dans la lignée des travaux de Chomsky en grammaire générative et transfor-
mationnelle, plusieurs auteurs ont proposé des règles pour formaliser la trans-
formation de phrases déclaratives en interrogatives en français (Kayne, 1973 ;
Langacker, 1965). Dans cette section, nous analysons le système de règles décrit
par Langacker dans un article intitulé French Interrogatives : A Transformational
Description (1965).
Langacker distingue cinq procédés de formation différents : les questions to-
tales avec inversion sujet-verbe, les questions en quel suivi d’un substantif, les
questions en qui,que et quoi, les questions en est-ce que et les questions adver-
biales (introduites par un adverbe interrogatif). Comme nous l’avons vu plus haut,
les questions en est-ce que appartiennent à un registre moins normé et plus oral,
raison pour laquelle nous ne les abordons pas ici.
Les questions totales
Quand une phrase déclarative est formée d’un sujet pronominal, la question
totale correspondante peut être formée par inversion du pronom et du premier
élément verbal (62). Quand le sujet n’est pas pronominal, la question est formée
par une inversion complexe, via une reduplication du sujet sous forme pronomi-
nale, à la suite du premier élément verbal (63).
(62) Il est fou → Est-il fou ?
(63) Jean est fou→ Jean est-il fou ?
40
41. Langacker formalise cette transformation en trois règles successives. Dans
celles-ci, chaque élément de la phrase est représenté par un symbole :
– *Ti indique le numéro de la règle. L’astérisque souligne qu’elle est obliga-
toire
– wh correspond au mot interrogatif (ici fictif)
– [+P RON ] correspond au trait syntaxique pronom
– NP correspond à un syntagme nominal (qui peut être un pronom)
– V correspond au premier élément d’une chaine verbale
– X,Y,Z correspondent à des chaines quelconques de caractères
Une règle correspond à la transformation d’un état de la phrase vers un autre.
Les éléments sont associés à un numéro dans la partie gauche de la règle et la
partie droite donne le nouvel ordre de ces éléments. Certaines règles sont soumises
à une condition, exprimée sous la flèche de transformation.
1. Reduplication du sujet à la suite du premier élément verbal
*T4 : wh NP V X ⇒ 1 2 3 +2 4
1 2 3 4
Exemple :
- wh1 Le chat gris2 est3 parti4 → wh1 Le chat gris2 est le chat gris3+2
parti4
- wh1 Il2 est3 parti4 → wh1 Il2 est Il3+2 parti4
2. Pronominalisation du sujet dupliqué
*T5 : wh NP + V DET [+N ] X Y ⇒ 12 4 6
1 2 3 4 5 6 [+P RON ]
NP
Exemple :
- wh1 Le chat gris est2 le3 chat4 gris5 parti hier6 → wh1 Le chat gris est2
il4 parti hier6
- wh1 Il est2 Il4 parti hier6 → wh1 Il est2 il4 parti hier6
41
42. 3. Ellipse du sujet si celui-ci est un pronom
*T7 : X NP V NP Y ⇒ 1 3 4 5
1 2 3 4 5 |si 2=4|
Exemple :
- wh1 Pierre2 est3 il4 parti5 → la règle n’est pas appliquée
- wh1 Il2 est3 il4 parti5 → wh1 est3 il4 parti5
Questions formées à partir d’un déterminant : questions en quel
L’interrogatif quel est défini comme le résultat de l’ajout de l’interrogation au
déterminant quelque (Langacker, 1965 :590). L’interrogation porte donc sur le
déterminant, et pas sur le nom.
(64) Vous préférez quelque tableau → Quel tableau préférez-vous ?
Pour réaliser l’interrogation, il faut donc déplacer le syntagme dont le détermi-
nant est quelque en tête de proposition et joindre le déterminant au marqueur
d’interrogation fictif wh pour donner quel. Trois cas sont à distinguer pour écrire
cette règle :
1. L’interrogation porte sur le sujet : dans ce cas, le syntagme n’est pas déplacé.
(65) Quelque médecin va venir → Quel médecin va venir ?
2. L’interrogation porte sur un syntagme prépositionnel : le syntagme entier
est déplacé en tête de proposition.
(66) Il parle à quelque femme → À quelle femme parle-t-il ?
3. L’interrogation porte sur un élément dominé par une P2 : on ne peut réaliser
l’interrogation.
(67) Nous partirons quand quelque femme partira → *Quelle
femme partirons-nous quand partira ?
42
43. De ces trois cas, résulte la règle suivante :
T3 : wh X (P) DET Y Z ⇒ 3 1+4 5 2 6
quelque
1 2 3 4 5 6
Condition : 4 + 5 n’est pas dominé par une P2
Exemple :
wh1 Vous parlez2 à3 quelque4 femme5 aujourd’hui6 → À3 quelle1+4 femme5
vous parlez2 aujourd’hui 6 ?
Une fois cette règle appliquée, il reste à réaliser l’inversion. Langacker propose
d’adapter les règles exposées pour les questions totales en les généralisant. Les
deux dernières règles (pronominalisation et ellipse) restent identiques, mais la pre-
mière (duplication) doit être précisée pour prendre en compte les constructions
en quel :
*T4 : wh
(P) NP NP V Y ⇒ 1 2 3+2 4
wh+X
1 2 3 4
Exemple :
- Quel tableau1 Henri 2 préfère3 voir4 → Quel tableau1 Henri2 préfère Henri3+2
voir4
- Quel tableau1 Il2 préfère3 voir4 → Quel tableau1 Il2 préfère il 3+2 voir4
Questions formées à partir d’un syntagme nominal : questions en qui, que et
quoi
Ces questions sont formées selon la même procédure que celles précédem-
ment décrites. En effet, le syntagme nominal sur lequel porte la question est
déplacé en tête de proposition, éventuellement précédé d’une préposition. La
43
44. différence tient au fait que la séquence quel + Nom est ici remplacée par les pro-
noms Qui, que ou quoi en fonction du caractère humain non humain du Nom.
Langacker relève trois objections principales à cette transposition simple :
– Que ne peut pas être sujet d’une phrase.
(68) *Qu’est tombé ?
– Quand la question porte sur l’objet direct et quand le sujet est un nom, la
reduplication se fait si l’objet est humain (69), mais pas si l’objet est non
humain (70).
(69) Qui Henri voit-il ?
(70) *Que Henri voit-il ?
– Quand la question porte sur un syntagme prépositionnel, l’inversion simple
(71) et complexe (72) sont autorisées.
(71) De qui parle Henri ?
(72) De qui Henri parle-t-il ?
Il est donc nécessaire d’incorporer ces restrictions dans les règles existantes et
d’adapter celles-ci pour qu’elle conviennent aux questions en qui, que et quoi. Lan-
gacker propose de remplacer les termes à interroger par des pro-formes [+PRO] :
personne et chose, selon le caractère humain ou non-humain du terme concerné.
De cette manière, la séquence quelque [+PRO] est ensuite remplacée par qui ou
que selon les traits de la pro-forme. Cette règle intervient après le déplacement
en tête de proposition du syntagme à interroger et la reduplication. Le trait [H]
représente le caractère humain ou non du syntagme.
44
45. *T6 : (P) wh + quelque [+PRO] (NP) V (NP) X⇒ 12 3 4567
[+SG] [+M]
1 2 3 4 5 6 7
Quand 1 = P
- si 4=6=NP : 3 = [-H] ou 6 = [+PRON]
- sinon : 3 = [+H]
Dans le cas où le syntagme à interroger est prépositionnel, le choix entre qui
et quoi se fait grâce à l’analyse du trait humain ou non humain (73). Dans le cas
contraire, la structure de la phrase est analysée pour déterminer le trait humain
ou non humain du syntagme et, en fonction de celui-ci, le pronom interrogatif
sera choisi (74,75).
(73) - À quelque jeu Jean a Jean joué → À quelle chose Jean a Jean
joué → À quoi Jean a Jean joué
- À quelque joueur Jean a Jean donné un cadeau → À quelle personne
Jean a Jean donné un cadeau → À qui Jean a Jean donné un cadeau
(74) Quel jeu Jean a Jean offert → Quelle chose Jean a Jean offert →
Que Jean a Jean offert
(75) Quel joueur a gagné → Quelle personne a gagné → Qui a gagné
Comme pour les questions totales et les questions en quel, cette règle est suivie
des étapes de pronominalisation et d’ellipse.
Questions adverbiales
Langacker définit comme adverbiales les questions portant sur un élément
circonstanciel de la phrase (76, 77, 78).
(76) Quand part-il ?
(77) Où votre père va-t-il ?
(78) Où va votre père ?
45
46. Ces questions acceptent l’inversion simple et l’inversion complexe et ne néces-
sitent pas l’ajout de nouvelle règles par rapport à celles développées jusqu’à
présent. En effet, l’élément interrogé peut être remplacé par une construction de
type « P + quel + N » correspondant aux pronoms où et quand selon qu’il s’agit d’un
lieu ou d’un complément de temps. Langacker évoque aussi le renforcement de la
question par la forme est-ce que (79), mais nous ne traitons pas cette construction
dans le cadre de ce travail.
(79) Quand est-ce que vous partez ?
Remarques
Ce système proposé par Langacker est pertinent dans la mesure où il formalise
des phénomènes complexes tels que l’inversion sujet verbe. Néanmoins, comme
nous l’envisageons dans la deuxième partie de ce travail (chapitre 3), il existe
aujourd’hui des outils plus performants qui permettent d’effectuer ces transfor-
mations. Les analyseurs syntaxiques actuels permettent, par exemple, de générer
des structures de phrases arborescentes et hiérarchisées qu’il est très facile de mo-
difier en agissant sur les nœuds de celles-ci. De surcroit, ces analyseurs incluent
des modules de reconnaissance d’entités nommées qui permettent de déterminer
les traits des syntagmes – le trait humain ou non humain par exemple – sans
recourir à une analyse de la structure de la phrase, comme le fait Langacker. Si la
démarche théorique est intéressante, nous pensons que la grammaire décrite est
trop complexe et quelque peu archaïque par rapport aux outils actuels.
1.4 Conclusion
En vue de développer un système de génération automatique de questions, il
importe d’une part d’établir une typologie de celles-ci pour définir ce que notre
46
47. système doit être capable générer et, d’autre part, de définir formellement la
phrase interrogative, en la distinguant des phrases déclaratives.
Il existe deux grands types de classification de questions. Le premier, axé sur
un point de vue linguistique, se base sur la structure de la question et sur les
mots interrogatifs pour établir une typologie. Le second, basé sur un point de
vue conceptuel, classe les questions selon le focus, soit l’attente exprimée par ces
dernières, ou le concept, soit l’élément sur lequel porte la question. Néanmoins,
ces deux axes de recherche, loin de s’opposer, sont complémentaires. Nous avons
donc synthétisé ces deux approches pour créer une typologie « mixte » associant
des catégories conceptuelles à des éléments linguistiques – les wh-words – pour
permettre de relier chaque concept au mot interrogatif le plus approprié. La
classification que nous présentons permet donc de rendre compte des types
des questions à la fois d’un point de vue linguistique et conceptuel et constitue
un point de départ pertinent pour la mise en place d’un système de génération
automatique de questions.
Formellement, la question peut être définie selon trois axes : son marquage, les
mots interrogatifs et l’inversion sujet-verbe. Ces trois concepts sont les éléments
standards d’une question et nécessitent d’être clairement définis pour formuler
des phrases interrogatives correctes. Face à ce constat, Langacker (1965) propose
une grammaire transformationnelle qui formalise ces différents aspects grâce à
des règles de transformation. Néanmoins, cette grammaire, bien qu’intéressante
pour son apport théorique, semble dépassée par les outils actuels et donc difficile
à implémenter dans un outil complet de génération automatique de questions.
La typologie et la définition formelle que nous proposons ont pour ambition
de donner une représentation complète de la notion de question et de construire
47
48. une base linguistique pertinente à la génération automatique de questions. Le
chapitre suivant, consacré au domaine de la génération automatique, se situe à
un niveau plus informatique. Il constitue la deuxième partie de la base théorique
sur laquelle reposera l’implémentation d’un générateur de questions.
48
49. CHAPITRE 2
GÉNÉRATION AUTOMATIQUE ET GÉNÉRATION
AUTOMATIQUE DE QUESTIONS
Le but de ce chapitre est de situer la génération automatique de questions
(GAQ) au sein du domaine plus général de la génération automatique de textes
(GAT) 1 . Nous commençons par présenter ce domaine en définissant ses grands
principes. Nous nous intéressons ensuite au domaine spécifique de la génération
automatique de questions afin de montrer les points communs et les points
divergents entre les deux types de systèmes. Au-delà de cette comparaison, notre
objectif est aussi de comprendre les enjeux et les défis qui pèsent sur notre objet
d’étude en réalisant un état de l’art de la discipline. Pour ce faire, nous présentons
les principaux outils existants, en dégageant une méthodologie globale qui puisse
servir de base à l’implémentation d’un nouvel outil.
1. L’appellation anglaise, plus couramment utilisée est Natural Language Generation (NLG).
49
50. 2.1 La génération automatique de textes
Danlos et Roussarie (2000) définissent le domaine de la manière suivante :
« La génération automatique de textes (GAT) est la branche du taln dont le but
est de produire des énoncés en langage naturel à partir de représentations
informatisées. Ceux-ci doivent être grammaticalement corrects, sémanti-
quement cohérents et pragmatiquement pertinents. La génération assure
donc la fonction émettrice de la communication homme-machine, et se
présente globalement comme le processus réciproque de la compréhension
automatique. » (Danlos et Roussarie, 2000)
Pour étayer leur propos, les auteurs citent différents types d’application utili-
sant un module de génération automatique de textes :
– Systèmes de dialogue homme-machine :
« le terme de système de dialogue indique généralement un système
permettant une interaction entre un humain et un système dans un
cadre restreint. (...) Un système de dialogue homme-machine interprète
les requêtes de l’utilisateur en fonction de la tâche à accomplir, de l’his-
toire du dialogue et du comportement de l’utilisateur. Son objectif est
de donner à l’utilisateur les informations recherchées tout en assurant
une interaction efficace et naturelle. » (Galibert et al., 2005).
Dans ce cadre, les modules de génération permettent, par exemple, de
chercher dans une base de données la réponse à une question entrée par
un utilisateur et de lui renvoyer la réponse, correctement formulée.
– Résumé automatique : un tel système utilisant un module de génération
se distingue des outils de résumé automatique traditionnels qui extraient
des phrases d’un texte sur la base de calculs probabilistes. En génération, le
système fonctionne avec une simulation de l’activité humaine pour résumer
le texte. Il s’agit d’un processus cognitif complexe qui connait actuellement
peu de réalisations concrètes. Le projet SPORTIC, actuellement développé
au Cental, a pour objectif le développement d’un tel outil, appliqué ici au
domaine de commentaires sportifs de matchs de basket. Basé sur une onto-
50
51. logie, le générateur Gen-Tonic produit un résumé adapté aux préférences
de l’utilisateur – longueur, focus sur une équipe ou un joueur particulier... –
et destiné à être couplé à un résumé vidéo du match 2 .
– Production de textes de commentaires générés à partir de données nu-
mériques : il s’agit d’un outil très utile pour les entreprises qui part d’un ta-
bleau de données numériques pour générer un commentaire sur les chiffres.
EASYTEXT (Meunier et al., 2011), par exemple, traite les investissements
publicitaires réalisés par des clients d’une société, et leur envoie chaque
mois un commentaire généré automatiquement sur leurs investissements.
– Production de manuels d’instruction : ces manuels sont générés automati-
quement à partir de données entrées par un utilisateur. Le problème majeur
des outils existants est le niveau d’abstraction très complexe de ces entrées
qui rend ces générateurs difficiles à appréhender.
L’architecture globale d’un système
Danlos et Roussarie (2000) expliquent que la tâche de génération peut être di-
visée en deux sous-tâches principales, correspondant à la manière dont l’humain
construit son discours, selon les théories psycholinguistiques (Levelt, 1993) :
1. Le Quoi-Dire : ce module élabore le sens profond du texte en recourant à de
nombreuses ressources encyclopédiques, pragmatiques...
2. Le Comment-Le-Dire : cette partie du système est chargée de construire
linguistiquement le texte et se base sur des ressources linguistiques, princi-
palement un lexique et une grammaire.
Cette architecture peut être affinée en quatre étapes, la première entrant dans
le cadre du Quoi-Dire tandis que les trois autres réalisent le Comment-Le-Dire.
Pour ces quatre étapes, Bateman et Zock (2003), Danlos et Roussarie (2000) et
2. Nous remercions Stéphanie Audrit (UCL-Cental) pour ses explications à propos de ce projet.
51
52. Reiter et Dale (1997) proposent des schémas comparables que nous synthétisons
ci-dessous. La figure 2.1, tirée d’un article de Zock et Sabah (2002) illustre notre
propos.
1. La macroplanification détermine, en fonction d’un but à atteindre et de
bases de connaissances, le contenu du texte et la structure globale du dis-
cours, aboutissant à un plan de texte. Le contenu profond est d’abord sé-
lectionné dans des bases de connaissance, éventuellement en fonction de
buts communicatifs, et représenté sous forme de réseaux conceptuels et
sémantiques. Ensuite, un plan de texte est construit, dont le but est d’orga-
niser le message dans une dynamique textuelle en établissant des relations
rhétoriques entre les propositions du texte 3 .
2. La microplanification part du plan du texte pour en générer la structure
syntaxique tout en choisissant les mots pleins 4 appropriés pour incarner le
sens qui a été déterminé dans la macroplanification. Ces deux étapes – plani-
fication syntaxique et lexicalisation – peuvent se dérouler successivement ou
conjointement dans le cas où le générateur utilise un lexique-grammaire ou
une grammaire lexicalisée. Cette phase s’accompagne d’un module d’agré-
gation qui consiste à éliminer les redondances et à rendre le texte plus lisible
et plus précis (voir exemple 80). Le but de ces opérations est d’assurer la
cohésion du texte. 5
(80) le père et la mère de Paul → les parents de Paul
3. Une relation rhétorique relie des énoncés et non des constituants. De cette manière, « Marie
mange une pomme et Pierre mange une banane » contient deux énoncés unis dans une relation
de narration (Busquets et al., 2001)
4. noms, verbes, adjectifs et adverbes.
5. La cohésion est « l’ensemble des moyens linguistiques qui assurent les liens intra- et inter-
phrastiques permettant à un énoncé oral ou écrit d’apparaître comme texte » (Charaudeau et
Maingueneau, 2002 :99). Elle est à distinguer de la cohérence en ce sens que « la cohérence est
une propriété du discours, qui est mis en relation avec les conditions d’énonciation, alors que la
cohésion est une propriété du texte, qui est envisagé fermé sur lui-même. » (Riegel et al., 2009)
52
53. 3. La formulation prend en entrée les arbres syntaxiques lexicalisés et génère
la forme de surface des différentes phrases du texte. C’est à cette étape que
se déroule la flexion des différents termes – l’accord des noms, pronoms et
adjectifs et la conjugaison des verbes – et que les mots secondaires 6 sont
ajoutés. Cela implique des modifications graphiques telles la gestion des
contractions (81) et des élisions (82) ou encore l’ajout des traits d’union.
(81) de le beurre → du beurre
(82) le animal → l’animal
4. La présentation physique est l’étape de finition. La ponctuation est insérée
et un éventuel formatage du texte, en HTML par exemple, est réalisé, pour
le rendre présentable. Le cas échéant, ce formatage peut être remplacé par
un module de synthèse vocale.
6. déterminants, pronoms, conjonctions.
53
54. MACROPLANIFICATION
Détermination du contenu
Structuration du contenu
Plan de texte
MICROPLANIFICATION
Spécifier les référents
Agrégation/Segmentation
Lexicalisation
Plan de la phrase
FORMULATION
Ordre des mots
Catégories lexicales
Mots secondaires
Flexion + Accords
Texte non formaté
PRÉSENTATION PHYSIQUE
Ponctuation
texte écrit
formaté
Mise en page
chaîne
Articulation sonore
F IGURE 2.1 – Architecture d’un système de génération automatique de textes (Zock
et Sabah, 2002)
Ce type d’architecture séquentielle est qualifié de fonctionnement en pipeline.
Cela signifie que les étapes se déroulent successivement sans qu’aucun retour
en arrière ne soit possible (Reiter et Dale, 2000). La pertinence d’un tel choix a
souvent été critiquée et certains auteurs ont proposé une architecture utilisant des
modules interdépendants. Nous n’abordons cependant pas ces méthodologies
dans le cadre de ce travail étant donné que la majorité des systèmes de génération
54
55. actuels implémentent le modèle présenté (Danlos et Roussarie, 2000).
Apports
La génération automatique de textes présente de nombreux intérêts. Danlos
et Roussarie (2000) en citent une dizaine, que nous synthétisons en trois points
majeurs :
1. L’indépendance entre le stockage des informations et le système de géné-
ration offre plusieurs avantages :
(a) On peut actualiser très facilement un texte par une simple modification
des éléments d’une base de données.
(b) La recherche d’information est facilitée par l’utilisation d’une base de
données structurée, sans qu’il soit nécessaire de recourir à une analyse
textuelle complexe.
(c) Une représentation abstraite d’un texte peut donner plusieurs formes
de surface. On peut donc, à partir d’une même base, générer des textes
de niveaux de langage différents ou de vocabulaire varié – grâce aux
paraphrases par exemple – mais aussi dans des langues différentes.
2. Au-delà de la méthodologie, les résultats sont susceptibles d’intéresser un
large public. Les systèmes sont capables de produire à la fois de la parole et
du texte. Le texte peut par ailleurs être formaté et même allié à du contenu
multimédia, ce qui rend les résultats d’autant plus attractifs.
3. Les fondements théoriques qui sous-tendent le développement de tous ces
systèmes sont pertinents dans la mesure où ils permettent de s’interroger
sur les mécanismes de production du langage humain, mais aussi sur le
discours dans son intégralité, au-delà des phrases qui le composent.
Limites
Si les apports de la génération automatique de textes sont considérables,
certains problèmes restent à résoudre pour augmenter la performance des géné-
rateurs existants.
55
56. Claude Ponton (1997) évoque le manque de portabilité des systèmes actuels
qui sont « fortement liés à leur application et ceci tant au niveau des formalismes
utilisés qu’au niveau, par exemple, des règles mises en œuvre dans le processus »
(Ponton, 1997).
Une autre limitation est liée à la définition de la GAT (page 50), qui implique la
génération d’énoncés « grammaticalement corrects, sémantiquement cohérents
et pragmatiquement pertinents ». Si les deux premiers aspects – grammaticalité
et cohérence sémantique – sont pris en compte dans les systèmes actuels, la
dimension pragmatique échappe encore à la modélisation. Zock et Sabah (2002)
évoquent le problème du contrôle pour définir cette limite :
« S’il est relativement aisé de décider de la bonne formation d’énoncés, il
est beaucoup plus difficile de décider de leur adéquation à une situation. À
quel moment utiliser une ressource linguistique particulière (voix passive,
proposition relative, etc.) ? Que faire en cas de conflit ? Quand s’arrêter ?
Comment décider qu’un texte est convenable ou optimal ? » (Zock et Sabah,
2002)
2.2 La génération automatique de questions
Selon Nielsen (2008), la définition de la génération automatique de questions
diffère selon son type d’application. L’auteur relève deux domaines applicatifs
majeurs de la discipline :
– Applications éducatives : des questions sont générées pour évaluer les
connaissances ou la compréhension d’un utilisateur à propos d’un domaine
déterminé. Ces applications peuvent également prendre la forme de ques-
tionnaires à choix multiples (Mitkov et Ha, 2003). Dans ce cas, l’enjeu majeur
se situe dans le choix des distracteurs 7 (Mitkov et al., 2006). Brown et al.
(2005), par exemple, élaborent un outil d’évaluation du vocabulaire chez des
7. « Lorsque l’on rédige des questions fermées à choix multiple[s], l’énoncé de l’item est suivi
par une série de réponses possibles, dont une est correcte et les autres ne le sont pas. Les options
de réponse incorrectes sont désignées par le terme de distracteurs. » http://www.irdp.ch/
edumetrie/lexique/distracteur.htm (Page consultée le 3 août 2011)
56
57. locuteurs qui doivent choisir parmi plusieurs propositions le sens correct
pour un mot donné.
– Systèmes de dialogue homme-machine : ces systèmes ont pour vocation
de permettre à un ordinateur de mener un dialogue interactif avec un hu-
main. Un des objectifs peut être l’aide à l’apprentissage. Dans ce cas, le but
des questions est de mener un apprenant à la compréhension d’un concept
qu’il ne comprend pas au départ. Chaque question doit donc se baser sur
la réponse de l’apprenant à la précédente question (Nielsen, 2008). Cer-
tains auteurs se sont également intéressés à produire des dialogues fictifs à
propos de textes, pour permettre à un utilisateur d’accéder à ces textes de
manière plus interactive (Piwek et Stoyanchev, 2010), par exemple à partir
de notices de médicaments (83).
(83)
– Notice : Vous pouvez prendre une aspirine si vous avez mal à
la tête.
– Dialogue :
– Q : Que puis-je faire si j’ai mal à la tête ?
– R : Vous pouvez prendre une aspirine.
Pour distinguer ces méthodologies, deux aspects sont concurrentiels :
– Pragmatique : choisir la bonne question en fonction du type d’application
et de ses contraintes.
– Syntaxique : déterminer les étapes qui sont appliquées pour générer une
question grammaticalement correcte.
Le premier point de vue diverge entre les deux approches puisque les questions
générées dans le cadre d’un outil ne sont pas nécessairement pertinentes pour
un autre. A contrario, le processus formel de création des questions est iden-
tique. Nous étudions donc ce second point de vue, même si des références à la
pragmatique peuvent survenir pour étayer notre propos.
Pour bien comprendre la place particulière qu’occupe la génération automa-
tique de questions (GAQ) au sein du domaine général de la génération automa-
tique de textes (GAT), nous décrivons ici le fonctionnement global d’un outil.
Cependant, aucune méthodologie généraliste n’ayant jamais été décrite, nous
57
58. procédons de manière empirique. Nous partons de la présentation d’outils exis-
tants, constituant « l’état de l’art » en génération automatique de questions, pour
dégager une architecture générique, comme nous l’avons fait dans la section
précédente pour la génération automatique de textes. La section 2.3 confronte
les deux méthodologies afin de situer le sous-domaine de la GAQ au sein du do-
maine principal et de déceler les points communs et divergents de leur mode de
fonctionnement.
Si des grammaires de règles pour générer des questions existent pour le fran-
çais (Danjoux-Flaux et Dessaux, 1976 ; Langacker, 1965), comme celle exposée
à la section 1.3, aucun outil complet n’a jamais été implémenté, à l’exception
d’un travail d’étudiant (Brette et Lescuyer, 2006), extrêmement basique et peu
flexible : il s’applique à des phrases très simples et les contraintes sur les entrées
du programme sont lourdes.
Face à cette absence de ressources suffisantes pour le français, nous avons
exploré les outils existants pour l’anglais. Dans ce chapitre, nous exposons quatre
méthodologies développées pour générer des questions en anglais dont nous
dégageons les spécificités et les limites.
2.2.1 Les débuts : Les travaux de John Wolfe
Wolfe (1976) pose les bases de la génération automatique de questions. Le
but de l’outil qu’il a développé est pédagogique. Il s’agit d’aider des apprenants
à étudier des textes de manière indépendante. Le principe est le suivant : un
texte est soumis à un programme qui va le segmenter en phrases et retourner
à l’étudiant des questions auxquelles il doit répondre. Le programme vérifie la
réponse donnée, l’accepte ou la refuse. Dans cette méthode, seule la forme de
la phrase est traitée et son sens n’est pas pris en compte, ce qui présente deux
inconvénients : la réponse de l’étudiant doit parfaitement correspondre avec la
réponse attendue par le programme et certaines ambiguïtés ne sont pas résolues
dans l’analyse de la phrase, ce qui engendre des erreurs dans la génération des
questions.
58
59. Fonctionnement du système
Un paragraphe est soumis à la lecture de l’étudiant. Une phrase de ce para-
graphe est sélectionnée aléatoirement par l’ordinateur 8 qui génère une question
à partir de celle-ci. Cette question est ensuite renvoyée à l’étudiant qui doit y
répondre correctement. Le système procède en quatre étapes :
1. Analyse morphologique : le programme étiquète les mots de la phrase en
catégories grammaticales à l’aide d’un dictionnaire de verbes, conjonctions,
pronoms, prépositions, articles et adverbes. Tout ce qui ne se retrouve pas
dans le dictionnaire est alors automatiquement étiqueté comme nom. Le
dictionnaire contient pour les verbes des informations morphologiques du
type transitif, intransitif, régulier, irrégulier...
2. Génération d’une question à partir d’une table de patrons : le programme
dispose d’une liste de patrons de phrases, chacun correspondant à un type
de réponse à une question. Si un patron est retrouvé dans la phrase entrée
au programme, le système peut donc générer la question correspondante.
Exemple : I have a dog so that I walk everyday correspondant au pa-
tron P1 so that P2
– Repérage et analyse des caractéristiques morphologiques du verbe
de P1 pour générer une bonne forme du do et transformation en P1’
do I have a dog
– Génération d’une question à partir de P1’ : Why do I have a dog ?
– Génération d’une réponse attendue : so that + P2 (so that I walk
everyday)
3. Post-traitements : le programme rejette les paires question-réponse qui ne
satisfont pas certaines conditions (phrases trop longues, présence d’une
virgule dans la question...).
4. Vérification de la réponse de l’étudiant : si plus de 50% des mots de plus de
quatre lettres de la réponse attendue sont contenus dans la réponse donnée,
celle-ci est acceptée (les mots-outils sont de cette manière éliminés dans
l’évaluation).
8. Les phrases trop complexes ou trop longues sont d’emblée éliminées par le système
59
60. Résultats
Le système a été évalué sur 50 questions générées. Parmi celles-ci, 34 ont été
jugées satisfaisantes. Les 16 autres ont été classées selon quatre types d’erreurs :
les erreurs syntaxiques (11 occurrences), sémantiques (3 occurrences), pédago-
giques (1 occurrence) et « bug du programme » (1 occurrence). Parmi les erreurs
syntaxiques, beaucoup étaient liées à une mauvaise reconnaissance du verbe
principal de la phrase.
Notons que l’idée première de l’implémentation était de fonctionner sur la
base d’une analyse syntaxique de la phrase, mais que celle-ci était beaucoup trop
coûteuse en mémoire et en temps 9 .
2.2.2 Une étude de Donna Gates
À l’instar de John Wolfe, Donna Gates (2008) envisage la fonction pédagogique
de la génération automatique de questions. Son but est d’offrir un outil d’aide
à la compréhension à la lecture, en créant des questions factuelles à partir de
textes. Les utilisateurs seraient donc contraints d’approfondir leur lecture du
texte et d’élargir leur compréhension de celui-ci pour être capable de répondre
aux questions posées. Cette méthode de lecture se base sur ce qui se trouve
directement dans le texte. Les questions générées sont uniquement des questions
factuelles dont la réponse est intratextuelle (Gates, 2008 :10). Le procédé utilisé
est le suivant :
1. Génération d’un arbre syntaxique grâce au Standford Syntactic Parser (Klein
et Manning, 2003), augmenté d’informations sémantiques récupérées de
Wordnet (Fellbaum, 1998) (animé-inanimé, personne, organisation, pays...).
2. En fonction de la phrase et des syntagmes qui la composent, plusieurs types
de question sont possibles. Le système en traite quatre et génère un arbre
par type de question accepté par la phrase (sujet, objet direct, complément
d’agent, expressions temporelles).
9. Rappelons que l’article date de 1976... La puissance des ordinateurs était donc de loin
inférieure à celle de nos machines actuelles.
60
61. 3. Transformation de l’arbre à l’aide de règles Tsurgeon (voir 3.2) écrites à la
main, le but étant de baliser la réponse à la future question et de transformer
la structure de la phrase pour passer du mode déclaratif au mode interrogatif
(inversion sujet-verbe, insertion d’un mot interrogatif...).
4. Phase de simplification (suppression des relatives et des syntagmes préposi-
tionnels)
5. Règles pour affiner les mots interrogatifs en fonction d’informations séman-
tiques
6. Transformation des arbres de questions (forme profonde) en format correct
(forme de surface). A partir de l’arbre complexe et annoté, un script génère
la question en recherchant les nœuds de surface (terminaux) et rend la
phrase dans un anglais correct (bonne forme du « do », accord sujet-verbe...)
Evaluation
L’évaluation se base sur les paires question-réponse, à partir desquelles deux
évaluateurs attribuent une note à la question générée (parfaite, bonne, mauvaise
ou très mauvaise) en regard de la réponse. Ces grades doivent être attribués à la
lumière de deux critères : la pertinence sémantique et la grammaticalité. Pour ce
faire, 693 questions, issues d’un corpus de 52 passages de CBC4Kids 10 ont été
soumises à l’évaluation. Sur toutes ces questions, 75% ont été retenues comme
parfaites, 6% comme bonnes, 15% comme mauvaises et 4% comme très mauvaises.
Ces résultats semblent corrects, mais sont à nuancer. Le corpus d’évaluation étant
un corpus de textes destinés aux enfants, les passages traités et les phrases entrées
au programme sont relativement simples, ce qui facilite l’analyse syntaxique et
donc la génération des questions.
Limites
L’auteur constate certaines limites dans son approche. Premièrement, l’outil
se cantonne aux questions factuelles, au détriment des questions plus complexes
de type comment ou pourquoi. En outre, l’auteur cite trois sources d’erreurs
10. www.cbc.ca/kids
61
62. dans les questions générées ; les erreurs d’analyse, celles dues à une mauvaise
reconnaissance des entités nommées et celles liées à des patrons de modification
trop peu précis et donc des règles trop restrictives.
2.2.3 Heilman et Smith et l’apport de la simplification
La simplification de phrases
Heilman et Smith (2010a) développent un algorithme d’extraction de clauses à
partir de phrases complexes en vue de la génération automatique de questions.
Cette étape permet de faciliter la création d’un formalisme pour générer des ques-
tions concises à partir de phrases complexes. Les phrases étant plus simples, les
résultats sont moins bruités et les ambiguïtés d’analyse sont largement moindres
et plus facilement résolubles. Les auteurs définissent l’extraction de cette ma-
nière :
The task of extracting simple sentences from a complex input sentence is
essentially the task of generating a particular subset of the possible sentences
that a reader would assume to be true after reading the input.(Heilman et
Smith, 2010a :2)
La motivation de cette étape préalable est sémantico-pragmatique : globale-
ment les présuppositions sont extraites de la phrase de base. Pour ce faire, l’algo-
rithme se base sur la structure de la phrase (propositions relatives et subordonnées,
adverbes, appositions...), générée par un analyseur syntaxique, pour la découper
et supprimer les éléments moins significatifs. Une démonstration de l’outil est
disponible en ligne 11 . L’exemple 84 illustre une sortie du programme.
(84)
– Entrée : Alfred studied at Oxford, where he learned to speak
English.
– Sortie :
– Alfred studied at Oxford.
– He learned to speak English at Oxford.
11. http://www.ark.cs.cmu.edu/mheilman/qg-2010-workshop/
62