SlideShare ist ein Scribd-Unternehmen logo
1 von 176
Downloaden Sie, um offline zu lesen
Université catholique de Louvain
          Faculté de Philosophie, Arts et Lettres




  G ÉNÉRATION AUTOMATIQUE DE
Q UESTIONS À PARTIR DE T EXTES EN
           F RANÇAIS
              Mémoire présenté par
                 L OUIS DE V IRON
       en vue de l’obtention du diplôme de
            M ASTER EN L INGUISTIQUE
à finalité spécialisée en Traitement Automatique du Langage




      P ROMOTEUR : D R . R ICHARD B EAUFORT




           Année académique 2010-2011
R EMERCIEMENTS


   Au moment de conclure ce mémoire, et de facto mes cinq années d’études, je
tiens à adresser quelques remerciements aux personnes qui m’ont aidé à faire de
 cette période un passage inoubliable, tant sur le plan personnel que sur le plan
                                  académique.

  Je remercie d’abord Monsieur Richard Beaufort, mon promoteur, pour ces deux
années de collaboration qui ont abouti au présent travail. Ses nombreux conseils,
  ses remarques, son souci de la perfection et les entretiens qu’il m’a accordés
m’ont beaucoup appris et j’espère qu’ils auront contribué à faire de ce mémoire
                             un travail de qualité.

    Je tiens également à exprimer ma profonde gratitude à Mesdames Delphine
 Bernhard et Véronique Moriceau, ainsi qu’à Monsieur Xavier Tannier pour leur
encadrement d’une qualité exceptionnelle durant les deux mois de stage passés
au LIMSI. Leurs conseils et encouragements à aller de l’avant m’ont énormément
stimulé et fait progresser. Je remercie aussi tous les membres du groupe ILES pour
                  l’agréable accueil qu’ils m’ont réservé parmi eux.

  Merci à Mademoiselle Alice Bardiaux pour sa relecture attentive de ce travail et
         à Monsieur Michael Zock pour ses précieux conseils critiques.

  Si ces deux années de master en linguistique furent un succès pour moi et une
  si bonne formation, je le dois également à un encadrement de qualité. C’est
pourquoi je tiens à remercier Messieurs Sébastien Combéfis, Thomas François et
              Hubert Naets pour leur disponibilité à toute épreuve.

     Je remercie également Mademoiselle Louise-Amélie Cougnon de m’avoir
 proposé une première immersion professionnelle dans le monde du TAL, et les
autres membres du CENTAL qui m’ont chaleureusement accueilli parmi eux pour
mon baptême de feu dans le monde de la recherche en juin dernier à Montpellier.




                                        3
On ne réalise heureusement pas ses études tout seul et si j’ai pu passer
d’agréables moments sur les bancs des auditoires – et en dehors – durant ces deux
  années de master, je le dois à mes fidèles camarades de promotion Florence,
Stéphanie, Cédric et Denis. Merci à vous pour cette entraide et l’amitié que nous
                       avons pu nouer dans l’« adversité ».

   Je m’en voudrais d’oublier tous ceux qui ont partagé ma vie estudiantine et qui
ont collaboré à mon accomplissement extra-académique durant ces cinq années.
Je pense à mes amis du Campagnol, du Cercle FLTR, de l’ANLO, de la Schola, des
Blancs Chevaux, d’UTUC, à mes Amis de La Rue, et plus particulièrement à tous
  ceux qui ont accompagné mon quotidien, à la Rue des Sports et à La Coquille.

   Enfin, j’adresse mon dernier – et non le moindre – remerciement à Brieuc,
Aymeric et Éléonore pour leur complicité fraternelle ainsi qu’à mes parents, qui
 m’ont donné la chance inestimable d’entamer des études et les moyens de les
    achever, grâce à un soutien sans faille et une écoute toujours attentive.




                                                                   Louis de Viron
                                                                       Août 2011




                                        4
TABLE DES MATIÈRES




Remerciements                                                                             3



Introduction                                                                             12


I État de l’art                                                                          17

1 La notion de question : définition, typologie et structure                              19
   1.1 Définition et typologie . . . . . . . . . . . . . . . . . . . . . . . . . . .      20
        1.1.1 Classification linguistique . . . . . . . . . . . . . . . . . . . . .       21
        1.1.2 Catégorisation conceptuelle . . . . . . . . . . . . . . . . . . .          23
        1.1.3 Synthèse : une classification « mixte » . . . . . . . . . . . . . .         29
   1.2 La question d’un point de vue formel . . . . . . . . . . . . . . . . . .          31
        1.2.1 Le marquage des questions . . . . . . . . . . . . . . . . . . . .          31
        1.2.2 Les mots interrogatifs . . . . . . . . . . . . . . . . . . . . . . .       32
        1.2.3 L’inversion sujet-verbe . . . . . . . . . . . . . . . . . . . . . . .      36
   1.3 De la déclarative à l’interrogative : les règles transformationnelles
        de Langacker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   40


                                            5
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    46

2 Génération automatique et génération automatique de questions                          49
   2.1 La génération automatique de textes . . . . . . . . . . . . . . . . . .           50
   2.2 La génération automatique de questions . . . . . . . . . . . . . . . .            56
        2.2.1 Les débuts : Les travaux de John Wolfe . . . . . . . . . . . . .           58
        2.2.2 Une étude de Donna Gates . . . . . . . . . . . . . . . . . . . .           60
        2.2.3 Heilman et Smith et l’apport de la simplification . . . . . . .             62
        2.2.4 Kalady et l’apport des questions définitoires . . . . . . . . . .           64
        2.2.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     66
   2.3 Confrontation des deux domaines . . . . . . . . . . . . . . . . . . . .           67
   2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    70



II Implémentation d’un outil de génération automatique de
questions pour le français                                                               73

3 Présentation des outils utilisés                                                       75
   3.1 XIP : un analyseur syntaxique robuste . . . . . . . . . . . . . . . . . .         75
   3.2 Tregex et Tsurgeon : manipulation d’arbres syntaxiques . . . . . . .              77
        3.2.1 Tregex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   77
        3.2.2 Tsurgeon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     79
        3.2.3 Intérêt pour notre démarche . . . . . . . . . . . . . . . . . . .          80
   3.3 Morflex : un fléchisseur morphologique . . . . . . . . . . . . . . . . .            81
   3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    82

4 Architecture du système                                                                83
   4.1 Pré-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     84
   4.2 Le générateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     87
        4.2.1 Typologie des questions générées . . . . . . . . . . . . . . . .           87

                                            6
4.2.2 Présentation générale de l’algorithme . . . . . . . . . . . . . .          89
       4.2.3 Structure de base d’une règle . . . . . . . . . . . . . . . . . . .        89
       4.2.4 Détail des différentes règles . . . . . . . . . . . . . . . . . . . .      90
       4.2.5 Traitement des inversions . . . . . . . . . . . . . . . . . . . . .        93
  4.3 Post-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      95
  4.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    95

5 Évaluation                                                                            97
  5.1 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .     97
  5.2 Résultats et interprétations . . . . . . . . . . . . . . . . . . . . . . . . 100
  5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

6 Conclusion : apports et limites                                                      113



III Perspectives                                                                       115

7 Problèmes rencontrés et solutions envisagées                                         117
  7.1 Problèmes typographiques . . . . . . . . . . . . . . . . . . . . . . . . 117
  7.2 Erreurs dues à l’analyseur . . . . . . . . . . . . . . . . . . . . . . . . . 120
  7.3 Questions bruitées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
  7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8 Une plus grande variété de questions                                                 129
  8.1 Élargissement de la typologie . . . . . . . . . . . . . . . . . . . . . . . 130
       8.1.1 Questions en quel . . . . . . . . . . . . . . . . . . . . . . . . . . 130
       8.1.2 Questions de quantité et de mesure . . . . . . . . . . . . . . . 134
       8.1.3 Questions introduites par pourquoi . . . . . . . . . . . . . . . 136
       8.1.4 Questions introduites par comment . . . . . . . . . . . . . . . 138
       8.1.5 Questions sur les sigles et les acronymes . . . . . . . . . . . . 139


                                           7
8.1.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
   8.2 Génération de paraphrases sur les questions . . . . . . . . . . . . . . 141
   8.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145



Conclusion générale                                                                147

Bibliographie                                                                       153

Table des figures                                                                    163

Liste des tableaux                                                                  165



Annexes                                                                            167

A Typologie des règles de simplification                                             169

B Corpus d’évaluation                                                               171




                                           8
« Le savant n’est pas l’homme qui fournit les

vraies réponses, c’est celui qui pose les vraies

                                   questions. »


                       Claude L ÉVI -S TRAUSS
I NTRODUCTION
Si le domaine des systèmes de questions-réponses 1 – consistant en la recherche
d’une réponse à une question donnée à partir d’une collection de documents –
est aujourd’hui en pleine expansion dans le monde du Traitement Automatique
du Langage (TAL), celui de la génération automatique de questions (GAQ) 2 est
largement moins populaire, du moins dans le monde francophone. En effet, alors
que de nombreuses recherches dans ce domaine ont été entamées pour l’anglais,
la littérature ne recense aucun article traitant de cette problématique en français,
à l’exception d’un travail d’étudiant introductif (Brette et Lescuyer, 2006).


  La génération automatique de questions à partir de textes, dans sa forme ac-
tuelle, consiste en la transformation de phrases déclaratives en phrases interro-
gatives et constitue globalement l’opération inverse des systèmes de questions-
réponses. Grossièrement, elle part d’une réponse donnée sous forme de phrase
pour formuler la question correspondante. La tâche est complexe et mobilise
un grand nombre de ressources et outils du TAL, comme l’analyse syntaxique, la
résolution d’anaphores, la reconnaissance d’entités nommées ou encore la sim-
plification de texte. Les domaines d’application de ce type d’outil sont par ailleurs
variés et souvent motivés par un but pédagogique. Outre la création de tests et de
questionnaires à choix multiples, la génération automatique de questions peut
également servir à améliorer les systèmes de dialogue homme-machine ou les
systèmes de questions-réponses interactifs.


  Notre mémoire se situe dans le contexte d’absence de ressources satisfaisantes
en français. Notre objectif est de proposer une méthodologie pour générer des
questions en français qui puisse mener à la création d’un outil concret. Pour ce
faire, une large réflexion théorique préalable est nécessaire pour implémenter
  1. eng. : Question Answering (QA).
  2. eng. : Question Generation (QG).



                                        13
un système performant. Dès lors, le présent travail se compose de trois parties,
articulées selon une dynamique temporelle que l’on pourrait qualifier de « passé-
présent-futur ».


Le passé. La première partie, intitulée état de l’art, définit le cadre théorique de
notre objet d’étude. Nous y posons les réflexions préalables à l’implémentation
d’un générateur de questions. D’une part, nous étudions en profondeur la notion
de question. D’autre part, nous présentons le domaine de la génération automa-
tique de questions à travers une comparaison avec la génération automatique de
textes et un état de l’art de la discipline qui présente les principaux outils existants
en anglais.


Le présent. La deuxième partie présente l’implémentation d’un générateur au-
tomatique de questions pour le français. Elle fait suite à des travaux réalisés en
2010 dans le cadre d’un stage de deux mois au LIMSI, sous l’encadrement de
Delphine Bernhard, Xavier Tannier et Véronique Moriceau. Nous y développons
en détail notre méthodologie et exposons les résultats que nous avons obtenus,
après les avoir soumis à une évaluation.


Le futur. La troisième partie suggère des pistes de réflexions pour les éventuels
développements futurs de notre travail. Nous nous basons sur les limites soulevées
par l’évaluation pour identifier les problèmes majeurs et proposer des solutions
pour y remédier. En outre, nous exposons des améliorations supplémentaires qui
mériteraient d’être implémentées pour rendre le générateur plus performant et
plus complet.


  Par ce travail, nous espérons montrer l’intérêt de la génération automatique
de questions, souvent effacée au profit des systèmes de questions-réponses. Le


                                          14
parallèle avec la citation de Lévi-Strauss qui ouvre ce mémoire est dès lors établi et
pourrait constituer un bon slogan pour résumer notre travail si elle était traduite
de la manière suivante :

      « Le meilleur système n’est pas celui qui fournit les vraies réponses,
      c’est celui qui pose les vraies questions. »


  Nous n’irons pas si loin et notre intention n’est évidemment pas de provoquer
les chercheurs en questions-réponses, mais bien de montrer que la génération
automatique de questions est bel et bien un domaine qui mérite qu’on s’y attarde
quelque peu. Telle est la raison d’être de ce mémoire.




                                         15
P REMIÈRE PARTIE

 É TAT DE L’ ART
Dans cette partie, nous présentons un état de l’art de la génération automa-
tique de questions. Le premier chapitre propose une large réflexion sur la notion
de question, que nous abordons selon deux points de vue principaux, en défi-
nissant d’une part une typologie des questions et d’autre part leur structure à
un niveau plus formel, tout en s’interrogeant sur les mécanismes mobilisés pour
passer d’une phrase déclarative à une phrase interrogative. Nous nous intéressons
ensuite au domaine de la génération automatique et au statut particulier que
revêt la génération de questions au sein de celui-ci. Nous présentons différentes
méthodologies utilisées en génération automatique de questions tout en réfléchis-
sant à ses différents domaines d’application, montrant que ce domaine d’études
est susceptible de donner lieu à de nombreuses applications concrètes.




                                       18
CHAPITRE 1

                    LA NOTION DE QUESTION : DÉFINITION,

                                         TYPOLOGIE ET STRUCTURE




  Les phrases interrogatives ont fait l’objet de nombreuses études, notamment
en linguistique, en psychologie cognitive et en sciences de l’information et de la
documentation (Pomerantz, 2005 ; Moignet, 1966 ; Jacques, 1981). En traitement
automatique du langage, la recherche sur ce thème s’est surtout concentrée sur
le développement des systèmes de questions-réponses, donnant lieu à de nom-
breuses tentatives de typologies (Lehnert, 1978 ; Zock et Mitkov, 1991 ; Diekema
et al., 2003 ; Dang et al., 2006 ; Giampiccolo et al., 2007 ; Moriceau et al., 2010).


  Dans ce chapitre, après une première définition très générale de la notion
de question, nous parcourons la littérature en vue d’établir une typologie de
questions qui puisse servir de base à la génération automatique. Nous étudions
ensuite la question d’un point de vue plus formel en examinant ce qui la définit
syntaxiquement et la distingue des phrases déclaratives. Enfin, nous présentons
un système de règles écrit par Langacker (1965) pour transformer des phrases



                                          19
déclaratives en phrases interrogatives.


  Le but de ce chapitre est d’obtenir une définition exhaustive de la notion de
question, qui a pour vocation de constituer une base théorique pertinente pour la
génération automatique.



1.1 Définition et typologie

  Le Bon Usage (Grevisse et Goosse, 2007) définit la phrase interrogative de la
manière suivante :
      « Par la phrase interrogative, on demande une information à l’interlocuteur. »


Complétant cette définition basique, les auteurs relèvent quatre types de ques-
tions :
    – disjonctive : la question énonce une alternative (Tu sors ou je te sors ?)
    – fictive : la question n’appelle pas de réponse (Qui sait ?)
    – oratoire : on admet comme évidente la réponse à la question (Ne vous avais-
      je pas averti ?)
    – délibérative : le locuteur s’adresse à lui-même (Que faire à présent ?)


  Zock et Mitkov (1991) notent que l’on peut classer les questions selon différents
points de vue. Ils en relèvent trois :
    – Point de vue pragmatique, fonctionnel : ce point de vue fait référence à
      la théorie des actes de langage (Searle, 1995 ; Austin, 1999). Les questions
      sont classées selon l’acte qu’elles accomplissent. Néanmoins, cette théorie
      est très descriptive et peu applicable concrètement dans un système de
      génération. Nous ne l’abordons pas dans le cadre de ce travail.




                                           20
– Point de vue linguistique : la classification passe outre le sens pour se baser
      sur la forme et la structure des questions.
   – Point de vue conceptuel : la typologie se base sur l’objet de la question (lieu,
      temps...).


  Cette section traite des classifications linguistique et conceptuelle en parcourant
les travaux de quelques auteurs qui s’y sont intéressés. Nous mettons en exergue
l’intérêt et la complémentarité de l’une et l’autre approche dans le cadre de la
génération automatique de questions.



1.1.1 Classification linguistique

  Le Bon Usage (Grevisse et Goosse, 2007) opère deux distinctions au sein des
questions, menant à une première typologie basique :

  1. Il oppose les phrases interrogatives directes, de forme interrogative (1) et
      les interrogatives indirectes qui sont contenues dans une phrase énoncia-
      tive, injonctive ou interrogative et introduites par un verbe de demande
      (2).
                (1) Reviens-tu demain à la maison ?

                (2) Il se demande si tu reviens demain à la maison.



      Dans le cadre de ce travail, nous laissons de côté ce deuxième type d’interro-
      gative pour se concentrer sur la formation des questions, entendues comme
      des phrases interrogatives directes. Dorénavant, nous utilisons indifférem-
      ment les termes question et phrase interrogative par souci de simplicité.

  2. À l’instar de Danjoux-Flaux et Dessaux (1976), Le Bon Usage distingue les
      phrases interrogatives globales ou totales (exemple 3) 1 , dont la réponse
  1. La littérature use indifféremment des appellations globales et totales.


                                               21
peut-être oui ou non, des phrases interrogatives partielles, pour lesquelles
       l’interrogation porte sur un élément que le locuteur ignore (exemple 4) 2 .
           (3) Reviens-tu demain ?

           (4) Quand reviens-tu ?



    Le tableau 1.1 synthétise cette opposition sur la base de différents paradigmes.


                      Question totale                       Question partielle
 Mot interrogatif     /                                     pronom (qui, que, quoi, lequel,
                                                            combien)
                                                            déterminant (quel, combien de)
                                                            adverbe (comment, où, pourquoi,
                                                            quand)
 Tournure est-ce      en tête de phrase                     en tête de phrase, précédée du mot
 que                                                        interrogatif
 Portée de l’inter-   sur le verbe (éventuellement en re-   sur un élément que le locuteur
 rogation             lation avec un autre élément)         ignore
 Réponse              oui/non                               conforme à l’interrogatif utilisé
                                                            Ex : Où va-t-il ? À Bruxelles (où -
                                                            lieu)
 Intonation           montante                              en partie descendante

        TABLEAU 1.1 – L’opposition questions totales - questions partielles


  Certains auteurs ont également proposé de classifier les questions selon leur
mot interrogatif. On parle alors de classification en wh-words. Cette classification
regroupe tous les interrogatifs anglais commençant par wh- (who, what, which,
when, where, why), ainsi que l’adverbe interrogatif how 3 . Robinson et Rackraw
(1972a ; 1972b) définissent ces mots comme le panel complet des mots lexicaux
marqués interrogativement et qui peuvent être utilisés dans un environnement lin-
guistique similaire. Ces wh-words sont beaucoup utilisés en théorie journalistique.
   2. Dans le domaine des systèmes de questions-réponses, on utilise également les oppositions
« booléennes/factuelles » et « fermées/ouvertes ».
   3. Les correspondants français de ces mots sont : qui, que/quoi, quel, quand, où, pourquoi et
comment.




                                              22
Ils constituent en effet les éléments les plus importants qui doivent composer le
premier paragraphe d’un article (Pomerantz, 2005).


  Avec ces sept mots, une autre typologie de questions se dégage. Certes, toutes
les questions ne s’y retrouvent pas – les questions totales, par exemples, sont
mises de côté – et cette typologie n’est donc pas exhaustive, mais elle offre un
début de classification intéressant.


  Zock et Mitkov (1991) envisagent les limites de ce type de classification, relevant
l’ambiguïté possible de ces mots interrogatifs. Ils donnent l’exemple du mot
comment qui peut renvoyer à un état (5), à une méthode (6), à la valeur d’un
attribut (7) ou encore ou à des éléments plus spécifiques, comme par exemple un
moyen de transport (8).
         (5) Comment vas-tu ?

         (6) Comment as-tu résolu ce problème ?

         (7) Comment est ta maison, rouge ou blanche ?

         (8) Comment es-tu venu, en train ou à vélo ?




1.1.2 Catégorisation conceptuelle

   Lehnert (1978) introduit la notion de focus pour établir une catégorisation
conceptuelle des questions. Elle définit le focus comme le concept qui incarne
l’attente d’information exprimée par la question et postule que, tant que son focus
n’est pas déterminé, une question ne peut être comprise clairement.
     Exemple : dans la question « Où est né Barack Obama ? », tant que le focus
     « compléter un concept » n’est pas clairement déterminé par l’interlocuteur
     ou la machine qui doit fournir la réponse, la question n’est pas comprise et
     la réponse adéquate ne peut être fournie.




                                         23
La typologie de Lehnert est reprise en français dans le tableau 1.2.

               Catégorie                   Exemple
       1       Antécédent causal           Pourquoi Jean a-t-il quitté Paris ?
       2       Orientation vers un but     Pourquoi Marie a-t-elle acheté ce livre ?
       3       Capacité                    Que doit-il faire pour gagner ?
       4       Conséquence causale         Que s’est-il passé après qu’il est parti ?
       5       Vérification                 Est-il vraiment parti ?
       6       Disjonction                 Est-il à Londres ou à Glasgow ?
       7       Procédure                   Comment dois-je faire pour te rejoindre ?
       8       Compléter un concept        Quand est-il arrivé ?
       9       Attente                     Pourquoi n’est-il pas parti ?
       10      Jugement                    Que devrait-il faire pour survivre ?
       11      Quantification               Combien de personnes étaient présentes ?
       12      Spécification d’un élément   De quelle couleur sont ses yeux ?
       13      Requête                     Peux-tu me passer le sel ?

                TABLEAU 1.2 – La typologie conceptuelle de Lehnert


  Graesser (1994) ajoute à cette typologie les cinq catégories reprises dans le ta-
bleau 1.3. Notons que la catégorie assertion correspond aux phrases interrogatives
indirectes que nous avons décidé de ne pas traiter dans le cadre de ce travail.

               Catégorie                   Exemple
       1       Comparaison                 Dans quelle mesure ces deux villes sont-
                                           elles comparables ?
       2       Définition                   Qu’est-ce qu’une onde magnétique ?
       3       Exemple                     Qu’y a-t-il comme exemple de cette théo-
                                           rie ?
       4       Interprétation              Que s’est-il passé hier ?
       5       Assertion                   J’ai besoin de savoir quelle est ta taille.

            TABLEAU 1.3 – Les cinq catégories additionnelles de Graesser


  Zock et Mitkov (1991) avancent quatre objections à la typologie de Lehnert :

   1. Certaines catégories méritent d’être affinées. Quantification, par exemple,
      devrait comprendre les sous-catégories durée, fréquence...

   2. Certaines catégories sont trop précises. Les questions 9, 10 et 11 seraient
      par exemple classées dans trois catégories différentes (jugement, procédure

                                           24
et capacité) alors qu’elles pourraient toutes les trois être classées dans la
      catégorie procédure.

          (9) Comment t’es-tu arrangé avec John ?


          (10) Comment John a retrouvé son livre ?

          (11) Comment allons-nous manger ce soir ?


   3. La catégorie compléter un concept est trop large pour définir les wh-questions.
      En effet, toute question, à part les questions totales, demande une complé-
      tion de concept.

   4. Le métalangage, i.e. les explications relatives à la typologie et au choix des ca-
      tégories, est parfois trop exotique pour convenir à un locuteur quelconque.


  La campagne d’évaluation de systèmes de questions-réponses CLEF 4 établit
une autre typologie de questions, plus générale. Trois types sont relevés et divisés
en sous-catégories (Giampiccolo et al., 2007). Ces catégories se basent sur le type
de réponse attendue à la question posée :
        1. Questions factuelles : questions basées sur des faits
           – Personne
                (12) Qui est le président français ? Nicolas Sarkozy
           – Temps
                (13) Quand est mort Jean-Paul II ? En 2005
           – Lieu
                (14) Où est né Mozart ? À Salzbourg
           – Organisation
                (15) À quel parti appartient Didier Reynders ? Au Mouvement
                Réformateur
           – Mesure
                (16) Quelle hauteur fait la tour Eiffel ? 324 mètres
           – Nombre
                (17) Combien d’habitants y a-t-il en Belgique ? 10 827 519
           – Objet
                (18) De quoi est faite une table ? De bois

  4. http://clef-campaign.org



                                          25
– Autres
                 (19) Quel traité a été signé en 1979 ? Le traité de paix entre
                 Israël et Égypte
         2. Questions définitoires : questions de type Qui/Qu(e) est X ?
            – Personne
                 (20) Qui est Robert de Niro ? Un acteur de cinéma
            – Organisation
                 (21) Qu’est-ce que la Douma ? Le parlement russe
            – Objet
                 (22) Qu’est-ce qu’une assiette ? Un plat dans lequel on
                 mange
            – Autres
                 (23) Qu’est-ce que l’Eurovision ? Un concours de musique
         3. Questions listes : questions qui requièrent une réponse contenant un
            nombre déterminé d’unités
              (24) Quels sont les aéroports de Londres ? Gatwick, Stansed,
              Heathrow, Luton et City



  Dans un article traitant des « questions complexes » (Moriceau et al., 2010), les
auteurs complètent cette typologie. Outre les catégories factuelle – qu’ils défi-
nissent comme regroupant les questions globales et celles portant sur des entités
– et définition 5 , ils mettent au jour deux nouvelles catégories :
         1. Opinion
                 (25) Que vous inspire ce film ?
         2. Explication
            – Processus ou séquence de processus : correspond à la majorité des
              questions en comment
                 (26) Comment faire une note de bas de page en LTEX ?
                                                                   A

            – Conséquence ou liste de conséquences :
                 (27) Que provoque le gel sur les routes ?
            – Raison ou liste de raisons : correspond aux questions en pourquoi
              – Cause
                   (28) Pourquoi un chercheur gagne-t-il moins qu’un trader ?
              – But
                   (29) Pourquoi le gouvernement a-t-il prêté de l’argent aux
                    banques ?
              – Obligation
                   (30) Pourquoi doit-on obéir aux lois ?


  5. Ils ne traitent pas dans l’article des questions de type liste.


                                                 26
Une typologie axée sur la question

   Zock et Mitkov (1991) reprochent à ces typologies d’être davantage axées sur
les réponses que sur les questions. Ils veulent pouvoir s’affranchir de la réponse
et identifier le type d’élément sur lequel porte la question. À terme, l’intérêt est
de créer un système sur la base de cette typologie qui permet à un utilisateur
d’interagir librement avec une base de données. La démarche se situe donc dans
une optique de génération de questions, davantage que les classements présentés
jusqu’ici, comme l’indique la citation suivante :
        « Our goal [...] is not to specify how to answer a question, but how to ask it. To
        this end we need to make a taxonomy of questions. » (Zock et Mitkov, 1991)




  La taxonomie proposée est très fine. Elle ne traite par contre que des questions
portant sur un élément et non des questions portant sur des phrases entières,
comme les questions globales. Les auteurs relèvent 14 grands types de questions,
divisés chacun en catégories plus fines. Cette typologie est présentée dans le
tableau 1.4. Les exemples sont présents pour donner une indication de la structure
de ces types de questions et des éléments qui doivent s’y trouver (préposition,
mot interrogatif, sujet animé ou inanimé...).



 Type                            Sous-Type                  Exemple
 Question-rôle                   Agent-Objet                Qui as-tu vu ?
                                 Co-agent                   Avec qui es-tu venu ?
                                 Bénéficiaire-               À qui as-tu offert ce cadeau ?
                                 Destination
                                 Source                     De qui as-tu reçu ce cadeau ?
                                 Moyens-Instruments         Qu’a-t-il utilisé pour creuser ?
                                 Instrumentalité            Avec quoi vais-je creuser ?
                                 Possesseur-Relation        À qui appartient ce livre ?
                                                            À qui est cet enfant ?
 Question-évènement              Évènement                  Qu’est-ce qu’il s’est passé ?
                                 Action                     Qu’a-t-il fait ?
 Spécification d’un trait         Identité                   Quel est ton nom ?
                                 Origine                    D’où vient-il ?


                                               27
Temps                   Quelle heure est-il à Londres ?
                             Âge                     Quel âge a-t-il ?
                             Taille                  Quelle est la taille de cette personne ?
                             Couleur                 Quelle est la couleur de cette maison ?
                             Prix                    Combien coûte cette moto ?
Question de degré            Vitesse                 À quelle vitesse roule-t-il ?
                             Âge                     Quel âge a-t-il ?
Question de manière (ac-                             Comment a-t-il dormi ?
tion)
Spécification (choix d’un                             Quel est le plus intelligent des deux ?
élément parmi d’autres)
Quantité                     Longueur                De quelle longueur est ce lac ?
                             Fréquence               À quelle fréquence cela arrive-t-il ?
                             Distance                À quelle distance se situe Istanbul ?
                             Intelligence            À quel point John est-il intelligent ?
                             État émotionnel         À quel point l’aimes-tu ?
Question spatiale            Emplacement             Où habites-tu ?
                             Direction-Destination   Où vas-tu ?
                             Source-Origine          D’où viens-tu ?
                             Contenance              Dans quoi gardez-vous le beurre ?
Question temporelle          Point                   À quelle heure décolle ton avion ?
                             Unité de temps          Quel jour sommmes-nous ?
                             Fréquence               À quelle fréquence prends-tu le train ?
                             Durée                   Depuis combien de temps travailles-
                                                     tu ?
                             Passé-Présent           Depuis quand travailles-tu ?
                             Point final              Jusque quand travailles-tu ?
Raison                       Cause                   Pourquoi a-t-elle quitté son emploi ?
                             Motivation              Pourquoi veux-tu faire ça ?
                             Convention              Pourquoi dit-on « merci » ?
Hypothèse                    Conséquence             Que se passe-t-il si je fais ça ?
Condition                                            Quand pourrai-je dormir ?
Méthode                                              Comment résoudre ce problème ?
Structure et fonctionne-                             Comment est organisé ce pays ?
ment
                                                     Comment éteindre l’ordinateur ?

                      TABLEAU 1.4 : La Typologie de Zock et Mitkov




                                             28
1.1.3 Synthèse : une classification « mixte »

  Nous avons relevé deux types de classification, l’une axée sur un point de vue
linguistique et l’autre basée sur un point de vue conceptuel. Ces deux axes de
recherche apportent chacun leurs éléments intéressants, mais ne sont pas contra-
dictoires pour autant. Afin de montrer la complémentarité des deux approches,
nous les avons synthétisées pour proposer une typologie « mixte » en établissant
une catégorisation conceptuelle au sein d’une classification linguistique, basée
sur les wh-words. Dans une optique de développement d’un système de règles de
génération, nous pensons que les wh-words sont un point de départ intéressant
en ce sens qu’ils réalisent globalement toutes les fonctions syntaxiques possibles
dans une phrase donnée 6 . Nous affinons ensuite cette première catégorisation en
associant à chacun de ces mots interrogatifs les concepts qui leur correspondent.
De cette manière, chaque concept est relié au mot interrogatif approprié. Cette
typologie est reprise dans le tableau 1.5. Une catégorie est ajoutée afin de prendre
en compte les questions globales, qui ne contiennent pas de mot interrogatif.
  6. Nous incluons pour chaque wh-word la possibilité d’être précédé d’une préposition.




                                            29
wh-word              Concept                     Exemple
  Qui                  Personne                    Qui a offert ce cadeau à Pierre ?
  Que/Quoi             Définition                   Qu’est-ce qu’une onde ?
                       Matière                     De quoi est faite cette table ?
                       Opinion                     Qu’en penses-tu ?
                       Conséquence                 Que provoque le gel sur les routes ?
                       Évènement                   Que s’est-il passé samedi ?
                       Action                      Qu’a-t-il fait de mal ?
  Quand                Point temporel fixe          Quand est né Barack Obama ?
                       Fréquence                   Quand prends-tu le train ?
                       Passé-Présent               Depuis quand travailles-tu ?
                       Présent-Futur               Jusque quand travailles-tu ?
  Où                   Emplacement                 Où habites-tu ?
                       Source-Origine              D’où viens-tu ?
                       Direction-Destination       Où vas-tu ?
  Pourquoi             Cause                       Pourquoi a-t-elle quitté son emploi ?
                       But                         Pourquoi roule-t-il si vite ?
                       Convention-obligation       Pourquoi doit-on dire « merci » ?
  Comment              Procédure                   Comment faut-il écrire une lettre ?
                       Structure                   Comment est organisé ce pays ?
                       Spécification d’un élément   Comment est cette fille ?
  Quel (lequel)        Spécification d’un élément   De quelle couleur sont ses yeux ?
                                                   Quelle est la capitale de la Belgique ?
                       Liste                       Quels sont les aéroports de Londres ?
  Combien              Quantification               Combien de chats a-t-elle ?
                       Prix                        Combien coûte ce tableau ?
  Questions globales   Vérification                 Est-il vraiment parti ?
                       Requête                     Peux-tu me passer le sel ?

             TABLEAU 1.5 – Synthèse : typologie mixte des questions


  Cette typologie que nous avons élaborée prend tout son sens dans le cadre de la
génération de questions. De cette manière, dans une phrase quelconque, chaque
élément susceptible d’être interrogé devra pouvoir être associé à un concept. Une
fois ce concept détecté, il suffira de le relier au mot interrogatif approprié afin de
générer une question à partir de celui-ci.




                                          30
1.2 La question d’un point de vue formel

   Dans cette section, nous étudions la question à un niveau plus grammatical.
Nous y décrivons la façon dont elle se construit, en proposant une définition
qui se veut pertinente et précise et qui doit pouvoir servir de base à la généra-
tion automatique de questions. À cette fin, nous développons trois éléments qui
nous semblent fondamentaux : le marquage des questions, en cherchant à déter-
miner ce qui les distingue radicalement des propositions déclaratives, les mots
interrogatifs et l’inversion sujet-verbe.



1.2.1 Le marquage des questions

   Le marquage de la question se fait principalement au niveau de l’intonation
à l’oral et par un point d’interrogation final à l’écrit. La langue écrite soignée
aura tendance à y ajouter une inversion sujet-verbe tandis que l’oral et la langue
écrite moins soignée préfèreront l’usage de l’introductif « est-ce que » (Grevisse
et Goosse, 2007). Nuançant ce constat, Danjoux-Flaux et Dessaux (1976) s’inter-
rogent sur le caractère distinctif de ces marques pour l’interrogation et objectent
que s’il existe des traits qui indiquent l’interrogation, ceux-ci sont polyvalents
et ne se limitent pas strictement à ce type d’énoncé. C’est le cas notamment de
l’inversion sujet-verbe que l’on retrouve tant dans les phrases assertives qu’inter-
rogatives, comme le montrent les deux exemples suivants :
         (31) Comment va-t-il ?

         (32) Ainsi va-t-il de temps en temps au marché.




  Si les traits relevés sont donc bien représentatifs des questions, ils ne sont
pas pour autant spécifiques à celles-ci et ne permettent pas de les distinguer de
tous les autres types de phrases. Néanmoins, à l’écrit, l’inversion sujet-verbe

                                            31
et la tournure est-ce que semblent être de bons indicateurs pour déterminer
qu’une phrase donnée est interrogative. Tout en émettant une certaine réserve,
on pourrait également affirmer qu’ils constituent, avec le point d’interrogation
final, les traits minimaux d’une question formulée dans un registre standard.


1.2.2 Les mots interrogatifs

  Comme l’indique le tableau 1.1 à la page 22, les mots interrogatifs prennent
principalement trois formes. Ils peuvent être soit un pronom, soit un détermi-
nant, soit un adverbe. Ces mots interrogatifs se placent généralement en tête de
proposition, même si trois exceptions quant à leur position sont à souligner :
   – Si la question comporte deux mots interrogatifs, le deuxième suit le verbe :
              (33) Qui fait quoi ?


   – Si le mot interrogatif est la tête d’un syntagme prépositionnel, la préposition
      le précède :
              (34) Depuis quand est-il là ?


   – Il arrive, dans un registre moins normé, que le mot interrogatif se retrouve à
      la place du mot qu’il substitue :
              (35) Il part quand [demain] ?




  Les pronoms interrogatifs Qui, que et quoi sont invariables et entrainent un
accord au masculin singulier pour tous leurs compléments. Par exemple, la phrase
« Qui est heureuse ? » n’est normalement pas acceptée et doit être corrigée pour
donner « Qui est heureux ? » (Danjoux-Flaux et Dessaux, 1976 :149).


  Les adverbes où, quand, combien peuvent être précédés d’une préposition au
sein de la question ou même contenir la préposition en eux.

                                          32
(36) Luc va vers Lyon → Vers où Luc va-t-il ?

            (37) Luc est dans le jardin → Où Luc est-il ?




    Les mots interrogatifs ont donc des sources lexicales variables (substantifs,
 infinitifs, adjectifs, propositions complétives ou infinitives, syntagmes préposi-
 tionnels...). De ce fait, le panel d’éléments pouvant faire l’objet d’interrogations est
 large et, dans le cadre de la génération automatique de questions, il est nécessaire
 de pouvoir traiter tous ces cas afin de produire des interrogations sur chacun de
 ces éléments.


 Comportement face aux modifieurs

    Danjoux-Flaux et Dessaux (1976) soulignent le comportement différent des
 interrogatifs face aux modifieurs. Les modifieurs sont « les expansions du nom
 dans un groupe nominal » (Molinier et Levrier, 2000 :21) (adjectifs, compléments
 du nom, relatives). Nous illustrons ces différents comportements dans le tableau
 1.6. Pour chaque type d’interrogatif, nous donnons trois exemples de phrases,
 chacun de ceux-ci utilisant un type de modifieur. Nous testons ensuite la validité
 de la paire « interrogatif-modifieur ». Les exemples précédés d’un astérisque sont
 non-valides. L’intérêt de cette recherche est de définir plus tard des patrons cor-
 rects de phrases interrogatives en évitant d’associer un mot interrogatif avec un
 modifieur qu’il n’accepte pas.

                             Comp. adjectival en de   Comp. nominal        Relative
Adverbes interrogatifs       *Pourquoi d’agréable     *Pourquoi des gens   *Pourquoi qui est agréable
Pronoms interrogatifs        Qui d’agréable           *Qui des gens        Qui, qui est agréable
Déterminants interrogatifs   *Lequel d’agréable       Lequel des gens      Lequel, qui est agréable


                        TABLEAU 1.6 – Interrogatifs et modifieurs




                                              33
Le choix entre qui, que et quoi

  Le choix entre ces trois pronoms n’est pas anodin et mérite d’être expliqué dans
une étude préalable au développement d’un outil de génération automatique
de questions. En effet, si ces trois occurrences ne peuvent être utilisées indiffé-
remment, il est important de comprendre les facteurs qui président au choix de
l’une ou l’autre forme. Il faut pour cela distinguer trois cas, relatifs à la fonction
du pronom dans la phrase.


  Si l’interrogatif a la fonction de sujet et que ce sujet est animé, il prendra la
forme qui (38). En revanche, s’il est inanimé, il prendra la forme qu’est-ce qui (39),
les formes que et quoi étant très rarement attestées (Danjoux-Flaux et Dessaux,
1976 :150).
         (38) Jean joue avec son chien → Qui joue avec son chien ?

         (39) Fumer tue → Qu’est-ce qui tue ?




  Quand l’interrogatif a la fonction d’attribut du sujet, l’opposition entre qui
d’une part et que et quoi d’autre part, dépasse le clivage entre animé et inanimé
et se résout dans la forme de la réponse à la question. Dans le cas des animés
par exemple, alors que qui demande un syntagme nominal comprenant un dé-
terminant, comme dans l’exemple 40, que demande un syntagme nominal sans
déterminant, comme dans l’exemple 41. Si la réponse est un adjectif, on utilisera
plutôt l’interrogatif comment (voir l’exemple 42).
         (40) Luc est un concierge → Qui est Luc ?

         (41) Luc est concierge → Qu’est Luc ?

         (42) Luc est intelligent → Comment est Luc ?




                                         34
Dans tous les autres cas, le choix entre ces termes est déterminé par le caractère
animé ou inanimé du mot qu’il remplace. Si ce mot est animé, le pronom pren-
dra la forme qui (43, 44) et dans le cas contraire, il prendra la forme que s’il est
complément direct (45) et quoi sinon (46).
         (43) Le chat amuse Jean→ Qui amuse le chat ?

         (44) Jean donne une pomme à Pierre→ À qui Jean donne-t-il une
         pomme ?
         (45) Jean mange une pomme→ Que mange Jean ?

         (46) Jean joue au football → À quoi joue Jean ?




Rôle de la construction du verbe dans le choix des interrogatifs

   Danjoux et Dessaux (1976) se basent sur les travaux de Maurice Gross (1968) et
ses tables de Lexique-Grammaire pour montrer que le choix des interrogatifs est
souvent contraint par le verbe utilisé dans la phrase. Ils étudient ce phénomène à
travers les constructions complétives et infinitives. Ils remarquent entre autres
qu’avec des infinitives construites à partir d’un verbe de mouvement ou causatif
de mouvement, la question qui en résulte sera régulièrement introduite par où.
         (47) Il emmène Luc voir Marie → Où emmène-t-il Luc ?



   Grévisse et Goosse (2007) montrent que quand l’interrogation porte sur le
verbe, il n’existe pas de mot interrogatif qui permette de former la question. Pour
contrer ce problème, il faut alors recourir au verbe substitut faire ou, à défaut, aux
verbes se passer ou y avoir pour former une question en que (Grevisse et Goosse,
2007 ; Danjoux-Flaux et Dessaux, 1976).
         (48) Le vieux mur peut tomber
         – *Que peut le vieux mur ?
         – Que peut faire le vieux mur ?




                                           35
Par ces deux exemples, les auteurs montrent que le choix de l’interrogatif est
loin d’être évident et que les contraintes qui s’exercent sur lui ne sont pas seule-
ment liées à son référent et à ses caractéristiques (animé, inanimé, complétive,
infinitive), mais aussi au contexte linguistique dans lequel il s’inscrit.



1.2.3 L’inversion sujet-verbe

  L’inversion se réalise différemment selon que le sujet est un pronom personnel
(ou le pronom ce) ou non. Nous distinguons ci-dessous ces deux cas avant d’évo-
quer l’introducteur est-ce que et son statut particulier (Grevisse et Goosse, 2007 ;
Langacker, 1965 ; Danjoux-Flaux et Dessaux, 1976).


Le sujet est un pronom personnel ou le pronom ce

  Aux temps simples, on procède à une inversion sujet-verbe classique, avec
l’insertion d’un trait d’union entre les deux.
         (49) Il vient → Vient-il ?




  Aux temps composés et au passif, le pronom est inséré entre l’auxiliaire et le
participe passé.
         (50) Il est venu → Est-il venu ?




  Ces deux règles comportent toutefois deux exceptions :
      – L’inversion n’est pas réalisée à la 1ère personne du singulier de l’indicatif
        présent pour les verbes ne se terminant pas par -e (*fais-je).
      – L’inversion n’est pas réalisée pour les temps composés de être quand
        le sujet est ce (*a-ce été) ainsi qu’à la troisième personne du pluriel de
        l’indicatif passé simple (*fussent-ce).




                                            36
Dans certains cas par ailleurs, le verbe se voit modifié avec l’inversion :
      – À la première personne du singulier de l’indicatif présent, les verbes se
        terminant en -e changent leur e en é (aimé-je)
      – À la troisième personne, quand le verbe se termine par une voyelle, on
        ajoute, par analogie à la prononciation, un -t- avant le pronom.




Le sujet n’est ni un pronom personnel, ni le pronom ce

   – Interrogations globales
   On procède à une inversion complexe. Cela signifie que le sujet reste à sa place
initiale, mais qu’il est repris après le verbe sous la forme d’un pronom personnel à
la troisième personne, accordé en genre et en nombre avec le sujet.
         (51) Jean est parti travailler → Jean est-il parti travailler ?


   – Interrogations partielles
   Cinq cas de figures sont à envisager :

   1. L’interrogation commence par un pronom interrogatif sujet ou par un dé-
      terminant interrogatif se rapportant au sujet : pas d’inversion
               (52) Jean est parti → Qui est parti ?


   2. L’interrogation commence par quel, qui est attribut ou se rapporte à l’attri-
      but : on procède à une inversion simple du sujet
               (53) Quels sont ces bruits sourds ?


   3. L’interrogation commence par que, qui est complément direct ou attribut
      du sujet avec un verbe copule autre que être : inversion simple
               (54) Jean mange une pomme → Que mange Jean ?


   4. Le mot interrogatif est pourquoi : on procède à une inversion complexe
      (sujet - verbe - reprise du pronom)


                                             37
(55) Jean est parti parce qu’il était malade → Pourquoi Jean est-il
                  parti ?


   5. Dans tous les autres cas : on fait soit une inversion complexe, soit une
         inversion simple
                  (56) Jean est parti à Paris → Où est parti Jean ? ou Où Jean est-il
                  parti ?



L’introducteur est-ce que
         « Ces tours avec est-ce que (interrogation globale et interrogation partielle)
         sont souvent considérés comme peu élégants et lourds. Ils sont très anciens
         pourtant, et les classiques ne les rebutaient pas. Ils se rencontrent parfois
         dans la langue littéraire la plus élaborée, mais moins souvent aujourd’hui
         qu’hier, semble-t-il. »(Grevisse et Goosse, 2007)



    Le Bon Usage évoque donc cette différence de prestige entre les deux variantes
(inversion et tournure en est-ce que) dans la formulation des questions. Il cite
d’ailleurs une préférence de l’Académie française pour l’inversion dans les ques-
tions.
    Néanmoins, cette tournure en est-ce que permet de contourner certains inter-
dits liés à l’inversion.
         – Impossibilité d’inversion à la première personne du singulier de l’indicatif
           présent :
               (57) *Perds-je ? - Est-ce que je perds ?
         – Problème d’inversion avec le pronom
               (58) ce : *furent-ce ses derniers mot ? - Est-ce que ce furent ses der-
               niers mots ?
         – Interdiction du pronom interrogatif sujet neutre :
               (59) *Que m’oblige à faire ça ? - Qu’est-ce qui m’oblige à faire ça ?
         – Difficulté d’identifier sujet et objet :
               (60) Qui aime Jean ? - Qui est-ce qui aime Jean ?


    Ces constructions sont invariables en temps et en genre. Elles ne sont conju-
guées qu’à l’indicatif présent, à la troisième personne du singulier. Les questions
de l’exemple 61 illustrent l’invariabilité de ces tournures.

                                              38
(61) Est-ce que Jean est revenu ? Sont-ce que les enfants sons reve-
          nus ? Sera-ce que Jean reviendra ?


   L’utilisation de ces constructions diffère selon le caractère global ou partiel de
l’interrogation.
   – Interrogations globales
Dans ce cas, l’introducteur est-ce que est en tête de phrase, suivi du sujet, sans
reprise pronominale.
   – Interrogations partielles
La tournure est-ce que se place après le mot interrogatif et est suivie du sujet, sans
reprise pronominale. Si l’interrogatif est sujet, est-ce que se mue en est-ce qui.


Synthèse

  L’inversion sujet-verbe est une thématique complexe et dépend entre autres de
la nature nominale ou pronominale du sujet. Nous reprenons dans le tableau 1.7
une synthèse des différents types d’inversion en jugeant de leur acceptabilité. Les
phrases non acceptées sont précédées d’un astérisque.


                                 Nom                               Pronom
     Inversion simple
     Interrogation partielle     Quand vient Jean ?                Quand vient-il ?
     Interrogation totale        *Viendra Jean ?                   Viendra-t-il ?
     Interrogation totale est-   *Est-ce que viendra Jean ?        *Est-ce que viendra-t-il ?
     ce que
     Inversion complexe
     Interrogation partielle     Quand Jean vient-il ?             /
                                 *Que Luc dit-il ?
                                 *Qui nage-t-il bien ?
     Interrogation totale        Jean viendra-t-il ?               /
     Interrogation totale est-   *Est-ce que Jean viendra-t-il ?   /
     ce que

                         TABLEAU 1.7 – L’inversion sujet-verbe




                                               39
1.3 De la déclarative à l’interrogative : les règles trans-

       formationnelles de Langacker

  Dans la lignée des travaux de Chomsky en grammaire générative et transfor-
mationnelle, plusieurs auteurs ont proposé des règles pour formaliser la trans-
formation de phrases déclaratives en interrogatives en français (Kayne, 1973 ;
Langacker, 1965). Dans cette section, nous analysons le système de règles décrit
par Langacker dans un article intitulé French Interrogatives : A Transformational
Description (1965).


  Langacker distingue cinq procédés de formation différents : les questions to-
tales avec inversion sujet-verbe, les questions en quel suivi d’un substantif, les
questions en qui,que et quoi, les questions en est-ce que et les questions adver-
biales (introduites par un adverbe interrogatif). Comme nous l’avons vu plus haut,
les questions en est-ce que appartiennent à un registre moins normé et plus oral,
raison pour laquelle nous ne les abordons pas ici.


Les questions totales

  Quand une phrase déclarative est formée d’un sujet pronominal, la question
totale correspondante peut être formée par inversion du pronom et du premier
élément verbal (62). Quand le sujet n’est pas pronominal, la question est formée
par une inversion complexe, via une reduplication du sujet sous forme pronomi-
nale, à la suite du premier élément verbal (63).
         (62) Il est fou → Est-il fou ?

         (63) Jean est fou→ Jean est-il fou ?




                                           40
Langacker formalise cette transformation en trois règles successives. Dans
celles-ci, chaque élément de la phrase est représenté par un symbole :
      – *Ti indique le numéro de la règle. L’astérisque souligne qu’elle est obliga-
        toire
      – wh correspond au mot interrogatif (ici fictif)
      – [+P RON ] correspond au trait syntaxique pronom
      – NP correspond à un syntagme nominal (qui peut être un pronom)
      – V correspond au premier élément d’une chaine verbale
      – X,Y,Z correspondent à des chaines quelconques de caractères




  Une règle correspond à la transformation d’un état de la phrase vers un autre.
Les éléments sont associés à un numéro dans la partie gauche de la règle et la
partie droite donne le nouvel ordre de ces éléments. Certaines règles sont soumises
à une condition, exprimée sous la flèche de transformation.

   1. Reduplication du sujet à la suite du premier élément verbal

                    *T4 :   wh    NP   V    X       ⇒       1   2   3    +2   4
                             1     2   3    4


            Exemple :
           - wh1 Le chat gris2 est3 parti4 → wh1 Le chat gris2 est le chat gris3+2
            parti4
           - wh1 Il2 est3 parti4 → wh1 Il2 est Il3+2 parti4



   2. Pronominalisation du sujet dupliqué

       *T5 :   wh    NP + V      DET   [+N ]    X       Y       ⇒   12       4       6
                1      2          3      4      5       6                [+P RON ]


                                       NP


            Exemple :
           - wh1 Le chat gris est2 le3 chat4 gris5 parti hier6 → wh1 Le chat gris est2
            il4 parti hier6
           - wh1 Il est2 Il4 parti hier6 → wh1 Il est2 il4 parti hier6



                                               41
3. Ellipse du sujet si celui-ci est un pronom

                 *T7 :   X   NP    V    NP    Y      ⇒       1   3   4     5
                         1    2    3     4    5   |si 2=4|


             Exemple :
            - wh1 Pierre2 est3 il4 parti5 → la règle n’est pas appliquée
            - wh1 Il2 est3 il4 parti5 → wh1 est3 il4 parti5




Questions formées à partir d’un déterminant : questions en quel

  L’interrogatif quel est défini comme le résultat de l’ajout de l’interrogation au
déterminant quelque (Langacker, 1965 :590). L’interrogation porte donc sur le
déterminant, et pas sur le nom.
          (64) Vous préférez quelque tableau → Quel tableau préférez-vous ?




  Pour réaliser l’interrogation, il faut donc déplacer le syntagme dont le détermi-
nant est quelque en tête de proposition et joindre le déterminant au marqueur
d’interrogation fictif wh pour donner quel. Trois cas sont à distinguer pour écrire
cette règle :

   1. L’interrogation porte sur le sujet : dans ce cas, le syntagme n’est pas déplacé.
                (65) Quelque médecin va venir → Quel médecin va venir ?


   2. L’interrogation porte sur un syntagme prépositionnel : le syntagme entier
      est déplacé en tête de proposition.
                (66) Il parle à quelque femme → À quelle femme parle-t-il ?


   3. L’interrogation porte sur un élément dominé par une P2 : on ne peut réaliser
      l’interrogation.
                (67) Nous partirons quand quelque femme partira → *Quelle
                femme partirons-nous quand partira ?



                                             42
De ces trois cas, résulte la règle suivante :


            T3 :    wh     X     (P) DET     Y Z      ⇒     3   1+4    5   2   6
                                    quelque
                  1     2     3        4     5 6
            Condition : 4 + 5 n’est pas dominé par une P2


       Exemple :
       wh1 Vous parlez2 à3 quelque4 femme5 aujourd’hui6 → À3 quelle1+4 femme5
       vous parlez2 aujourd’hui 6 ?




  Une fois cette règle appliquée, il reste à réaliser l’inversion. Langacker propose
d’adapter les règles exposées pour les questions totales en les généralisant. Les
deux dernières règles (pronominalisation et ellipse) restent identiques, mais la pre-
mière (duplication) doit être précisée pour prendre en compte les constructions
en quel :

                   *T4 :            wh
                           (P)      NP    NP   V    Y   ⇒   1   2   3+2    4
                                   wh+X


                                  1       2    3    4


        Exemple :
       - Quel tableau1 Henri 2 préfère3 voir4 → Quel tableau1 Henri2 préfère Henri3+2
       voir4
       - Quel tableau1 Il2 préfère3 voir4 → Quel tableau1 Il2 préfère il 3+2 voir4




Questions formées à partir d’un syntagme nominal : questions en qui, que et
quoi

   Ces questions sont formées selon la même procédure que celles précédem-
ment décrites. En effet, le syntagme nominal sur lequel porte la question est
déplacé en tête de proposition, éventuellement précédé d’une préposition. La

                                               43
différence tient au fait que la séquence quel + Nom est ici remplacée par les pro-
noms Qui, que ou quoi en fonction du caractère humain non humain du Nom.
Langacker relève trois objections principales à cette transposition simple :
   – Que ne peut pas être sujet d’une phrase.
              (68) *Qu’est tombé ?


   – Quand la question porte sur l’objet direct et quand le sujet est un nom, la
      reduplication se fait si l’objet est humain (69), mais pas si l’objet est non
      humain (70).
              (69) Qui Henri voit-il ?

              (70) *Que Henri voit-il ?



   – Quand la question porte sur un syntagme prépositionnel, l’inversion simple
      (71) et complexe (72) sont autorisées.
              (71) De qui parle Henri ?

              (72) De qui Henri parle-t-il ?




  Il est donc nécessaire d’incorporer ces restrictions dans les règles existantes et
d’adapter celles-ci pour qu’elle conviennent aux questions en qui, que et quoi. Lan-
gacker propose de remplacer les termes à interroger par des pro-formes [+PRO] :
personne et chose, selon le caractère humain ou non-humain du terme concerné.
De cette manière, la séquence quelque [+PRO] est ensuite remplacée par qui ou
que selon les traits de la pro-forme. Cette règle intervient après le déplacement
en tête de proposition du syntagme à interroger et la reduplication. Le trait [H]
représente le caractère humain ou non du syntagme.




                                          44
*T6 :   (P)   wh + quelque     [+PRO]   (NP)   V   (NP)   X⇒    12     3       4567
                                  [+SG]                                [+M]
          1            2            3       4    5    6      7

  Quand 1 = P
       - si 4=6=NP : 3 = [-H] ou 6 = [+PRON]
       - sinon : 3 = [+H]



  Dans le cas où le syntagme à interroger est prépositionnel, le choix entre qui
et quoi se fait grâce à l’analyse du trait humain ou non humain (73). Dans le cas
contraire, la structure de la phrase est analysée pour déterminer le trait humain
ou non humain du syntagme et, en fonction de celui-ci, le pronom interrogatif
sera choisi (74,75).
          (73) - À quelque jeu Jean a Jean joué → À quelle chose Jean a Jean
           joué → À quoi Jean a Jean joué
          - À quelque joueur Jean a Jean donné un cadeau → À quelle personne
          Jean a Jean donné un cadeau → À qui Jean a Jean donné un cadeau
          (74) Quel jeu Jean a Jean offert → Quelle chose Jean a Jean offert →
          Que Jean a Jean offert
          (75) Quel joueur a gagné → Quelle personne a gagné → Qui a gagné




  Comme pour les questions totales et les questions en quel, cette règle est suivie
des étapes de pronominalisation et d’ellipse.


Questions adverbiales

    Langacker définit comme adverbiales les questions portant sur un élément
circonstanciel de la phrase (76, 77, 78).
          (76) Quand part-il ?

          (77) Où votre père va-t-il ?

          (78) Où va votre père ?




                                            45
Ces questions acceptent l’inversion simple et l’inversion complexe et ne néces-
sitent pas l’ajout de nouvelle règles par rapport à celles développées jusqu’à
présent. En effet, l’élément interrogé peut être remplacé par une construction de
type « P + quel + N » correspondant aux pronoms où et quand selon qu’il s’agit d’un
lieu ou d’un complément de temps. Langacker évoque aussi le renforcement de la
question par la forme est-ce que (79), mais nous ne traitons pas cette construction
dans le cadre de ce travail.
         (79) Quand est-ce que vous partez ?




Remarques

   Ce système proposé par Langacker est pertinent dans la mesure où il formalise
des phénomènes complexes tels que l’inversion sujet verbe. Néanmoins, comme
nous l’envisageons dans la deuxième partie de ce travail (chapitre 3), il existe
aujourd’hui des outils plus performants qui permettent d’effectuer ces transfor-
mations. Les analyseurs syntaxiques actuels permettent, par exemple, de générer
des structures de phrases arborescentes et hiérarchisées qu’il est très facile de mo-
difier en agissant sur les nœuds de celles-ci. De surcroit, ces analyseurs incluent
des modules de reconnaissance d’entités nommées qui permettent de déterminer
les traits des syntagmes – le trait humain ou non humain par exemple – sans
recourir à une analyse de la structure de la phrase, comme le fait Langacker. Si la
démarche théorique est intéressante, nous pensons que la grammaire décrite est
trop complexe et quelque peu archaïque par rapport aux outils actuels.



1.4 Conclusion

  En vue de développer un système de génération automatique de questions, il
importe d’une part d’établir une typologie de celles-ci pour définir ce que notre

                                         46
système doit être capable générer et, d’autre part, de définir formellement la
phrase interrogative, en la distinguant des phrases déclaratives.


  Il existe deux grands types de classification de questions. Le premier, axé sur
un point de vue linguistique, se base sur la structure de la question et sur les
mots interrogatifs pour établir une typologie. Le second, basé sur un point de
vue conceptuel, classe les questions selon le focus, soit l’attente exprimée par ces
dernières, ou le concept, soit l’élément sur lequel porte la question. Néanmoins,
ces deux axes de recherche, loin de s’opposer, sont complémentaires. Nous avons
donc synthétisé ces deux approches pour créer une typologie « mixte » associant
des catégories conceptuelles à des éléments linguistiques – les wh-words – pour
permettre de relier chaque concept au mot interrogatif le plus approprié. La
classification que nous présentons permet donc de rendre compte des types
des questions à la fois d’un point de vue linguistique et conceptuel et constitue
un point de départ pertinent pour la mise en place d’un système de génération
automatique de questions.


  Formellement, la question peut être définie selon trois axes : son marquage, les
mots interrogatifs et l’inversion sujet-verbe. Ces trois concepts sont les éléments
standards d’une question et nécessitent d’être clairement définis pour formuler
des phrases interrogatives correctes. Face à ce constat, Langacker (1965) propose
une grammaire transformationnelle qui formalise ces différents aspects grâce à
des règles de transformation. Néanmoins, cette grammaire, bien qu’intéressante
pour son apport théorique, semble dépassée par les outils actuels et donc difficile
à implémenter dans un outil complet de génération automatique de questions.


  La typologie et la définition formelle que nous proposons ont pour ambition
de donner une représentation complète de la notion de question et de construire


                                        47
une base linguistique pertinente à la génération automatique de questions. Le
chapitre suivant, consacré au domaine de la génération automatique, se situe à
un niveau plus informatique. Il constitue la deuxième partie de la base théorique
sur laquelle reposera l’implémentation d’un générateur de questions.




                                       48
CHAPITRE 2

         GÉNÉRATION AUTOMATIQUE ET GÉNÉRATION

                                     AUTOMATIQUE DE QUESTIONS




   Le but de ce chapitre est de situer la génération automatique de questions
(GAQ) au sein du domaine plus général de la génération automatique de textes
(GAT) 1 . Nous commençons par présenter ce domaine en définissant ses grands
principes. Nous nous intéressons ensuite au domaine spécifique de la génération
automatique de questions afin de montrer les points communs et les points
divergents entre les deux types de systèmes. Au-delà de cette comparaison, notre
objectif est aussi de comprendre les enjeux et les défis qui pèsent sur notre objet
d’étude en réalisant un état de l’art de la discipline. Pour ce faire, nous présentons
les principaux outils existants, en dégageant une méthodologie globale qui puisse
servir de base à l’implémentation d’un nouvel outil.
  1. L’appellation anglaise, plus couramment utilisée est Natural Language Generation (NLG).




                                            49
2.1 La génération automatique de textes

   Danlos et Roussarie (2000) définissent le domaine de la manière suivante :
     « La génération automatique de textes (GAT) est la branche du taln dont le but
     est de produire des énoncés en langage naturel à partir de représentations
     informatisées. Ceux-ci doivent être grammaticalement corrects, sémanti-
     quement cohérents et pragmatiquement pertinents. La génération assure
     donc la fonction émettrice de la communication homme-machine, et se
     présente globalement comme le processus réciproque de la compréhension
     automatique. » (Danlos et Roussarie, 2000)


   Pour étayer leur propos, les auteurs citent différents types d’application utili-
sant un module de génération automatique de textes :
   – Systèmes de dialogue homme-machine :
          « le terme de système de dialogue indique généralement un système
          permettant une interaction entre un humain et un système dans un
          cadre restreint. (...) Un système de dialogue homme-machine interprète
          les requêtes de l’utilisateur en fonction de la tâche à accomplir, de l’his-
          toire du dialogue et du comportement de l’utilisateur. Son objectif est
          de donner à l’utilisateur les informations recherchées tout en assurant
          une interaction efficace et naturelle. » (Galibert et al., 2005).


     Dans ce cadre, les modules de génération permettent, par exemple, de
     chercher dans une base de données la réponse à une question entrée par
     un utilisateur et de lui renvoyer la réponse, correctement formulée.
   – Résumé automatique : un tel système utilisant un module de génération
     se distingue des outils de résumé automatique traditionnels qui extraient
     des phrases d’un texte sur la base de calculs probabilistes. En génération, le
     système fonctionne avec une simulation de l’activité humaine pour résumer
     le texte. Il s’agit d’un processus cognitif complexe qui connait actuellement
     peu de réalisations concrètes. Le projet SPORTIC, actuellement développé
     au Cental, a pour objectif le développement d’un tel outil, appliqué ici au
     domaine de commentaires sportifs de matchs de basket. Basé sur une onto-


                                          50
logie, le générateur Gen-Tonic produit un résumé adapté aux préférences
      de l’utilisateur – longueur, focus sur une équipe ou un joueur particulier... –
      et destiné à être couplé à un résumé vidéo du match 2 .
   – Production de textes de commentaires générés à partir de données nu-
      mériques : il s’agit d’un outil très utile pour les entreprises qui part d’un ta-
      bleau de données numériques pour générer un commentaire sur les chiffres.
      EASYTEXT (Meunier et al., 2011), par exemple, traite les investissements
      publicitaires réalisés par des clients d’une société, et leur envoie chaque
      mois un commentaire généré automatiquement sur leurs investissements.
   – Production de manuels d’instruction : ces manuels sont générés automati-
      quement à partir de données entrées par un utilisateur. Le problème majeur
      des outils existants est le niveau d’abstraction très complexe de ces entrées
      qui rend ces générateurs difficiles à appréhender.


L’architecture globale d’un système

   Danlos et Roussarie (2000) expliquent que la tâche de génération peut être di-
visée en deux sous-tâches principales, correspondant à la manière dont l’humain
construit son discours, selon les théories psycholinguistiques (Levelt, 1993) :

   1. Le Quoi-Dire : ce module élabore le sens profond du texte en recourant à de
      nombreuses ressources encyclopédiques, pragmatiques...

   2. Le Comment-Le-Dire : cette partie du système est chargée de construire
      linguistiquement le texte et se base sur des ressources linguistiques, princi-
      palement un lexique et une grammaire.

   Cette architecture peut être affinée en quatre étapes, la première entrant dans
le cadre du Quoi-Dire tandis que les trois autres réalisent le Comment-Le-Dire.
Pour ces quatre étapes, Bateman et Zock (2003), Danlos et Roussarie (2000) et
  2. Nous remercions Stéphanie Audrit (UCL-Cental) pour ses explications à propos de ce projet.


                                             51
Reiter et Dale (1997) proposent des schémas comparables que nous synthétisons
ci-dessous. La figure 2.1, tirée d’un article de Zock et Sabah (2002) illustre notre
propos.

   1. La macroplanification détermine, en fonction d’un but à atteindre et de
       bases de connaissances, le contenu du texte et la structure globale du dis-
       cours, aboutissant à un plan de texte. Le contenu profond est d’abord sé-
       lectionné dans des bases de connaissance, éventuellement en fonction de
       buts communicatifs, et représenté sous forme de réseaux conceptuels et
       sémantiques. Ensuite, un plan de texte est construit, dont le but est d’orga-
       niser le message dans une dynamique textuelle en établissant des relations
       rhétoriques entre les propositions du texte 3 .

   2. La microplanification part du plan du texte pour en générer la structure
       syntaxique tout en choisissant les mots pleins 4 appropriés pour incarner le
       sens qui a été déterminé dans la macroplanification. Ces deux étapes – plani-
       fication syntaxique et lexicalisation – peuvent se dérouler successivement ou
       conjointement dans le cas où le générateur utilise un lexique-grammaire ou
       une grammaire lexicalisée. Cette phase s’accompagne d’un module d’agré-
       gation qui consiste à éliminer les redondances et à rendre le texte plus lisible
       et plus précis (voir exemple 80). Le but de ces opérations est d’assurer la
       cohésion du texte. 5
                 (80) le père et la mère de Paul → les parents de Paul


   3. Une relation rhétorique relie des énoncés et non des constituants. De cette manière, « Marie
mange une pomme et Pierre mange une banane » contient deux énoncés unis dans une relation
de narration (Busquets et al., 2001)
   4. noms, verbes, adjectifs et adverbes.
   5. La cohésion est « l’ensemble des moyens linguistiques qui assurent les liens intra- et inter-
phrastiques permettant à un énoncé oral ou écrit d’apparaître comme texte » (Charaudeau et
Maingueneau, 2002 :99). Elle est à distinguer de la cohérence en ce sens que « la cohérence est
une propriété du discours, qui est mis en relation avec les conditions d’énonciation, alors que la
cohésion est une propriété du texte, qui est envisagé fermé sur lui-même. » (Riegel et al., 2009)



                                               52
3. La formulation prend en entrée les arbres syntaxiques lexicalisés et génère
   la forme de surface des différentes phrases du texte. C’est à cette étape que
   se déroule la flexion des différents termes – l’accord des noms, pronoms et
   adjectifs et la conjugaison des verbes – et que les mots secondaires 6 sont
   ajoutés. Cela implique des modifications graphiques telles la gestion des
   contractions (81) et des élisions (82) ou encore l’ajout des traits d’union.
             (81) de le beurre → du beurre

             (82) le animal → l’animal



4. La présentation physique est l’étape de finition. La ponctuation est insérée
   et un éventuel formatage du texte, en HTML par exemple, est réalisé, pour
   le rendre présentable. Le cas échéant, ce formatage peut être remplacé par
   un module de synthèse vocale.
6. déterminants, pronoms, conjonctions.




                                          53
MACROPLANIFICATION
                               Détermination du contenu


                                Structuration du contenu


                                                Plan de texte

                                MICROPLANIFICATION
                                 Spécifier les référents

                                Agrégation/Segmentation

                                     Lexicalisation

                                                Plan de la phrase
                                    FORMULATION
                                    Ordre des mots

                                  Catégories lexicales


                                   Mots secondaires

                                   Flexion + Accords

                                                  Texte non formaté
                              PRÉSENTATION PHYSIQUE
                                      Ponctuation
                                                                    texte écrit
                                                                    formaté
                                     Mise en page
                                                                      chaîne
                                      Articulation                    sonore




F IGURE 2.1 – Architecture d’un système de génération automatique de textes (Zock
et Sabah, 2002)


  Ce type d’architecture séquentielle est qualifié de fonctionnement en pipeline.
Cela signifie que les étapes se déroulent successivement sans qu’aucun retour
en arrière ne soit possible (Reiter et Dale, 2000). La pertinence d’un tel choix a
souvent été critiquée et certains auteurs ont proposé une architecture utilisant des
modules interdépendants. Nous n’abordons cependant pas ces méthodologies
dans le cadre de ce travail étant donné que la majorité des systèmes de génération

                                          54
actuels implémentent le modèle présenté (Danlos et Roussarie, 2000).


Apports

  La génération automatique de textes présente de nombreux intérêts. Danlos
et Roussarie (2000) en citent une dizaine, que nous synthétisons en trois points
majeurs :

   1. L’indépendance entre le stockage des informations et le système de géné-
      ration offre plusieurs avantages :

       (a) On peut actualiser très facilement un texte par une simple modification
            des éléments d’une base de données.

       (b) La recherche d’information est facilitée par l’utilisation d’une base de
            données structurée, sans qu’il soit nécessaire de recourir à une analyse
            textuelle complexe.

       (c) Une représentation abstraite d’un texte peut donner plusieurs formes
            de surface. On peut donc, à partir d’une même base, générer des textes
            de niveaux de langage différents ou de vocabulaire varié – grâce aux
            paraphrases par exemple – mais aussi dans des langues différentes.

   2. Au-delà de la méthodologie, les résultats sont susceptibles d’intéresser un
      large public. Les systèmes sont capables de produire à la fois de la parole et
      du texte. Le texte peut par ailleurs être formaté et même allié à du contenu
      multimédia, ce qui rend les résultats d’autant plus attractifs.

   3. Les fondements théoriques qui sous-tendent le développement de tous ces
      systèmes sont pertinents dans la mesure où ils permettent de s’interroger
      sur les mécanismes de production du langage humain, mais aussi sur le
      discours dans son intégralité, au-delà des phrases qui le composent.


Limites

   Si les apports de la génération automatique de textes sont considérables,
certains problèmes restent à résoudre pour augmenter la performance des géné-
rateurs existants.



                                           55
Claude Ponton (1997) évoque le manque de portabilité des systèmes actuels
qui sont « fortement liés à leur application et ceci tant au niveau des formalismes
utilisés qu’au niveau, par exemple, des règles mises en œuvre dans le processus »
(Ponton, 1997).


  Une autre limitation est liée à la définition de la GAT (page 50), qui implique la
génération d’énoncés « grammaticalement corrects, sémantiquement cohérents
et pragmatiquement pertinents ». Si les deux premiers aspects – grammaticalité
et cohérence sémantique – sont pris en compte dans les systèmes actuels, la
dimension pragmatique échappe encore à la modélisation. Zock et Sabah (2002)
évoquent le problème du contrôle pour définir cette limite :
       « S’il est relativement aisé de décider de la bonne formation d’énoncés, il
       est beaucoup plus difficile de décider de leur adéquation à une situation. À
       quel moment utiliser une ressource linguistique particulière (voix passive,
       proposition relative, etc.) ? Que faire en cas de conflit ? Quand s’arrêter ?
       Comment décider qu’un texte est convenable ou optimal ? » (Zock et Sabah,
       2002)




2.2 La génération automatique de questions
    Selon Nielsen (2008), la définition de la génération automatique de questions
diffère selon son type d’application. L’auteur relève deux domaines applicatifs
majeurs de la discipline :
    – Applications éducatives : des questions sont générées pour évaluer les
       connaissances ou la compréhension d’un utilisateur à propos d’un domaine
       déterminé. Ces applications peuvent également prendre la forme de ques-
       tionnaires à choix multiples (Mitkov et Ha, 2003). Dans ce cas, l’enjeu majeur
       se situe dans le choix des distracteurs 7 (Mitkov et al., 2006). Brown et al.
       (2005), par exemple, élaborent un outil d’évaluation du vocabulaire chez des
   7. « Lorsque l’on rédige des questions fermées à choix multiple[s], l’énoncé de l’item est suivi
par une série de réponses possibles, dont une est correcte et les autres ne le sont pas. Les options
de réponse incorrectes sont désignées par le terme de distracteurs. » http://www.irdp.ch/
edumetrie/lexique/distracteur.htm (Page consultée le 3 août 2011)



                                                56
locuteurs qui doivent choisir parmi plusieurs propositions le sens correct
     pour un mot donné.
   – Systèmes de dialogue homme-machine : ces systèmes ont pour vocation
     de permettre à un ordinateur de mener un dialogue interactif avec un hu-
     main. Un des objectifs peut être l’aide à l’apprentissage. Dans ce cas, le but
     des questions est de mener un apprenant à la compréhension d’un concept
     qu’il ne comprend pas au départ. Chaque question doit donc se baser sur
     la réponse de l’apprenant à la précédente question (Nielsen, 2008). Cer-
     tains auteurs se sont également intéressés à produire des dialogues fictifs à
     propos de textes, pour permettre à un utilisateur d’accéder à ces textes de
     manière plus interactive (Piwek et Stoyanchev, 2010), par exemple à partir
     de notices de médicaments (83).
             (83)
             – Notice : Vous pouvez prendre une aspirine si vous avez mal à
               la tête.
             – Dialogue :
               – Q : Que puis-je faire si j’ai mal à la tête ?
               – R : Vous pouvez prendre une aspirine.



  Pour distinguer ces méthodologies, deux aspects sont concurrentiels :
   – Pragmatique : choisir la bonne question en fonction du type d’application
     et de ses contraintes.
   – Syntaxique : déterminer les étapes qui sont appliquées pour générer une
     question grammaticalement correcte.
Le premier point de vue diverge entre les deux approches puisque les questions
générées dans le cadre d’un outil ne sont pas nécessairement pertinentes pour
un autre. A contrario, le processus formel de création des questions est iden-
tique. Nous étudions donc ce second point de vue, même si des références à la
pragmatique peuvent survenir pour étayer notre propos.


  Pour bien comprendre la place particulière qu’occupe la génération automa-
tique de questions (GAQ) au sein du domaine général de la génération automa-
tique de textes (GAT), nous décrivons ici le fonctionnement global d’un outil.
Cependant, aucune méthodologie généraliste n’ayant jamais été décrite, nous

                                       57
procédons de manière empirique. Nous partons de la présentation d’outils exis-
tants, constituant « l’état de l’art » en génération automatique de questions, pour
dégager une architecture générique, comme nous l’avons fait dans la section
précédente pour la génération automatique de textes. La section 2.3 confronte
les deux méthodologies afin de situer le sous-domaine de la GAQ au sein du do-
maine principal et de déceler les points communs et divergents de leur mode de
fonctionnement.


  Si des grammaires de règles pour générer des questions existent pour le fran-
çais (Danjoux-Flaux et Dessaux, 1976 ; Langacker, 1965), comme celle exposée
à la section 1.3, aucun outil complet n’a jamais été implémenté, à l’exception
d’un travail d’étudiant (Brette et Lescuyer, 2006), extrêmement basique et peu
flexible : il s’applique à des phrases très simples et les contraintes sur les entrées
du programme sont lourdes.


  Face à cette absence de ressources suffisantes pour le français, nous avons
exploré les outils existants pour l’anglais. Dans ce chapitre, nous exposons quatre
méthodologies développées pour générer des questions en anglais dont nous
dégageons les spécificités et les limites.


2.2.1 Les débuts : Les travaux de John Wolfe
   Wolfe (1976) pose les bases de la génération automatique de questions. Le
but de l’outil qu’il a développé est pédagogique. Il s’agit d’aider des apprenants
à étudier des textes de manière indépendante. Le principe est le suivant : un
texte est soumis à un programme qui va le segmenter en phrases et retourner
à l’étudiant des questions auxquelles il doit répondre. Le programme vérifie la
réponse donnée, l’accepte ou la refuse. Dans cette méthode, seule la forme de
la phrase est traitée et son sens n’est pas pris en compte, ce qui présente deux
inconvénients : la réponse de l’étudiant doit parfaitement correspondre avec la
réponse attendue par le programme et certaines ambiguïtés ne sont pas résolues
dans l’analyse de la phrase, ce qui engendre des erreurs dans la génération des
questions.


                                         58
Fonctionnement du système

   Un paragraphe est soumis à la lecture de l’étudiant. Une phrase de ce para-
graphe est sélectionnée aléatoirement par l’ordinateur 8 qui génère une question
à partir de celle-ci. Cette question est ensuite renvoyée à l’étudiant qui doit y
répondre correctement. Le système procède en quatre étapes :

  1. Analyse morphologique : le programme étiquète les mots de la phrase en
     catégories grammaticales à l’aide d’un dictionnaire de verbes, conjonctions,
     pronoms, prépositions, articles et adverbes. Tout ce qui ne se retrouve pas
     dans le dictionnaire est alors automatiquement étiqueté comme nom. Le
     dictionnaire contient pour les verbes des informations morphologiques du
     type transitif, intransitif, régulier, irrégulier...

  2. Génération d’une question à partir d’une table de patrons : le programme
     dispose d’une liste de patrons de phrases, chacun correspondant à un type
     de réponse à une question. Si un patron est retrouvé dans la phrase entrée
     au programme, le système peut donc générer la question correspondante.
           Exemple : I have a dog so that I walk everyday correspondant au pa-
           tron P1 so that P2
           – Repérage et analyse des caractéristiques morphologiques du verbe
              de P1 pour générer une bonne forme du do et transformation en P1’
              do I have a dog
           – Génération d’une question à partir de P1’ : Why do I have a dog ?
           – Génération d’une réponse attendue : so that + P2 (so that I walk
              everyday)


  3. Post-traitements : le programme rejette les paires question-réponse qui ne
     satisfont pas certaines conditions (phrases trop longues, présence d’une
     virgule dans la question...).

  4. Vérification de la réponse de l’étudiant : si plus de 50% des mots de plus de
     quatre lettres de la réponse attendue sont contenus dans la réponse donnée,
     celle-ci est acceptée (les mots-outils sont de cette manière éliminés dans
     l’évaluation).
  8. Les phrases trop complexes ou trop longues sont d’emblée éliminées par le système




                                            59
Résultats

  Le système a été évalué sur 50 questions générées. Parmi celles-ci, 34 ont été
jugées satisfaisantes. Les 16 autres ont été classées selon quatre types d’erreurs :
les erreurs syntaxiques (11 occurrences), sémantiques (3 occurrences), pédago-
giques (1 occurrence) et « bug du programme » (1 occurrence). Parmi les erreurs
syntaxiques, beaucoup étaient liées à une mauvaise reconnaissance du verbe
principal de la phrase.


  Notons que l’idée première de l’implémentation était de fonctionner sur la
base d’une analyse syntaxique de la phrase, mais que celle-ci était beaucoup trop
coûteuse en mémoire et en temps 9 .


2.2.2 Une étude de Donna Gates
  À l’instar de John Wolfe, Donna Gates (2008) envisage la fonction pédagogique
de la génération automatique de questions. Son but est d’offrir un outil d’aide
à la compréhension à la lecture, en créant des questions factuelles à partir de
textes. Les utilisateurs seraient donc contraints d’approfondir leur lecture du
texte et d’élargir leur compréhension de celui-ci pour être capable de répondre
aux questions posées. Cette méthode de lecture se base sur ce qui se trouve
directement dans le texte. Les questions générées sont uniquement des questions
factuelles dont la réponse est intratextuelle (Gates, 2008 :10). Le procédé utilisé
est le suivant :

   1. Génération d’un arbre syntaxique grâce au Standford Syntactic Parser (Klein
      et Manning, 2003), augmenté d’informations sémantiques récupérées de
      Wordnet (Fellbaum, 1998) (animé-inanimé, personne, organisation, pays...).

   2. En fonction de la phrase et des syntagmes qui la composent, plusieurs types
      de question sont possibles. Le système en traite quatre et génère un arbre
      par type de question accepté par la phrase (sujet, objet direct, complément
      d’agent, expressions temporelles).
   9. Rappelons que l’article date de 1976... La puissance des ordinateurs était donc de loin
inférieure à celle de nos machines actuelles.



                                             60
3. Transformation de l’arbre à l’aide de règles Tsurgeon (voir 3.2) écrites à la
      main, le but étant de baliser la réponse à la future question et de transformer
      la structure de la phrase pour passer du mode déclaratif au mode interrogatif
      (inversion sujet-verbe, insertion d’un mot interrogatif...).

   4. Phase de simplification (suppression des relatives et des syntagmes préposi-
      tionnels)

   5. Règles pour affiner les mots interrogatifs en fonction d’informations séman-
      tiques

   6. Transformation des arbres de questions (forme profonde) en format correct
      (forme de surface). A partir de l’arbre complexe et annoté, un script génère
      la question en recherchant les nœuds de surface (terminaux) et rend la
      phrase dans un anglais correct (bonne forme du « do », accord sujet-verbe...)


Evaluation

   L’évaluation se base sur les paires question-réponse, à partir desquelles deux
évaluateurs attribuent une note à la question générée (parfaite, bonne, mauvaise
ou très mauvaise) en regard de la réponse. Ces grades doivent être attribués à la
lumière de deux critères : la pertinence sémantique et la grammaticalité. Pour ce
faire, 693 questions, issues d’un corpus de 52 passages de CBC4Kids 10 ont été
soumises à l’évaluation. Sur toutes ces questions, 75% ont été retenues comme
parfaites, 6% comme bonnes, 15% comme mauvaises et 4% comme très mauvaises.
Ces résultats semblent corrects, mais sont à nuancer. Le corpus d’évaluation étant
un corpus de textes destinés aux enfants, les passages traités et les phrases entrées
au programme sont relativement simples, ce qui facilite l’analyse syntaxique et
donc la génération des questions.


Limites

   L’auteur constate certaines limites dans son approche. Premièrement, l’outil
se cantonne aux questions factuelles, au détriment des questions plus complexes
de type comment ou pourquoi. En outre, l’auteur cite trois sources d’erreurs
 10. www.cbc.ca/kids


                                         61
dans les questions générées ; les erreurs d’analyse, celles dues à une mauvaise
reconnaissance des entités nommées et celles liées à des patrons de modification
trop peu précis et donc des règles trop restrictives.


2.2.3 Heilman et Smith et l’apport de la simplification
La simplification de phrases

  Heilman et Smith (2010a) développent un algorithme d’extraction de clauses à
partir de phrases complexes en vue de la génération automatique de questions.
Cette étape permet de faciliter la création d’un formalisme pour générer des ques-
tions concises à partir de phrases complexes. Les phrases étant plus simples, les
résultats sont moins bruités et les ambiguïtés d’analyse sont largement moindres
et plus facilement résolubles. Les auteurs définissent l’extraction de cette ma-
nière :
      The task of extracting simple sentences from a complex input sentence is
      essentially the task of generating a particular subset of the possible sentences
      that a reader would assume to be true after reading the input.(Heilman et
      Smith, 2010a :2)



  La motivation de cette étape préalable est sémantico-pragmatique : globale-
ment les présuppositions sont extraites de la phrase de base. Pour ce faire, l’algo-
rithme se base sur la structure de la phrase (propositions relatives et subordonnées,
adverbes, appositions...), générée par un analyseur syntaxique, pour la découper
et supprimer les éléments moins significatifs. Une démonstration de l’outil est
disponible en ligne 11 . L’exemple 84 illustre une sortie du programme.
          (84)
          – Entrée : Alfred studied at Oxford, where he learned to speak
            English.

          – Sortie :
            – Alfred studied at Oxford.
            – He learned to speak English at Oxford.


 11. http://www.ark.cs.cmu.edu/mheilman/qg-2010-workshop/


                                            62
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français
Génération automatique de questions à partir de textes en français

Weitere ähnliche Inhalte

Was ist angesagt?

Rapport PFE Ilef Ben Slima
Rapport PFE Ilef Ben SlimaRapport PFE Ilef Ben Slima
Rapport PFE Ilef Ben SlimaIlef Ben Slima
 
Chapitre 2 le recuit simulé
Chapitre 2 le recuit simuléChapitre 2 le recuit simulé
Chapitre 2 le recuit simuléAchraf Manaa
 
Chapitre i introduction et motivations
Chapitre i introduction et motivationsChapitre i introduction et motivations
Chapitre i introduction et motivationsSana Aroussi
 
Chap4 Récursivité en python
Chap4 Récursivité en pythonChap4 Récursivité en python
Chap4 Récursivité en pythonMariem ZAOUALI
 
Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux fehmi arbi
 
rapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSATrapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSATSiwar GUEMRI
 
réaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de testréaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de testahmed oumezzine
 
Conception et réalisation d'une application de gestion intégrée au sein de la...
Conception et réalisation d'une application de gestion intégrée au sein de la...Conception et réalisation d'une application de gestion intégrée au sein de la...
Conception et réalisation d'une application de gestion intégrée au sein de la...Addi Ait-Mlouk
 
Présentation du pfe - Master spécialisé en ingénierie informatique
Présentation du pfe - Master spécialisé en ingénierie informatiquePrésentation du pfe - Master spécialisé en ingénierie informatique
Présentation du pfe - Master spécialisé en ingénierie informatiqueIsmail BAKKALI
 
Rapport restaurant le-roi
Rapport restaurant le-roiRapport restaurant le-roi
Rapport restaurant le-roiMarwa Bhouri
 
Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...Ilyas CHAOUA
 
Conception et développement d’une place de marché B2C
Conception et développement d’une place de marché B2CConception et développement d’une place de marché B2C
Conception et développement d’une place de marché B2CNassim Bahri
 
Rapport De Stage de Fin d'etude : Modélisation et Dématérialisation des Proc...
Rapport De Stage de Fin  d'etude : Modélisation et Dématérialisation des Proc...Rapport De Stage de Fin  d'etude : Modélisation et Dématérialisation des Proc...
Rapport De Stage de Fin d'etude : Modélisation et Dématérialisation des Proc...Issa BEN MANSOUR
 
Conception et développement d'une application de gestion de production et de ...
Conception et développement d'une application de gestion de production et de ...Conception et développement d'une application de gestion de production et de ...
Conception et développement d'une application de gestion de production et de ...Mohamed Aziz Chetoui
 
Quelques points sur les métaheuristiques
Quelques points sur les métaheuristiquesQuelques points sur les métaheuristiques
Quelques points sur les métaheuristiquesBENSMAINE Abderrahmane
 

Was ist angesagt? (20)

Rapportpfe
RapportpfeRapportpfe
Rapportpfe
 
Modele rapport pfe esprit
Modele rapport pfe  espritModele rapport pfe  esprit
Modele rapport pfe esprit
 
Rapport PFE Ilef Ben Slima
Rapport PFE Ilef Ben SlimaRapport PFE Ilef Ben Slima
Rapport PFE Ilef Ben Slima
 
Chapitre 2 le recuit simulé
Chapitre 2 le recuit simuléChapitre 2 le recuit simulé
Chapitre 2 le recuit simulé
 
Chapitre i introduction et motivations
Chapitre i introduction et motivationsChapitre i introduction et motivations
Chapitre i introduction et motivations
 
Chap4 Récursivité en python
Chap4 Récursivité en pythonChap4 Récursivité en python
Chap4 Récursivité en python
 
A star
A starA star
A star
 
Rapport pfe
Rapport pfeRapport pfe
Rapport pfe
 
Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux
 
rapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSATrapport PFE ingénieur génie logiciel INSAT
rapport PFE ingénieur génie logiciel INSAT
 
réaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de testréaliser une plateforme d’automatisation et de génération des rapports de test
réaliser une plateforme d’automatisation et de génération des rapports de test
 
Conception et réalisation d'une application de gestion intégrée au sein de la...
Conception et réalisation d'une application de gestion intégrée au sein de la...Conception et réalisation d'une application de gestion intégrée au sein de la...
Conception et réalisation d'une application de gestion intégrée au sein de la...
 
Présentation du pfe - Master spécialisé en ingénierie informatique
Présentation du pfe - Master spécialisé en ingénierie informatiquePrésentation du pfe - Master spécialisé en ingénierie informatique
Présentation du pfe - Master spécialisé en ingénierie informatique
 
Rapport restaurant le-roi
Rapport restaurant le-roiRapport restaurant le-roi
Rapport restaurant le-roi
 
Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...
 
Conception et développement d’une place de marché B2C
Conception et développement d’une place de marché B2CConception et développement d’une place de marché B2C
Conception et développement d’une place de marché B2C
 
Rapport De Stage de Fin d'etude : Modélisation et Dématérialisation des Proc...
Rapport De Stage de Fin  d'etude : Modélisation et Dématérialisation des Proc...Rapport De Stage de Fin  d'etude : Modélisation et Dématérialisation des Proc...
Rapport De Stage de Fin d'etude : Modélisation et Dématérialisation des Proc...
 
PFE .NET CRM
PFE .NET CRMPFE .NET CRM
PFE .NET CRM
 
Conception et développement d'une application de gestion de production et de ...
Conception et développement d'une application de gestion de production et de ...Conception et développement d'une application de gestion de production et de ...
Conception et développement d'une application de gestion de production et de ...
 
Quelques points sur les métaheuristiques
Quelques points sur les métaheuristiquesQuelques points sur les métaheuristiques
Quelques points sur les métaheuristiques
 

Andere mochten auch

Entrevista alicia
Entrevista aliciaEntrevista alicia
Entrevista aliciamanmenpino
 
Huelea Dios
Huelea DiosHuelea Dios
Huelea Diosmarianne
 
Déjeuner du GATE - Mai 2011 - Différ
Déjeuner du GATE - Mai 2011 - DifférDéjeuner du GATE - Mai 2011 - Différ
Déjeuner du GATE - Mai 2011 - DifférSherbrooke Innopole
 
Colloque québécois sur les bioplastiques compostables – Politique québécoise ...
Colloque québécois sur les bioplastiques compostables – Politique québécoise ...Colloque québécois sur les bioplastiques compostables – Politique québécoise ...
Colloque québécois sur les bioplastiques compostables – Politique québécoise ...Sherbrooke Innopole
 
Colloque québécois sur les bioplastiques - L’intégration des bioplastiques d...
Colloque québécois sur les bioplastiques -  L’intégration des bioplastiques d...Colloque québécois sur les bioplastiques -  L’intégration des bioplastiques d...
Colloque québécois sur les bioplastiques - L’intégration des bioplastiques d...Sherbrooke Innopole
 
Château chillon
Château chillonChâteau chillon
Château chillonJenVei0165
 
My E Learning Experience
My E Learning ExperienceMy E Learning Experience
My E Learning ExperienceIrene Lara
 
Contabilidad En Bloque Diapositivas
Contabilidad En Bloque DiapositivasContabilidad En Bloque Diapositivas
Contabilidad En Bloque Diapositivastatica89
 
Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...
Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...
Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...Université Saint Joseph de Beyrouth
 
P U E R T A S D E L A N A V I D A D
P U E R T A S  D E  L A  N A V  I D A DP U E R T A S  D E  L A  N A V  I D A D
P U E R T A S D E L A N A V I D A DOscar M
 
Agile4 HR Geneve - 01.05.2105
Agile4 HR Geneve - 01.05.2105Agile4 HR Geneve - 01.05.2105
Agile4 HR Geneve - 01.05.2105Pierre E. NEIS
 
Politique Open Access du FNRS - Midi du savoir partagé
Politique Open Access du FNRS - Midi du savoir partagé Politique Open Access du FNRS - Midi du savoir partagé
Politique Open Access du FNRS - Midi du savoir partagé ULB - Bibliothèques
 

Andere mochten auch (20)

Entrevista alicia
Entrevista aliciaEntrevista alicia
Entrevista alicia
 
Huelea Dios
Huelea DiosHuelea Dios
Huelea Dios
 
Déjeuner du GATE - Mai 2011 - Différ
Déjeuner du GATE - Mai 2011 - DifférDéjeuner du GATE - Mai 2011 - Différ
Déjeuner du GATE - Mai 2011 - Différ
 
Colloque québécois sur les bioplastiques compostables – Politique québécoise ...
Colloque québécois sur les bioplastiques compostables – Politique québécoise ...Colloque québécois sur les bioplastiques compostables – Politique québécoise ...
Colloque québécois sur les bioplastiques compostables – Politique québécoise ...
 
Colloque québécois sur les bioplastiques - L’intégration des bioplastiques d...
Colloque québécois sur les bioplastiques -  L’intégration des bioplastiques d...Colloque québécois sur les bioplastiques -  L’intégration des bioplastiques d...
Colloque québécois sur les bioplastiques - L’intégration des bioplastiques d...
 
Château chillon
Château chillonChâteau chillon
Château chillon
 
Presentation barakat-flsh-original
Presentation   barakat-flsh-originalPresentation   barakat-flsh-original
Presentation barakat-flsh-original
 
Campanas
CampanasCampanas
Campanas
 
My E Learning Experience
My E Learning ExperienceMy E Learning Experience
My E Learning Experience
 
Presentation chouchani-elfs-original
Presentation   chouchani-elfs-originalPresentation   chouchani-elfs-original
Presentation chouchani-elfs-original
 
Contabilidad En Bloque Diapositivas
Contabilidad En Bloque DiapositivasContabilidad En Bloque Diapositivas
Contabilidad En Bloque Diapositivas
 
Planificacion Estrategica
Planificacion EstrategicaPlanificacion Estrategica
Planificacion Estrategica
 
Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...
Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...
Le séminaire Recherche : Outil d'accompagnement et d'échange - Suzanne ABOURJ...
 
Cole
ColeCole
Cole
 
P U E R T A S D E L A N A V I D A D
P U E R T A S  D E  L A  N A V  I D A DP U E R T A S  D E  L A  N A V  I D A D
P U E R T A S D E L A N A V I D A D
 
Trabajo Rudy
Trabajo RudyTrabajo Rudy
Trabajo Rudy
 
Agile4 HR Geneve - 01.05.2105
Agile4 HR Geneve - 01.05.2105Agile4 HR Geneve - 01.05.2105
Agile4 HR Geneve - 01.05.2105
 
Politique Open Access du FNRS - Midi du savoir partagé
Politique Open Access du FNRS - Midi du savoir partagé Politique Open Access du FNRS - Midi du savoir partagé
Politique Open Access du FNRS - Midi du savoir partagé
 
CDS Etapa 9
CDS Etapa 9CDS Etapa 9
CDS Etapa 9
 
Presentation abizeid-ipm-original
Presentation   abizeid-ipm-originalPresentation   abizeid-ipm-original
Presentation abizeid-ipm-original
 

Ähnlich wie Génération automatique de questions à partir de textes en français

Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza
 
Mr phd thesis
Mr phd thesisMr phd thesis
Mr phd thesisAbirHezzi
 
Solution générique pour la résolution des problèmes statiques de tournées de ...
Solution générique pour la résolution des problèmes statiques de tournées de ...Solution générique pour la résolution des problèmes statiques de tournées de ...
Solution générique pour la résolution des problèmes statiques de tournées de ...Slimen Belhaj Ali
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)YoussefTrimech
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMohamed Arar
 
Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...
Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...
Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...Olivier Bernaert
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueYosra ADDALI
 
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard LamaillouxLes serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard LamaillouxBernard Lamailloux
 
Rapport Projet de Fin d'Etudes
Rapport Projet de Fin d'EtudesRapport Projet de Fin d'Etudes
Rapport Projet de Fin d'EtudesHosni Mansour
 
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...Yasmine Lachheb
 
courspython3.pdf
courspython3.pdfcourspython3.pdf
courspython3.pdfDendouga1
 
Le Référentiel Nouvelles Plateformes Technologiques
Le Référentiel Nouvelles Plateformes TechnologiquesLe Référentiel Nouvelles Plateformes Technologiques
Le Référentiel Nouvelles Plateformes TechnologiquesGenève Lab
 
Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Adem Amen Allah Thabti
 

Ähnlich wie Génération automatique de questions à partir de textes en français (20)

Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stage
 
Mr phd thesis
Mr phd thesisMr phd thesis
Mr phd thesis
 
dugas-phd
dugas-phddugas-phd
dugas-phd
 
Solution générique pour la résolution des problèmes statiques de tournées de ...
Solution générique pour la résolution des problèmes statiques de tournées de ...Solution générique pour la résolution des problèmes statiques de tournées de ...
Solution générique pour la résolution des problèmes statiques de tournées de ...
 
[0] maitre exclave
[0] maitre exclave[0] maitre exclave
[0] maitre exclave
 
Arbelaez these
Arbelaez theseArbelaez these
Arbelaez these
 
Jecroij
JecroijJecroij
Jecroij
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)
 
Jmc habile
Jmc habileJmc habile
Jmc habile
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventions
 
Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...
Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...
Quel est l’intérêt et le potentiel réel d’utilisation des MOOC dans une école...
 
Rapport pfe isi_Big data Analytique
Rapport pfe isi_Big data AnalytiqueRapport pfe isi_Big data Analytique
Rapport pfe isi_Big data Analytique
 
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard LamaillouxLes serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
Les serious games - Mémoire de master en Sc. Educ de Bernard Lamailloux
 
Rapport Projet de Fin d'Etudes
Rapport Projet de Fin d'EtudesRapport Projet de Fin d'Etudes
Rapport Projet de Fin d'Etudes
 
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
Rapport PFE BIAT Conception et mise en place d’une plate-forme de gestion des...
 
cours_python.pdf
cours_python.pdfcours_python.pdf
cours_python.pdf
 
courspython3.pdf
courspython3.pdfcourspython3.pdf
courspython3.pdf
 
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
 
Le Référentiel Nouvelles Plateformes Technologiques
Le Référentiel Nouvelles Plateformes TechnologiquesLe Référentiel Nouvelles Plateformes Technologiques
Le Référentiel Nouvelles Plateformes Technologiques
 
Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...Conception et développement d'une marketplace basée sur l'architecture micros...
Conception et développement d'une marketplace basée sur l'architecture micros...
 

Génération automatique de questions à partir de textes en français

  • 1. Université catholique de Louvain Faculté de Philosophie, Arts et Lettres G ÉNÉRATION AUTOMATIQUE DE Q UESTIONS À PARTIR DE T EXTES EN F RANÇAIS Mémoire présenté par L OUIS DE V IRON en vue de l’obtention du diplôme de M ASTER EN L INGUISTIQUE à finalité spécialisée en Traitement Automatique du Langage P ROMOTEUR : D R . R ICHARD B EAUFORT Année académique 2010-2011
  • 2.
  • 3. R EMERCIEMENTS Au moment de conclure ce mémoire, et de facto mes cinq années d’études, je tiens à adresser quelques remerciements aux personnes qui m’ont aidé à faire de cette période un passage inoubliable, tant sur le plan personnel que sur le plan académique. Je remercie d’abord Monsieur Richard Beaufort, mon promoteur, pour ces deux années de collaboration qui ont abouti au présent travail. Ses nombreux conseils, ses remarques, son souci de la perfection et les entretiens qu’il m’a accordés m’ont beaucoup appris et j’espère qu’ils auront contribué à faire de ce mémoire un travail de qualité. Je tiens également à exprimer ma profonde gratitude à Mesdames Delphine Bernhard et Véronique Moriceau, ainsi qu’à Monsieur Xavier Tannier pour leur encadrement d’une qualité exceptionnelle durant les deux mois de stage passés au LIMSI. Leurs conseils et encouragements à aller de l’avant m’ont énormément stimulé et fait progresser. Je remercie aussi tous les membres du groupe ILES pour l’agréable accueil qu’ils m’ont réservé parmi eux. Merci à Mademoiselle Alice Bardiaux pour sa relecture attentive de ce travail et à Monsieur Michael Zock pour ses précieux conseils critiques. Si ces deux années de master en linguistique furent un succès pour moi et une si bonne formation, je le dois également à un encadrement de qualité. C’est pourquoi je tiens à remercier Messieurs Sébastien Combéfis, Thomas François et Hubert Naets pour leur disponibilité à toute épreuve. Je remercie également Mademoiselle Louise-Amélie Cougnon de m’avoir proposé une première immersion professionnelle dans le monde du TAL, et les autres membres du CENTAL qui m’ont chaleureusement accueilli parmi eux pour mon baptême de feu dans le monde de la recherche en juin dernier à Montpellier. 3
  • 4. On ne réalise heureusement pas ses études tout seul et si j’ai pu passer d’agréables moments sur les bancs des auditoires – et en dehors – durant ces deux années de master, je le dois à mes fidèles camarades de promotion Florence, Stéphanie, Cédric et Denis. Merci à vous pour cette entraide et l’amitié que nous avons pu nouer dans l’« adversité ». Je m’en voudrais d’oublier tous ceux qui ont partagé ma vie estudiantine et qui ont collaboré à mon accomplissement extra-académique durant ces cinq années. Je pense à mes amis du Campagnol, du Cercle FLTR, de l’ANLO, de la Schola, des Blancs Chevaux, d’UTUC, à mes Amis de La Rue, et plus particulièrement à tous ceux qui ont accompagné mon quotidien, à la Rue des Sports et à La Coquille. Enfin, j’adresse mon dernier – et non le moindre – remerciement à Brieuc, Aymeric et Éléonore pour leur complicité fraternelle ainsi qu’à mes parents, qui m’ont donné la chance inestimable d’entamer des études et les moyens de les achever, grâce à un soutien sans faille et une écoute toujours attentive. Louis de Viron Août 2011 4
  • 5. TABLE DES MATIÈRES Remerciements 3 Introduction 12 I État de l’art 17 1 La notion de question : définition, typologie et structure 19 1.1 Définition et typologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.1.1 Classification linguistique . . . . . . . . . . . . . . . . . . . . . 21 1.1.2 Catégorisation conceptuelle . . . . . . . . . . . . . . . . . . . 23 1.1.3 Synthèse : une classification « mixte » . . . . . . . . . . . . . . 29 1.2 La question d’un point de vue formel . . . . . . . . . . . . . . . . . . 31 1.2.1 Le marquage des questions . . . . . . . . . . . . . . . . . . . . 31 1.2.2 Les mots interrogatifs . . . . . . . . . . . . . . . . . . . . . . . 32 1.2.3 L’inversion sujet-verbe . . . . . . . . . . . . . . . . . . . . . . . 36 1.3 De la déclarative à l’interrogative : les règles transformationnelles de Langacker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5
  • 6. 1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2 Génération automatique et génération automatique de questions 49 2.1 La génération automatique de textes . . . . . . . . . . . . . . . . . . 50 2.2 La génération automatique de questions . . . . . . . . . . . . . . . . 56 2.2.1 Les débuts : Les travaux de John Wolfe . . . . . . . . . . . . . 58 2.2.2 Une étude de Donna Gates . . . . . . . . . . . . . . . . . . . . 60 2.2.3 Heilman et Smith et l’apport de la simplification . . . . . . . 62 2.2.4 Kalady et l’apport des questions définitoires . . . . . . . . . . 64 2.2.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.3 Confrontation des deux domaines . . . . . . . . . . . . . . . . . . . . 67 2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 II Implémentation d’un outil de génération automatique de questions pour le français 73 3 Présentation des outils utilisés 75 3.1 XIP : un analyseur syntaxique robuste . . . . . . . . . . . . . . . . . . 75 3.2 Tregex et Tsurgeon : manipulation d’arbres syntaxiques . . . . . . . 77 3.2.1 Tregex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.2.2 Tsurgeon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.2.3 Intérêt pour notre démarche . . . . . . . . . . . . . . . . . . . 80 3.3 Morflex : un fléchisseur morphologique . . . . . . . . . . . . . . . . . 81 3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4 Architecture du système 83 4.1 Pré-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2 Le générateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.2.1 Typologie des questions générées . . . . . . . . . . . . . . . . 87 6
  • 7. 4.2.2 Présentation générale de l’algorithme . . . . . . . . . . . . . . 89 4.2.3 Structure de base d’une règle . . . . . . . . . . . . . . . . . . . 89 4.2.4 Détail des différentes règles . . . . . . . . . . . . . . . . . . . . 90 4.2.5 Traitement des inversions . . . . . . . . . . . . . . . . . . . . . 93 4.3 Post-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5 Évaluation 97 5.1 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.2 Résultats et interprétations . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6 Conclusion : apports et limites 113 III Perspectives 115 7 Problèmes rencontrés et solutions envisagées 117 7.1 Problèmes typographiques . . . . . . . . . . . . . . . . . . . . . . . . 117 7.2 Erreurs dues à l’analyseur . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.3 Questions bruitées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 8 Une plus grande variété de questions 129 8.1 Élargissement de la typologie . . . . . . . . . . . . . . . . . . . . . . . 130 8.1.1 Questions en quel . . . . . . . . . . . . . . . . . . . . . . . . . . 130 8.1.2 Questions de quantité et de mesure . . . . . . . . . . . . . . . 134 8.1.3 Questions introduites par pourquoi . . . . . . . . . . . . . . . 136 8.1.4 Questions introduites par comment . . . . . . . . . . . . . . . 138 8.1.5 Questions sur les sigles et les acronymes . . . . . . . . . . . . 139 7
  • 8. 8.1.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 8.2 Génération de paraphrases sur les questions . . . . . . . . . . . . . . 141 8.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Conclusion générale 147 Bibliographie 153 Table des figures 163 Liste des tableaux 165 Annexes 167 A Typologie des règles de simplification 169 B Corpus d’évaluation 171 8
  • 9. « Le savant n’est pas l’homme qui fournit les vraies réponses, c’est celui qui pose les vraies questions. » Claude L ÉVI -S TRAUSS
  • 10.
  • 12.
  • 13. Si le domaine des systèmes de questions-réponses 1 – consistant en la recherche d’une réponse à une question donnée à partir d’une collection de documents – est aujourd’hui en pleine expansion dans le monde du Traitement Automatique du Langage (TAL), celui de la génération automatique de questions (GAQ) 2 est largement moins populaire, du moins dans le monde francophone. En effet, alors que de nombreuses recherches dans ce domaine ont été entamées pour l’anglais, la littérature ne recense aucun article traitant de cette problématique en français, à l’exception d’un travail d’étudiant introductif (Brette et Lescuyer, 2006). La génération automatique de questions à partir de textes, dans sa forme ac- tuelle, consiste en la transformation de phrases déclaratives en phrases interro- gatives et constitue globalement l’opération inverse des systèmes de questions- réponses. Grossièrement, elle part d’une réponse donnée sous forme de phrase pour formuler la question correspondante. La tâche est complexe et mobilise un grand nombre de ressources et outils du TAL, comme l’analyse syntaxique, la résolution d’anaphores, la reconnaissance d’entités nommées ou encore la sim- plification de texte. Les domaines d’application de ce type d’outil sont par ailleurs variés et souvent motivés par un but pédagogique. Outre la création de tests et de questionnaires à choix multiples, la génération automatique de questions peut également servir à améliorer les systèmes de dialogue homme-machine ou les systèmes de questions-réponses interactifs. Notre mémoire se situe dans le contexte d’absence de ressources satisfaisantes en français. Notre objectif est de proposer une méthodologie pour générer des questions en français qui puisse mener à la création d’un outil concret. Pour ce faire, une large réflexion théorique préalable est nécessaire pour implémenter 1. eng. : Question Answering (QA). 2. eng. : Question Generation (QG). 13
  • 14. un système performant. Dès lors, le présent travail se compose de trois parties, articulées selon une dynamique temporelle que l’on pourrait qualifier de « passé- présent-futur ». Le passé. La première partie, intitulée état de l’art, définit le cadre théorique de notre objet d’étude. Nous y posons les réflexions préalables à l’implémentation d’un générateur de questions. D’une part, nous étudions en profondeur la notion de question. D’autre part, nous présentons le domaine de la génération automa- tique de questions à travers une comparaison avec la génération automatique de textes et un état de l’art de la discipline qui présente les principaux outils existants en anglais. Le présent. La deuxième partie présente l’implémentation d’un générateur au- tomatique de questions pour le français. Elle fait suite à des travaux réalisés en 2010 dans le cadre d’un stage de deux mois au LIMSI, sous l’encadrement de Delphine Bernhard, Xavier Tannier et Véronique Moriceau. Nous y développons en détail notre méthodologie et exposons les résultats que nous avons obtenus, après les avoir soumis à une évaluation. Le futur. La troisième partie suggère des pistes de réflexions pour les éventuels développements futurs de notre travail. Nous nous basons sur les limites soulevées par l’évaluation pour identifier les problèmes majeurs et proposer des solutions pour y remédier. En outre, nous exposons des améliorations supplémentaires qui mériteraient d’être implémentées pour rendre le générateur plus performant et plus complet. Par ce travail, nous espérons montrer l’intérêt de la génération automatique de questions, souvent effacée au profit des systèmes de questions-réponses. Le 14
  • 15. parallèle avec la citation de Lévi-Strauss qui ouvre ce mémoire est dès lors établi et pourrait constituer un bon slogan pour résumer notre travail si elle était traduite de la manière suivante : « Le meilleur système n’est pas celui qui fournit les vraies réponses, c’est celui qui pose les vraies questions. » Nous n’irons pas si loin et notre intention n’est évidemment pas de provoquer les chercheurs en questions-réponses, mais bien de montrer que la génération automatique de questions est bel et bien un domaine qui mérite qu’on s’y attarde quelque peu. Telle est la raison d’être de ce mémoire. 15
  • 16.
  • 17. P REMIÈRE PARTIE É TAT DE L’ ART
  • 18. Dans cette partie, nous présentons un état de l’art de la génération automa- tique de questions. Le premier chapitre propose une large réflexion sur la notion de question, que nous abordons selon deux points de vue principaux, en défi- nissant d’une part une typologie des questions et d’autre part leur structure à un niveau plus formel, tout en s’interrogeant sur les mécanismes mobilisés pour passer d’une phrase déclarative à une phrase interrogative. Nous nous intéressons ensuite au domaine de la génération automatique et au statut particulier que revêt la génération de questions au sein de celui-ci. Nous présentons différentes méthodologies utilisées en génération automatique de questions tout en réfléchis- sant à ses différents domaines d’application, montrant que ce domaine d’études est susceptible de donner lieu à de nombreuses applications concrètes. 18
  • 19. CHAPITRE 1 LA NOTION DE QUESTION : DÉFINITION, TYPOLOGIE ET STRUCTURE Les phrases interrogatives ont fait l’objet de nombreuses études, notamment en linguistique, en psychologie cognitive et en sciences de l’information et de la documentation (Pomerantz, 2005 ; Moignet, 1966 ; Jacques, 1981). En traitement automatique du langage, la recherche sur ce thème s’est surtout concentrée sur le développement des systèmes de questions-réponses, donnant lieu à de nom- breuses tentatives de typologies (Lehnert, 1978 ; Zock et Mitkov, 1991 ; Diekema et al., 2003 ; Dang et al., 2006 ; Giampiccolo et al., 2007 ; Moriceau et al., 2010). Dans ce chapitre, après une première définition très générale de la notion de question, nous parcourons la littérature en vue d’établir une typologie de questions qui puisse servir de base à la génération automatique. Nous étudions ensuite la question d’un point de vue plus formel en examinant ce qui la définit syntaxiquement et la distingue des phrases déclaratives. Enfin, nous présentons un système de règles écrit par Langacker (1965) pour transformer des phrases 19
  • 20. déclaratives en phrases interrogatives. Le but de ce chapitre est d’obtenir une définition exhaustive de la notion de question, qui a pour vocation de constituer une base théorique pertinente pour la génération automatique. 1.1 Définition et typologie Le Bon Usage (Grevisse et Goosse, 2007) définit la phrase interrogative de la manière suivante : « Par la phrase interrogative, on demande une information à l’interlocuteur. » Complétant cette définition basique, les auteurs relèvent quatre types de ques- tions : – disjonctive : la question énonce une alternative (Tu sors ou je te sors ?) – fictive : la question n’appelle pas de réponse (Qui sait ?) – oratoire : on admet comme évidente la réponse à la question (Ne vous avais- je pas averti ?) – délibérative : le locuteur s’adresse à lui-même (Que faire à présent ?) Zock et Mitkov (1991) notent que l’on peut classer les questions selon différents points de vue. Ils en relèvent trois : – Point de vue pragmatique, fonctionnel : ce point de vue fait référence à la théorie des actes de langage (Searle, 1995 ; Austin, 1999). Les questions sont classées selon l’acte qu’elles accomplissent. Néanmoins, cette théorie est très descriptive et peu applicable concrètement dans un système de génération. Nous ne l’abordons pas dans le cadre de ce travail. 20
  • 21. – Point de vue linguistique : la classification passe outre le sens pour se baser sur la forme et la structure des questions. – Point de vue conceptuel : la typologie se base sur l’objet de la question (lieu, temps...). Cette section traite des classifications linguistique et conceptuelle en parcourant les travaux de quelques auteurs qui s’y sont intéressés. Nous mettons en exergue l’intérêt et la complémentarité de l’une et l’autre approche dans le cadre de la génération automatique de questions. 1.1.1 Classification linguistique Le Bon Usage (Grevisse et Goosse, 2007) opère deux distinctions au sein des questions, menant à une première typologie basique : 1. Il oppose les phrases interrogatives directes, de forme interrogative (1) et les interrogatives indirectes qui sont contenues dans une phrase énoncia- tive, injonctive ou interrogative et introduites par un verbe de demande (2). (1) Reviens-tu demain à la maison ? (2) Il se demande si tu reviens demain à la maison. Dans le cadre de ce travail, nous laissons de côté ce deuxième type d’interro- gative pour se concentrer sur la formation des questions, entendues comme des phrases interrogatives directes. Dorénavant, nous utilisons indifférem- ment les termes question et phrase interrogative par souci de simplicité. 2. À l’instar de Danjoux-Flaux et Dessaux (1976), Le Bon Usage distingue les phrases interrogatives globales ou totales (exemple 3) 1 , dont la réponse 1. La littérature use indifféremment des appellations globales et totales. 21
  • 22. peut-être oui ou non, des phrases interrogatives partielles, pour lesquelles l’interrogation porte sur un élément que le locuteur ignore (exemple 4) 2 . (3) Reviens-tu demain ? (4) Quand reviens-tu ? Le tableau 1.1 synthétise cette opposition sur la base de différents paradigmes. Question totale Question partielle Mot interrogatif / pronom (qui, que, quoi, lequel, combien) déterminant (quel, combien de) adverbe (comment, où, pourquoi, quand) Tournure est-ce en tête de phrase en tête de phrase, précédée du mot que interrogatif Portée de l’inter- sur le verbe (éventuellement en re- sur un élément que le locuteur rogation lation avec un autre élément) ignore Réponse oui/non conforme à l’interrogatif utilisé Ex : Où va-t-il ? À Bruxelles (où - lieu) Intonation montante en partie descendante TABLEAU 1.1 – L’opposition questions totales - questions partielles Certains auteurs ont également proposé de classifier les questions selon leur mot interrogatif. On parle alors de classification en wh-words. Cette classification regroupe tous les interrogatifs anglais commençant par wh- (who, what, which, when, where, why), ainsi que l’adverbe interrogatif how 3 . Robinson et Rackraw (1972a ; 1972b) définissent ces mots comme le panel complet des mots lexicaux marqués interrogativement et qui peuvent être utilisés dans un environnement lin- guistique similaire. Ces wh-words sont beaucoup utilisés en théorie journalistique. 2. Dans le domaine des systèmes de questions-réponses, on utilise également les oppositions « booléennes/factuelles » et « fermées/ouvertes ». 3. Les correspondants français de ces mots sont : qui, que/quoi, quel, quand, où, pourquoi et comment. 22
  • 23. Ils constituent en effet les éléments les plus importants qui doivent composer le premier paragraphe d’un article (Pomerantz, 2005). Avec ces sept mots, une autre typologie de questions se dégage. Certes, toutes les questions ne s’y retrouvent pas – les questions totales, par exemples, sont mises de côté – et cette typologie n’est donc pas exhaustive, mais elle offre un début de classification intéressant. Zock et Mitkov (1991) envisagent les limites de ce type de classification, relevant l’ambiguïté possible de ces mots interrogatifs. Ils donnent l’exemple du mot comment qui peut renvoyer à un état (5), à une méthode (6), à la valeur d’un attribut (7) ou encore ou à des éléments plus spécifiques, comme par exemple un moyen de transport (8). (5) Comment vas-tu ? (6) Comment as-tu résolu ce problème ? (7) Comment est ta maison, rouge ou blanche ? (8) Comment es-tu venu, en train ou à vélo ? 1.1.2 Catégorisation conceptuelle Lehnert (1978) introduit la notion de focus pour établir une catégorisation conceptuelle des questions. Elle définit le focus comme le concept qui incarne l’attente d’information exprimée par la question et postule que, tant que son focus n’est pas déterminé, une question ne peut être comprise clairement. Exemple : dans la question « Où est né Barack Obama ? », tant que le focus « compléter un concept » n’est pas clairement déterminé par l’interlocuteur ou la machine qui doit fournir la réponse, la question n’est pas comprise et la réponse adéquate ne peut être fournie. 23
  • 24. La typologie de Lehnert est reprise en français dans le tableau 1.2. Catégorie Exemple 1 Antécédent causal Pourquoi Jean a-t-il quitté Paris ? 2 Orientation vers un but Pourquoi Marie a-t-elle acheté ce livre ? 3 Capacité Que doit-il faire pour gagner ? 4 Conséquence causale Que s’est-il passé après qu’il est parti ? 5 Vérification Est-il vraiment parti ? 6 Disjonction Est-il à Londres ou à Glasgow ? 7 Procédure Comment dois-je faire pour te rejoindre ? 8 Compléter un concept Quand est-il arrivé ? 9 Attente Pourquoi n’est-il pas parti ? 10 Jugement Que devrait-il faire pour survivre ? 11 Quantification Combien de personnes étaient présentes ? 12 Spécification d’un élément De quelle couleur sont ses yeux ? 13 Requête Peux-tu me passer le sel ? TABLEAU 1.2 – La typologie conceptuelle de Lehnert Graesser (1994) ajoute à cette typologie les cinq catégories reprises dans le ta- bleau 1.3. Notons que la catégorie assertion correspond aux phrases interrogatives indirectes que nous avons décidé de ne pas traiter dans le cadre de ce travail. Catégorie Exemple 1 Comparaison Dans quelle mesure ces deux villes sont- elles comparables ? 2 Définition Qu’est-ce qu’une onde magnétique ? 3 Exemple Qu’y a-t-il comme exemple de cette théo- rie ? 4 Interprétation Que s’est-il passé hier ? 5 Assertion J’ai besoin de savoir quelle est ta taille. TABLEAU 1.3 – Les cinq catégories additionnelles de Graesser Zock et Mitkov (1991) avancent quatre objections à la typologie de Lehnert : 1. Certaines catégories méritent d’être affinées. Quantification, par exemple, devrait comprendre les sous-catégories durée, fréquence... 2. Certaines catégories sont trop précises. Les questions 9, 10 et 11 seraient par exemple classées dans trois catégories différentes (jugement, procédure 24
  • 25. et capacité) alors qu’elles pourraient toutes les trois être classées dans la catégorie procédure. (9) Comment t’es-tu arrangé avec John ? (10) Comment John a retrouvé son livre ? (11) Comment allons-nous manger ce soir ? 3. La catégorie compléter un concept est trop large pour définir les wh-questions. En effet, toute question, à part les questions totales, demande une complé- tion de concept. 4. Le métalangage, i.e. les explications relatives à la typologie et au choix des ca- tégories, est parfois trop exotique pour convenir à un locuteur quelconque. La campagne d’évaluation de systèmes de questions-réponses CLEF 4 établit une autre typologie de questions, plus générale. Trois types sont relevés et divisés en sous-catégories (Giampiccolo et al., 2007). Ces catégories se basent sur le type de réponse attendue à la question posée : 1. Questions factuelles : questions basées sur des faits – Personne (12) Qui est le président français ? Nicolas Sarkozy – Temps (13) Quand est mort Jean-Paul II ? En 2005 – Lieu (14) Où est né Mozart ? À Salzbourg – Organisation (15) À quel parti appartient Didier Reynders ? Au Mouvement Réformateur – Mesure (16) Quelle hauteur fait la tour Eiffel ? 324 mètres – Nombre (17) Combien d’habitants y a-t-il en Belgique ? 10 827 519 – Objet (18) De quoi est faite une table ? De bois 4. http://clef-campaign.org 25
  • 26. – Autres (19) Quel traité a été signé en 1979 ? Le traité de paix entre Israël et Égypte 2. Questions définitoires : questions de type Qui/Qu(e) est X ? – Personne (20) Qui est Robert de Niro ? Un acteur de cinéma – Organisation (21) Qu’est-ce que la Douma ? Le parlement russe – Objet (22) Qu’est-ce qu’une assiette ? Un plat dans lequel on mange – Autres (23) Qu’est-ce que l’Eurovision ? Un concours de musique 3. Questions listes : questions qui requièrent une réponse contenant un nombre déterminé d’unités (24) Quels sont les aéroports de Londres ? Gatwick, Stansed, Heathrow, Luton et City Dans un article traitant des « questions complexes » (Moriceau et al., 2010), les auteurs complètent cette typologie. Outre les catégories factuelle – qu’ils défi- nissent comme regroupant les questions globales et celles portant sur des entités – et définition 5 , ils mettent au jour deux nouvelles catégories : 1. Opinion (25) Que vous inspire ce film ? 2. Explication – Processus ou séquence de processus : correspond à la majorité des questions en comment (26) Comment faire une note de bas de page en LTEX ? A – Conséquence ou liste de conséquences : (27) Que provoque le gel sur les routes ? – Raison ou liste de raisons : correspond aux questions en pourquoi – Cause (28) Pourquoi un chercheur gagne-t-il moins qu’un trader ? – But (29) Pourquoi le gouvernement a-t-il prêté de l’argent aux banques ? – Obligation (30) Pourquoi doit-on obéir aux lois ? 5. Ils ne traitent pas dans l’article des questions de type liste. 26
  • 27. Une typologie axée sur la question Zock et Mitkov (1991) reprochent à ces typologies d’être davantage axées sur les réponses que sur les questions. Ils veulent pouvoir s’affranchir de la réponse et identifier le type d’élément sur lequel porte la question. À terme, l’intérêt est de créer un système sur la base de cette typologie qui permet à un utilisateur d’interagir librement avec une base de données. La démarche se situe donc dans une optique de génération de questions, davantage que les classements présentés jusqu’ici, comme l’indique la citation suivante : « Our goal [...] is not to specify how to answer a question, but how to ask it. To this end we need to make a taxonomy of questions. » (Zock et Mitkov, 1991) La taxonomie proposée est très fine. Elle ne traite par contre que des questions portant sur un élément et non des questions portant sur des phrases entières, comme les questions globales. Les auteurs relèvent 14 grands types de questions, divisés chacun en catégories plus fines. Cette typologie est présentée dans le tableau 1.4. Les exemples sont présents pour donner une indication de la structure de ces types de questions et des éléments qui doivent s’y trouver (préposition, mot interrogatif, sujet animé ou inanimé...). Type Sous-Type Exemple Question-rôle Agent-Objet Qui as-tu vu ? Co-agent Avec qui es-tu venu ? Bénéficiaire- À qui as-tu offert ce cadeau ? Destination Source De qui as-tu reçu ce cadeau ? Moyens-Instruments Qu’a-t-il utilisé pour creuser ? Instrumentalité Avec quoi vais-je creuser ? Possesseur-Relation À qui appartient ce livre ? À qui est cet enfant ? Question-évènement Évènement Qu’est-ce qu’il s’est passé ? Action Qu’a-t-il fait ? Spécification d’un trait Identité Quel est ton nom ? Origine D’où vient-il ? 27
  • 28. Temps Quelle heure est-il à Londres ? Âge Quel âge a-t-il ? Taille Quelle est la taille de cette personne ? Couleur Quelle est la couleur de cette maison ? Prix Combien coûte cette moto ? Question de degré Vitesse À quelle vitesse roule-t-il ? Âge Quel âge a-t-il ? Question de manière (ac- Comment a-t-il dormi ? tion) Spécification (choix d’un Quel est le plus intelligent des deux ? élément parmi d’autres) Quantité Longueur De quelle longueur est ce lac ? Fréquence À quelle fréquence cela arrive-t-il ? Distance À quelle distance se situe Istanbul ? Intelligence À quel point John est-il intelligent ? État émotionnel À quel point l’aimes-tu ? Question spatiale Emplacement Où habites-tu ? Direction-Destination Où vas-tu ? Source-Origine D’où viens-tu ? Contenance Dans quoi gardez-vous le beurre ? Question temporelle Point À quelle heure décolle ton avion ? Unité de temps Quel jour sommmes-nous ? Fréquence À quelle fréquence prends-tu le train ? Durée Depuis combien de temps travailles- tu ? Passé-Présent Depuis quand travailles-tu ? Point final Jusque quand travailles-tu ? Raison Cause Pourquoi a-t-elle quitté son emploi ? Motivation Pourquoi veux-tu faire ça ? Convention Pourquoi dit-on « merci » ? Hypothèse Conséquence Que se passe-t-il si je fais ça ? Condition Quand pourrai-je dormir ? Méthode Comment résoudre ce problème ? Structure et fonctionne- Comment est organisé ce pays ? ment Comment éteindre l’ordinateur ? TABLEAU 1.4 : La Typologie de Zock et Mitkov 28
  • 29. 1.1.3 Synthèse : une classification « mixte » Nous avons relevé deux types de classification, l’une axée sur un point de vue linguistique et l’autre basée sur un point de vue conceptuel. Ces deux axes de recherche apportent chacun leurs éléments intéressants, mais ne sont pas contra- dictoires pour autant. Afin de montrer la complémentarité des deux approches, nous les avons synthétisées pour proposer une typologie « mixte » en établissant une catégorisation conceptuelle au sein d’une classification linguistique, basée sur les wh-words. Dans une optique de développement d’un système de règles de génération, nous pensons que les wh-words sont un point de départ intéressant en ce sens qu’ils réalisent globalement toutes les fonctions syntaxiques possibles dans une phrase donnée 6 . Nous affinons ensuite cette première catégorisation en associant à chacun de ces mots interrogatifs les concepts qui leur correspondent. De cette manière, chaque concept est relié au mot interrogatif approprié. Cette typologie est reprise dans le tableau 1.5. Une catégorie est ajoutée afin de prendre en compte les questions globales, qui ne contiennent pas de mot interrogatif. 6. Nous incluons pour chaque wh-word la possibilité d’être précédé d’une préposition. 29
  • 30. wh-word Concept Exemple Qui Personne Qui a offert ce cadeau à Pierre ? Que/Quoi Définition Qu’est-ce qu’une onde ? Matière De quoi est faite cette table ? Opinion Qu’en penses-tu ? Conséquence Que provoque le gel sur les routes ? Évènement Que s’est-il passé samedi ? Action Qu’a-t-il fait de mal ? Quand Point temporel fixe Quand est né Barack Obama ? Fréquence Quand prends-tu le train ? Passé-Présent Depuis quand travailles-tu ? Présent-Futur Jusque quand travailles-tu ? Où Emplacement Où habites-tu ? Source-Origine D’où viens-tu ? Direction-Destination Où vas-tu ? Pourquoi Cause Pourquoi a-t-elle quitté son emploi ? But Pourquoi roule-t-il si vite ? Convention-obligation Pourquoi doit-on dire « merci » ? Comment Procédure Comment faut-il écrire une lettre ? Structure Comment est organisé ce pays ? Spécification d’un élément Comment est cette fille ? Quel (lequel) Spécification d’un élément De quelle couleur sont ses yeux ? Quelle est la capitale de la Belgique ? Liste Quels sont les aéroports de Londres ? Combien Quantification Combien de chats a-t-elle ? Prix Combien coûte ce tableau ? Questions globales Vérification Est-il vraiment parti ? Requête Peux-tu me passer le sel ? TABLEAU 1.5 – Synthèse : typologie mixte des questions Cette typologie que nous avons élaborée prend tout son sens dans le cadre de la génération de questions. De cette manière, dans une phrase quelconque, chaque élément susceptible d’être interrogé devra pouvoir être associé à un concept. Une fois ce concept détecté, il suffira de le relier au mot interrogatif approprié afin de générer une question à partir de celui-ci. 30
  • 31. 1.2 La question d’un point de vue formel Dans cette section, nous étudions la question à un niveau plus grammatical. Nous y décrivons la façon dont elle se construit, en proposant une définition qui se veut pertinente et précise et qui doit pouvoir servir de base à la généra- tion automatique de questions. À cette fin, nous développons trois éléments qui nous semblent fondamentaux : le marquage des questions, en cherchant à déter- miner ce qui les distingue radicalement des propositions déclaratives, les mots interrogatifs et l’inversion sujet-verbe. 1.2.1 Le marquage des questions Le marquage de la question se fait principalement au niveau de l’intonation à l’oral et par un point d’interrogation final à l’écrit. La langue écrite soignée aura tendance à y ajouter une inversion sujet-verbe tandis que l’oral et la langue écrite moins soignée préfèreront l’usage de l’introductif « est-ce que » (Grevisse et Goosse, 2007). Nuançant ce constat, Danjoux-Flaux et Dessaux (1976) s’inter- rogent sur le caractère distinctif de ces marques pour l’interrogation et objectent que s’il existe des traits qui indiquent l’interrogation, ceux-ci sont polyvalents et ne se limitent pas strictement à ce type d’énoncé. C’est le cas notamment de l’inversion sujet-verbe que l’on retrouve tant dans les phrases assertives qu’inter- rogatives, comme le montrent les deux exemples suivants : (31) Comment va-t-il ? (32) Ainsi va-t-il de temps en temps au marché. Si les traits relevés sont donc bien représentatifs des questions, ils ne sont pas pour autant spécifiques à celles-ci et ne permettent pas de les distinguer de tous les autres types de phrases. Néanmoins, à l’écrit, l’inversion sujet-verbe 31
  • 32. et la tournure est-ce que semblent être de bons indicateurs pour déterminer qu’une phrase donnée est interrogative. Tout en émettant une certaine réserve, on pourrait également affirmer qu’ils constituent, avec le point d’interrogation final, les traits minimaux d’une question formulée dans un registre standard. 1.2.2 Les mots interrogatifs Comme l’indique le tableau 1.1 à la page 22, les mots interrogatifs prennent principalement trois formes. Ils peuvent être soit un pronom, soit un détermi- nant, soit un adverbe. Ces mots interrogatifs se placent généralement en tête de proposition, même si trois exceptions quant à leur position sont à souligner : – Si la question comporte deux mots interrogatifs, le deuxième suit le verbe : (33) Qui fait quoi ? – Si le mot interrogatif est la tête d’un syntagme prépositionnel, la préposition le précède : (34) Depuis quand est-il là ? – Il arrive, dans un registre moins normé, que le mot interrogatif se retrouve à la place du mot qu’il substitue : (35) Il part quand [demain] ? Les pronoms interrogatifs Qui, que et quoi sont invariables et entrainent un accord au masculin singulier pour tous leurs compléments. Par exemple, la phrase « Qui est heureuse ? » n’est normalement pas acceptée et doit être corrigée pour donner « Qui est heureux ? » (Danjoux-Flaux et Dessaux, 1976 :149). Les adverbes où, quand, combien peuvent être précédés d’une préposition au sein de la question ou même contenir la préposition en eux. 32
  • 33. (36) Luc va vers Lyon → Vers où Luc va-t-il ? (37) Luc est dans le jardin → Où Luc est-il ? Les mots interrogatifs ont donc des sources lexicales variables (substantifs, infinitifs, adjectifs, propositions complétives ou infinitives, syntagmes préposi- tionnels...). De ce fait, le panel d’éléments pouvant faire l’objet d’interrogations est large et, dans le cadre de la génération automatique de questions, il est nécessaire de pouvoir traiter tous ces cas afin de produire des interrogations sur chacun de ces éléments. Comportement face aux modifieurs Danjoux-Flaux et Dessaux (1976) soulignent le comportement différent des interrogatifs face aux modifieurs. Les modifieurs sont « les expansions du nom dans un groupe nominal » (Molinier et Levrier, 2000 :21) (adjectifs, compléments du nom, relatives). Nous illustrons ces différents comportements dans le tableau 1.6. Pour chaque type d’interrogatif, nous donnons trois exemples de phrases, chacun de ceux-ci utilisant un type de modifieur. Nous testons ensuite la validité de la paire « interrogatif-modifieur ». Les exemples précédés d’un astérisque sont non-valides. L’intérêt de cette recherche est de définir plus tard des patrons cor- rects de phrases interrogatives en évitant d’associer un mot interrogatif avec un modifieur qu’il n’accepte pas. Comp. adjectival en de Comp. nominal Relative Adverbes interrogatifs *Pourquoi d’agréable *Pourquoi des gens *Pourquoi qui est agréable Pronoms interrogatifs Qui d’agréable *Qui des gens Qui, qui est agréable Déterminants interrogatifs *Lequel d’agréable Lequel des gens Lequel, qui est agréable TABLEAU 1.6 – Interrogatifs et modifieurs 33
  • 34. Le choix entre qui, que et quoi Le choix entre ces trois pronoms n’est pas anodin et mérite d’être expliqué dans une étude préalable au développement d’un outil de génération automatique de questions. En effet, si ces trois occurrences ne peuvent être utilisées indiffé- remment, il est important de comprendre les facteurs qui président au choix de l’une ou l’autre forme. Il faut pour cela distinguer trois cas, relatifs à la fonction du pronom dans la phrase. Si l’interrogatif a la fonction de sujet et que ce sujet est animé, il prendra la forme qui (38). En revanche, s’il est inanimé, il prendra la forme qu’est-ce qui (39), les formes que et quoi étant très rarement attestées (Danjoux-Flaux et Dessaux, 1976 :150). (38) Jean joue avec son chien → Qui joue avec son chien ? (39) Fumer tue → Qu’est-ce qui tue ? Quand l’interrogatif a la fonction d’attribut du sujet, l’opposition entre qui d’une part et que et quoi d’autre part, dépasse le clivage entre animé et inanimé et se résout dans la forme de la réponse à la question. Dans le cas des animés par exemple, alors que qui demande un syntagme nominal comprenant un dé- terminant, comme dans l’exemple 40, que demande un syntagme nominal sans déterminant, comme dans l’exemple 41. Si la réponse est un adjectif, on utilisera plutôt l’interrogatif comment (voir l’exemple 42). (40) Luc est un concierge → Qui est Luc ? (41) Luc est concierge → Qu’est Luc ? (42) Luc est intelligent → Comment est Luc ? 34
  • 35. Dans tous les autres cas, le choix entre ces termes est déterminé par le caractère animé ou inanimé du mot qu’il remplace. Si ce mot est animé, le pronom pren- dra la forme qui (43, 44) et dans le cas contraire, il prendra la forme que s’il est complément direct (45) et quoi sinon (46). (43) Le chat amuse Jean→ Qui amuse le chat ? (44) Jean donne une pomme à Pierre→ À qui Jean donne-t-il une pomme ? (45) Jean mange une pomme→ Que mange Jean ? (46) Jean joue au football → À quoi joue Jean ? Rôle de la construction du verbe dans le choix des interrogatifs Danjoux et Dessaux (1976) se basent sur les travaux de Maurice Gross (1968) et ses tables de Lexique-Grammaire pour montrer que le choix des interrogatifs est souvent contraint par le verbe utilisé dans la phrase. Ils étudient ce phénomène à travers les constructions complétives et infinitives. Ils remarquent entre autres qu’avec des infinitives construites à partir d’un verbe de mouvement ou causatif de mouvement, la question qui en résulte sera régulièrement introduite par où. (47) Il emmène Luc voir Marie → Où emmène-t-il Luc ? Grévisse et Goosse (2007) montrent que quand l’interrogation porte sur le verbe, il n’existe pas de mot interrogatif qui permette de former la question. Pour contrer ce problème, il faut alors recourir au verbe substitut faire ou, à défaut, aux verbes se passer ou y avoir pour former une question en que (Grevisse et Goosse, 2007 ; Danjoux-Flaux et Dessaux, 1976). (48) Le vieux mur peut tomber – *Que peut le vieux mur ? – Que peut faire le vieux mur ? 35
  • 36. Par ces deux exemples, les auteurs montrent que le choix de l’interrogatif est loin d’être évident et que les contraintes qui s’exercent sur lui ne sont pas seule- ment liées à son référent et à ses caractéristiques (animé, inanimé, complétive, infinitive), mais aussi au contexte linguistique dans lequel il s’inscrit. 1.2.3 L’inversion sujet-verbe L’inversion se réalise différemment selon que le sujet est un pronom personnel (ou le pronom ce) ou non. Nous distinguons ci-dessous ces deux cas avant d’évo- quer l’introducteur est-ce que et son statut particulier (Grevisse et Goosse, 2007 ; Langacker, 1965 ; Danjoux-Flaux et Dessaux, 1976). Le sujet est un pronom personnel ou le pronom ce Aux temps simples, on procède à une inversion sujet-verbe classique, avec l’insertion d’un trait d’union entre les deux. (49) Il vient → Vient-il ? Aux temps composés et au passif, le pronom est inséré entre l’auxiliaire et le participe passé. (50) Il est venu → Est-il venu ? Ces deux règles comportent toutefois deux exceptions : – L’inversion n’est pas réalisée à la 1ère personne du singulier de l’indicatif présent pour les verbes ne se terminant pas par -e (*fais-je). – L’inversion n’est pas réalisée pour les temps composés de être quand le sujet est ce (*a-ce été) ainsi qu’à la troisième personne du pluriel de l’indicatif passé simple (*fussent-ce). 36
  • 37. Dans certains cas par ailleurs, le verbe se voit modifié avec l’inversion : – À la première personne du singulier de l’indicatif présent, les verbes se terminant en -e changent leur e en é (aimé-je) – À la troisième personne, quand le verbe se termine par une voyelle, on ajoute, par analogie à la prononciation, un -t- avant le pronom. Le sujet n’est ni un pronom personnel, ni le pronom ce – Interrogations globales On procède à une inversion complexe. Cela signifie que le sujet reste à sa place initiale, mais qu’il est repris après le verbe sous la forme d’un pronom personnel à la troisième personne, accordé en genre et en nombre avec le sujet. (51) Jean est parti travailler → Jean est-il parti travailler ? – Interrogations partielles Cinq cas de figures sont à envisager : 1. L’interrogation commence par un pronom interrogatif sujet ou par un dé- terminant interrogatif se rapportant au sujet : pas d’inversion (52) Jean est parti → Qui est parti ? 2. L’interrogation commence par quel, qui est attribut ou se rapporte à l’attri- but : on procède à une inversion simple du sujet (53) Quels sont ces bruits sourds ? 3. L’interrogation commence par que, qui est complément direct ou attribut du sujet avec un verbe copule autre que être : inversion simple (54) Jean mange une pomme → Que mange Jean ? 4. Le mot interrogatif est pourquoi : on procède à une inversion complexe (sujet - verbe - reprise du pronom) 37
  • 38. (55) Jean est parti parce qu’il était malade → Pourquoi Jean est-il parti ? 5. Dans tous les autres cas : on fait soit une inversion complexe, soit une inversion simple (56) Jean est parti à Paris → Où est parti Jean ? ou Où Jean est-il parti ? L’introducteur est-ce que « Ces tours avec est-ce que (interrogation globale et interrogation partielle) sont souvent considérés comme peu élégants et lourds. Ils sont très anciens pourtant, et les classiques ne les rebutaient pas. Ils se rencontrent parfois dans la langue littéraire la plus élaborée, mais moins souvent aujourd’hui qu’hier, semble-t-il. »(Grevisse et Goosse, 2007) Le Bon Usage évoque donc cette différence de prestige entre les deux variantes (inversion et tournure en est-ce que) dans la formulation des questions. Il cite d’ailleurs une préférence de l’Académie française pour l’inversion dans les ques- tions. Néanmoins, cette tournure en est-ce que permet de contourner certains inter- dits liés à l’inversion. – Impossibilité d’inversion à la première personne du singulier de l’indicatif présent : (57) *Perds-je ? - Est-ce que je perds ? – Problème d’inversion avec le pronom (58) ce : *furent-ce ses derniers mot ? - Est-ce que ce furent ses der- niers mots ? – Interdiction du pronom interrogatif sujet neutre : (59) *Que m’oblige à faire ça ? - Qu’est-ce qui m’oblige à faire ça ? – Difficulté d’identifier sujet et objet : (60) Qui aime Jean ? - Qui est-ce qui aime Jean ? Ces constructions sont invariables en temps et en genre. Elles ne sont conju- guées qu’à l’indicatif présent, à la troisième personne du singulier. Les questions de l’exemple 61 illustrent l’invariabilité de ces tournures. 38
  • 39. (61) Est-ce que Jean est revenu ? Sont-ce que les enfants sons reve- nus ? Sera-ce que Jean reviendra ? L’utilisation de ces constructions diffère selon le caractère global ou partiel de l’interrogation. – Interrogations globales Dans ce cas, l’introducteur est-ce que est en tête de phrase, suivi du sujet, sans reprise pronominale. – Interrogations partielles La tournure est-ce que se place après le mot interrogatif et est suivie du sujet, sans reprise pronominale. Si l’interrogatif est sujet, est-ce que se mue en est-ce qui. Synthèse L’inversion sujet-verbe est une thématique complexe et dépend entre autres de la nature nominale ou pronominale du sujet. Nous reprenons dans le tableau 1.7 une synthèse des différents types d’inversion en jugeant de leur acceptabilité. Les phrases non acceptées sont précédées d’un astérisque. Nom Pronom Inversion simple Interrogation partielle Quand vient Jean ? Quand vient-il ? Interrogation totale *Viendra Jean ? Viendra-t-il ? Interrogation totale est- *Est-ce que viendra Jean ? *Est-ce que viendra-t-il ? ce que Inversion complexe Interrogation partielle Quand Jean vient-il ? / *Que Luc dit-il ? *Qui nage-t-il bien ? Interrogation totale Jean viendra-t-il ? / Interrogation totale est- *Est-ce que Jean viendra-t-il ? / ce que TABLEAU 1.7 – L’inversion sujet-verbe 39
  • 40. 1.3 De la déclarative à l’interrogative : les règles trans- formationnelles de Langacker Dans la lignée des travaux de Chomsky en grammaire générative et transfor- mationnelle, plusieurs auteurs ont proposé des règles pour formaliser la trans- formation de phrases déclaratives en interrogatives en français (Kayne, 1973 ; Langacker, 1965). Dans cette section, nous analysons le système de règles décrit par Langacker dans un article intitulé French Interrogatives : A Transformational Description (1965). Langacker distingue cinq procédés de formation différents : les questions to- tales avec inversion sujet-verbe, les questions en quel suivi d’un substantif, les questions en qui,que et quoi, les questions en est-ce que et les questions adver- biales (introduites par un adverbe interrogatif). Comme nous l’avons vu plus haut, les questions en est-ce que appartiennent à un registre moins normé et plus oral, raison pour laquelle nous ne les abordons pas ici. Les questions totales Quand une phrase déclarative est formée d’un sujet pronominal, la question totale correspondante peut être formée par inversion du pronom et du premier élément verbal (62). Quand le sujet n’est pas pronominal, la question est formée par une inversion complexe, via une reduplication du sujet sous forme pronomi- nale, à la suite du premier élément verbal (63). (62) Il est fou → Est-il fou ? (63) Jean est fou→ Jean est-il fou ? 40
  • 41. Langacker formalise cette transformation en trois règles successives. Dans celles-ci, chaque élément de la phrase est représenté par un symbole : – *Ti indique le numéro de la règle. L’astérisque souligne qu’elle est obliga- toire – wh correspond au mot interrogatif (ici fictif) – [+P RON ] correspond au trait syntaxique pronom – NP correspond à un syntagme nominal (qui peut être un pronom) – V correspond au premier élément d’une chaine verbale – X,Y,Z correspondent à des chaines quelconques de caractères Une règle correspond à la transformation d’un état de la phrase vers un autre. Les éléments sont associés à un numéro dans la partie gauche de la règle et la partie droite donne le nouvel ordre de ces éléments. Certaines règles sont soumises à une condition, exprimée sous la flèche de transformation. 1. Reduplication du sujet à la suite du premier élément verbal *T4 : wh NP V X ⇒ 1 2 3 +2 4 1 2 3 4 Exemple : - wh1 Le chat gris2 est3 parti4 → wh1 Le chat gris2 est le chat gris3+2 parti4 - wh1 Il2 est3 parti4 → wh1 Il2 est Il3+2 parti4 2. Pronominalisation du sujet dupliqué *T5 : wh NP + V DET [+N ] X Y ⇒ 12 4 6 1 2 3 4 5 6 [+P RON ] NP Exemple : - wh1 Le chat gris est2 le3 chat4 gris5 parti hier6 → wh1 Le chat gris est2 il4 parti hier6 - wh1 Il est2 Il4 parti hier6 → wh1 Il est2 il4 parti hier6 41
  • 42. 3. Ellipse du sujet si celui-ci est un pronom *T7 : X NP V NP Y ⇒ 1 3 4 5 1 2 3 4 5 |si 2=4| Exemple : - wh1 Pierre2 est3 il4 parti5 → la règle n’est pas appliquée - wh1 Il2 est3 il4 parti5 → wh1 est3 il4 parti5 Questions formées à partir d’un déterminant : questions en quel L’interrogatif quel est défini comme le résultat de l’ajout de l’interrogation au déterminant quelque (Langacker, 1965 :590). L’interrogation porte donc sur le déterminant, et pas sur le nom. (64) Vous préférez quelque tableau → Quel tableau préférez-vous ? Pour réaliser l’interrogation, il faut donc déplacer le syntagme dont le détermi- nant est quelque en tête de proposition et joindre le déterminant au marqueur d’interrogation fictif wh pour donner quel. Trois cas sont à distinguer pour écrire cette règle : 1. L’interrogation porte sur le sujet : dans ce cas, le syntagme n’est pas déplacé. (65) Quelque médecin va venir → Quel médecin va venir ? 2. L’interrogation porte sur un syntagme prépositionnel : le syntagme entier est déplacé en tête de proposition. (66) Il parle à quelque femme → À quelle femme parle-t-il ? 3. L’interrogation porte sur un élément dominé par une P2 : on ne peut réaliser l’interrogation. (67) Nous partirons quand quelque femme partira → *Quelle femme partirons-nous quand partira ? 42
  • 43. De ces trois cas, résulte la règle suivante : T3 : wh X (P) DET Y Z ⇒ 3 1+4 5 2 6 quelque 1 2 3 4 5 6 Condition : 4 + 5 n’est pas dominé par une P2 Exemple : wh1 Vous parlez2 à3 quelque4 femme5 aujourd’hui6 → À3 quelle1+4 femme5 vous parlez2 aujourd’hui 6 ? Une fois cette règle appliquée, il reste à réaliser l’inversion. Langacker propose d’adapter les règles exposées pour les questions totales en les généralisant. Les deux dernières règles (pronominalisation et ellipse) restent identiques, mais la pre- mière (duplication) doit être précisée pour prendre en compte les constructions en quel : *T4 : wh (P) NP NP V Y ⇒ 1 2 3+2 4 wh+X 1 2 3 4 Exemple : - Quel tableau1 Henri 2 préfère3 voir4 → Quel tableau1 Henri2 préfère Henri3+2 voir4 - Quel tableau1 Il2 préfère3 voir4 → Quel tableau1 Il2 préfère il 3+2 voir4 Questions formées à partir d’un syntagme nominal : questions en qui, que et quoi Ces questions sont formées selon la même procédure que celles précédem- ment décrites. En effet, le syntagme nominal sur lequel porte la question est déplacé en tête de proposition, éventuellement précédé d’une préposition. La 43
  • 44. différence tient au fait que la séquence quel + Nom est ici remplacée par les pro- noms Qui, que ou quoi en fonction du caractère humain non humain du Nom. Langacker relève trois objections principales à cette transposition simple : – Que ne peut pas être sujet d’une phrase. (68) *Qu’est tombé ? – Quand la question porte sur l’objet direct et quand le sujet est un nom, la reduplication se fait si l’objet est humain (69), mais pas si l’objet est non humain (70). (69) Qui Henri voit-il ? (70) *Que Henri voit-il ? – Quand la question porte sur un syntagme prépositionnel, l’inversion simple (71) et complexe (72) sont autorisées. (71) De qui parle Henri ? (72) De qui Henri parle-t-il ? Il est donc nécessaire d’incorporer ces restrictions dans les règles existantes et d’adapter celles-ci pour qu’elle conviennent aux questions en qui, que et quoi. Lan- gacker propose de remplacer les termes à interroger par des pro-formes [+PRO] : personne et chose, selon le caractère humain ou non-humain du terme concerné. De cette manière, la séquence quelque [+PRO] est ensuite remplacée par qui ou que selon les traits de la pro-forme. Cette règle intervient après le déplacement en tête de proposition du syntagme à interroger et la reduplication. Le trait [H] représente le caractère humain ou non du syntagme. 44
  • 45. *T6 : (P) wh + quelque [+PRO] (NP) V (NP) X⇒ 12 3 4567 [+SG] [+M] 1 2 3 4 5 6 7 Quand 1 = P - si 4=6=NP : 3 = [-H] ou 6 = [+PRON] - sinon : 3 = [+H] Dans le cas où le syntagme à interroger est prépositionnel, le choix entre qui et quoi se fait grâce à l’analyse du trait humain ou non humain (73). Dans le cas contraire, la structure de la phrase est analysée pour déterminer le trait humain ou non humain du syntagme et, en fonction de celui-ci, le pronom interrogatif sera choisi (74,75). (73) - À quelque jeu Jean a Jean joué → À quelle chose Jean a Jean joué → À quoi Jean a Jean joué - À quelque joueur Jean a Jean donné un cadeau → À quelle personne Jean a Jean donné un cadeau → À qui Jean a Jean donné un cadeau (74) Quel jeu Jean a Jean offert → Quelle chose Jean a Jean offert → Que Jean a Jean offert (75) Quel joueur a gagné → Quelle personne a gagné → Qui a gagné Comme pour les questions totales et les questions en quel, cette règle est suivie des étapes de pronominalisation et d’ellipse. Questions adverbiales Langacker définit comme adverbiales les questions portant sur un élément circonstanciel de la phrase (76, 77, 78). (76) Quand part-il ? (77) Où votre père va-t-il ? (78) Où va votre père ? 45
  • 46. Ces questions acceptent l’inversion simple et l’inversion complexe et ne néces- sitent pas l’ajout de nouvelle règles par rapport à celles développées jusqu’à présent. En effet, l’élément interrogé peut être remplacé par une construction de type « P + quel + N » correspondant aux pronoms où et quand selon qu’il s’agit d’un lieu ou d’un complément de temps. Langacker évoque aussi le renforcement de la question par la forme est-ce que (79), mais nous ne traitons pas cette construction dans le cadre de ce travail. (79) Quand est-ce que vous partez ? Remarques Ce système proposé par Langacker est pertinent dans la mesure où il formalise des phénomènes complexes tels que l’inversion sujet verbe. Néanmoins, comme nous l’envisageons dans la deuxième partie de ce travail (chapitre 3), il existe aujourd’hui des outils plus performants qui permettent d’effectuer ces transfor- mations. Les analyseurs syntaxiques actuels permettent, par exemple, de générer des structures de phrases arborescentes et hiérarchisées qu’il est très facile de mo- difier en agissant sur les nœuds de celles-ci. De surcroit, ces analyseurs incluent des modules de reconnaissance d’entités nommées qui permettent de déterminer les traits des syntagmes – le trait humain ou non humain par exemple – sans recourir à une analyse de la structure de la phrase, comme le fait Langacker. Si la démarche théorique est intéressante, nous pensons que la grammaire décrite est trop complexe et quelque peu archaïque par rapport aux outils actuels. 1.4 Conclusion En vue de développer un système de génération automatique de questions, il importe d’une part d’établir une typologie de celles-ci pour définir ce que notre 46
  • 47. système doit être capable générer et, d’autre part, de définir formellement la phrase interrogative, en la distinguant des phrases déclaratives. Il existe deux grands types de classification de questions. Le premier, axé sur un point de vue linguistique, se base sur la structure de la question et sur les mots interrogatifs pour établir une typologie. Le second, basé sur un point de vue conceptuel, classe les questions selon le focus, soit l’attente exprimée par ces dernières, ou le concept, soit l’élément sur lequel porte la question. Néanmoins, ces deux axes de recherche, loin de s’opposer, sont complémentaires. Nous avons donc synthétisé ces deux approches pour créer une typologie « mixte » associant des catégories conceptuelles à des éléments linguistiques – les wh-words – pour permettre de relier chaque concept au mot interrogatif le plus approprié. La classification que nous présentons permet donc de rendre compte des types des questions à la fois d’un point de vue linguistique et conceptuel et constitue un point de départ pertinent pour la mise en place d’un système de génération automatique de questions. Formellement, la question peut être définie selon trois axes : son marquage, les mots interrogatifs et l’inversion sujet-verbe. Ces trois concepts sont les éléments standards d’une question et nécessitent d’être clairement définis pour formuler des phrases interrogatives correctes. Face à ce constat, Langacker (1965) propose une grammaire transformationnelle qui formalise ces différents aspects grâce à des règles de transformation. Néanmoins, cette grammaire, bien qu’intéressante pour son apport théorique, semble dépassée par les outils actuels et donc difficile à implémenter dans un outil complet de génération automatique de questions. La typologie et la définition formelle que nous proposons ont pour ambition de donner une représentation complète de la notion de question et de construire 47
  • 48. une base linguistique pertinente à la génération automatique de questions. Le chapitre suivant, consacré au domaine de la génération automatique, se situe à un niveau plus informatique. Il constitue la deuxième partie de la base théorique sur laquelle reposera l’implémentation d’un générateur de questions. 48
  • 49. CHAPITRE 2 GÉNÉRATION AUTOMATIQUE ET GÉNÉRATION AUTOMATIQUE DE QUESTIONS Le but de ce chapitre est de situer la génération automatique de questions (GAQ) au sein du domaine plus général de la génération automatique de textes (GAT) 1 . Nous commençons par présenter ce domaine en définissant ses grands principes. Nous nous intéressons ensuite au domaine spécifique de la génération automatique de questions afin de montrer les points communs et les points divergents entre les deux types de systèmes. Au-delà de cette comparaison, notre objectif est aussi de comprendre les enjeux et les défis qui pèsent sur notre objet d’étude en réalisant un état de l’art de la discipline. Pour ce faire, nous présentons les principaux outils existants, en dégageant une méthodologie globale qui puisse servir de base à l’implémentation d’un nouvel outil. 1. L’appellation anglaise, plus couramment utilisée est Natural Language Generation (NLG). 49
  • 50. 2.1 La génération automatique de textes Danlos et Roussarie (2000) définissent le domaine de la manière suivante : « La génération automatique de textes (GAT) est la branche du taln dont le but est de produire des énoncés en langage naturel à partir de représentations informatisées. Ceux-ci doivent être grammaticalement corrects, sémanti- quement cohérents et pragmatiquement pertinents. La génération assure donc la fonction émettrice de la communication homme-machine, et se présente globalement comme le processus réciproque de la compréhension automatique. » (Danlos et Roussarie, 2000) Pour étayer leur propos, les auteurs citent différents types d’application utili- sant un module de génération automatique de textes : – Systèmes de dialogue homme-machine : « le terme de système de dialogue indique généralement un système permettant une interaction entre un humain et un système dans un cadre restreint. (...) Un système de dialogue homme-machine interprète les requêtes de l’utilisateur en fonction de la tâche à accomplir, de l’his- toire du dialogue et du comportement de l’utilisateur. Son objectif est de donner à l’utilisateur les informations recherchées tout en assurant une interaction efficace et naturelle. » (Galibert et al., 2005). Dans ce cadre, les modules de génération permettent, par exemple, de chercher dans une base de données la réponse à une question entrée par un utilisateur et de lui renvoyer la réponse, correctement formulée. – Résumé automatique : un tel système utilisant un module de génération se distingue des outils de résumé automatique traditionnels qui extraient des phrases d’un texte sur la base de calculs probabilistes. En génération, le système fonctionne avec une simulation de l’activité humaine pour résumer le texte. Il s’agit d’un processus cognitif complexe qui connait actuellement peu de réalisations concrètes. Le projet SPORTIC, actuellement développé au Cental, a pour objectif le développement d’un tel outil, appliqué ici au domaine de commentaires sportifs de matchs de basket. Basé sur une onto- 50
  • 51. logie, le générateur Gen-Tonic produit un résumé adapté aux préférences de l’utilisateur – longueur, focus sur une équipe ou un joueur particulier... – et destiné à être couplé à un résumé vidéo du match 2 . – Production de textes de commentaires générés à partir de données nu- mériques : il s’agit d’un outil très utile pour les entreprises qui part d’un ta- bleau de données numériques pour générer un commentaire sur les chiffres. EASYTEXT (Meunier et al., 2011), par exemple, traite les investissements publicitaires réalisés par des clients d’une société, et leur envoie chaque mois un commentaire généré automatiquement sur leurs investissements. – Production de manuels d’instruction : ces manuels sont générés automati- quement à partir de données entrées par un utilisateur. Le problème majeur des outils existants est le niveau d’abstraction très complexe de ces entrées qui rend ces générateurs difficiles à appréhender. L’architecture globale d’un système Danlos et Roussarie (2000) expliquent que la tâche de génération peut être di- visée en deux sous-tâches principales, correspondant à la manière dont l’humain construit son discours, selon les théories psycholinguistiques (Levelt, 1993) : 1. Le Quoi-Dire : ce module élabore le sens profond du texte en recourant à de nombreuses ressources encyclopédiques, pragmatiques... 2. Le Comment-Le-Dire : cette partie du système est chargée de construire linguistiquement le texte et se base sur des ressources linguistiques, princi- palement un lexique et une grammaire. Cette architecture peut être affinée en quatre étapes, la première entrant dans le cadre du Quoi-Dire tandis que les trois autres réalisent le Comment-Le-Dire. Pour ces quatre étapes, Bateman et Zock (2003), Danlos et Roussarie (2000) et 2. Nous remercions Stéphanie Audrit (UCL-Cental) pour ses explications à propos de ce projet. 51
  • 52. Reiter et Dale (1997) proposent des schémas comparables que nous synthétisons ci-dessous. La figure 2.1, tirée d’un article de Zock et Sabah (2002) illustre notre propos. 1. La macroplanification détermine, en fonction d’un but à atteindre et de bases de connaissances, le contenu du texte et la structure globale du dis- cours, aboutissant à un plan de texte. Le contenu profond est d’abord sé- lectionné dans des bases de connaissance, éventuellement en fonction de buts communicatifs, et représenté sous forme de réseaux conceptuels et sémantiques. Ensuite, un plan de texte est construit, dont le but est d’orga- niser le message dans une dynamique textuelle en établissant des relations rhétoriques entre les propositions du texte 3 . 2. La microplanification part du plan du texte pour en générer la structure syntaxique tout en choisissant les mots pleins 4 appropriés pour incarner le sens qui a été déterminé dans la macroplanification. Ces deux étapes – plani- fication syntaxique et lexicalisation – peuvent se dérouler successivement ou conjointement dans le cas où le générateur utilise un lexique-grammaire ou une grammaire lexicalisée. Cette phase s’accompagne d’un module d’agré- gation qui consiste à éliminer les redondances et à rendre le texte plus lisible et plus précis (voir exemple 80). Le but de ces opérations est d’assurer la cohésion du texte. 5 (80) le père et la mère de Paul → les parents de Paul 3. Une relation rhétorique relie des énoncés et non des constituants. De cette manière, « Marie mange une pomme et Pierre mange une banane » contient deux énoncés unis dans une relation de narration (Busquets et al., 2001) 4. noms, verbes, adjectifs et adverbes. 5. La cohésion est « l’ensemble des moyens linguistiques qui assurent les liens intra- et inter- phrastiques permettant à un énoncé oral ou écrit d’apparaître comme texte » (Charaudeau et Maingueneau, 2002 :99). Elle est à distinguer de la cohérence en ce sens que « la cohérence est une propriété du discours, qui est mis en relation avec les conditions d’énonciation, alors que la cohésion est une propriété du texte, qui est envisagé fermé sur lui-même. » (Riegel et al., 2009) 52
  • 53. 3. La formulation prend en entrée les arbres syntaxiques lexicalisés et génère la forme de surface des différentes phrases du texte. C’est à cette étape que se déroule la flexion des différents termes – l’accord des noms, pronoms et adjectifs et la conjugaison des verbes – et que les mots secondaires 6 sont ajoutés. Cela implique des modifications graphiques telles la gestion des contractions (81) et des élisions (82) ou encore l’ajout des traits d’union. (81) de le beurre → du beurre (82) le animal → l’animal 4. La présentation physique est l’étape de finition. La ponctuation est insérée et un éventuel formatage du texte, en HTML par exemple, est réalisé, pour le rendre présentable. Le cas échéant, ce formatage peut être remplacé par un module de synthèse vocale. 6. déterminants, pronoms, conjonctions. 53
  • 54. MACROPLANIFICATION Détermination du contenu Structuration du contenu Plan de texte MICROPLANIFICATION Spécifier les référents Agrégation/Segmentation Lexicalisation Plan de la phrase FORMULATION Ordre des mots Catégories lexicales Mots secondaires Flexion + Accords Texte non formaté PRÉSENTATION PHYSIQUE Ponctuation texte écrit formaté Mise en page chaîne Articulation sonore F IGURE 2.1 – Architecture d’un système de génération automatique de textes (Zock et Sabah, 2002) Ce type d’architecture séquentielle est qualifié de fonctionnement en pipeline. Cela signifie que les étapes se déroulent successivement sans qu’aucun retour en arrière ne soit possible (Reiter et Dale, 2000). La pertinence d’un tel choix a souvent été critiquée et certains auteurs ont proposé une architecture utilisant des modules interdépendants. Nous n’abordons cependant pas ces méthodologies dans le cadre de ce travail étant donné que la majorité des systèmes de génération 54
  • 55. actuels implémentent le modèle présenté (Danlos et Roussarie, 2000). Apports La génération automatique de textes présente de nombreux intérêts. Danlos et Roussarie (2000) en citent une dizaine, que nous synthétisons en trois points majeurs : 1. L’indépendance entre le stockage des informations et le système de géné- ration offre plusieurs avantages : (a) On peut actualiser très facilement un texte par une simple modification des éléments d’une base de données. (b) La recherche d’information est facilitée par l’utilisation d’une base de données structurée, sans qu’il soit nécessaire de recourir à une analyse textuelle complexe. (c) Une représentation abstraite d’un texte peut donner plusieurs formes de surface. On peut donc, à partir d’une même base, générer des textes de niveaux de langage différents ou de vocabulaire varié – grâce aux paraphrases par exemple – mais aussi dans des langues différentes. 2. Au-delà de la méthodologie, les résultats sont susceptibles d’intéresser un large public. Les systèmes sont capables de produire à la fois de la parole et du texte. Le texte peut par ailleurs être formaté et même allié à du contenu multimédia, ce qui rend les résultats d’autant plus attractifs. 3. Les fondements théoriques qui sous-tendent le développement de tous ces systèmes sont pertinents dans la mesure où ils permettent de s’interroger sur les mécanismes de production du langage humain, mais aussi sur le discours dans son intégralité, au-delà des phrases qui le composent. Limites Si les apports de la génération automatique de textes sont considérables, certains problèmes restent à résoudre pour augmenter la performance des géné- rateurs existants. 55
  • 56. Claude Ponton (1997) évoque le manque de portabilité des systèmes actuels qui sont « fortement liés à leur application et ceci tant au niveau des formalismes utilisés qu’au niveau, par exemple, des règles mises en œuvre dans le processus » (Ponton, 1997). Une autre limitation est liée à la définition de la GAT (page 50), qui implique la génération d’énoncés « grammaticalement corrects, sémantiquement cohérents et pragmatiquement pertinents ». Si les deux premiers aspects – grammaticalité et cohérence sémantique – sont pris en compte dans les systèmes actuels, la dimension pragmatique échappe encore à la modélisation. Zock et Sabah (2002) évoquent le problème du contrôle pour définir cette limite : « S’il est relativement aisé de décider de la bonne formation d’énoncés, il est beaucoup plus difficile de décider de leur adéquation à une situation. À quel moment utiliser une ressource linguistique particulière (voix passive, proposition relative, etc.) ? Que faire en cas de conflit ? Quand s’arrêter ? Comment décider qu’un texte est convenable ou optimal ? » (Zock et Sabah, 2002) 2.2 La génération automatique de questions Selon Nielsen (2008), la définition de la génération automatique de questions diffère selon son type d’application. L’auteur relève deux domaines applicatifs majeurs de la discipline : – Applications éducatives : des questions sont générées pour évaluer les connaissances ou la compréhension d’un utilisateur à propos d’un domaine déterminé. Ces applications peuvent également prendre la forme de ques- tionnaires à choix multiples (Mitkov et Ha, 2003). Dans ce cas, l’enjeu majeur se situe dans le choix des distracteurs 7 (Mitkov et al., 2006). Brown et al. (2005), par exemple, élaborent un outil d’évaluation du vocabulaire chez des 7. « Lorsque l’on rédige des questions fermées à choix multiple[s], l’énoncé de l’item est suivi par une série de réponses possibles, dont une est correcte et les autres ne le sont pas. Les options de réponse incorrectes sont désignées par le terme de distracteurs. » http://www.irdp.ch/ edumetrie/lexique/distracteur.htm (Page consultée le 3 août 2011) 56
  • 57. locuteurs qui doivent choisir parmi plusieurs propositions le sens correct pour un mot donné. – Systèmes de dialogue homme-machine : ces systèmes ont pour vocation de permettre à un ordinateur de mener un dialogue interactif avec un hu- main. Un des objectifs peut être l’aide à l’apprentissage. Dans ce cas, le but des questions est de mener un apprenant à la compréhension d’un concept qu’il ne comprend pas au départ. Chaque question doit donc se baser sur la réponse de l’apprenant à la précédente question (Nielsen, 2008). Cer- tains auteurs se sont également intéressés à produire des dialogues fictifs à propos de textes, pour permettre à un utilisateur d’accéder à ces textes de manière plus interactive (Piwek et Stoyanchev, 2010), par exemple à partir de notices de médicaments (83). (83) – Notice : Vous pouvez prendre une aspirine si vous avez mal à la tête. – Dialogue : – Q : Que puis-je faire si j’ai mal à la tête ? – R : Vous pouvez prendre une aspirine. Pour distinguer ces méthodologies, deux aspects sont concurrentiels : – Pragmatique : choisir la bonne question en fonction du type d’application et de ses contraintes. – Syntaxique : déterminer les étapes qui sont appliquées pour générer une question grammaticalement correcte. Le premier point de vue diverge entre les deux approches puisque les questions générées dans le cadre d’un outil ne sont pas nécessairement pertinentes pour un autre. A contrario, le processus formel de création des questions est iden- tique. Nous étudions donc ce second point de vue, même si des références à la pragmatique peuvent survenir pour étayer notre propos. Pour bien comprendre la place particulière qu’occupe la génération automa- tique de questions (GAQ) au sein du domaine général de la génération automa- tique de textes (GAT), nous décrivons ici le fonctionnement global d’un outil. Cependant, aucune méthodologie généraliste n’ayant jamais été décrite, nous 57
  • 58. procédons de manière empirique. Nous partons de la présentation d’outils exis- tants, constituant « l’état de l’art » en génération automatique de questions, pour dégager une architecture générique, comme nous l’avons fait dans la section précédente pour la génération automatique de textes. La section 2.3 confronte les deux méthodologies afin de situer le sous-domaine de la GAQ au sein du do- maine principal et de déceler les points communs et divergents de leur mode de fonctionnement. Si des grammaires de règles pour générer des questions existent pour le fran- çais (Danjoux-Flaux et Dessaux, 1976 ; Langacker, 1965), comme celle exposée à la section 1.3, aucun outil complet n’a jamais été implémenté, à l’exception d’un travail d’étudiant (Brette et Lescuyer, 2006), extrêmement basique et peu flexible : il s’applique à des phrases très simples et les contraintes sur les entrées du programme sont lourdes. Face à cette absence de ressources suffisantes pour le français, nous avons exploré les outils existants pour l’anglais. Dans ce chapitre, nous exposons quatre méthodologies développées pour générer des questions en anglais dont nous dégageons les spécificités et les limites. 2.2.1 Les débuts : Les travaux de John Wolfe Wolfe (1976) pose les bases de la génération automatique de questions. Le but de l’outil qu’il a développé est pédagogique. Il s’agit d’aider des apprenants à étudier des textes de manière indépendante. Le principe est le suivant : un texte est soumis à un programme qui va le segmenter en phrases et retourner à l’étudiant des questions auxquelles il doit répondre. Le programme vérifie la réponse donnée, l’accepte ou la refuse. Dans cette méthode, seule la forme de la phrase est traitée et son sens n’est pas pris en compte, ce qui présente deux inconvénients : la réponse de l’étudiant doit parfaitement correspondre avec la réponse attendue par le programme et certaines ambiguïtés ne sont pas résolues dans l’analyse de la phrase, ce qui engendre des erreurs dans la génération des questions. 58
  • 59. Fonctionnement du système Un paragraphe est soumis à la lecture de l’étudiant. Une phrase de ce para- graphe est sélectionnée aléatoirement par l’ordinateur 8 qui génère une question à partir de celle-ci. Cette question est ensuite renvoyée à l’étudiant qui doit y répondre correctement. Le système procède en quatre étapes : 1. Analyse morphologique : le programme étiquète les mots de la phrase en catégories grammaticales à l’aide d’un dictionnaire de verbes, conjonctions, pronoms, prépositions, articles et adverbes. Tout ce qui ne se retrouve pas dans le dictionnaire est alors automatiquement étiqueté comme nom. Le dictionnaire contient pour les verbes des informations morphologiques du type transitif, intransitif, régulier, irrégulier... 2. Génération d’une question à partir d’une table de patrons : le programme dispose d’une liste de patrons de phrases, chacun correspondant à un type de réponse à une question. Si un patron est retrouvé dans la phrase entrée au programme, le système peut donc générer la question correspondante. Exemple : I have a dog so that I walk everyday correspondant au pa- tron P1 so that P2 – Repérage et analyse des caractéristiques morphologiques du verbe de P1 pour générer une bonne forme du do et transformation en P1’ do I have a dog – Génération d’une question à partir de P1’ : Why do I have a dog ? – Génération d’une réponse attendue : so that + P2 (so that I walk everyday) 3. Post-traitements : le programme rejette les paires question-réponse qui ne satisfont pas certaines conditions (phrases trop longues, présence d’une virgule dans la question...). 4. Vérification de la réponse de l’étudiant : si plus de 50% des mots de plus de quatre lettres de la réponse attendue sont contenus dans la réponse donnée, celle-ci est acceptée (les mots-outils sont de cette manière éliminés dans l’évaluation). 8. Les phrases trop complexes ou trop longues sont d’emblée éliminées par le système 59
  • 60. Résultats Le système a été évalué sur 50 questions générées. Parmi celles-ci, 34 ont été jugées satisfaisantes. Les 16 autres ont été classées selon quatre types d’erreurs : les erreurs syntaxiques (11 occurrences), sémantiques (3 occurrences), pédago- giques (1 occurrence) et « bug du programme » (1 occurrence). Parmi les erreurs syntaxiques, beaucoup étaient liées à une mauvaise reconnaissance du verbe principal de la phrase. Notons que l’idée première de l’implémentation était de fonctionner sur la base d’une analyse syntaxique de la phrase, mais que celle-ci était beaucoup trop coûteuse en mémoire et en temps 9 . 2.2.2 Une étude de Donna Gates À l’instar de John Wolfe, Donna Gates (2008) envisage la fonction pédagogique de la génération automatique de questions. Son but est d’offrir un outil d’aide à la compréhension à la lecture, en créant des questions factuelles à partir de textes. Les utilisateurs seraient donc contraints d’approfondir leur lecture du texte et d’élargir leur compréhension de celui-ci pour être capable de répondre aux questions posées. Cette méthode de lecture se base sur ce qui se trouve directement dans le texte. Les questions générées sont uniquement des questions factuelles dont la réponse est intratextuelle (Gates, 2008 :10). Le procédé utilisé est le suivant : 1. Génération d’un arbre syntaxique grâce au Standford Syntactic Parser (Klein et Manning, 2003), augmenté d’informations sémantiques récupérées de Wordnet (Fellbaum, 1998) (animé-inanimé, personne, organisation, pays...). 2. En fonction de la phrase et des syntagmes qui la composent, plusieurs types de question sont possibles. Le système en traite quatre et génère un arbre par type de question accepté par la phrase (sujet, objet direct, complément d’agent, expressions temporelles). 9. Rappelons que l’article date de 1976... La puissance des ordinateurs était donc de loin inférieure à celle de nos machines actuelles. 60
  • 61. 3. Transformation de l’arbre à l’aide de règles Tsurgeon (voir 3.2) écrites à la main, le but étant de baliser la réponse à la future question et de transformer la structure de la phrase pour passer du mode déclaratif au mode interrogatif (inversion sujet-verbe, insertion d’un mot interrogatif...). 4. Phase de simplification (suppression des relatives et des syntagmes préposi- tionnels) 5. Règles pour affiner les mots interrogatifs en fonction d’informations séman- tiques 6. Transformation des arbres de questions (forme profonde) en format correct (forme de surface). A partir de l’arbre complexe et annoté, un script génère la question en recherchant les nœuds de surface (terminaux) et rend la phrase dans un anglais correct (bonne forme du « do », accord sujet-verbe...) Evaluation L’évaluation se base sur les paires question-réponse, à partir desquelles deux évaluateurs attribuent une note à la question générée (parfaite, bonne, mauvaise ou très mauvaise) en regard de la réponse. Ces grades doivent être attribués à la lumière de deux critères : la pertinence sémantique et la grammaticalité. Pour ce faire, 693 questions, issues d’un corpus de 52 passages de CBC4Kids 10 ont été soumises à l’évaluation. Sur toutes ces questions, 75% ont été retenues comme parfaites, 6% comme bonnes, 15% comme mauvaises et 4% comme très mauvaises. Ces résultats semblent corrects, mais sont à nuancer. Le corpus d’évaluation étant un corpus de textes destinés aux enfants, les passages traités et les phrases entrées au programme sont relativement simples, ce qui facilite l’analyse syntaxique et donc la génération des questions. Limites L’auteur constate certaines limites dans son approche. Premièrement, l’outil se cantonne aux questions factuelles, au détriment des questions plus complexes de type comment ou pourquoi. En outre, l’auteur cite trois sources d’erreurs 10. www.cbc.ca/kids 61
  • 62. dans les questions générées ; les erreurs d’analyse, celles dues à une mauvaise reconnaissance des entités nommées et celles liées à des patrons de modification trop peu précis et donc des règles trop restrictives. 2.2.3 Heilman et Smith et l’apport de la simplification La simplification de phrases Heilman et Smith (2010a) développent un algorithme d’extraction de clauses à partir de phrases complexes en vue de la génération automatique de questions. Cette étape permet de faciliter la création d’un formalisme pour générer des ques- tions concises à partir de phrases complexes. Les phrases étant plus simples, les résultats sont moins bruités et les ambiguïtés d’analyse sont largement moindres et plus facilement résolubles. Les auteurs définissent l’extraction de cette ma- nière : The task of extracting simple sentences from a complex input sentence is essentially the task of generating a particular subset of the possible sentences that a reader would assume to be true after reading the input.(Heilman et Smith, 2010a :2) La motivation de cette étape préalable est sémantico-pragmatique : globale- ment les présuppositions sont extraites de la phrase de base. Pour ce faire, l’algo- rithme se base sur la structure de la phrase (propositions relatives et subordonnées, adverbes, appositions...), générée par un analyseur syntaxique, pour la découper et supprimer les éléments moins significatifs. Une démonstration de l’outil est disponible en ligne 11 . L’exemple 84 illustre une sortie du programme. (84) – Entrée : Alfred studied at Oxford, where he learned to speak English. – Sortie : – Alfred studied at Oxford. – He learned to speak English at Oxford. 11. http://www.ark.cs.cmu.edu/mheilman/qg-2010-workshop/ 62