Mais enfin, pourquoi faire un “corpus de référence” en 2012?
1. Mais enfin, pourquoi faire un “corpus
de référence” en 2012?
Lou Burnard
lou.burnard@tge-adonis.fr
Initiative corpus de référence
du francais, Paris, 2012
2. On peut se servir d'un corpus de
plusieures manières
• De manière exploratoire ou investigative
– par ex dans une domaine médico-légale
• De manière comparative
– Comparaisons des langues, registres, etc.
• De manière evaluative
– Pour créer et/ou tester des hypothèses sur les normes
linguistiques
Ou tout bêtement pour retrouver des mots...
2
4. Comment retrouver le sens d'un
mot que l'on ignore?
1.Appliquer un algorithme
2.Demander aux autorités
3.Regarder son usage
4
5. 1. Application d'un algorithme
• Corpus → “corpu” +s
• Corpus → “corp” + “us”
• “corpuses”
• ...
5
6. 2. Demande aux autorités
3. A body or complete collection of writings or the
like; the whole body of literature on any subject. ...
4.The body of written or spoken material upon which
a linguistic analysis is based… (OED, 1993)
“a collection of pieces of language, selected and
ordered according to explicit linguistic criteria in
order to be used as a sample of the language”
(Sinclair, 1994)
6
8. 3. Un survol des usages ...
subject. 1727-51 Chambers Cycl. s.v., Corpus is also used in matters of learning, for s
d, and bound together.. We have also a corpus of the Greek poets.. The corpus of the ci
also a corpus of the Greek poets.. The corpus of the civil law is composed of the diges
16 Bound up inseparably with the whole corpus of Christian tradition. 4. The body of wr
e informant.. and in particular upon a corpus of material, of which a large proporti
al objection one may make against the `corpus' method is that two investigators operati
lore the possibilities and problems of corpus-based research by reference to first-h
incurred they ought to be paid out of corpus and not out of income. phr. corpus delic
of corpus and not out of income. phr. corpus delicti (see quot. 1832); also, in lay u
, esp. the body of a murdered person. corpus juris: a body of law; esp. the body of Rom
; esp. the body of Roman or civil law (corpus juris civilis). 1891 Fortn. Rev. Sept.
ev. Sept. 338 The translation.. of the Corpus Juris into French. 1922 Joyce Ulysses
o.) We have here damning evidence, the corpus delicti, my lord, a specimen of my mature
r, dam and hollow log in search of the corpus delicti, found some important evidence
important evidence in a fallen tree. corpus vile Pl. corpora vilia Orig. in phr. (se
ugh who would submit to serve as the corpus vile for their charitable treatment. 1953 E
8
11. Variétés d'enjeux
• Une dictionnaire représente ce qui
est remarquable
• Un corpus représente ce qui est
typique
On ne peut rien dire sur le remarquable,
sans connaissance du typique
11
12. “language”
abstraction
Language In Use
selection
texte
13. texte
encodage
modèle
abstraite
corpus
numérique
analyses
14. Etapes de construction de corpus
• Conceptiono
– Séléction des textes
– Identification des traits signifiants
• Exécution
– Saisie des données (représentation textuel)
– Encodage (représentation conceptuel)
• Validation ou modification du dessin
14
15. La question de taille
There’s no data like more data
(Marcus, 1994)
• De point de vue lexicale un corpus ne peux
jamais être trop petit
• De point de vue littéraire la taille d'un corpus
est prédéfini
15
16. Principes de moissonage
• La langue est infini : le corpus en principe
est d'une taille fixe
• mais un corpus peut prétendre
représenter / être représentatif
– production vs. reception
– stratified sampling
• Nota : un corpus peut servir de référence
sans forcément être représentatif
16
17. Principes de sélection
• programme de recherche
• traits structuraux
• traits interprétatifs
• traits contextuels
17
18. Qu'est-ce qu'un texte?
• une image
• des mots
• des informations structurées
ou tous les trois ?
ou tous les trois ?
18
19. Caractéristiques des textes
• Un texte ou document est à la fois un objet
linguistique, donc abstrait, et un objet physique
• On peut le structurer de plusieures manières
(linéaires, hiérarchiques, intertextuelles)
• Un texte est un objet culturel issu d'un contexte
spécifique dont on ne peut pas le séparer
19
20. Tout texte ressort d'un contexte
particulier ...
• Quels agents de responsabilité intellectuel ?
• Quel publique est visé ou obtenu ?
• Quel est l'objet de cette communication ?
• Quels autres textes partagent ces attributs ?
20
21. Identification et sélection des traits
textuels
• Une procédure iterative et scientifique
• aka (également connu sous)
document analysis
• Il n'y a pas de vérité unique … quand
même on peut identifier des avis
consensuels cf TEI
21
22. Variétés d'annotation
• Annotation de structure
– Textes, paragraphes, énoncés,
phrases, mots
• Annotation linguistique
– Morphosyntaxe, fonction syntactique
• Metadonnées
– Text-type, contexte ...
22
23. En sommaire
• Un corpus linguistique est un recueil de
textes non aléatoire
• Issu d'un procédure d'échantillonage
effectué selon des principes explicites
• Il incarne ainsi un modèle théorique sur
ce qu'est que le langage
• ce modèle est explicité par l'encodage
ou balisage du corpus
Nota : il y a d'autres avis ...
23
24. Cas d'étude : le British National
Corpus
• Un “snapshot” (photo instantanée) de l'anglais
britannique à la fin du 20ème siecle
• 100 million mots en c. 4000 échantillons, y compris
l'oral (10% par volume)
• Dessin “non-opportunistic” (non aléatoire)
• Toujours disponible – version dernière BNC-XML
(13 mars 2007)
• http://www.natcorp.ox.ac.uk
24
25. D'où est venu le BNC ?
• Un consortium de scientifiques et
éditeurs lexicographiques
– OUP, Longman, Chambers
– OUCS, UCREL, BL R&D
• Avec un financement important du
gouvernement britannique 1990-1994
• Destiné aux communautés
scientifiques
– Chercheurs en lexicographie, TAL, etc.
25
26. Courants intellectuels des années
1990
• Un monde sans web!
• Deux traditions de linguistique de corpus
– ICAME, Lancaster Oslo Bergen
– COBUILD
• Théorie naissante de text encoding
• Naissance des industries de langue au
niveau européen
• AI -> NLP
• Coopérations académiques et industrielles
26
27. Buts déclarés du projet
• Un corpus synchronique (1990-4)
d'échantillons à la fois oraux et écrits
de toute la variété de production de
l'anglais britannique
• D'une conception opportuniste et
d'application générale
• Avec annotation POS
• Et plein des métadonnées
27
28. Buts véritables (?) du projet
• Amélioration des dictionnaires ELT
– Questions The BNC looks back to Brown and LOB in
d'autorité
– Respect pour l'oralemarkup, and forward to the
its design and
Web in its scope and indeterminacy
• Un modèle nouveau pour la recherche
au niveau européen
– Conception et encodqge des corpus
– Co-operation industriel-scientifique
• Un REALLY BIG corpus
– production de textes numeriques à
l'échelle industrielle
28
29. La machine à saucisses BNC
Written Spoken
Sélection, droits, saisie
OUP
(OUP/Chambers (Longman)
)
Enrichissement et encodage
Initial CDIF Conversion
and Validation Word Class Annotation
(OUCS) (UCREL)
Header generation
and final validation
(OUCS)
Documentation, distribution, maintenance
29
30. Conception “Non-opportunistique”
• But: le fair play envers toute la variete des voix
constitutives de l'anglais du RU c. 1995
• 90% écrit, 10% oral (pour des raisons
économiques)
• Critères de sélection prédéfinis
– Pour l'écrit : domaine (topos); médium; time
– Pour l'oral : demographic balance; context
• Critères supplé,entaires de description pour
maximer la variation
30
31. Groupes de travail
• Permissions (questions juridiques)
• selection, design criteria
• encoding and markup
• enrichment and annotation
• retrieval software
31
41. Pour BNC-XML, on a reclassifié les
textes
Academic
Literary
Press
Nonfiction
Unpublished
Conversation
OtherSpolen
...sentences ...words
41
42. Textes orales : echantillons
démographiques
Enregistrés par 124 personnes recrutées
• Nombres equivalents de males et de femelles
sélectionnés pour age et classe sociale habitant 38
lieux differents è travers le RU
• Charge d'enregistrer toutes leures conversations
pendant trois journées
• permissions obtenues après chaque conversation
• age, sex, accent, occupation, relations notées si
possible
• Grand quantité d'adolescents londoniens, later
published as COLT
42
44. BNC XML structuration de
document
<bncDoc>
<teiHeader>
Entete : toutes les métadonnées
</teiHeader>
<wtext> ou <stext>
Texte
</wtext> or </stext>
</bncDoc>
44
47. A quoi ça sert tous ces chevrons?
• Ils vous permettent de faire des
distinctions très importantes
– aids=SUBST vs aids=VERB
– occurrences en l'écrit vs occurrences en oral
– occurrences au sein des titres vs occurrences
au sein des paragraphes
• Et d'identifier des unités textuels à plusieurs
niveaux
FACTSHEET WHAT IS AIDS?
AIDS (Acquired Immune Deficiency Syndrome)
is a condition caused by a virus called HIV
(Human Immuno Deficiency Virus).
47
53. BNC est devenu malgré soi un best
seller
• 1995 Version 1.0 : ~1500 exemplaires sur 4
CDs,uniquement pour serveur Unix
• 2000 Version “World” : ~5000 exemplaires sur
2 CDs, installable sur machine personnel
• 2010 Version “BNC XML” : ~7000 copies (au
moins) sur 2 DVD
• Services OnLine plusieurs, toujours très utilisés
53
54. Après-BNC
• Phénoménon curieux dans plusieurs pays european :
construction des “national corpus” pareils
• Les éditeurs de dictionnaires ont rapidement crée leurs
propres corpus “in house” (monitor corpus)
• Dans la societé, un évolution rapide de manières nouvelles
d'expression linguistique
• Application et évolution des “méthodes corpus” dans d'autres
disciplines
– Notamment, dans l'apprentissage des langues mais aussi aux
humanités classiques
• Les technologies dont les linguistes pensent se servir devient
de plus en plus reconceptualisés dans une optique distribue.
54
55. L'anglais des années 90 restera-t-il
toujours d'interêt?
Evolution des média
e-mail
Pages web
blogs
SMS
Twitter, facebook, personal networks
Lettres personalles
Evolution des topos
globalization
internet
Elvis
Word Perfect
Le BNC devient un document historique; voire littéraire
55
56. Le corpus littéraire : origines
• Project Gutenberg et beacoup d'autres pareils
ont demontre la possibilite et l'interet de creer
des corpus literaires pour le grand publique
• Un modele economique base sur les efforts
benevoles, en contraste avec
– Les efforts de financement publiques tels Gallica
– Les efforts des chercheurs scientifques tels TLG
• Principes de conception :
– Inclusion des “grands oeuvres”
– Encodage minimale, principes editoriaux heterogenes
56
57. Le corpus littéraire : maintenant
Commercialisation devenue effective avec l'existence du
•
standard eBook standard, et de tres lourdes
investissements de la part de Apple et Amazon
Google Books met a disposition du grand publique des
•
bibliotheques complete
pas question (jusqu'a la) de numeriser les archives, les
–manuscrits, les objets non imprimes
Absence des outils de vulgarisation, ou de partage
–
Besoin de grand effort de correction, amelioration
•
Possibilités serieuses pour l'application du
crowd sourcing
57
58. L'application des corpus en
apprentissage de langues...
– complète (et corrige) les intuitions
– encourage l'autonomie de l'appreneur
– conteste le status du locuteur natif
– transforme le role de l'enseignant
58
59. L'usage du Web comme corpus
• En effet le web est un corpus
– “a corpus is a collection of texts when
considered as an object of linguistic or
literary study” (Kilgarrif & Grefenstette
2003)
• Ou bien on peut le considérer comme
une source de plusieurs corpus
– http://wacky.sslmit.unibo.it/
59
60. Création des corpus à partir du web
1) Selectionner 500 termes qui sont typique du
langage ciblé
2) Générer 5,000-8,000 requêtes contenant
chacune 4 mots choisis dans ces 500 termes
3) Envoyer ces requêtes à Google et retenir les 10
premiers URLS retournés
4) Post-traîtement non negligeable pour enlever
les doublons le passepartout etc
(Adapté de Sharoff, 2004)
60
62. Corpus distribués
• La promesse de l' “eScience”, “grid computing” etc.
– Séparation et distribution des ressources et des outils
• Procédure tres effective aux sciences dures mais ...
• … nécessitant de grands efforts de cooperation et de
standardisation
• … donc implique l'existence d'une infrastructure
centralisé
– CLARIN and DARIAH
62