SlideShare ist ein Scribd-Unternehmen logo
1 von 63
Mais enfin, pourquoi faire un “corpus
    de référence” en 2012?

                                     Lou Burnard
                                 lou.burnard@tge-adonis.fr




Initiative corpus de référence
du francais, Paris, 2012
On peut se servir d'un corpus de
plusieures manières
 • De manière exploratoire ou investigative
   – par ex dans une domaine médico-légale
 • De manière comparative
   – Comparaisons des langues, registres, etc.
 • De manière evaluative
   – Pour créer et/ou tester des hypothèses sur les normes
     linguistiques




           Ou tout bêtement pour retrouver des mots...


                                                         2
Corpus ???




             3
Comment retrouver le sens d'un
mot que l'on ignore?


 1.Appliquer un algorithme
 2.Demander aux autorités
 3.Regarder son usage




                             4
1. Application d'un algorithme

 • Corpus → “corpu” +s
 • Corpus → “corp” + “us”
 • “corpuses”
 • ...




                                 5
2. Demande aux autorités

 3. A body or complete collection of writings or the
 like; the whole body of literature on any subject. ...
 4.The body of written or spoken material upon which
 a linguistic analysis is based… (OED, 1993)

 “a collection of pieces of language, selected and
 ordered according to explicit linguistic criteria in
 order to be used as a sample of the language”
 (Sinclair, 1994)


                                                    6
2. Demande aux autorites




                           7
3. Un survol des usages ...
subject. 1727-51 Chambers Cycl. s.v., Corpus is also used in matters of learning, for s
d, and bound together.. We have also a corpus of the Greek poets.. The corpus of the ci
also a corpus of the Greek poets.. The corpus of the civil law is composed of the diges
16 Bound up inseparably with the whole corpus of Christian tradition. 4. The body of wr
e informant.. and in particular upon a corpus of material, of which a large proporti
al objection one may make against the `corpus' method is that two investigators operati
lore the possibilities and problems of corpus-based research by reference to first-h
 incurred they ought to be paid out of corpus and not out of income. phr. corpus delic
 of corpus and not out of income. phr. corpus delicti (see quot. 1832); also, in lay u
 , esp. the body of a murdered person. corpus juris: a body of law; esp. the body of Rom
; esp. the body of Roman or civil law (corpus juris civilis). 1891 Fortn. Rev. Sept.
ev. Sept. 338 The translation.. of the Corpus Juris into French. 1922 Joyce Ulysses
o.) We have here damning evidence, the corpus delicti, my lord, a specimen of my mature
r, dam and hollow log in search of the corpus delicti, found some important evidence
  important evidence in a fallen tree. corpus vile Pl. corpora vilia Orig. in phr. (se
  ugh who would submit to serve as the corpus vile for their charitable treatment. 1953 E




                                                                                8
… et un autre ...




                          FLY 49
                          GT9 0
                        • F98 104
                        • F98 135
                        • H47 6
                        • F98 56
                        • J2H 0
                        • F98 100
                        • KCN 22
                        • F98 54
                        • F98 112
                        •
                        •


                        •




                    9
… et encore un




                 10
Variétés d'enjeux

 • Une dictionnaire représente ce qui
   est remarquable
 • Un corpus représente ce qui est
   typique
       On ne peut rien dire sur le remarquable,
       sans connaissance du typique




                                                  11
“language”

                  abstraction




Language In Use
                  selection


   texte
texte

            encodage
modèle
abstraite


             corpus
            numérique

            analyses
Etapes de construction de corpus

  • Conceptiono
    – Séléction des textes
    – Identification des traits signifiants
  • Exécution
    – Saisie des données (représentation textuel)
    – Encodage (représentation conceptuel)
  • Validation ou modification du dessin




                                              14
La question de taille

                       There’s no data like more data
                                          (Marcus, 1994)



   • De point de vue lexicale un corpus ne peux
     jamais être trop petit
   • De point de vue littéraire la taille d'un corpus
     est prédéfini




                                                   15
Principes de moissonage

 • La langue est infini : le corpus en principe
   est d'une taille fixe
 • mais un corpus peut prétendre
   représenter / être représentatif
   – production vs. reception
   – stratified sampling
 • Nota : un corpus peut servir de référence
   sans forcément être représentatif




                                            16
Principes de sélection

 • programme de recherche
 • traits structuraux
 • traits interprétatifs
 • traits contextuels




                            17
Qu'est-ce qu'un texte?




 • une image
 • des mots
 • des informations structurées
                    ou tous les trois ?
                    ou tous les trois ?
                                      18
Caractéristiques des textes

 • Un texte ou document est à la fois un objet
   linguistique, donc abstrait, et un objet physique
 • On peut le structurer de plusieures manières
   (linéaires, hiérarchiques, intertextuelles)
 • Un texte est un objet culturel issu d'un contexte
   spécifique dont on ne peut pas le séparer




                                                 19
Tout texte ressort d'un contexte
particulier ...


 • Quels agents de responsabilité intellectuel ?
 • Quel publique est visé ou obtenu ?
 • Quel est l'objet de cette communication ?
 • Quels autres textes partagent ces attributs ?




                                                   20
Identification et sélection des traits
textuels
 • Une procédure iterative et scientifique
 • aka (également connu sous)
   document analysis
 • Il n'y a pas de vérité unique … quand
   même on peut identifier des avis
   consensuels cf TEI




                                       21
Variétés d'annotation

  • Annotation de structure
    – Textes, paragraphes, énoncés,
      phrases, mots
  • Annotation linguistique
    – Morphosyntaxe, fonction syntactique
  • Metadonnées
    – Text-type, contexte ...



                                      22
En sommaire
 • Un corpus linguistique est un recueil de
   textes non aléatoire
 • Issu d'un procédure d'échantillonage
   effectué selon des principes explicites
 • Il incarne ainsi un modèle théorique sur
   ce qu'est que le langage
 • ce modèle est explicité par l'encodage
   ou balisage du corpus

                         Nota : il y a d'autres avis ...


                                                 23
Cas d'étude : le British National
Corpus
 • Un “snapshot” (photo instantanée) de l'anglais
   britannique à la fin du 20ème siecle
 • 100 million mots en c. 4000 échantillons, y compris
   l'oral (10% par volume)
 • Dessin “non-opportunistic” (non aléatoire)
 • Toujours disponible – version dernière BNC-XML
   (13 mars 2007)
 • http://www.natcorp.ox.ac.uk




                                                  24
D'où est venu le BNC ?
• Un consortium de scientifiques et
  éditeurs lexicographiques
  – OUP, Longman, Chambers
  – OUCS, UCREL, BL R&D
• Avec un financement important du
  gouvernement britannique 1990-1994
• Destiné aux communautés
  scientifiques
  – Chercheurs en lexicographie, TAL, etc.

                                      25
Courants intellectuels des années
1990
  • Un monde sans web!
  • Deux traditions de linguistique de corpus
     – ICAME, Lancaster Oslo Bergen
     – COBUILD
  • Théorie naissante de text encoding
  • Naissance des industries de langue au
    niveau européen
  • AI -> NLP
  • Coopérations académiques et industrielles

                                       26
Buts déclarés du projet
• Un corpus synchronique (1990-4)
  d'échantillons à la fois oraux et écrits
  de toute la variété de production de
  l'anglais britannique
• D'une conception opportuniste et
  d'application générale
• Avec annotation POS
• Et plein des métadonnées

                                      27
Buts véritables (?) du projet
 • Amélioration des dictionnaires ELT
   – Questions The BNC looks back to Brown and LOB in
                d'autorité
   – Respect pour l'oralemarkup, and forward to the
               its design and
                 Web in its scope and indeterminacy
 • Un modèle nouveau pour la recherche
   au niveau européen
   – Conception et encodqge des corpus
   – Co-operation industriel-scientifique
 • Un REALLY BIG corpus
   – production de textes numeriques à
     l'échelle industrielle
                                                      28
La machine à saucisses BNC
   Written              Spoken
                                               Sélection, droits, saisie
     OUP
(OUP/Chambers         (Longman)
      )

                                          Enrichissement et encodage
     Initial CDIF Conversion
           and Validation                  Word Class Annotation
              (OUCS)                             (UCREL)




                                  Header generation
                                  and final validation
                                        (OUCS)

                           Documentation, distribution, maintenance
                                                                 29
Conception “Non-opportunistique”
• But: le fair play envers toute la variete des voix
  constitutives de l'anglais du RU c. 1995
• 90% écrit, 10% oral (pour des raisons
  économiques)
• Critères de sélection prédéfinis
  – Pour l'écrit : domaine (topos); médium; time
  – Pour l'oral : demographic balance; context
• Critères supplé,entaires de description pour
  maximer la variation


                                             30
Groupes de travail
  •   Permissions (questions juridiques)
  •   selection, design criteria
  •   encoding and markup
  •   enrichment and annotation
  •   retrieval software




                                    31
Through-put (million mots/trimestre)

     35
     30
     25
     20                                    Received
                                           Validated
     15                                    Annotated
     10
     5
     0
          6   7   8   9   10 11 12 13 14
                                            32
Tensions
  • desir de tester annotation scheme
  • requirement to meet deliverables
    – slipping goal posts
    – quantity above quality
  • … an interesting learning
    experience for both sides!



                                 33
That famous BNC balance

 BNC-W


                                                     78731276
             5997489

                   8021274       8743604

         Spoken Demographic          Spoken Context Governed
         Books and Periodicals       Other written



                                                           34
Written Domains
                                          16612770
BNC-2   11630083
                                                         3798318

  3093407




 7242024                                                       13496137


     7327671
                                                     7493077
                           16781393

        Imaginative       Scientific          Social Science
        Applied Science   World Affairs       Commerce
        Arts              Belief              Leisure


                                                               35
Spoken domains

                             1639159

                                                   1285938




4214819
                                                     1652246


                                   1565705


          Educational   Business         Institutional
          Leisure       Demographic

                                                    36
Structure du BNC
               bnc



   teiHeader         bncdoc
                      bncdoc            4054
                       bncDoc




      teiHeader        text     stext    910



                                               37
BNC structure
   text                                      stext

   div 1                                     div div
     div1

          pp                                 uu        784,981
            pp                                 uu
                           ss
                                ss
                                  ss
                                    s 6,052,202
                 wwwwwww    97,619,934


                                                       38
Annotation POS
  • Approche classique CLAWS (Leech,
    Garside et al)
  • Qu'est-ce qu'un mot?
    This isn't prima facie obvious, in
    spite of spelling conventions.

  • Qu'est-ce qu'un POS?
   NN1 NN2 NP1 NP2 TO0. . .


                                     39
Representation de l'annotation

<s n="00011"> Queen_NP0‘s_POS
 00011 The_AT0
 <w ana="AT0">The</w> horribilis_XX
   real_AJ0 annus_NN1
 <w ana="NP0">Queen</w>
   began_VVD on_PRP Sunday_NP0-
 <w ana="POS">‘s</w>
   NN1._PUN
 <w ana="AJ0">real</w>
 <s n=00011>
 <w ana="NN1">annus horribilis</w>
  <w AT0>The <w NP0>Queen<w POS>‘s
 <w ana="VVD">began</w>
  <w AJ0>real <w NN1>annus horribilis
 <w ana="PRP">on</w>
  <w VVD>began <w PRP>
 <w ana="NP0-NN1">Sunday</w>
  <w NP0-NN1>Sunday<c PUN>.</s>
 <c ana="PUN">.</c>
</s>



                                        40
Pour BNC-XML, on a reclassifié les
textes
                     Academic
                     Literary
                     Press
                     Nonfiction
                     Unpublished
                     Conversation
                     OtherSpolen




            ...sentences            ...words


                                     41
Textes orales : echantillons
démographiques
 Enregistrés par 124 personnes recrutées
 • Nombres equivalents de males et de femelles
   sélectionnés pour age et classe sociale habitant 38
   lieux differents è travers le RU
 • Charge d'enregistrer toutes leures conversations
   pendant trois journées
 • permissions obtenues après chaque conversation
 • age, sex, accent, occupation, relations notées si
   possible
 • Grand quantité d'adolescents londoniens, later
   published as COLT



                                               42
Observer effect?




                   43
BNC XML structuration de
document
  <bncDoc>
   <teiHeader>
     Entete : toutes les métadonnées
   </teiHeader>
   <wtext> ou <stext>
     Texte
   </wtext>                    or </stext>
  </bncDoc>

                                             44
<teiHeader> <fileDesc>
<titleStmt><title>[ACET factsheets & newsletters]. Sample containing about 
6688 words of miscellanea (domain: social science)</title> 
<respStmt> <resp>Data capture and transcription</resp> <name>Oxford 
University Press</name> </respStmt> </titleStmt> 
<extent>6688 tokens; 6708 w­units; 423 s­units</extent> 
<publicationStmt><distributor>Distributed under licence by Oxford 
University Computing Services on behalf of the BNC 
Consortium.</distributor> <availability>This material is protected by 
international copyright laws and may not be copied or redistributed in any 
way. </availability> <idno type="bnc">A00</idno> </publicationStmt> 
<sourceDesc> <bibl> <title>[ACET factsheets & newsletters].</title>  
<publisher>Aids Care Education & Training</publisher> <pubPlace>London 
</pubPlace><date value="1991­09">1991­09</date></bibl></sourceDesc>
</fileDesc><profileDesc>
<creation date="1991">1991­09</creation> 
<textClass> <catRef targets="WRI ALLTIM3 ALLAVA2 ALLTYP5 WRIAAG0 WRIAD0 
WRIASE0 WRIATY2 WRIAUD3 WRIDOM4 WRILEV2 WRIMED3 WRIPP5 WRISAM5 WRISTA2 
WRITAS3" /> <classCode scheme="DLEE">W nonAc: medicine</classCode> 
<keywords><term>Health</term> <term>Sex</term> </keywords> 
</textClass> </profileDesc> … </teiHeader>



                                                                45
<wtext type="NONAC"><div level="1" n="1" type="leaflet"> 
<head type="MAIN"><s n="1"><w c5="NN1" hw="factsheet" 
pos="SUBST">FACTSHEET</w> <w c5="DTQ" hw="what" pos="PRON">WHAT</w> 
<w c5="VBZ" hw="be" pos="VERB">IS</w> <w c5="NN1" hw="aids" 
pos="SUBST">AIDS</w><c c5="PUN">?</c> </s>  </head>
<p><s n="2"><hi rend="bo">  <w c5="NN1" hw="aids" 
pos="SUBST">AIDS</w> <c c5="PUL">(</c><w c5="VVN­AJ0" hw="acquire" 
pos="VERB">Acquired</w> <w c5="AJ0" hw="immune" pos="ADJ">Immune</w> 
<w c5="NN1" hw="deficiency" pos="SUBST">Deficiency</w> <w c5="NN1" 
hw="syndrome" pos="SUBST">Syndrome</w><c c5="PUR">)</c></hi> <w 
c5="VBZ" hw="be" pos="VERB">is</w> <w c5="AT0" hw="a" pos="ART">a</w> 
 <w c5="NN1" hw="condition" pos="SUBST">condition</w> <w c5="VVN" 
hw="cause" pos="VERB">caused</w> <w c5="PRP" hw="by" 
pos="PREP">by</w> <w c5="AT0" hw="a" pos="ART">a</w> <w c5="NN1" 
hw="virus" pos="SUBST">virus</w> <w c5="VVN" hw="call" 
pos="VERB">called</w> <w c5="NP0" hw="hiv" pos="SUBST">HIV</w> <c 
c5="PUL">(</c>   <w c5="AJ0­NN1" hw="human" pos="ADJ">Human</w> <w 
c5="NN1" hw="immuno" pos="SUBST">Immuno</w> <w c5="NN1" 
hw="deficiency" pos="SUBST">Deficiency</w> <w c5="NN1" hw="virus" 
pos="SUBST">Virus</w><c c5="PUR">)</c><c c5="PUN">.</c> </s> … </p>
… </div></wtext>




                                                            46
A quoi ça sert tous ces chevrons?

 • Ils vous permettent de faire des
   distinctions très importantes
    – aids=SUBST vs aids=VERB
    – occurrences en l'écrit vs occurrences en oral
    – occurrences au sein des titres vs occurrences
      au sein des paragraphes
 • Et d'identifier des unités textuels à plusieurs
   niveaux
          FACTSHEET WHAT IS AIDS?
              AIDS (Acquired Immune Deficiency Syndrome) 
           is a condition caused by a virus called HIV 
           (Human Immuno Deficiency Virus).



                                                      47
48
49
50
51
52
BNC est devenu malgré soi un best
seller

 • 1995 Version 1.0 : ~1500 exemplaires sur 4
   CDs,uniquement pour serveur Unix
 • 2000 Version “World” : ~5000 exemplaires sur
   2 CDs, installable sur machine personnel
 • 2010 Version “BNC XML” : ~7000 copies (au
   moins) sur 2 DVD
 • Services OnLine plusieurs, toujours très utilisés




                                                53
Après-BNC

 • Phénoménon curieux dans plusieurs pays european :
   construction des “national corpus” pareils
 • Les éditeurs de dictionnaires ont rapidement crée leurs
   propres corpus “in house” (monitor corpus)
 • Dans la societé, un évolution rapide de manières nouvelles
   d'expression linguistique
 • Application et évolution des “méthodes corpus” dans d'autres
   disciplines
   – Notamment, dans l'apprentissage des langues mais aussi aux
     humanités classiques

 • Les technologies dont les linguistes pensent se servir devient
   de plus en plus reconceptualisés dans une optique distribue.




                                                                  54
L'anglais des années 90 restera-t-il
toujours d'interêt?
     Evolution des média
         e-mail
         Pages web
         blogs
         SMS
         Twitter, facebook, personal networks
         Lettres personalles
     Evolution des topos
         globalization
         internet
         Elvis
         Word Perfect

  Le BNC devient un document historique; voire littéraire
                                                        55
Le corpus littéraire : origines
 • Project Gutenberg et beacoup d'autres pareils
   ont demontre la possibilite et l'interet de creer
   des corpus literaires pour le grand publique
 • Un modele economique base sur les efforts
   benevoles, en contraste avec
   – Les efforts de financement publiques tels Gallica
   – Les efforts des chercheurs scientifques tels TLG
 • Principes de conception :
   – Inclusion des “grands oeuvres”
   – Encodage minimale, principes editoriaux heterogenes




                                                         56
Le corpus littéraire : maintenant
    Commercialisation devenue effective avec l'existence du
  •
    standard eBook standard, et de tres lourdes
    investissements de la part de Apple et Amazon
    Google Books met a disposition du grand publique des
  •
    bibliotheques complete
       pas question (jusqu'a la) de numeriser les archives, les
     –manuscrits, les objets non imprimes
      Absence des outils de vulgarisation, ou de partage
     –
    Besoin de grand effort de correction, amelioration
  •


                Possibilités serieuses pour l'application du
                crowd sourcing


                                                               57
L'application des corpus en
apprentissage de langues...

  – complète (et corrige) les intuitions
  – encourage l'autonomie de l'appreneur
  – conteste le status du locuteur natif
  – transforme le role de l'enseignant




                                    58
L'usage du Web comme corpus

 • En effet le web est un corpus
   – “a corpus is a collection of texts when
     considered as an object of linguistic or
     literary study” (Kilgarrif & Grefenstette
     2003)
 • Ou bien on peut le considérer comme
   une source de plusieurs corpus
   – http://wacky.sslmit.unibo.it/




                                             59
Création des corpus à partir du web
 1) Selectionner 500 termes qui sont typique du
  langage ciblé
 2) Générer 5,000-8,000 requêtes contenant
  chacune 4 mots choisis dans ces 500 termes
 3) Envoyer ces requêtes à Google et retenir les 10
  premiers URLS retournés
 4) Post-traîtement non negligeable pour enlever
  les doublons le passepartout etc
   (Adapté de Sharoff, 2004)




                                               60
http://sarcophagus.sslmit.unibo.it/




                               61
Corpus distribués

 • La promesse de l' “eScience”, “grid computing” etc.
   – Séparation et distribution des ressources et des outils
 • Procédure tres effective aux sciences dures mais ...
 • … nécessitant de grands efforts de cooperation et de
   standardisation
 • … donc implique l'existence d'une infrastructure
   centralisé
   – CLARIN and DARIAH




                                                        62
Visions of the future




                        63

Weitere ähnliche Inhalte

Andere mochten auch

Implementing the Lambda Architecture efficiently with Apache Spark
Implementing the Lambda Architecture efficiently with Apache SparkImplementing the Lambda Architecture efficiently with Apache Spark
Implementing the Lambda Architecture efficiently with Apache SparkDataWorks Summit
 
Introduction and Overview of Apache Kafka, TriHUG July 23, 2013
Introduction and Overview of Apache Kafka, TriHUG July 23, 2013Introduction and Overview of Apache Kafka, TriHUG July 23, 2013
Introduction and Overview of Apache Kafka, TriHUG July 23, 2013mumrah
 
Introduction to Apache Kafka
Introduction to Apache KafkaIntroduction to Apache Kafka
Introduction to Apache KafkaJeff Holoman
 
Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...
Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...
Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...Helena Edelson
 
Informe de los elementos del proyecto
Informe de los elementos del proyectoInforme de los elementos del proyecto
Informe de los elementos del proyectoRolandoMena
 
Documento sin título
Documento sin títuloDocumento sin título
Documento sin títulosilviaoloya
 
Portes ouvertes
Portes ouvertesPortes ouvertes
Portes ouvertessitebato
 
Marco de las normas de contabilidad (sis ii)
Marco de las normas de contabilidad (sis ii)Marco de las normas de contabilidad (sis ii)
Marco de las normas de contabilidad (sis ii)MaryIglesias
 
paginas web
paginas web paginas web
paginas web yetni
 
Seguridad financiera ejercicio
Seguridad financiera ejercicioSeguridad financiera ejercicio
Seguridad financiera ejercicioraizacastillo
 
Netvibes
NetvibesNetvibes
Netvibesgeissi
 
Calida y evaluacion d lo c e
Calida y evaluacion d lo c eCalida y evaluacion d lo c e
Calida y evaluacion d lo c earmando4000
 
Presentaciones completas
Presentaciones completasPresentaciones completas
Presentaciones completasJaime1598
 

Andere mochten auch (17)

Implementing the Lambda Architecture efficiently with Apache Spark
Implementing the Lambda Architecture efficiently with Apache SparkImplementing the Lambda Architecture efficiently with Apache Spark
Implementing the Lambda Architecture efficiently with Apache Spark
 
Introduction and Overview of Apache Kafka, TriHUG July 23, 2013
Introduction and Overview of Apache Kafka, TriHUG July 23, 2013Introduction and Overview of Apache Kafka, TriHUG July 23, 2013
Introduction and Overview of Apache Kafka, TriHUG July 23, 2013
 
Introduction to Apache Kafka
Introduction to Apache KafkaIntroduction to Apache Kafka
Introduction to Apache Kafka
 
Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...
Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...
Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and S...
 
Informe de los elementos del proyecto
Informe de los elementos del proyectoInforme de los elementos del proyecto
Informe de los elementos del proyecto
 
Genesis
GenesisGenesis
Genesis
 
Documento sin título
Documento sin títuloDocumento sin título
Documento sin título
 
Portes ouvertes
Portes ouvertesPortes ouvertes
Portes ouvertes
 
Creatividad empresarial
Creatividad empresarial Creatividad empresarial
Creatividad empresarial
 
Misión
MisiónMisión
Misión
 
Marco de las normas de contabilidad (sis ii)
Marco de las normas de contabilidad (sis ii)Marco de las normas de contabilidad (sis ii)
Marco de las normas de contabilidad (sis ii)
 
Evaluaciã³n durante la enseã±anza (1)
Evaluaciã³n durante la enseã±anza (1)Evaluaciã³n durante la enseã±anza (1)
Evaluaciã³n durante la enseã±anza (1)
 
paginas web
paginas web paginas web
paginas web
 
Seguridad financiera ejercicio
Seguridad financiera ejercicioSeguridad financiera ejercicio
Seguridad financiera ejercicio
 
Netvibes
NetvibesNetvibes
Netvibes
 
Calida y evaluacion d lo c e
Calida y evaluacion d lo c eCalida y evaluacion d lo c e
Calida y evaluacion d lo c e
 
Presentaciones completas
Presentaciones completasPresentaciones completas
Presentaciones completas
 

Ähnlich wie Mais enfin, pourquoi faire un “corpus de référence” en 2012?

Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...
Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...
Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...Phonothèque MMSH
 
Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.Télécom ParisTech
 
Anaïs Wion (CEMAf), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Anaïs Wion (CEMAf), "Chercheurs vos papiers",  26 novembre 2009, MMSHAnaïs Wion (CEMAf), "Chercheurs vos papiers",  26 novembre 2009, MMSH
Anaïs Wion (CEMAf), "Chercheurs vos papiers", 26 novembre 2009, MMSHPhonothèque MMSH
 
Crfcb amu evolutions_catalogage_091213_enjeux_2
Crfcb amu evolutions_catalogage_091213_enjeux_2Crfcb amu evolutions_catalogage_091213_enjeux_2
Crfcb amu evolutions_catalogage_091213_enjeux_2nonue12
 
Le Web a-t-il besoin d'une logique ? Un point de vue aporétique.
Le Web a-t-il besoin d'une logique ? Un point de vue aporétique. Le Web a-t-il besoin d'une logique ? Un point de vue aporétique.
Le Web a-t-il besoin d'une logique ? Un point de vue aporétique. PhiloWeb
 
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisEuropeana Newspapers
 
Linguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdfLinguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdfssuser3e895f
 
Kenitra2013 springer,languespecialiseestechnolectes
Kenitra2013 springer,languespecialiseestechnolectesKenitra2013 springer,languespecialiseestechnolectes
Kenitra2013 springer,languespecialiseestechnolectesClaudespringer
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...ABES
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeSCD Paris-Sorbonne
 
Cérémonie d'Hommage: Éméritat Prof. Jean-Luc Hainaut
Cérémonie d'Hommage: Éméritat Prof. Jean-Luc HainautCérémonie d'Hommage: Éméritat Prof. Jean-Luc Hainaut
Cérémonie d'Hommage: Éméritat Prof. Jean-Luc HainautVincent Englebert
 
Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériquesOpenEdition
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotInria
 
Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...
Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...
Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...Lesticetlart Invisu
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...Stéphane Vial
 

Ähnlich wie Mais enfin, pourquoi faire un “corpus de référence” en 2012? (20)

Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...
Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...
Anaïs Wion (CEMAf), Richard Walter (IRHT), "Chercheurs Vos Papiers" 26 novemb...
 
Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.Le projet Traduxio. Par Philippe Lacour.
Le projet Traduxio. Par Philippe Lacour.
 
Anaïs Wion (CEMAf), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Anaïs Wion (CEMAf), "Chercheurs vos papiers",  26 novembre 2009, MMSHAnaïs Wion (CEMAf), "Chercheurs vos papiers",  26 novembre 2009, MMSH
Anaïs Wion (CEMAf), "Chercheurs vos papiers", 26 novembre 2009, MMSH
 
Crfcb amu evolutions_catalogage_091213_enjeux_2
Crfcb amu evolutions_catalogage_091213_enjeux_2Crfcb amu evolutions_catalogage_091213_enjeux_2
Crfcb amu evolutions_catalogage_091213_enjeux_2
 
Le Web a-t-il besoin d'une logique ? Un point de vue aporétique.
Le Web a-t-il besoin d'une logique ? Un point de vue aporétique. Le Web a-t-il besoin d'une logique ? Un point de vue aporétique.
Le Web a-t-il besoin d'une logique ? Un point de vue aporétique.
 
Programme c1 2011 2012
Programme c1 2011  2012Programme c1 2011  2012
Programme c1 2011 2012
 
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Linguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdfLinguistique de terrainRecolteDonnees.pdf
Linguistique de terrainRecolteDonnees.pdf
 
Méthodologie de la recherche documentaire M1 Langues romanes
Méthodologie de la recherche documentaire M1 Langues romanesMéthodologie de la recherche documentaire M1 Langues romanes
Méthodologie de la recherche documentaire M1 Langues romanes
 
Kenitra2013 springer,languespecialiseestechnolectes
Kenitra2013 springer,languespecialiseestechnolectesKenitra2013 springer,languespecialiseestechnolectes
Kenitra2013 springer,languespecialiseestechnolectes
 
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...JABES 2015 -  Convergences EAD : ourils, référentiels, interopérabilité / Jea...
JABES 2015 - Convergences EAD : ourils, référentiels, interopérabilité / Jea...
 
Méthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatiséeMéthodologie de la recherche documentaire informatisée
Méthodologie de la recherche documentaire informatisée
 
Cérémonie d'Hommage: Éméritat Prof. Jean-Luc Hainaut
Cérémonie d'Hommage: Éméritat Prof. Jean-Luc HainautCérémonie d'Hommage: Éméritat Prof. Jean-Luc Hainaut
Cérémonie d'Hommage: Éméritat Prof. Jean-Luc Hainaut
 
Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériques
 
Séminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale SébillotSéminaire Ist inria 2014 : Pascale Sébillot
Séminaire Ist inria 2014 : Pascale Sébillot
 
Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...
Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...
Flore César : Modéliser le transfert des savoirs en Europe septentrionale aux...
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
 
Bibliotheconomie : circuit du livre
Bibliotheconomie : circuit du livreBibliotheconomie : circuit du livre
Bibliotheconomie : circuit du livre
 
UQAM_JML_formation_documentaire_19sept2016
UQAM_JML_formation_documentaire_19sept2016UQAM_JML_formation_documentaire_19sept2016
UQAM_JML_formation_documentaire_19sept2016
 
Recherche documentaire a1
Recherche documentaire a1Recherche documentaire a1
Recherche documentaire a1
 

Mais enfin, pourquoi faire un “corpus de référence” en 2012?

Hinweis der Redaktion

  1. 21 21