SlideShare ist ein Scribd-Unternehmen logo
1 von 54
Downloaden Sie, um offline zu lesen
De ‘Literary and Linguistic Computing’ jusqu'aux
             ‘Humanites numeriques’
quelle importance pour la science des langues?

                   Lou Burnard




                                                   1/52
2/52
3/52
Textes numériques vs. données numériques


Le traitement informatisé des données concerne les chiffres,
les quantités, les tendances statistiques...
Le traitement informatisé des textes concerne les mots,
l'écriture, la langue...
L'informatique a donc systématiquement opposé les
“donnees” aux “textes”
en traitant les textes comme si elles étaient des données
en traitant les donnees comme si elles n'étaient pas des textes




                                                                  4/52
(cf Burnard, 1984)




                     5/52
eBooks




Les textes numériques se présentent comme des livres
imprimés... mais on ne doit pas se laisser séduire par les
métaphores !
Est-ce qu'on numérise les textes juste pour le plaisir de les
distribuer dans un nouveau marché avec une nouvelle
technologie ? .

                                                                6/52
Conclusions


Il n'y a pas de retour sur le tournant numérique: les
infrastructures scientifiques sont désormais numerisées
Les modèles économiques de l'infrastructure scientifique sont
en train d'évoluer
Les changements plutot quantitatifs apportées par le
numérique provoquent des changements qualitatifs.
La numérisation massive rend possible de nouveaux
perspectives sur la langue.




                                                               7/52
Le numérique incontournable


Les objets de recherches dans les SHS sont devenus
numériques
Les méthodes des SHS ne peuvent pas échapper à
l'environnement technologique qui nous englobe
Une transition du “web de documents” vers le “web de
données” s'effectue actuellement
Les questions politiques et culturelles restent, mais leur
contexte évolue dans un monde de plus en plus “ouvert”
Pour commencer, une petite leçon d'histoire...




                                                             8/52
9/52
1949-1980


L'age des héros ...
     Padre Busa et l'Index Thomasticum
     The Brown Corpus
     Thesaurus Linguae Graecae
     etc.
Concordances, analyse stylistique, études sur l'auctorialité,
corpus de langue
L'ordinateur central géré par des ingenieurs sérieux en blouse
blanche lançait des travaux en batch qui étaient transmis à une
file d'attente puis exécutés pour produire des sorties




                                                                  10/52
Colloque ALLC No. 6 (1980)




                             11/52
Problèmes d'auctorialité




From A.Q. Morton Paul, the man and the myth (1966)

                                                     12/52
LLC: ce qui compte, c'est de compter



Les objets et les résultats principes sont
Les concordances (un objet en lui meme)
Des statistiques riches et complexes
Il y a une hypothèse plus ou moins explicite que le “style” ou
“registre” seraient identifiable de manière statistique
Aux Etats Unis, histoire de “cliometrics” et Time on the Cross
(1974)




                                                                 13/52
LLC est également une revue et un colloque




.
http://llc.oxfordjournals.org/
.


                                                 14/52
LLC est vivant et bien vivant en France

Text considéré comme un phénomène statistique
Maurice Tournier Les mots de mai 68
Analyse factorielle et fouille de données
Applications marketing
Textometrie




                                                15/52
16/52
1980-1994




Institutionalisation
Les historiens réinvestissent le champs
Humanities Computing : une Discipline Universitaire ?
Projet “text encoding”




                                                        17/52
Années 80 : décennie d'une foi illimitée dans les
                technologies


 Dans les universités les ressources et méthodes numériques
 bien que percues comme étranges et difficiles trouvaient aussi
 leur place
 Au Royaume Uni
     Computers in Teaching Initiative
     Arts and Humanities Data Service
 Une nouveauté ou une amélioration du passé?
 L'arrivée du centre HC




                                                                18/52
Communautés

E-mail et listes de diffusion : Humanist
Paradigmes de texte eléctronique
    Oxford Text Archive, Projet Gutenberg
    Publishing sur CD-ROM : OED
Traitement de langage naturel et intelligence artificiel
Financement public important pour des activités
d'infrastructure
A la fois national and européen
Peut on gagner de l'argent dans la publication electronique?
L'informatique personelle? Sur l' Internet?




                                                               19/52
Institutionalisation

De nouveaux instances d'enseignment et de support pour
l'application de l'informatique aux SHS apparaissent
En faisant le bilan, on les valorise...




                                                         20/52
Réapparition de la quellenkritik



En France, J-P Genet et d'autres proposent l'idée que les
données historiques une fois numerisées pourraient servir à
enrichir une analyse
Encore systematisée en Allemagne par Manfred Thaller avec le
logiciel kleio, un sgbd textuel avant la lettre
Une Association for History and Computing nait en 1987




                                                               21/52
Défi pour le HC


Mais Humanities Computing ne possède aucune théorie
sousjacente!
Quel principe peut on identifier pour justifier la mise en
relation des outils employés par le HC ?
On propose les traditions scientifiques (”scholarly primitives”)
     La recherche effectuée selon des traits externes
     L'analyse selon des traits internes
     Les associations selon des perceptions partagées
Ce qui serviraient à valoriser et controler l'efficacité des outils
proposés




                                                                    22/52
It's all about modelling, stupid




                                   23/52
24/52
Les inconvenients des ressources numériques (circa 1989)
      Elles ne fonctionnent pas
      (Il faut bien choisir son ordinateur pour les faire fonctionner)
      Elles sont difficiles a trouver
      Elles ne sont pas disponible en BU, ni mentionnées dans les
      revues
      Elles ne sont pas cataloguées de manière cohérent, ou pas du
      tout
      Elles ne sont pas fiables
      Elles émergent d'un contexte inconnu, pas (toujours) très
      scientifique
      Elles bougent tout le temps
      Elles ne restent pas au memes endroit
      Elles disparaissent, se transforment, ou deviennent inutisables
      sans préavis
      Et surtout...
  .
  Elles utilisent vraiment trop de plusieurs formats d'encodage
                                                                         25/52
L'effet Babel
Bien sûr il existe plusieurs lectures possibles pour la plupart des
textes...




... et (malheureseument) plusieurs manières d'expression pour ces
lectures!

                                                                      26/52
Encodage ou babel?




Bonne nouvelle: il existe des logiciels capables de traduire
entre 500 formats divers
Mauvaise nouvelle: on en a besoin

                                                               27/52
Encodage ou babel?




Bonne nouvelle: il existe des logiciels capables de traduire
entre 500 formats divers
Mauvaise nouvelle: on en a besoin

                                                               27/52
Encodage ou babel?




Bonne nouvelle: il existe des logiciels capables de traduire
entre 500 formats divers
Mauvaise nouvelle: on en a besoin

                                                               27/52
La science repose sur une continuité des connaissances



      Conserver les “bytes” d'un encodage ne suffit pas
      Il faut aussi une continuité de compréhension: l'encodage doit
      etre auto-descriptif
      Transmettre nos interprétations
 .
 D'où l' importance de laTEI (Text Encoding Initiative)
 http://www.tei-c.org
 .




                                                                       28/52
TEI: le résultat le plus significatif de HC?



D'origine une réponse aux problèmes posés par l'incohérence
des formats et le manque des standards numériques
La TEI est devenue un seul modèle encyclopédique des
“particularités significatives” des ressources textuelles
Et une infrastructure capable de répondre aux besoins et
priorités évolutifs de la communauté scientifique




                                                              29/52
Exemple: les tablettes Vindolanda




                                    30/52
TEI en pratique


Travaux collaboratifs de transcription scientifique
Des conventions Leiden au standard Epidoc




                                                     31/52
32/52
1995 - ?

Pendant que nous théorisions...
    Le web est arrivé!
    Le tournant numérique transforme les archives et les
    bibliothèques
    La numérisation de masse s'effectue
    Les traitements numériques se déplacent sur des grilles de
    services, et/ou des systèmes domestiques
    Les résaux sociaux emergent sur Internet
Convergence et travaux collectifs : méthodes ‘scientifique’
    On s'interoge sur, par exemple, l'édition classique, et les
    méthodes collectives (cloud/crowd computing)
    On s'aperçoit du besoin des infrastructures numériques




                                                                  33/52
La cycle de vie scientifique




                              34/52
Les humanités numériques sont partout



Comme M Jourdain, je fais des digital humanities sans le
savoir?
Les DH ne sont-elles qu'une gamme de technologies a la
mode?
“When the mode of the music changes, the walls of the palace
shake”




                                                               35/52
Digital humanities Manifesto 2.0




http://dev.cdh.ucla.edu/digitalhumanities/2009/05/29/the-digital-
humanities-manifesto-20/#0


                                                                    36/52
Les manifestes, ça on les connait...




                                       37/52
Définition



1. Le tournant numérique pris par la société modifie et
interroge les conditions de production et de diffusion des
savoirs....
3. Les digital humanities désignent une transdiscipline,
porteuse des méthodes, des dispositifs et des perspectives
heuristiques liés au numérique dans le domaine des Sciences
humaines et sociales..




                                                              38/52
Nous constatons...

que se sont multipliées les expérimentations dans le domaine
du numérique en SHS depuis un demi-siècle ;
que le numérique induit une présence plus forte des
contraintes techniques et donc économiques dans la
recherche  ; que cette contrainte est une opportunité pour
faire évoluer le travail collectif  ;
qu’il existe un certain nombre de méthodes éprouvées,
inégalement connues et partagées  ;
qu’existent de multiples communautés particulières issues de
l’intérêt pour des pratiques, des outils ou des objets
transversaux divers



                                                               39/52
Déclarations



Nous, acteurs des digital humanities, nous nous constituons en
communauté … sans frontières. … multilingue et
multidisciplinaire.
Nous avons pour objectifs ... l’enrichissement du savoir et du
patrimoine collectif, au-delà de la seule sphère académique.
Nous appelons à l’intégration de la culture numérique dans la
définition de la culture générale du XXIe siècle.




                                                                 40/52
The economics of abundance



Digital Humanities implies the multi-purposing and multiple
channeling of humanistic knowledge: no channel excludes the
other. Its economy is abundance based, not one based upon
scarcity ... though notions of humanistic research are everywhere
under institutional pressure, there is (potentially) plenty for all. And,
indeed, there is plenty to do.




                                                                            41/52
L'importance de ne pas lire


“What can you do with a million books?” (Greg Crane)
“Although there is still a need for close-reading... we never
don't not read” (John Unsworth)
Une nouvelle synthèse de methodes :
     Linguistique de corpus
     Reconnaissances des patrons
     Data mining
     Visualisation
ou une réappropriation des techniques anciens?




                                                                42/52
Le défi: comprendre l'énormité des données disponibles



     Quelques outils disponible aujourd'hui pour traiter un million
     de livres:
         http://books.google.com/ngrams
         http://www.etalab.gouv.fr/
         http://rechercheisidore.fr/
     Mais bouger de l'étude de l'oeuvre a l'étude du contexte reste
     problematique pour certains ...




                                                                      43/52
http://www.scottishcorpus.ac.uk/corpus/diaview/




                                                  44/52
45/52
46/52
Comment effectuer une telle démarche?



It's not rocket science (pas besoin d'avoir fait saint cyr) !
Un balisage riche et sémantique ( par exemple TEI-XML)
Une politique d'Open Access
Une infrastructure permettant l'intégration et l'archivage
pérenne des données




                                                                47/52
Repenser l'édition numérique




On est dans un monde où les documents prolifèrent, mais les
textes risquent de disparaitre
Nous avons besoin de conserver nos interprétations, nos
lectures, pour construire les éditions numériques
Sans perdre les vertus traditionelles d'un empirisme sceptique




                                                                 48/52
Composants de l'édition numérique


Images de pages (ou d'autres surfaces)
Transcriptions, éventuellement annotées
Edition/s synthètiques
Traduction modernes, sommaires
Annotations paratextuelles, glossaires, prefaces,
bibliographie...
Descriptions des sources; métadonnées
Pointeurs sur des “Factoids”




                                                    49/52
Convergence


Le numérique nous permet, voire oblige, d'en faire des mash
up : par exemple de combiner :
    Un SIG sur les lieux dans la mer d' Aegéan
    Un index cartographique des toponymes de la meme région
    Un corpus de textes où ces toponymes sont attestés
    (La TEI traite maintenant et les entités nommées et leur noms)
De telles activités nécéssitent des compétences philologiques,
a priori nonautomatisable
Et une politique d'accès ouvert




                                                                     50/52
Un rôle majeur pour les SHS
Nous comprenons les objets textuels
    De quelle manière se presente ce discours?
    Quelles sont les histoires qu'il raconte?
Nous connaissons l'hermeneutique
    quelle est la portée de ce discours?
    Qu'est-ce qu'il veut dire – mais ne dit pas ?
Voici notre contribution au web sémantique.




                                                    51/52
Merci de votre attention!




                            52/52

Weitere ähnliche Inhalte

Andere mochten auch

Le 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de WalcourtLe 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de WalcourtJean philippe Body
 
2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordination2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordinationtrESS Network
 
Master psychologie2011
Master psychologie2011Master psychologie2011
Master psychologie2011Bondoin
 
Presentación2
Presentación2Presentación2
Presentación2ewoods000
 
Gérer les photos sous windows 7 photos
Gérer les photos sous windows 7 photosGérer les photos sous windows 7 photos
Gérer les photos sous windows 7 photosEPN Gouvy
 
Psychologie des Anlagebetrugs
Psychologie des AnlagebetrugsPsychologie des Anlagebetrugs
Psychologie des AnlagebetrugsMartin Arendts
 
Catalogue Services for the Web (CSW)
Catalogue Services for the Web (CSW)Catalogue Services for the Web (CSW)
Catalogue Services for the Web (CSW)BIG
 
Presentation Audiencia Consulting
Presentation Audiencia ConsultingPresentation Audiencia Consulting
Presentation Audiencia ConsultingYassine Atide
 
Gérer les photos windows 7
Gérer les photos windows 7Gérer les photos windows 7
Gérer les photos windows 7EPN Gouvy
 
Windows movie maker
Windows movie maker Windows movie maker
Windows movie maker EPN Gouvy
 
La navegación contemporánea
La navegación contemporáneaLa navegación contemporánea
La navegación contemporáneaguillem garcia
 

Andere mochten auch (20)

Le 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de WalcourtLe 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
Le 25 août 1689 : de la forge de Feronval à la bataille de Walcourt
 
2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordination2010 - Actualité française des règlements de coordination
2010 - Actualité française des règlements de coordination
 
Ligne Angers - Paris
Ligne Angers - ParisLigne Angers - Paris
Ligne Angers - Paris
 
Master psychologie2011
Master psychologie2011Master psychologie2011
Master psychologie2011
 
Presentación2
Presentación2Presentación2
Presentación2
 
La question de l'hydroéléctricité, quelle conciliation avec les autres usages?
La question de l'hydroéléctricité, quelle conciliation avec les autres usages?La question de l'hydroéléctricité, quelle conciliation avec les autres usages?
La question de l'hydroéléctricité, quelle conciliation avec les autres usages?
 
27 mai 2012 lausanne
27 mai 2012   lausanne27 mai 2012   lausanne
27 mai 2012 lausanne
 
Gérer les photos sous windows 7 photos
Gérer les photos sous windows 7 photosGérer les photos sous windows 7 photos
Gérer les photos sous windows 7 photos
 
Archos
ArchosArchos
Archos
 
Psychologie des Anlagebetrugs
Psychologie des AnlagebetrugsPsychologie des Anlagebetrugs
Psychologie des Anlagebetrugs
 
Catalogue Services for the Web (CSW)
Catalogue Services for the Web (CSW)Catalogue Services for the Web (CSW)
Catalogue Services for the Web (CSW)
 
Presentation Audiencia Consulting
Presentation Audiencia ConsultingPresentation Audiencia Consulting
Presentation Audiencia Consulting
 
19 février 2012
19 février 201219 février 2012
19 février 2012
 
DSLs in Scala & DB4O
DSLs in Scala & DB4ODSLs in Scala & DB4O
DSLs in Scala & DB4O
 
Gérer les photos windows 7
Gérer les photos windows 7Gérer les photos windows 7
Gérer les photos windows 7
 
Usa
UsaUsa
Usa
 
Les carrières
Les carrièresLes carrières
Les carrières
 
Kochbuch
KochbuchKochbuch
Kochbuch
 
Windows movie maker
Windows movie maker Windows movie maker
Windows movie maker
 
La navegación contemporánea
La navegación contemporáneaLa navegación contemporánea
La navegación contemporánea
 

Ähnlich wie De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues?

Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériquesOpenEdition
 
Réflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligneRéflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligneOpenEdition
 
La curation d'information en bibliothèque
La curation d'information en bibliothèqueLa curation d'information en bibliothèque
La curation d'information en bibliothèqueOrianne Ledroit
 
JE 100111 Y Alix
JE 100111 Y AlixJE 100111 Y Alix
JE 100111 Y AlixBibliolab
 
La médiation numérique des savoirs
La médiation numérique des savoirsLa médiation numérique des savoirs
La médiation numérique des savoirscspirin
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsolivier
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
 
Les dossiers documentaires numériques
Les dossiers documentaires numériquesLes dossiers documentaires numériques
Les dossiers documentaires numériquesOlivier Roumieux
 
Les bibliotheques numeriques
Les bibliotheques numeriquesLes bibliotheques numeriques
Les bibliotheques numeriquesolivier
 
2009 Abf Faidherbe
2009 Abf Faidherbe2009 Abf Faidherbe
2009 Abf Faidherbecyberdoc
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersEmmanuelle Morlock
 
Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...Isabelle GUYOT
 
Mp pour esiea 03 10 2014
Mp pour esiea 03 10 2014Mp pour esiea 03 10 2014
Mp pour esiea 03 10 2014mpuech
 
Culture de l'information 2.0 : quelles pistes didactiques
Culture de l'information 2.0 : quelles pistes didactiquesCulture de l'information 2.0 : quelles pistes didactiques
Culture de l'information 2.0 : quelles pistes didactiquesOlivier Le Deuff
 
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.Amar LAKEL, PhD
 
cours introduction a l'intelligence artificielle
cours introduction a l'intelligence artificiellecours introduction a l'intelligence artificielle
cours introduction a l'intelligence artificiellesyliaghz
 
Aux frontières du digital (B) (SciencesPo 2009)
Aux frontières du digital (B) (SciencesPo 2009)Aux frontières du digital (B) (SciencesPo 2009)
Aux frontières du digital (B) (SciencesPo 2009)David Raichman
 
L’étagère numérique retour expérience-fc
L’étagère numérique   retour expérience-fcL’étagère numérique   retour expérience-fc
L’étagère numérique retour expérience-fccatherine muller
 

Ähnlich wie De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues? (20)

TEI & Humanités digitales
TEI & Humanités digitalesTEI & Humanités digitales
TEI & Humanités digitales
 
Rapport humanités numériques
Rapport humanités numériquesRapport humanités numériques
Rapport humanités numériques
 
Réflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligneRéflexions éditoriales sur l'administration de la preuve en ligne
Réflexions éditoriales sur l'administration de la preuve en ligne
 
La curation d'information en bibliothèque
La curation d'information en bibliothèqueLa curation d'information en bibliothèque
La curation d'information en bibliothèque
 
JE 100111 Y Alix
JE 100111 Y AlixJE 100111 Y Alix
JE 100111 Y Alix
 
La médiation numérique des savoirs
La médiation numérique des savoirsLa médiation numérique des savoirs
La médiation numérique des savoirs
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
 
Les dossiers documentaires numériques
Les dossiers documentaires numériquesLes dossiers documentaires numériques
Les dossiers documentaires numériques
 
Les bibliotheques numeriques
Les bibliotheques numeriquesLes bibliotheques numeriques
Les bibliotheques numeriques
 
2009 Abf Faidherbe
2009 Abf Faidherbe2009 Abf Faidherbe
2009 Abf Faidherbe
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiers
 
Corpref
CorprefCorpref
Corpref
 
Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...Intelligence collective dans les environnements numériques : pourquoi et comm...
Intelligence collective dans les environnements numériques : pourquoi et comm...
 
Mp pour esiea 03 10 2014
Mp pour esiea 03 10 2014Mp pour esiea 03 10 2014
Mp pour esiea 03 10 2014
 
Culture de l'information 2.0 : quelles pistes didactiques
Culture de l'information 2.0 : quelles pistes didactiquesCulture de l'information 2.0 : quelles pistes didactiques
Culture de l'information 2.0 : quelles pistes didactiques
 
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.Amar Lakel - Patrimonialisation numérique et avenir digital du document.
Amar Lakel - Patrimonialisation numérique et avenir digital du document.
 
cours introduction a l'intelligence artificielle
cours introduction a l'intelligence artificiellecours introduction a l'intelligence artificielle
cours introduction a l'intelligence artificielle
 
Aux frontières du digital (B) (SciencesPo 2009)
Aux frontières du digital (B) (SciencesPo 2009)Aux frontières du digital (B) (SciencesPo 2009)
Aux frontières du digital (B) (SciencesPo 2009)
 
L’étagère numérique retour expérience-fc
L’étagère numérique   retour expérience-fcL’étagère numérique   retour expérience-fc
L’étagère numérique retour expérience-fc
 

De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : quelle importance pour la science des langues?

  • 1. De ‘Literary and Linguistic Computing’ jusqu'aux ‘Humanites numeriques’ quelle importance pour la science des langues? Lou Burnard 1/52
  • 4. Textes numériques vs. données numériques Le traitement informatisé des données concerne les chiffres, les quantités, les tendances statistiques... Le traitement informatisé des textes concerne les mots, l'écriture, la langue... L'informatique a donc systématiquement opposé les “donnees” aux “textes” en traitant les textes comme si elles étaient des données en traitant les donnees comme si elles n'étaient pas des textes 4/52
  • 6. eBooks Les textes numériques se présentent comme des livres imprimés... mais on ne doit pas se laisser séduire par les métaphores ! Est-ce qu'on numérise les textes juste pour le plaisir de les distribuer dans un nouveau marché avec une nouvelle technologie ? . 6/52
  • 7. Conclusions Il n'y a pas de retour sur le tournant numérique: les infrastructures scientifiques sont désormais numerisées Les modèles économiques de l'infrastructure scientifique sont en train d'évoluer Les changements plutot quantitatifs apportées par le numérique provoquent des changements qualitatifs. La numérisation massive rend possible de nouveaux perspectives sur la langue. 7/52
  • 8. Le numérique incontournable Les objets de recherches dans les SHS sont devenus numériques Les méthodes des SHS ne peuvent pas échapper à l'environnement technologique qui nous englobe Une transition du “web de documents” vers le “web de données” s'effectue actuellement Les questions politiques et culturelles restent, mais leur contexte évolue dans un monde de plus en plus “ouvert” Pour commencer, une petite leçon d'histoire... 8/52
  • 10. 1949-1980 L'age des héros ... Padre Busa et l'Index Thomasticum The Brown Corpus Thesaurus Linguae Graecae etc. Concordances, analyse stylistique, études sur l'auctorialité, corpus de langue L'ordinateur central géré par des ingenieurs sérieux en blouse blanche lançait des travaux en batch qui étaient transmis à une file d'attente puis exécutés pour produire des sorties 10/52
  • 11. Colloque ALLC No. 6 (1980) 11/52
  • 12. Problèmes d'auctorialité From A.Q. Morton Paul, the man and the myth (1966) 12/52
  • 13. LLC: ce qui compte, c'est de compter Les objets et les résultats principes sont Les concordances (un objet en lui meme) Des statistiques riches et complexes Il y a une hypothèse plus ou moins explicite que le “style” ou “registre” seraient identifiable de manière statistique Aux Etats Unis, histoire de “cliometrics” et Time on the Cross (1974) 13/52
  • 14. LLC est également une revue et un colloque . http://llc.oxfordjournals.org/ . 14/52
  • 15. LLC est vivant et bien vivant en France Text considéré comme un phénomène statistique Maurice Tournier Les mots de mai 68 Analyse factorielle et fouille de données Applications marketing Textometrie 15/52
  • 16. 16/52
  • 17. 1980-1994 Institutionalisation Les historiens réinvestissent le champs Humanities Computing : une Discipline Universitaire ? Projet “text encoding” 17/52
  • 18. Années 80 : décennie d'une foi illimitée dans les technologies Dans les universités les ressources et méthodes numériques bien que percues comme étranges et difficiles trouvaient aussi leur place Au Royaume Uni Computers in Teaching Initiative Arts and Humanities Data Service Une nouveauté ou une amélioration du passé? L'arrivée du centre HC 18/52
  • 19. Communautés E-mail et listes de diffusion : Humanist Paradigmes de texte eléctronique Oxford Text Archive, Projet Gutenberg Publishing sur CD-ROM : OED Traitement de langage naturel et intelligence artificiel Financement public important pour des activités d'infrastructure A la fois national and européen Peut on gagner de l'argent dans la publication electronique? L'informatique personelle? Sur l' Internet? 19/52
  • 20. Institutionalisation De nouveaux instances d'enseignment et de support pour l'application de l'informatique aux SHS apparaissent En faisant le bilan, on les valorise... 20/52
  • 21. Réapparition de la quellenkritik En France, J-P Genet et d'autres proposent l'idée que les données historiques une fois numerisées pourraient servir à enrichir une analyse Encore systematisée en Allemagne par Manfred Thaller avec le logiciel kleio, un sgbd textuel avant la lettre Une Association for History and Computing nait en 1987 21/52
  • 22. Défi pour le HC Mais Humanities Computing ne possède aucune théorie sousjacente! Quel principe peut on identifier pour justifier la mise en relation des outils employés par le HC ? On propose les traditions scientifiques (”scholarly primitives”) La recherche effectuée selon des traits externes L'analyse selon des traits internes Les associations selon des perceptions partagées Ce qui serviraient à valoriser et controler l'efficacité des outils proposés 22/52
  • 23. It's all about modelling, stupid 23/52
  • 24. 24/52
  • 25. Les inconvenients des ressources numériques (circa 1989) Elles ne fonctionnent pas (Il faut bien choisir son ordinateur pour les faire fonctionner) Elles sont difficiles a trouver Elles ne sont pas disponible en BU, ni mentionnées dans les revues Elles ne sont pas cataloguées de manière cohérent, ou pas du tout Elles ne sont pas fiables Elles émergent d'un contexte inconnu, pas (toujours) très scientifique Elles bougent tout le temps Elles ne restent pas au memes endroit Elles disparaissent, se transforment, ou deviennent inutisables sans préavis Et surtout... . Elles utilisent vraiment trop de plusieurs formats d'encodage 25/52
  • 26. L'effet Babel Bien sûr il existe plusieurs lectures possibles pour la plupart des textes... ... et (malheureseument) plusieurs manières d'expression pour ces lectures! 26/52
  • 27. Encodage ou babel? Bonne nouvelle: il existe des logiciels capables de traduire entre 500 formats divers Mauvaise nouvelle: on en a besoin 27/52
  • 28. Encodage ou babel? Bonne nouvelle: il existe des logiciels capables de traduire entre 500 formats divers Mauvaise nouvelle: on en a besoin 27/52
  • 29. Encodage ou babel? Bonne nouvelle: il existe des logiciels capables de traduire entre 500 formats divers Mauvaise nouvelle: on en a besoin 27/52
  • 30. La science repose sur une continuité des connaissances Conserver les “bytes” d'un encodage ne suffit pas Il faut aussi une continuité de compréhension: l'encodage doit etre auto-descriptif Transmettre nos interprétations . D'où l' importance de laTEI (Text Encoding Initiative) http://www.tei-c.org . 28/52
  • 31. TEI: le résultat le plus significatif de HC? D'origine une réponse aux problèmes posés par l'incohérence des formats et le manque des standards numériques La TEI est devenue un seul modèle encyclopédique des “particularités significatives” des ressources textuelles Et une infrastructure capable de répondre aux besoins et priorités évolutifs de la communauté scientifique 29/52
  • 32. Exemple: les tablettes Vindolanda 30/52
  • 33. TEI en pratique Travaux collaboratifs de transcription scientifique Des conventions Leiden au standard Epidoc 31/52
  • 34. 32/52
  • 35. 1995 - ? Pendant que nous théorisions... Le web est arrivé! Le tournant numérique transforme les archives et les bibliothèques La numérisation de masse s'effectue Les traitements numériques se déplacent sur des grilles de services, et/ou des systèmes domestiques Les résaux sociaux emergent sur Internet Convergence et travaux collectifs : méthodes ‘scientifique’ On s'interoge sur, par exemple, l'édition classique, et les méthodes collectives (cloud/crowd computing) On s'aperçoit du besoin des infrastructures numériques 33/52
  • 36. La cycle de vie scientifique 34/52
  • 37. Les humanités numériques sont partout Comme M Jourdain, je fais des digital humanities sans le savoir? Les DH ne sont-elles qu'une gamme de technologies a la mode? “When the mode of the music changes, the walls of the palace shake” 35/52
  • 38. Digital humanities Manifesto 2.0 http://dev.cdh.ucla.edu/digitalhumanities/2009/05/29/the-digital- humanities-manifesto-20/#0 36/52
  • 39. Les manifestes, ça on les connait... 37/52
  • 40. Définition 1. Le tournant numérique pris par la société modifie et interroge les conditions de production et de diffusion des savoirs.... 3. Les digital humanities désignent une transdiscipline, porteuse des méthodes, des dispositifs et des perspectives heuristiques liés au numérique dans le domaine des Sciences humaines et sociales.. 38/52
  • 41. Nous constatons... que se sont multipliées les expérimentations dans le domaine du numérique en SHS depuis un demi-siècle ; que le numérique induit une présence plus forte des contraintes techniques et donc économiques dans la recherche  ; que cette contrainte est une opportunité pour faire évoluer le travail collectif  ; qu’il existe un certain nombre de méthodes éprouvées, inégalement connues et partagées  ; qu’existent de multiples communautés particulières issues de l’intérêt pour des pratiques, des outils ou des objets transversaux divers 39/52
  • 42. Déclarations Nous, acteurs des digital humanities, nous nous constituons en communauté … sans frontières. … multilingue et multidisciplinaire. Nous avons pour objectifs ... l’enrichissement du savoir et du patrimoine collectif, au-delà de la seule sphère académique. Nous appelons à l’intégration de la culture numérique dans la définition de la culture générale du XXIe siècle. 40/52
  • 43. The economics of abundance Digital Humanities implies the multi-purposing and multiple channeling of humanistic knowledge: no channel excludes the other. Its economy is abundance based, not one based upon scarcity ... though notions of humanistic research are everywhere under institutional pressure, there is (potentially) plenty for all. And, indeed, there is plenty to do. 41/52
  • 44. L'importance de ne pas lire “What can you do with a million books?” (Greg Crane) “Although there is still a need for close-reading... we never don't not read” (John Unsworth) Une nouvelle synthèse de methodes : Linguistique de corpus Reconnaissances des patrons Data mining Visualisation ou une réappropriation des techniques anciens? 42/52
  • 45. Le défi: comprendre l'énormité des données disponibles Quelques outils disponible aujourd'hui pour traiter un million de livres: http://books.google.com/ngrams http://www.etalab.gouv.fr/ http://rechercheisidore.fr/ Mais bouger de l'étude de l'oeuvre a l'étude du contexte reste problematique pour certains ... 43/52
  • 47. 45/52
  • 48. 46/52
  • 49. Comment effectuer une telle démarche? It's not rocket science (pas besoin d'avoir fait saint cyr) ! Un balisage riche et sémantique ( par exemple TEI-XML) Une politique d'Open Access Une infrastructure permettant l'intégration et l'archivage pérenne des données 47/52
  • 50. Repenser l'édition numérique On est dans un monde où les documents prolifèrent, mais les textes risquent de disparaitre Nous avons besoin de conserver nos interprétations, nos lectures, pour construire les éditions numériques Sans perdre les vertus traditionelles d'un empirisme sceptique 48/52
  • 51. Composants de l'édition numérique Images de pages (ou d'autres surfaces) Transcriptions, éventuellement annotées Edition/s synthètiques Traduction modernes, sommaires Annotations paratextuelles, glossaires, prefaces, bibliographie... Descriptions des sources; métadonnées Pointeurs sur des “Factoids” 49/52
  • 52. Convergence Le numérique nous permet, voire oblige, d'en faire des mash up : par exemple de combiner : Un SIG sur les lieux dans la mer d' Aegéan Un index cartographique des toponymes de la meme région Un corpus de textes où ces toponymes sont attestés (La TEI traite maintenant et les entités nommées et leur noms) De telles activités nécéssitent des compétences philologiques, a priori nonautomatisable Et une politique d'accès ouvert 50/52
  • 53. Un rôle majeur pour les SHS Nous comprenons les objets textuels De quelle manière se presente ce discours? Quelles sont les histoires qu'il raconte? Nous connaissons l'hermeneutique quelle est la portée de ce discours? Qu'est-ce qu'il veut dire – mais ne dit pas ? Voici notre contribution au web sémantique. 51/52
  • 54. Merci de votre attention! 52/52