Introduction de la TEI pour la structuration et l'édition des correspondances
1. Introduction de la TEI pour
la structuration et l'édition
des correspondances
10 novembre 2014, Heidelberg
Giancarlo Luxardo
Cette présentation est mise à disposition selon les termes de la Licence Creative Commons Attribution
Pas d’Utilisation Commerciale - Pas de Modification 3.0 France
Praxiling UMR 5267
Université de Montpellier 3 – CNRS
9. Documents
Ceci n'est pas une pipe :
l'importance de la modélisation
pour les humanités numériques
Lou Burnard
le Mardi, 16 Décembre, 2014 - de 12:15 à 13:15
Maison des Sciences de l'Homme-Alpes
Domaine Universitaire de Grenoble St-Martin d’Hères,
10. Documents
Une carte postale de Poilu ?
• Une source primaire, ou
• une représentation :
o un facsimile numérique
(une image, plusieurs images)
o une transcription (un texte)
o une mise en page
o des annotations (lisibilité ?)
o des corrections orthographiques
o des métadonnées
o et aussi… une lecture audio !
une combinaison de…
12. Données structurées
Qu’est-ce qu’une carte postale de Poilu ?
Base de données
(exécuter des requêtes)
Rechercher des documents
(ex : toutes les correspondances
du mois d’août 1914 écrites par…)
15. <meta charset="UTF-8">
Aix-les-Bains,épouse
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br>
tu les recevras au moin tous a la fois et elle sont<br>
toute numeroter pour les lires. je te disait donc<br>
chère femme bien aimès que je t'ecrit ce soir 19 août<br>
le dernnier soir que je suis à Aix en compagnie de<br>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br>
mais ce qu'il y a desagréable c'est que tu va recevoir<br>
ces cartes huit jours apres que nous somme ici<br>
et que nous avons reçu tous les deux deux lettre le<br>
17 courant qui était dater par vous du 12 et du<br>
13août et que vous ne savier pas encor que nous<br>
étions ici a Aix. Enfin nous sonme tous bien portant et<br>
tous se passe bien les francais son vainqueur partout<br>
a bientot les plaisir de vous voir Alfred<br>
</body>
Données semi-structurées
16. <meta charset="UTF-8">
Aix-les-Bains,épouse
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br>
tu les recevras au moin tous a la fois et elle sont<br>
toute numeroter pour les lires. je te disait donc<br>
chère femme bien aimès que je t'ecrit ce soir 19 août<br>
le dernnier soir que je suis à Aix en compagnie de<br>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br>
mais ce qu'il y a desagréable c'est que tu va recevoir<br>
ces cartes huit jours apres que nous somme ici<br>
et que nous avons reçu tous les deux deux lettre le<br>
17 courant qui était dater par vous du 12 et du<br>
13août et que vous ne savier pas encor que nous<br>
étions ici a Aix. Enfin nous sonme tous bien portant et<br>
tous se passe bien les francais son vainqueur partout<br>
a bientot les plaisir de vous voir Alfred<br>
</body>
Ceci n’est pas un fichier XML !
(mais : pseudo-XML)
Données semi-structurées
17. <?xml version="1.0" encoding="UTF-8"?>
<card>
<head>
Aix-les-Bains,épouse
</head>
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br/>
tu les recevras au moin tous a la fois et elle sont<br/>
toute numeroter pour les lires. je te disait donc<br/>
chère femme bien aimès que je t'ecrit ce soir 19 août<br/>
le dernnier soir que je suis à Aix en compagnie de<br/>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/>
mais ce qu'il y a desagréable c'est que tu va recevoir<br/>
ces cartes huit jours apres que nous somme ici<br/>
et que nous avons reçu tous les deux deux lettre le<br/>
17 courant qui était dater par vous du 12 et du<br/>
13août et que vous ne savier pas encor que nous<br/>
étions ici a Aix. Enfin nous sonme tous bien portant et<br/>
tous se passe bien les francais son vainqueur partout<br/>
a bientot les plaisir de vous voir Alfred<br/>
</body>
</card>
Données semi-structurées
18. <?xml version="1.0" encoding="UTF-8"?>
<card>
<head>
Aix-les-Bains,épouse
</head>
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br/>
tu les recevras au moin tous a la fois et elle sont<br/>
toute numeroter pour les lires. je te disait donc<br/>
chère femme bien aimès que je t'ecrit ce soir 19 août<br/>
le dernnier soir que je suis à Aix en compagnie de<br/>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/>
mais ce qu'il y a desagréable c'est que tu va recevoir<br/>
ces cartes huit jours apres que nous somme ici<br/>
et que nous avons reçu tous les deux deux lettre le<br/>
17 courant qui était dater par vous du 12 et du<br/>
13août et que vous ne savier pas encor que nous<br/>
étions ici a Aix. Enfin nous sonme tous bien portant et<br/>
tous se passe bien les francais son vainqueur partout<br/>
a bientot les plaisir de vous voir Alfred<br/>
</body>
</card>
Ceci n’est pas un document TEI !
Données semi-structurées
19. Nommage des fichiers (scripteur, date) :
andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml
andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml
andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml
andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml
Autres métadonnées : andre-1-140807.jpg
Identité du scripteur laurent-1-150515.jpg
Lieu d’envoi pierre-1-141029.jpg
Destinataire
Données semi-structurées
20. Nommage des fichiers (scripteur, date) :
andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml
andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml
andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml
andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml
Autres métadonnées : andre-1-140807.jpg
Identité du scripteur laurent-1-150515.jpg
Lieu d’envoi pierre-1-141029.jpg
Destinataire
Ceci n’est pas une base de données !
Données semi-structurées
23. Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires. je te disait donc
chère femme bien aimès que je t'ecrit ce soir 19 août
le dernnier soir que je suis à Aix en compagnie de
Marius buvant un verre de rhum bi Thé au rhum
Numériser Transcrire
24. Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires. je te disait donc
chère femme bien aimès que je t'ecrit ce soir 19 août
le dernnier soir que je suis à Aix en compagnie de
Marius buvant un verre de rhum bi Thé au rhum
<unclear>disait</unclear>
<strikethrough>rhum</strikethrough>
TranscrireNumériser Transcrire
26. St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent
et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi
que Dombasle qui se trouve encor mieux a droite nous somme
ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle
au moin dix milles homme de troupes ça fait déjas quelque chose
comme soldats.
Numériser Transcrire
27. St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent
et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi
que Dombasle qui se trouve encor mieux a droite nous somme
ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle
au moin dix milles homme de troupes ça fait déjas quelque chose
comme soldats.
Carte postale sur 4 pages
Position ?
Numériser Transcrire
29. Mardi Le 25 Janvier 1916
Cher beau-frère
Je repons à ton aimable carte que j'ai reçu hier
date du quelle ma fait bien plaisir de te savoir
en bonne santé car il et de méme pour moi
Je suis été à Baillargue Dimanche toute la famille
va bien mon père étaient à Montpellier pour
voir sil vous lez tuer les cochons cela fait qui les
turons Mercredi ou Jeudi je pense que tu goutera de
Numériser Transcrire
30. Mardi Le 25 Janvier 1916
Cher beau-frère
Je repons à ton aimable carte que j'ai reçu hier
date du quelle ma fait bien plaisir de te savoir
en bonne santé car il et de méme pour moi
Je suis été à Baillargue Dimanche toute la famille
va bien mon père étaient à Montpellier pour [?]
voir sil vous lez tuer les cochons cela fait qui les
turons Mercredi ou Jeudi je pense que tu goutera de
[?] <gap/>
Numériser Transcrire
31. Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires.
Structurer Annoter
32. Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires.
Je t'envoie donc trois cartes dans la même enveloppe,
tu les recevras au moins toutes à la fois et elles sont
toutes numérotées pour les lire.
Structurer Annoter
35. Objectif TEI
Utiliser un langage de validation ?
DTD
XML Schema
Schematron
ODD
Structurer Publier
36. Objectif TEI
Utiliser un langage de validation ?
DTD
XML Schema
Schematron
ODD
Structurer Publier
37. A partir d’une représentation, publier :
• sur le Web
• sur différents sites
• sur différentes présentations
• sur le papier (?)
Structurer Publier
45. Text Encoding Initiative
• un standard ?
• une norme ?
• des recommendations ?
La TEI c'est quoi?
Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011
http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml
TEI
46. Text Encoding Initiative
• un standard ?
• une norme ?
• des recommandations ?
La TEI c'est quoi?
Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011
http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml
Ceci n’est pas un format !
TEI
47. 2. Les enjeux de la TEI
"Text Encoding for Interchange"
• faciliter la création, l’échange, et l’intégration des données textuelles
informatisées
o toute sorte de texte
o toutes les langues
o toute origine temporelle ou culturelle
• La TEI s'adresse également ...
o aux débutants, cherchant des solutions bien connues et consensuelles
o aux experts, cherchant à créer de nouvelles solutions
3. Les buts de la TEI
• faire des recommandations qui se basent sur un consensus existant
• préférer les solutions générales à celles spécifiques à une discipline
• en même temps permettant la spécialisation et l'extension
TEI
49. Un balisage sur :
• la structure physique du document
<surface xml:id="alfred-1-141202-1-a" type="verso" n="1v">
<graphic url="../../Images/alfred-1-141202-1-a.jpg"/>
</surface>
• la structure logique du document
<body>
<opener>
St Nicolas du Port le 2 décembre 1914 Chère femme et cher fils<lb/>
</opener>
<p>
• la structure sémantique du document
<rs type="recipient">épouse</rs>
TEI
50. XSL stylesheets for TEI XML
This is a family of XSLT 2.0 stylesheets to transform
TEI XML documents to various formats, including
XHTML, LaTeX, XSL Formatting Objects, ePub,
plain text, RDF, JSON; and to/from Word OOXML
(docx) and OpenOfice (odt). They concentrate on the
core TEI modules which are used for simple
transcription and ‘born digital’ writing. It is important
to understand that they do not:
• cover all TEI elements and possible attribute values
• attempt to define a standard TEI processing or rendering model
TEI-XSL
51. Modèles d’édition
La mise en place d’un workflow dépend de :
o Ressources, contexte
o Modèle de document, métadonnées
o Processus :
numériser - transcrire - annoter - publier - exploiter
52. (1) édition des textes, traitements textométriques
(2) représentation des sources primaires, publication
(3) workflow multimodal
Edition en trois phases
53. Contexte :
• divers lieux de numérisation
• stagiaires effectuent transcriptions
• chercheurs dans plusieurs structures
• habitude des formats Office (doc, odt, pdf…)
• exigence de statistiques textuelles
(1) édition des textes
54. Contexte :
• divers lieux de numérisation
• stagiaires effectuent transcriptions
• chercheurs dans plusieurs structures
• habitude des formats Office (doc, odt, pdf…)
• demande de statistiques textuelles
• TXM
• définition d’un format pseudo-XML (mal formé !)
• pas d’éditeur XML (oXygen ?)
(1) édition des textes
59. Contexte :
• hébergement sur Ortolang
• consultation de textes et images en vis-à-vis
• métadonnées exposées à moissonneurs OAI-PMH
• indexation par moteurs de recherche
(2) représentation des sources primaires
60. Contexte :
• hébergement sur Ortolang
• consultation de textes et images en vis-à-vis
• métadonnées exposées à moissonneurs OAI-PMH
• indexation par moteurs de recherche
• TEI module: transcr (Representation of Primary Sources)
…parallel / embedded transcription
• conversion de XML/w à TEI
• fusion images et textes sur la base du schéma de
nommage
• pas d’éditeur XML, mais un éditeur polyvalent (Komodo)
(2) représentation des sources primaires
62. <creation>
<name>Alfred Foray</name>
<date when="1914-08-19">19-08-1914</date>
<rs type="place">Aix-les-Bains</rs>
<rs type="recipient">épouse</rs>
</creation>
</profileDesc>
</teiHeader>
<!-- L'élément <facsimile> décrit l'ensemble d'images associées à la correspondance (carte="card",
lettre="letter") -->
<facsimile>
<surfaceGrp type="card" n="1">
<!-- Chaque image doit être décrite suivant le modèle:
<surface xml:id="*" type="verso|recto" n="?v|?r"><graphic url="*.jpg"/></surface>
-->
<surface xml:id="alfred-1-140819-2-ph" type="recto" n="1r">
<graphic url="../../Images/alfred-1-140819-2-ph.jpg"/>
</surface>
<surface xml:id="alfred-1-140819-2" type="verso" n="1v">
<graphic url="../../Images/alfred-1-140819-2.jpg"/>
</surface>
</surfaceGrp>
</facsimile>
<text xml:lang="fr" facs="#alfred-1-140819-2">
<!-- L'élément <opener> (optionnel) regroupe une ligne de date (et lieu) <dateline> et une formule de
politesse <salute> -->
<body>
<opener>
Je t'envoie donc trois cartes dans la même envelloppe<lb/>
</opener>
<p>
tu les recevras au moin tous a la fois et elle sont<lb/>
toute numeroter pour les lires. je te disait donc<lb/>
chère femme bien aimès que je t'ecrit ce soir 19 août<lb/>
le dernnier soir que je suis à Aix en compagnie de<lb/>
Marius buvant un verre de <del rend="overstrike">rhum</del> <del rend="overstrike">bi</del> Thé au
(2) représentation des sources primaires
63. (2) représentation des sources primaires
Ce qu’on ne fait pas :
document TEI qui contient une spécification de schema :
ODD (One Document Does it all)
65. Contexte :
• Publication de nouvelles versions du corpus
• Alterner transcription fidèle et orthonormée
• Ajouter carnets de guerre
• Gérer plusieurs langues
• Format unique pour TXM et Ortolang ?
• Import en TXM d’un format TEI
(3) workflow multimodal
66. Contexte :
• Publication de nouvelles versions du corpus
• Alterner transcription fidèle et normée
• Ajouter carnets de guerre
• Gérer plusieurs langues
• Format unique pour TXM et Ortolang ?
• Import en TXM d’un format TEI
Work in progress
(3) workflow multimodal
67. Je ne voi rienplus a vous
dirre pour le moment
et jen profite pour vous
remerçier !
68. Je ne voi rienplus a vous
dirre pour le moment
et jen profite pour vous
remerçier !
Ceci n’est pas une citation de Laurent !