SlideShare ist ein Scribd-Unternehmen logo
1 von 68
Introduction de la TEI pour
la structuration et l'édition
des correspondances
10 novembre 2014, Heidelberg
Giancarlo Luxardo
Cette présentation est mise à disposition selon les termes de la Licence Creative Commons Attribution
Pas d’Utilisation Commerciale - Pas de Modification 3.0 France
Praxiling UMR 5267
Université de Montpellier 3 – CNRS
• Documents
• Processus
• Outils
• Modèles
• Documents
• Processus
• Outils
• Modèles
Documents
Qu’est-ce qu’une carte postale de Poilu ?
Documents
Qu’est-ce qu’une carte postale de Poilu ?
Documents
Qu’est-ce qu’une carte postale de Poilu ?
Ceci n’est pas une carte postale !
Documents
Documents
La Trahison des images, René Magritte (1929)
Documents
Ceci n'est pas une pipe :
l'importance de la modélisation
pour les humanités numériques
Lou Burnard
le Mardi, 16 Décembre, 2014 - de 12:15 à 13:15
Maison des Sciences de l'Homme-Alpes
Domaine Universitaire de Grenoble St-Martin d’Hères,
Documents
Une carte postale de Poilu ?
• Une source primaire, ou
• une représentation :
o un facsimile numérique
(une image, plusieurs images)
o une transcription (un texte)
o une mise en page
o des annotations (lisibilité ?)
o des corrections orthographiques
o des métadonnées
o et aussi… une lecture audio !
une combinaison de…
Données non-structurées
Qu’est-ce qu’une carte postale de Poilu ?

Traitement de texte
(fichier : doc, docx, odt…)

Présenter un document
Données structurées
Qu’est-ce qu’une carte postale de Poilu ?

Base de données
(exécuter des requêtes)

Rechercher des documents
(ex : toutes les correspondances
du mois d’août 1914 écrites par…)
correspondence
card letter
+ image
+ text
+ metadata
surface
1…n
Données structurées
Modélisation de données
Données semi-structurées
Qu’est-ce qu’une carte postale de Poilu ?

XML

tags

Annoter un document
<meta charset="UTF-8">
Aix-les-Bains,épouse
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br>
tu les recevras au moin tous a la fois et elle sont<br>
toute numeroter pour les lires. je te disait donc<br>
chère femme bien aimès que je t'ecrit ce soir 19 août<br>
le dernnier soir que je suis à Aix en compagnie de<br>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br>
mais ce qu'il y a desagréable c'est que tu va recevoir<br>
ces cartes huit jours apres que nous somme ici<br>
et que nous avons reçu tous les deux deux lettre le<br>
17 courant qui était dater par vous du 12 et du<br>
13août et que vous ne savier pas encor que nous<br>
étions ici a Aix. Enfin nous sonme tous bien portant et<br>
tous se passe bien les francais son vainqueur partout<br>
a bientot les plaisir de vous voir Alfred<br>
</body>
Données semi-structurées
<meta charset="UTF-8">
Aix-les-Bains,épouse
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br>
tu les recevras au moin tous a la fois et elle sont<br>
toute numeroter pour les lires. je te disait donc<br>
chère femme bien aimès que je t'ecrit ce soir 19 août<br>
le dernnier soir que je suis à Aix en compagnie de<br>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br>
mais ce qu'il y a desagréable c'est que tu va recevoir<br>
ces cartes huit jours apres que nous somme ici<br>
et que nous avons reçu tous les deux deux lettre le<br>
17 courant qui était dater par vous du 12 et du<br>
13août et que vous ne savier pas encor que nous<br>
étions ici a Aix. Enfin nous sonme tous bien portant et<br>
tous se passe bien les francais son vainqueur partout<br>
a bientot les plaisir de vous voir Alfred<br>
</body>
Ceci n’est pas un fichier XML !
(mais : pseudo-XML)
Données semi-structurées
<?xml version="1.0" encoding="UTF-8"?>
<card>
<head>
Aix-les-Bains,épouse
</head>
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br/>
tu les recevras au moin tous a la fois et elle sont<br/>
toute numeroter pour les lires. je te disait donc<br/>
chère femme bien aimès que je t'ecrit ce soir 19 août<br/>
le dernnier soir que je suis à Aix en compagnie de<br/>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/>
mais ce qu'il y a desagréable c'est que tu va recevoir<br/>
ces cartes huit jours apres que nous somme ici<br/>
et que nous avons reçu tous les deux deux lettre le<br/>
17 courant qui était dater par vous du 12 et du<br/>
13août et que vous ne savier pas encor que nous<br/>
étions ici a Aix. Enfin nous sonme tous bien portant et<br/>
tous se passe bien les francais son vainqueur partout<br/>
a bientot les plaisir de vous voir Alfred<br/>
</body>
</card>
Données semi-structurées
<?xml version="1.0" encoding="UTF-8"?>
<card>
<head>
Aix-les-Bains,épouse
</head>
<body>
Je t'envoie donc trois cartes dans la même envelloppe<br/>
tu les recevras au moin tous a la fois et elle sont<br/>
toute numeroter pour les lires. je te disait donc<br/>
chère femme bien aimès que je t'ecrit ce soir 19 août<br/>
le dernnier soir que je suis à Aix en compagnie de<br/>
Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/>
mais ce qu'il y a desagréable c'est que tu va recevoir<br/>
ces cartes huit jours apres que nous somme ici<br/>
et que nous avons reçu tous les deux deux lettre le<br/>
17 courant qui était dater par vous du 12 et du<br/>
13août et que vous ne savier pas encor que nous<br/>
étions ici a Aix. Enfin nous sonme tous bien portant et<br/>
tous se passe bien les francais son vainqueur partout<br/>
a bientot les plaisir de vous voir Alfred<br/>
</body>
</card>
Ceci n’est pas un document TEI !
Données semi-structurées
Nommage des fichiers (scripteur, date) :
andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml
andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml
andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml
andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml
Autres métadonnées : andre-1-140807.jpg
Identité du scripteur laurent-1-150515.jpg
Lieu d’envoi pierre-1-141029.jpg
Destinataire
Données semi-structurées
Nommage des fichiers (scripteur, date) :
andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml
andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml
andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml
andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml
Autres métadonnées : andre-1-140807.jpg
Identité du scripteur laurent-1-150515.jpg
Lieu d’envoi pierre-1-141029.jpg
Destinataire
Ceci n’est pas une base de données !
Données semi-structurées
• Documents
• Processus
• Outils
• Modèles
Numériser  Transcrire
Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires. je te disait donc
chère femme bien aimès que je t'ecrit ce soir 19 août
le dernnier soir que je suis à Aix en compagnie de
Marius buvant un verre de rhum bi Thé au rhum
Numériser  Transcrire
Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires. je te disait donc
chère femme bien aimès que je t'ecrit ce soir 19 août
le dernnier soir que je suis à Aix en compagnie de
Marius buvant un verre de rhum bi Thé au rhum
<unclear>disait</unclear>
<strikethrough>rhum</strikethrough>
TranscrireNumériser  Transcrire
Numériser  Transcrire
St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent
et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi
que Dombasle qui se trouve encor mieux a droite nous somme
ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle
au moin dix milles homme de troupes ça fait déjas quelque chose
comme soldats.
Numériser  Transcrire
St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent
et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi
que Dombasle qui se trouve encor mieux a droite nous somme
ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle
au moin dix milles homme de troupes ça fait déjas quelque chose
comme soldats.
Carte postale sur 4 pages
Position ?
Numériser  Transcrire
Numériser  Transcrire
Mardi Le 25 Janvier 1916
Cher beau-frère
Je repons à ton aimable carte que j'ai reçu hier
date du quelle ma fait bien plaisir de te savoir
en bonne santé car il et de méme pour moi
Je suis été à Baillargue Dimanche toute la famille
va bien mon père étaient à Montpellier pour
voir sil vous lez tuer les cochons cela fait qui les
turons Mercredi ou Jeudi je pense que tu goutera de
Numériser  Transcrire
Mardi Le 25 Janvier 1916
Cher beau-frère
Je repons à ton aimable carte que j'ai reçu hier
date du quelle ma fait bien plaisir de te savoir
en bonne santé car il et de méme pour moi
Je suis été à Baillargue Dimanche toute la famille
va bien mon père étaient à Montpellier pour [?]
voir sil vous lez tuer les cochons cela fait qui les
turons Mercredi ou Jeudi je pense que tu goutera de
[?] <gap/>
Numériser  Transcrire
Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires.
Structurer  Annoter
Je t'envoie donc trois cartes dans la même envelloppe
tu les recevras au moin tous a la fois et elle sont
toute numeroter pour les lires.

Je t'envoie donc trois cartes dans la même enveloppe,
tu les recevras au moins toutes à la fois et elles sont
toutes numérotées pour les lire.
Structurer  Annoter
Tableau lexical :
avoir_VER:pres 3536
ne_ADV 1582
pas_ADV 1495
être_VER:pres 1457
bien_ADV1107
lettre_NOM 730
bon_ADJ 604
petit_ADJ 572
faire_VER:pres 537
recevoir_VER:pper 517
plus_ADV 494
jour_NOM 430
faire_VER:infi 424
santée_NOM 405
Structurer  Analyser
Analyse de données
Structurer  Analyser
Objectif TEI
Utiliser un langage de validation ?
DTD
XML Schema
Schematron
ODD
Structurer  Publier
Objectif TEI
Utiliser un langage de validation ?
DTD
XML Schema
Schematron
ODD
Structurer  Publier
A partir d’une représentation, publier :
• sur le Web
• sur différents sites
• sur différentes présentations
• sur le papier (?)
Structurer  Publier
• Documents
• Processus
• Outils
• Modèles
MS-Word
OpenOffice
LibreOffice
…
Traitement de texte
Problèmes :
AutoCorrect
AutoFormat
AutoText
…
coeur  Cœur
apostrophes
traits d’union
…
Traitement de texte
Notepad
Notepad++ (support XML)
Komodo Edit (multi-plateforme)
…
Editeurs de texte
Editeurs XML
Logiciel de textométrie
• Documents
• Processus
• Outils
• Modèles
Text Encoding Initiative
• un standard ?
• une norme ?
• des recommendations ?
La TEI c'est quoi?
Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011
http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml
TEI
Text Encoding Initiative
• un standard ?
• une norme ?
• des recommandations ?
La TEI c'est quoi?
Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011
http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml
Ceci n’est pas un format !
TEI
2. Les enjeux de la TEI
"Text Encoding for Interchange"
• faciliter la création, l’échange, et l’intégration des données textuelles
informatisées
o toute sorte de texte
o toutes les langues
o toute origine temporelle ou culturelle
• La TEI s'adresse également ...
o aux débutants, cherchant des solutions bien connues et consensuelles
o aux experts, cherchant à créer de nouvelles solutions
3. Les buts de la TEI
• faire des recommandations qui se basent sur un consensus existant
• préférer les solutions générales à celles spécifiques à une discipline
• en même temps permettant la spécialisation et l'extension
TEI
11 Representation of Primary Sources
TEI
Un balisage sur :
• la structure physique du document
<surface xml:id="alfred-1-141202-1-a" type="verso" n="1v">
<graphic url="../../Images/alfred-1-141202-1-a.jpg"/>
</surface>
• la structure logique du document
<body>
<opener>
St Nicolas du Port le 2 décembre 1914 Chère femme et cher fils<lb/>
</opener>
<p>
• la structure sémantique du document
<rs type="recipient">épouse</rs>
TEI
XSL stylesheets for TEI XML
This is a family of XSLT 2.0 stylesheets to transform
TEI XML documents to various formats, including
XHTML, LaTeX, XSL Formatting Objects, ePub,
plain text, RDF, JSON; and to/from Word OOXML
(docx) and OpenOfice (odt). They concentrate on the
core TEI modules which are used for simple
transcription and ‘born digital’ writing. It is important
to understand that they do not:
• cover all TEI elements and possible attribute values
• attempt to define a standard TEI processing or rendering model
TEI-XSL
Modèles d’édition
La mise en place d’un workflow dépend de :
o Ressources, contexte
o Modèle de document, métadonnées
o Processus :
numériser - transcrire - annoter - publier - exploiter
(1) édition des textes, traitements textométriques
(2) représentation des sources primaires, publication
(3) workflow multimodal
Edition en trois phases
Contexte :
• divers lieux de numérisation
• stagiaires effectuent transcriptions
• chercheurs dans plusieurs structures
• habitude des formats Office (doc, odt, pdf…)
• exigence de statistiques textuelles
(1) édition des textes
Contexte :
• divers lieux de numérisation
• stagiaires effectuent transcriptions
• chercheurs dans plusieurs structures
• habitude des formats Office (doc, odt, pdf…)
• demande de statistiques textuelles

• TXM
• définition d’un format pseudo-XML (mal formé !)
• pas d’éditeur XML (oXygen ?)
(1) édition des textes
conversion
(1) édition des textes
pseudo-XML
identities.csv
XML/w
metadata.csv
corpus14.css
conversion
(1) édition des textes
pseudo-XML
identities.csv
XML/w
metadata.csv
corpus14.css
Problème : retro-conversions ?
(1) édition des textes
(1) édition des textes
Contexte :
• hébergement sur Ortolang
• consultation de textes et images en vis-à-vis
• métadonnées exposées à moissonneurs OAI-PMH
• indexation par moteurs de recherche
(2) représentation des sources primaires
Contexte :
• hébergement sur Ortolang
• consultation de textes et images en vis-à-vis
• métadonnées exposées à moissonneurs OAI-PMH
• indexation par moteurs de recherche

• TEI module: transcr (Representation of Primary Sources)
…parallel / embedded transcription
• conversion de XML/w à TEI
• fusion images et textes sur la base du schéma de
nommage
• pas d’éditeur XML, mais un éditeur polyvalent (Komodo)
(2) représentation des sources primaires
conversion
(2) représentation des sources primaires
XML/w
identities.csv
metadata.csv
Dossiers images
XML-TEI
sous-corpus scripteurs
Images
<creation>
<name>Alfred Foray</name>
<date when="1914-08-19">19-08-1914</date>
<rs type="place">Aix-les-Bains</rs>
<rs type="recipient">épouse</rs>
</creation>
</profileDesc>
</teiHeader>
<!-- L'élément <facsimile> décrit l'ensemble d'images associées à la correspondance (carte="card",
lettre="letter") -->
<facsimile>
<surfaceGrp type="card" n="1">
<!-- Chaque image doit être décrite suivant le modèle:
<surface xml:id="*" type="verso|recto" n="?v|?r"><graphic url="*.jpg"/></surface>
-->
<surface xml:id="alfred-1-140819-2-ph" type="recto" n="1r">
<graphic url="../../Images/alfred-1-140819-2-ph.jpg"/>
</surface>
<surface xml:id="alfred-1-140819-2" type="verso" n="1v">
<graphic url="../../Images/alfred-1-140819-2.jpg"/>
</surface>
</surfaceGrp>
</facsimile>
<text xml:lang="fr" facs="#alfred-1-140819-2">
<!-- L'élément <opener> (optionnel) regroupe une ligne de date (et lieu) <dateline> et une formule de
politesse <salute> -->
<body>
<opener>
Je t'envoie donc trois cartes dans la même envelloppe<lb/>
</opener>
<p>
tu les recevras au moin tous a la fois et elle sont<lb/>
toute numeroter pour les lires. je te disait donc<lb/>
chère femme bien aimès que je t'ecrit ce soir 19 août<lb/>
le dernnier soir que je suis à Aix en compagnie de<lb/>
Marius buvant un verre de <del rend="overstrike">rhum</del> <del rend="overstrike">bi</del> Thé au
(2) représentation des sources primaires
(2) représentation des sources primaires
Ce qu’on ne fait pas :
document TEI qui contient une spécification de schema :
ODD (One Document Does it all)
(2) représentation des sources primaires
Portail TXM
Contexte :
• Publication de nouvelles versions du corpus
• Alterner transcription fidèle et orthonormée
• Ajouter carnets de guerre
• Gérer plusieurs langues
• Format unique pour TXM et Ortolang ?
• Import en TXM d’un format TEI
(3) workflow multimodal
Contexte :
• Publication de nouvelles versions du corpus
• Alterner transcription fidèle et normée
• Ajouter carnets de guerre
• Gérer plusieurs langues
• Format unique pour TXM et Ortolang ?
• Import en TXM d’un format TEI

Work in progress
(3) workflow multimodal
Je ne voi rienplus a vous
dirre pour le moment
et jen profite pour vous
remerçier !
Je ne voi rienplus a vous
dirre pour le moment
et jen profite pour vous
remerçier !
Ceci n’est pas une citation de Laurent !

Weitere ähnliche Inhalte

Andere mochten auch

Groupe de Travail Innovation - 25 /07/2013
Groupe de Travail Innovation - 25 /07/2013Groupe de Travail Innovation - 25 /07/2013
Groupe de Travail Innovation - 25 /07/2013
L'Observatoire COM MEDIA
 
Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013
Data Tuesday
 
TRABAJO SIMULTANEO NOVIEMBRE
TRABAJO SIMULTANEO NOVIEMBRETRABAJO SIMULTANEO NOVIEMBRE
TRABAJO SIMULTANEO NOVIEMBRE
Paolis Villarreal
 
Plan de trabajo simultaneo del14 de nov al 25 de noviembre
Plan de trabajo simultaneo del14 de nov al 25 de noviembrePlan de trabajo simultaneo del14 de nov al 25 de noviembre
Plan de trabajo simultaneo del14 de nov al 25 de noviembre
Paolis Villarreal
 

Andere mochten auch (19)

Mardi découverte page couv + progr intérieur
Mardi découverte page couv + progr intérieurMardi découverte page couv + progr intérieur
Mardi découverte page couv + progr intérieur
 
Abuso de tecnologia
Abuso de tecnologiaAbuso de tecnologia
Abuso de tecnologia
 
Del fútbol por exceso a la espectacularización de la información en el period...
Del fútbol por exceso a la espectacularización de la información en el period...Del fútbol por exceso a la espectacularización de la información en el period...
Del fútbol por exceso a la espectacularización de la información en el period...
 
Administration joomla2 5
Administration joomla2 5Administration joomla2 5
Administration joomla2 5
 
Redes Sociales para Empresas en México
Redes Sociales para Empresas en MéxicoRedes Sociales para Empresas en México
Redes Sociales para Empresas en México
 
4º Año B
4º Año B4º Año B
4º Año B
 
Groupe de Travail Innovation - 25 /07/2013
Groupe de Travail Innovation - 25 /07/2013Groupe de Travail Innovation - 25 /07/2013
Groupe de Travail Innovation - 25 /07/2013
 
Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013
 
Presentacióncastores
PresentacióncastoresPresentacióncastores
Presentacióncastores
 
Juan Felipe Garcia
Juan Felipe GarciaJuan Felipe Garcia
Juan Felipe Garcia
 
Vida feliz
Vida felizVida feliz
Vida feliz
 
Entregable día 2 taller fb y linkedin edn
Entregable día 2 taller fb y linkedin ednEntregable día 2 taller fb y linkedin edn
Entregable día 2 taller fb y linkedin edn
 
Trabajo simultameo octubre
Trabajo simultameo octubreTrabajo simultameo octubre
Trabajo simultameo octubre
 
TRABAJO SIMULTANEO NOVIEMBRE
TRABAJO SIMULTANEO NOVIEMBRETRABAJO SIMULTANEO NOVIEMBRE
TRABAJO SIMULTANEO NOVIEMBRE
 
Plan de trabajo simultaneo del14 de nov al 25 de noviembre
Plan de trabajo simultaneo del14 de nov al 25 de noviembrePlan de trabajo simultaneo del14 de nov al 25 de noviembre
Plan de trabajo simultaneo del14 de nov al 25 de noviembre
 
facebook para educacion
facebook para educacionfacebook para educacion
facebook para educacion
 
Gisantes
GisantesGisantes
Gisantes
 
Travailler pour soi denis pennel ifma_18-02-2014
Travailler pour soi denis pennel ifma_18-02-2014Travailler pour soi denis pennel ifma_18-02-2014
Travailler pour soi denis pennel ifma_18-02-2014
 
Las energías
Las energíasLas energías
Las energías
 

Kürzlich hochgeladen

Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
ssuserc72852
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
Faga1939
 

Kürzlich hochgeladen (18)

Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Cours
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 

Introduction de la TEI pour la structuration et l'édition des correspondances

  • 1. Introduction de la TEI pour la structuration et l'édition des correspondances 10 novembre 2014, Heidelberg Giancarlo Luxardo Cette présentation est mise à disposition selon les termes de la Licence Creative Commons Attribution Pas d’Utilisation Commerciale - Pas de Modification 3.0 France Praxiling UMR 5267 Université de Montpellier 3 – CNRS
  • 2. • Documents • Processus • Outils • Modèles
  • 3. • Documents • Processus • Outils • Modèles
  • 6. Documents Qu’est-ce qu’une carte postale de Poilu ? Ceci n’est pas une carte postale !
  • 8. Documents La Trahison des images, René Magritte (1929)
  • 9. Documents Ceci n'est pas une pipe : l'importance de la modélisation pour les humanités numériques Lou Burnard le Mardi, 16 Décembre, 2014 - de 12:15 à 13:15 Maison des Sciences de l'Homme-Alpes Domaine Universitaire de Grenoble St-Martin d’Hères,
  • 10. Documents Une carte postale de Poilu ? • Une source primaire, ou • une représentation : o un facsimile numérique (une image, plusieurs images) o une transcription (un texte) o une mise en page o des annotations (lisibilité ?) o des corrections orthographiques o des métadonnées o et aussi… une lecture audio ! une combinaison de…
  • 11. Données non-structurées Qu’est-ce qu’une carte postale de Poilu ?  Traitement de texte (fichier : doc, docx, odt…)  Présenter un document
  • 12. Données structurées Qu’est-ce qu’une carte postale de Poilu ?  Base de données (exécuter des requêtes)  Rechercher des documents (ex : toutes les correspondances du mois d’août 1914 écrites par…)
  • 13. correspondence card letter + image + text + metadata surface 1…n Données structurées Modélisation de données
  • 14. Données semi-structurées Qu’est-ce qu’une carte postale de Poilu ?  XML  tags  Annoter un document
  • 15. <meta charset="UTF-8"> Aix-les-Bains,épouse <body> Je t'envoie donc trois cartes dans la même envelloppe<br> tu les recevras au moin tous a la fois et elle sont<br> toute numeroter pour les lires. je te disait donc<br> chère femme bien aimès que je t'ecrit ce soir 19 août<br> le dernnier soir que je suis à Aix en compagnie de<br> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br> mais ce qu'il y a desagréable c'est que tu va recevoir<br> ces cartes huit jours apres que nous somme ici<br> et que nous avons reçu tous les deux deux lettre le<br> 17 courant qui était dater par vous du 12 et du<br> 13août et que vous ne savier pas encor que nous<br> étions ici a Aix. Enfin nous sonme tous bien portant et<br> tous se passe bien les francais son vainqueur partout<br> a bientot les plaisir de vous voir Alfred<br> </body> Données semi-structurées
  • 16. <meta charset="UTF-8"> Aix-les-Bains,épouse <body> Je t'envoie donc trois cartes dans la même envelloppe<br> tu les recevras au moin tous a la fois et elle sont<br> toute numeroter pour les lires. je te disait donc<br> chère femme bien aimès que je t'ecrit ce soir 19 août<br> le dernnier soir que je suis à Aix en compagnie de<br> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br> mais ce qu'il y a desagréable c'est que tu va recevoir<br> ces cartes huit jours apres que nous somme ici<br> et que nous avons reçu tous les deux deux lettre le<br> 17 courant qui était dater par vous du 12 et du<br> 13août et que vous ne savier pas encor que nous<br> étions ici a Aix. Enfin nous sonme tous bien portant et<br> tous se passe bien les francais son vainqueur partout<br> a bientot les plaisir de vous voir Alfred<br> </body> Ceci n’est pas un fichier XML ! (mais : pseudo-XML) Données semi-structurées
  • 17. <?xml version="1.0" encoding="UTF-8"?> <card> <head> Aix-les-Bains,épouse </head> <body> Je t'envoie donc trois cartes dans la même envelloppe<br/> tu les recevras au moin tous a la fois et elle sont<br/> toute numeroter pour les lires. je te disait donc<br/> chère femme bien aimès que je t'ecrit ce soir 19 août<br/> le dernnier soir que je suis à Aix en compagnie de<br/> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/> mais ce qu'il y a desagréable c'est que tu va recevoir<br/> ces cartes huit jours apres que nous somme ici<br/> et que nous avons reçu tous les deux deux lettre le<br/> 17 courant qui était dater par vous du 12 et du<br/> 13août et que vous ne savier pas encor que nous<br/> étions ici a Aix. Enfin nous sonme tous bien portant et<br/> tous se passe bien les francais son vainqueur partout<br/> a bientot les plaisir de vous voir Alfred<br/> </body> </card> Données semi-structurées
  • 18. <?xml version="1.0" encoding="UTF-8"?> <card> <head> Aix-les-Bains,épouse </head> <body> Je t'envoie donc trois cartes dans la même envelloppe<br/> tu les recevras au moin tous a la fois et elle sont<br/> toute numeroter pour les lires. je te disait donc<br/> chère femme bien aimès que je t'ecrit ce soir 19 août<br/> le dernnier soir que je suis à Aix en compagnie de<br/> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/> mais ce qu'il y a desagréable c'est que tu va recevoir<br/> ces cartes huit jours apres que nous somme ici<br/> et que nous avons reçu tous les deux deux lettre le<br/> 17 courant qui était dater par vous du 12 et du<br/> 13août et que vous ne savier pas encor que nous<br/> étions ici a Aix. Enfin nous sonme tous bien portant et<br/> tous se passe bien les francais son vainqueur partout<br/> a bientot les plaisir de vous voir Alfred<br/> </body> </card> Ceci n’est pas un document TEI ! Données semi-structurées
  • 19. Nommage des fichiers (scripteur, date) : andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml Autres métadonnées : andre-1-140807.jpg Identité du scripteur laurent-1-150515.jpg Lieu d’envoi pierre-1-141029.jpg Destinataire Données semi-structurées
  • 20. Nommage des fichiers (scripteur, date) : andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml Autres métadonnées : andre-1-140807.jpg Identité du scripteur laurent-1-150515.jpg Lieu d’envoi pierre-1-141029.jpg Destinataire Ceci n’est pas une base de données ! Données semi-structurées
  • 21. • Documents • Processus • Outils • Modèles
  • 23. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires. je te disait donc chère femme bien aimès que je t'ecrit ce soir 19 août le dernnier soir que je suis à Aix en compagnie de Marius buvant un verre de rhum bi Thé au rhum Numériser  Transcrire
  • 24. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires. je te disait donc chère femme bien aimès que je t'ecrit ce soir 19 août le dernnier soir que je suis à Aix en compagnie de Marius buvant un verre de rhum bi Thé au rhum <unclear>disait</unclear> <strikethrough>rhum</strikethrough> TranscrireNumériser  Transcrire
  • 26. St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi que Dombasle qui se trouve encor mieux a droite nous somme ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle au moin dix milles homme de troupes ça fait déjas quelque chose comme soldats. Numériser  Transcrire
  • 27. St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi que Dombasle qui se trouve encor mieux a droite nous somme ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle au moin dix milles homme de troupes ça fait déjas quelque chose comme soldats. Carte postale sur 4 pages Position ? Numériser  Transcrire
  • 29. Mardi Le 25 Janvier 1916 Cher beau-frère Je repons à ton aimable carte que j'ai reçu hier date du quelle ma fait bien plaisir de te savoir en bonne santé car il et de méme pour moi Je suis été à Baillargue Dimanche toute la famille va bien mon père étaient à Montpellier pour voir sil vous lez tuer les cochons cela fait qui les turons Mercredi ou Jeudi je pense que tu goutera de Numériser  Transcrire
  • 30. Mardi Le 25 Janvier 1916 Cher beau-frère Je repons à ton aimable carte que j'ai reçu hier date du quelle ma fait bien plaisir de te savoir en bonne santé car il et de méme pour moi Je suis été à Baillargue Dimanche toute la famille va bien mon père étaient à Montpellier pour [?] voir sil vous lez tuer les cochons cela fait qui les turons Mercredi ou Jeudi je pense que tu goutera de [?] <gap/> Numériser  Transcrire
  • 31. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires. Structurer  Annoter
  • 32. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires.  Je t'envoie donc trois cartes dans la même enveloppe, tu les recevras au moins toutes à la fois et elles sont toutes numérotées pour les lire. Structurer  Annoter
  • 33. Tableau lexical : avoir_VER:pres 3536 ne_ADV 1582 pas_ADV 1495 être_VER:pres 1457 bien_ADV1107 lettre_NOM 730 bon_ADJ 604 petit_ADJ 572 faire_VER:pres 537 recevoir_VER:pper 517 plus_ADV 494 jour_NOM 430 faire_VER:infi 424 santée_NOM 405 Structurer  Analyser
  • 35. Objectif TEI Utiliser un langage de validation ? DTD XML Schema Schematron ODD Structurer  Publier
  • 36. Objectif TEI Utiliser un langage de validation ? DTD XML Schema Schematron ODD Structurer  Publier
  • 37. A partir d’une représentation, publier : • sur le Web • sur différents sites • sur différentes présentations • sur le papier (?) Structurer  Publier
  • 38. • Documents • Processus • Outils • Modèles
  • 40. Problèmes : AutoCorrect AutoFormat AutoText … coeur  Cœur apostrophes traits d’union … Traitement de texte
  • 41. Notepad Notepad++ (support XML) Komodo Edit (multi-plateforme) … Editeurs de texte
  • 44. • Documents • Processus • Outils • Modèles
  • 45. Text Encoding Initiative • un standard ? • une norme ? • des recommendations ? La TEI c'est quoi? Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011 http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml TEI
  • 46. Text Encoding Initiative • un standard ? • une norme ? • des recommandations ? La TEI c'est quoi? Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011 http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml Ceci n’est pas un format ! TEI
  • 47. 2. Les enjeux de la TEI "Text Encoding for Interchange" • faciliter la création, l’échange, et l’intégration des données textuelles informatisées o toute sorte de texte o toutes les langues o toute origine temporelle ou culturelle • La TEI s'adresse également ... o aux débutants, cherchant des solutions bien connues et consensuelles o aux experts, cherchant à créer de nouvelles solutions 3. Les buts de la TEI • faire des recommandations qui se basent sur un consensus existant • préférer les solutions générales à celles spécifiques à une discipline • en même temps permettant la spécialisation et l'extension TEI
  • 48. 11 Representation of Primary Sources TEI
  • 49. Un balisage sur : • la structure physique du document <surface xml:id="alfred-1-141202-1-a" type="verso" n="1v"> <graphic url="../../Images/alfred-1-141202-1-a.jpg"/> </surface> • la structure logique du document <body> <opener> St Nicolas du Port le 2 décembre 1914 Chère femme et cher fils<lb/> </opener> <p> • la structure sémantique du document <rs type="recipient">épouse</rs> TEI
  • 50. XSL stylesheets for TEI XML This is a family of XSLT 2.0 stylesheets to transform TEI XML documents to various formats, including XHTML, LaTeX, XSL Formatting Objects, ePub, plain text, RDF, JSON; and to/from Word OOXML (docx) and OpenOfice (odt). They concentrate on the core TEI modules which are used for simple transcription and ‘born digital’ writing. It is important to understand that they do not: • cover all TEI elements and possible attribute values • attempt to define a standard TEI processing or rendering model TEI-XSL
  • 51. Modèles d’édition La mise en place d’un workflow dépend de : o Ressources, contexte o Modèle de document, métadonnées o Processus : numériser - transcrire - annoter - publier - exploiter
  • 52. (1) édition des textes, traitements textométriques (2) représentation des sources primaires, publication (3) workflow multimodal Edition en trois phases
  • 53. Contexte : • divers lieux de numérisation • stagiaires effectuent transcriptions • chercheurs dans plusieurs structures • habitude des formats Office (doc, odt, pdf…) • exigence de statistiques textuelles (1) édition des textes
  • 54. Contexte : • divers lieux de numérisation • stagiaires effectuent transcriptions • chercheurs dans plusieurs structures • habitude des formats Office (doc, odt, pdf…) • demande de statistiques textuelles  • TXM • définition d’un format pseudo-XML (mal formé !) • pas d’éditeur XML (oXygen ?) (1) édition des textes
  • 55. conversion (1) édition des textes pseudo-XML identities.csv XML/w metadata.csv corpus14.css
  • 56. conversion (1) édition des textes pseudo-XML identities.csv XML/w metadata.csv corpus14.css Problème : retro-conversions ?
  • 59. Contexte : • hébergement sur Ortolang • consultation de textes et images en vis-à-vis • métadonnées exposées à moissonneurs OAI-PMH • indexation par moteurs de recherche (2) représentation des sources primaires
  • 60. Contexte : • hébergement sur Ortolang • consultation de textes et images en vis-à-vis • métadonnées exposées à moissonneurs OAI-PMH • indexation par moteurs de recherche  • TEI module: transcr (Representation of Primary Sources) …parallel / embedded transcription • conversion de XML/w à TEI • fusion images et textes sur la base du schéma de nommage • pas d’éditeur XML, mais un éditeur polyvalent (Komodo) (2) représentation des sources primaires
  • 61. conversion (2) représentation des sources primaires XML/w identities.csv metadata.csv Dossiers images XML-TEI sous-corpus scripteurs Images
  • 62. <creation> <name>Alfred Foray</name> <date when="1914-08-19">19-08-1914</date> <rs type="place">Aix-les-Bains</rs> <rs type="recipient">épouse</rs> </creation> </profileDesc> </teiHeader> <!-- L'élément <facsimile> décrit l'ensemble d'images associées à la correspondance (carte="card", lettre="letter") --> <facsimile> <surfaceGrp type="card" n="1"> <!-- Chaque image doit être décrite suivant le modèle: <surface xml:id="*" type="verso|recto" n="?v|?r"><graphic url="*.jpg"/></surface> --> <surface xml:id="alfred-1-140819-2-ph" type="recto" n="1r"> <graphic url="../../Images/alfred-1-140819-2-ph.jpg"/> </surface> <surface xml:id="alfred-1-140819-2" type="verso" n="1v"> <graphic url="../../Images/alfred-1-140819-2.jpg"/> </surface> </surfaceGrp> </facsimile> <text xml:lang="fr" facs="#alfred-1-140819-2"> <!-- L'élément <opener> (optionnel) regroupe une ligne de date (et lieu) <dateline> et une formule de politesse <salute> --> <body> <opener> Je t'envoie donc trois cartes dans la même envelloppe<lb/> </opener> <p> tu les recevras au moin tous a la fois et elle sont<lb/> toute numeroter pour les lires. je te disait donc<lb/> chère femme bien aimès que je t'ecrit ce soir 19 août<lb/> le dernnier soir que je suis à Aix en compagnie de<lb/> Marius buvant un verre de <del rend="overstrike">rhum</del> <del rend="overstrike">bi</del> Thé au (2) représentation des sources primaires
  • 63. (2) représentation des sources primaires Ce qu’on ne fait pas : document TEI qui contient une spécification de schema : ODD (One Document Does it all)
  • 64. (2) représentation des sources primaires Portail TXM
  • 65. Contexte : • Publication de nouvelles versions du corpus • Alterner transcription fidèle et orthonormée • Ajouter carnets de guerre • Gérer plusieurs langues • Format unique pour TXM et Ortolang ? • Import en TXM d’un format TEI (3) workflow multimodal
  • 66. Contexte : • Publication de nouvelles versions du corpus • Alterner transcription fidèle et normée • Ajouter carnets de guerre • Gérer plusieurs langues • Format unique pour TXM et Ortolang ? • Import en TXM d’un format TEI  Work in progress (3) workflow multimodal
  • 67. Je ne voi rienplus a vous dirre pour le moment et jen profite pour vous remerçier !
  • 68. Je ne voi rienplus a vous dirre pour le moment et jen profite pour vous remerçier ! Ceci n’est pas une citation de Laurent !