Les dossiers de Bouvard et Pécuchet de Flaubert - Fragments visuels et fragments logiques au sein du projet d'édition électronique. Séminaire publication électronique - IRHT Orléans, Dec 2009, Orléans, France.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Bp irht-2009-12-15-7
1. Les dossiers de Bouvard et Pécuchet de Flaubert :
Fragments visuels et fragments logiques
au sein du projet d’édition électronique
Stéphanie Dord-Crouslé (CNRS / LIRE UMR 5611)
Emmanuelle Morlock-Gerstenkorn (CNRS / ISH UMS 1798)
Séminaire de publication électronique, 15 décembre 2009, IRHT, Orléans
2. Plan
1. Présentation du projet
2. La notion de "fragment" en question
3. De la segmentation à la pérennisation, les rôles assignés
au balisage XML/TEI
3. L’origine du projet : Bouvard et Pécuchet, un
roman inachevé
1- Un peu d’histoire littéraire…
● Le projet de Flaubert : un roman en 2 volumes commencé
en 1872
● L’interruption brutale : la mort de Flaubert le 8 mai 1880
4. L’origine du projet : Bouvard et Pécuchet,
roman inachevé
1- Un peu d’histoire littéraire…
2- Un peu d’histoire éditoriale…
5. Le roman publié sous le titre de Bouvard et Pécuchet (1881 - aujourd’hui)
= le « 1er volume »
1881 2008
6. L’origine du projet : Bouvard et Pécuchet,
roman inachevé
1- Un peu d’histoire littéraire…
2- Un peu d’histoire éditoriale…
● Le roman publié sous le titre de Bouvard et Pécuchet (1880-
aujourd’hui) = le « 1er volume »
●
Le chantier documentaire du « 2nd volume » conservé à la
bibliothèque municipale de Rouen
7. Le chantier documentaire du « 2nd volume »
● Des « choix de documents » en annexe des éditions modernes
8. Le chantier documentaire du « 2nd volume »
● Des « choix de documents » en annexe des éditions modernes
● Quelques tentatives plus récentes de reconstitution conjecturale
du « 2nd volume »
9. Les dossiers documentaires de Bouvard et
Pécuchet : les caractéristiques du corpus
1- sa taille imposante (2300 feuillets)
2- sa double hétérogénéité
- la nature physique des documents
11. Les dossiers documentaires de Bouvard et
Pécuchet : les caractéristiques du corpus
1- sa taille importante (2300 feuillets)
2- sa double hétérogénéité
- la nature physique des documents
- leur appartenance typologique
17. Les dossiers documentaires de Bouvard et
Pécuchet : les caractéristiques du corpus
1- sa taille importante (2300 feuillets)
2- sa double hétérogénéité
3- la mobilité de ses fragments
20. 1- L'équipe scientifique
● en France, autour du LIRE:
● des spécialistes de Flaubert
● et, plus largement, du XIXe
siècle
● en Italie, au Japon et aux États-Unis :
● des spécialistes de Flaubert
21. 1- L'équipe technique
● Le projet ANR, coordination technique assurée par le SID
● Responsable technique : Raphaël Tournoy
● Conception et suivi de l'encodage TEI : E Morlock-Gerstenkorn
● Développements : Contractuels
● L'ADR – Cluster 13 (2007)
● "Environnement collaboratif pour l’enrichissement, la valorisation et la
documentation d’un corpus multi supports en sciences humaines : l’édition
électronique des dossiers de Bouvard et Pécuchet de Flaubert"
● Doctorant : Vincent Malleron, directeurs : Philippe Régnier (LIRE) – Hubert
Emptoz (LIRIS)
22. 2- Les moyens mis en œuvre
● une numérisation souhaitable mais problématique...
35. Non correspondance
des découpes et des
fragments-citations
Vol. 3 f° 126
● Découpe bleue : 3 citation
● Découpe verte du haut : 2
citations
● Découpe verte du bas : 1 citation
● Deuxième citation : sur deux
découpes
37. Le parcours d'un fragment
Exemple du fragment 6 de l'édition Caminiti :
1.Source
2.Édition
3.Note de lecture
4.Récapitulation
5.Page préparée
38. Le fragment n°6 de l'édition Caminiti
Vedette : "Nomenclatures et bizarreries"
39. La source accessible en ligne
Dictionnaire des
sciences médicales, par
une société de médecins
et de chirurgiens...
(1812-1822, 60 vol.)
http://web2.bium.univ-paris5.fr/livanc/?cote=4
40. La note de lecture (g226-vol7-f116-v)
Colloque "Le patrimoine à l'ère du numérique : structuration et balisage" – Caen – 10-11 décembre 2009
hommes qui sont morts de joie.
à copier
Diagoras de Rhodes, Chilon, Sophocle, Denys tyran de Sicile, Philémon,Polycrate
la nièce de Leibnitz en voyant une cassette pleine d'or dont elle héritait par la mort
de son oncle, le pape Léon X en apprenant la prise de Milan
(398).
41. La récapitulation (g226-vol7-f154)
hommes qui sont morts de joie : Diagoras de Spartes Rhodes, Chilon, Sophocle, Denys tyran de Sicile
Philémon, Polycrate, la nièce de Leibnitz en voyant une cassette
id. pleine d'or dont elle héritait par la mort de son oncle —
le pape Léon X en apprenant la prise de Milan.
l'Arétin, en apprenant une ruse de sa sœur
46. Raisonner au niveau logique
● Prendre en compte les structures implicites
● Identifier des unités comparables
47. "Modèle abstrait" du fragment-citation
F
Vedettes Commentaires Citation
V1 V2 Vn C1 C2 Cn Enoncé Renvoi
Bizarreries Enumérations X À copier DM p. 287Hommes qui (...)
48. Raisonner au niveau logique
● Prendre en compte les structures implicites
● Identifier des unités comparables
● Définir une unité pour chaque niveau : logique (textuel),
physique 3D (document), visuel 2D (image)
49. Définition : le fragment-citation
C'est une unité textuelle logique, correspondant à un passage d'une
source externe au corpus, imprimée ou manuscrite, que l'on a pu
identifier ou non.
Elle peut connaître plusieurs matérialisations dans le manuscrit
patrimonial.
Elle correspond à une entité de la base de données, est en relation
avec un élément de la transcription TEI et une ou plusieurs zones de
l'image.
50. Définition : la zone d'image
C'est une région d'intérêt de forme polygonale isolée sur l'image
facsimile du manuscrit.
Elle peut être générée automatiquement par un logiciel d'analyse
d'image ou dessinée directement par un transcripteur.
Après validation par un transcripteur, elle est encodée dans le fichier
TEI dans l'élément <facsimile>. Elle peut être mise en relation les
composants de l'éléments <text> par l'intermédiaires d'attributs.
51. Définition : le morceau collé
C'est une unité physique, correspondant au morceau de page
manuscrite ou imprimée collé sur une page du manuscrit à une étape
de sa composition.
Si nécessaire, il peut être encodé dans la transcription TEI par
l'intermédiaire de balises vides de type "milestones".
Si la proposition de module dédié aux études génétiques est validée
par le consortium, cette unité pourra être encodée par l'élément
<ge:patch> au sein de l'élément <ge:document>.
52. Exemple d'encodage
<facsimile>
<surface xml:id="page-G2226-1-287-r">
<graphic url="image-G226-1-287-r.jpg"/>
<zone xml:id="zone-G266-1-287-r-vedette1"></zone>
<zone xml:id="zone-G266-1-287-r-fragment3"></zone>
<zone xml:id="zone-G266-1-287-r-vedette2"></zone>
</surface>
</facsimile>
<text type="scenarique" subtype="BP2">
<body>
<pb xml:id="G226-1-287-r" type="recto" n="1"/>
<head rend="align(left) underline">
<index indexName="vedettes">
<term type="vedettePotentielle" facs="zone-G266-1-287-r-vedette1" n="1">
<interp ana="V-Bizarrerie">Bizarreries</interp>
</term>
</index>
</head>
<div type="fragment" n="1" facs="#G226-1-287-r-citation1" ana="#V-Bizarrerie"/>
<div type="fragment" n="2" facs="#G226-1-287-r-citation2" ana="#V-Bizarrerie"/>
<div type="fragment" n="3" facs="#G226-1-287-r-citation3" ana="#V-Bizarrerie">
<note type="classement" place="margin" resp="#NS" facs="#zone-G266-1-287-r-vedette2">
<subst hand="#GF-crayon" >
<del rend="strikethrough">Nomencl</del>
<add place="below-indent">énumération</add>
</subst>
</note>
<cit>
<quote>
<lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> -
<persName>Chilon</persName> - <persName>Sophocle</persName>
<lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce
de <persName>Leibnitz</persName></persName>
<lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle
- Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de
<placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une
<space quantity="1" unit="word"/>de sa soeur - </quote>
<bibl xml:id="B3-2072">
<title>
<abbr>Dict.</abbr>
<abbr>Sc.</abbr>
<abbr>Médic.</abbr>
</title>
<biblScope><abbr>Art</abbr> = Joie</biblScope>
</bibl>
</cit>
</div>
</body>
</text>
53. <facsimile>
<surface xml:id="page-1">
<graphic url="image-page-1.jpg"/>
<zone xml:id="zone-1" starts="#frag-1"></zone>
<zone xml:id="zone-2a" starts="#frag-2"></zone>
</surface>
<surface xml:id="page-2">
<graphic url="image-page-2.jpg"/>
<zone xml:id="zone-2b" starts="#page-2"></zone>
</surface>
</facsimile>
<text type="scenarique" subtype="BP2">
<body>
<pb xml:id="page-1" type="recto" n="1"/>
<div xml:id="frag-1" type="fragment" n="1">
<cit>
<quote>
<lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> -
<persName>Chilon</persName> - <persName>Sophocle</persName>
<lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce
de <persName>Leibnitz</persName></persName>
<lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle
- Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de
<placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une
<space quantity="1" unit="word"/>de sa soeur - </quote>
</cit>
</div>
<div xml:id="frag-2" type="fragment" n="2">
<p> <lb/>bla bbla bal<lb/>
<pb xml:id="page-2" type="verso" n="2"/>
<lb/>bla bbla bal<lb/>
</p>
</div>
</body>
</text>
54.
55. Valider au niveau fonctionnel
● La "maquette papier" du module de reconstitution
57. Valider au niveau fonctionnel
● La « maquette papier » du module de reconstitution
– Apport 1: distinction « fragment-agençable » vs
« composant de fragment »
– Apport 2: typologie des « vedettes » :
● Catégorie prévue
● Catégorie potentielle
● Catégorie présomptive
● Etiquette
58. Valider au niveau fonctionnel de l'interface
utilisateur
● La "maquette papier" du module de reconstitution
● Reconstituer les pages intermédiaires découpées par
Flaubert ?
59.
60. 3 - De la segmentation à la pérennisation, les
rôles assignés au balisage XML/TEI
61. 3 - De la segmentation à la pérennisation, les
rôles assignés au balisage XML/TEI
1. Reprise des transcriptions existantes => fichier TEI minimal
2. Intégration des zones d'images + délimitation des fragments dans le texte + résolution
des abréviations + métadonnées de la BDD (ref. bibliographiques)
=> fichier TEI délimité
3. Validation dans Oxygen par le chercheur => CSS Oxygen auteur sur-mesure
4. Script : création d'enregistrements pour chaque fragment et chaque texte dans la BDD
5. Archivage du fichier TEI validé dans la base de données au niveau texte
62. <text type="scenarique" subtype="BP2">
<body>
<pb xml:id="G226-1-287-r" type="recto" n="1"/>
<head rend="align(left) underline">
<index indexName="vedettes">
<term type="vedettePotentielle" facs="zone-G266-1-287-r-vedette1" n="1">
<interp ana="V-Bizarrerie">Bizarreries</interp>
</term>
</index>
</head>
<div type="fragment" n="1" facs="#G226-1-287-r-citation1" ana="#V-Bizarrerie"/>
<div type="fragment" n="2" facs="#G226-1-287-r-citation2" ana="#V-Bizarrerie"/>
<div type="fragment" n="3" facs="#G226-1-287-r-citation3" ana="#V-Bizarrerie">
<note type="classement" place="margin" resp="#NS" facs="#zone-G266-1-287-r-vedette2">
<subst hand="#GF-crayon" >
<del rend="strikethrough">Nomencl</del>
<add place="below-indent">énumération</add>
</subst>
</note>
<cit>
<quote>
<lb/>Hommes qui sont morts de joie = <lb/><persName>Diagoras de Rhodes</persName> -
<persName>Chilon</persName> - <persName>Sophocle</persName>
<lb/><persName>Philémon</persName> - <persName>Polycrate</persName> - La <persName>nièce
de <persName>Leibnitz</persName></persName>
<lb/>en voyant une cassette pleine d'or dont elle héritait <lb/>par la mort de son oncle
- Le <persName>pape Léon X </persName>en <lb/>apprenant la prise de
<placeName>Milan</placeName> - <persName>L'Arétin</persName> en <lb/>apprenant une
<space quantity="1" unit="word"/>de sa soeur - </quote>
<bibl xml:id="B3-2072">
<title>
<abbr>Dict.</abbr>
<abbr>Sc.</abbr>
<abbr>Médic.</abbr>
</title>
<biblScope><abbr>Art</abbr> = Joie</biblScope>
</bibl>
</cit>
</div>
</body>
</text>
63. Le double rôle du balisage XML/TEI
1. Segmentation des fragments et intégration à la base de données
2. Pérennisation des textes et du commentaire critique
● Réintégration des données de la BDD dans le fichier TEI
● Relations génétiques et TEI ?
64. Le double rôle du balisage XML/TEI
1. Segmentation des fragments et intégration à la base de données
2. Pérennisation des textes et du commentaire critique
● Mapping BDD vers TEI et « TEI on demand »
● Export TEI patrimonial : génération à partir des <pb>
● A expérimenter : encodage TEI des relations génétiques entre fragments
65. Le double rôle du balisage XML/TEI
1. Segmentation des fragments et intégration à la base de données
2. Pérennisation des textes et du commentaire critique
● Réintégration des données de la BDD dans le fichier TEI
● Relations génétiques et TEI ?
66. Relations génétiques de fragments
Evolution
A
fol 7-116v
Frag. n°4
Fragment issu d’une
Note de lecture
Fragment issu d’une
page récapitulative
pour BP2
B
fol 7-154
Frag. n°8
C
fol 1-287
Frag. n°3
Fragment issu d’une
page préparée
pour BP2
Evolution
68. Un exemple de relations plus complexes...
Evolution
Fusion
Evolution
Evolution
A fol 7-
152r –f5
B fol 7-
152r –f6
Fragments issus de
Notes de lecture
Fragments issus de
pages récapitulatives
pour BP2
C
fol 7-156–f1
A’ fol 3-
119r –f2
B’ fol 3-
119r –f3
C’ fol 3-
130r –f3
Fragments issus de
pages préparées pour
BP2
69. Conclusion
Apports de ce travail :
● Meilleure compréhension du corpus et du projet
● Amélioration du processus de transcription (stratégie d'encodage, ciblage, cohérence et harmonisation)
Limites :
● L'encodage du niveau physique et visuel reste un objectif secondaire
● La temporalité des deux projets (ANR / Thèse) limite leur articulation
Recommandations :
● Nécessité de bien distinguer entre projet d'exploration scientifique et projet d'édition
● L'enjeu stratégique du dialogue chercheur / ingénieur : utiliser des représentations visuelles, rédiger des
scénarios d'usage, éviter les pièges des questions/réponses binaires (possible/pas possible)
70. Outils
Sur le marché...
● Roma : schéma de la « personnalisation » TEI
● Oxygen : éditeur XML + CSS sur mesure de l'affichage « auteur »
● Inkscape : dessin et/ou validation des zones de l'image
● Milefeuille : indexation sémantique des fichiers TEI
En développement...
● GraphicalFolioEditor : plugin Eclipse développé dans le cadre d'un stage
● Zonage automatique des images : algorithmes et interface développés dans le cadre d'une thèse
● Scripts divers maison à développer :
● création des enregistrements dans la BDD
● Script(s) BDD vers TEI
● Etc.
71. Lectures conseillées :
● Biblio du projet : http://dossiers-flaubert.ish-lyon.cnrs.fr/
● Attaching a facsimile : http://tei.oucs.ox.ac.uk/GettingStarted/html/os.html#osreffac
● Facsimile markup (Dot Porter)
http://tei.oucs.ox.ac.uk/Oxford/2007-11-01-membersmeeting/launch.xml#launch.xml-body.1_div.6
● Draft genetic TEI : http://users.ox.ac.uk/~lou/wip/geneticTEI.doc.html#index.xml-front.1_div.1
● Cayless, Hugh A. “Linking Page Images to Transcriptions with SVG.” Presented at Balisage: The
Markup Conference 2008, Montréal, Canada, August 12 - 15, 2008.
http://www.balisage.net/Proceedings/vol1/html/Cayless01/BalisageVol1-Cayless01.html
● Projet TILE (Text-Image Linking Environment) : http://mith.info/tile/
● Description du projet TILE http://www.neh.gov/grants/guidelines/researchdevsamples/UnivMd_R&D.pdf