MEHRWERT 
DIGITALISIERUNG? 
Möglichkeiten einer 
Digitalen Diplomatik 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.e...
Diplomatik = Lehre 
von den Urkunden 
 Urkunden: schriftlicher Niederschlag von 
Rechtshandlungen v. a. im Mittelalter 
a...
Digitalisierung von 
Urkunden 
 Digitalisierung: Überführung einer 
analogen Größe in ein 
maschinenlesbares, digitales F...
Traditioneller Mehrwert 
Maschinenlesbarkeit 
Durchsuchen 
Vernetzen 
Erreichbarkeit 
Einbinden in 
Datenbanken 
Gemeinsam...
„Mehr“ Mehrwert? 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Beispiel: DEEDS ‒ 
„Documents of Early 
England Data Set“ 
 Entstanden 1975; Universität Toronto, CA 
 Ca. 31 000 latein...
DEEDS datiert 
lateinische Urkunden 
Beispiel aus dem Stiftsarchiv Schlägl in 
Oberösterreich: 
Urkunde vom 9. Juli 1218; ...
Voraussetzungen 
Zugang zu den 
Originaldaten 
Einheitliche 
Erschließungsstandards 
Gut dokumentiertes 
Datenformat 
Umfa...
Praxis: Das Monasterium-Portal und seine 
Datenbank MOM-CA 
www.monasterium.net 
17.09.2014 Daniel Jeller || daniel.jeller...
Überblick 
 Durchgehende Entwicklung seit 2002 
 Online Datenbank mit Bestandsübersicht, 
Volltextsuche, und kollaborati...
Grundlegende technische Struktur 
Backend 
•Browserbasiert 
•HTML5/JavaScript/XML 
•Passives Browsen 
•Aktives Bearbeiten ...
Datenbank: Aufbau 
und Programmierung 
 Basierend auf der open source XML-Datenbank 
eXist 
 Abfragen über xQuery und XP...
Nachteil: keine 
öffentliche 
Schnittstelle zur 
Datenbank aus 
Performancegründen 
Aber: die Datenbank ist 
vollständig e...
Datenübersicht 
75,566 
94,686 
69,118 
700,282 
564,221 
1,458,948 
0 100,000 200,000 300,000 400,000 500,000 600,000 700...
Voraussetzungen 
 Vertrautheit mit dem Datenmaterial 
(verwendete XML-Schemata, 
Datenstruktur etc.) 
 Bei komplexen Abf...
Programm erfolgt ähnlich natürlicher Sprache 
Nimm alle Urkunden in der Datenbank … 
Nimm davon jene, die Transkriptionen ...
Alle Orte mit Anfangsbuchstabe „z“ in einer 
sortierten HTML-Liste 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu |...
Ergebnis 
 Laufzeit der Abfrage etwa 80 Minuten auf 
Laptop mit Dual-Core CPU und 16GB RAM 
 Liste mit 1864 Begriffen. 
...
„Klassische“ 
Problemlösungs-strategien 
Handarbeit 
• Listen werden 
manuell kombiniert 
• Ähnlichkeiten 
werden eliminie...
Möglichkeit: semi-automatische 
Verbesserung der Metadaten 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http:/...
Beispiel: Ansatz für einen semiautomatischen 
Thesaurus 
Problem 
• Häufig existiert nur 
der reine Text einer 
Transkript...
Beispiel: Varianten von Zwettl im Jahr 1352 
http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter 
Ist-Stand in ...
Programmkonzept 
Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die 
Datenbank 
Präsentation der Er...
36 Unscharfe Suchergebnisse für „Zwetl“ 
1. Zwetel; 207 
2. Zwetl; 53 
3. Zwettl; 36 
4. wette; 27 
5. Wette; 18 
6. zwete...
Ergebnisse mit „reg“ XML-Attribut 
Zwetel 
•Zwettl, Zisterzienserstift 
•Zwettl (GB ZT) 
•Zisterzienserstift Zwettl (GB ZT...
Schlussfolgerungen 
 Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“, 
„Zwetil“ und „Zwettel“ den glei...
Fazit 
 Der MOM-CA Volltext umfasst momentan 
in etwa 1.5 Millionen Begriffe 
 Davon sind lediglich insgesamt ca. 
170.0...
Fragen? 
daniel.jeller 
@icar-us.eu 
17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
Nächste SlideShare
Wird geladen in …5
×

Mehrwert Digitalisierung - Möglichkeiten einer digitalen Diplomatik

600 Aufrufe

Veröffentlicht am

Vortrag von Daniel Jeller auf der Konferenz "Auf dem Weg zu einer gemeinsamen Identität - Quellen zur Geschichte Mitteleuropas im Digitalen Zeitalter" an der Universität Wien am 17.09.2014

Abstract:

Seit der Entstehung der Diplomatik im Siebzehnten Jahrhundert war die Lehre von den Urkunden einerseits eine der beständigsten der historischen Hilfswissenschaften und gleichzeitig bis heute stetigen Veränderungen und Weiterentwicklungen unterworfen. Anfangs lediglich Instrument für den „reinen Fälschungsnachweis“ entwickelten sich vielfältige Methoden zur Untersuchung von innerem und äußerem Aufbau sowie zeitlichem, räumlichem und rechtlichen Kontext einer Ur-kunde. Dies erst ermöglichte die „Bewertung [einer Urkunde] als Geschichtsquelle“ .
Bis heute ist die Evolution der Diplomatik nicht abgeschlossen. Besonders die Digitaltechnik hat, wie auch in einer Vielzahl von anderen Bereichen des modernen Lebens, einen großen Beitrag zur Weiterentwicklung dieser traditionsreichen Wissenschaft geleistet. Belege dafür sind unter ande-rem Tagungen wie die im Herbst 2013 in Paris/FR abgehaltene Digital Diplomatics oder das DEEDS-Projekt der Universität Toronto/CAN das unter anderem statistische Möglichkeiten zur Datierung mittelalterlicher englischer Urkunden untersucht .
Der vorliegende Vortrag möchte einen Beitrag zu dieser Entwicklung leisten, indem er einen ersten Blick auf die Möglichkeiten, die die Urkundendatenbank des Monasterium-Projektes für eine digi-tale Diplomatik bietet, wirft. Dazu wird erstens der konkrete Aufbau der Datenbank mit ihren mo-mentan um die 411.000 Dokumenten und rund 69.000 Transkriptionen sowie ihre Möglichkeiten und Limits vorgestellt. In einem zweiten Schritt werden die technischen Hilfsmittel, XML, xQuery, et cetera, für eine Untersuchung der Bestände beleuchtet. Drittens werden mit praktischen Bei-spielen zwei mögliche Stoßrichtungen für einen gewinnbringenden Einsatz der in den vorigen Schritten vorgestellten Werkzeuge betrachtet.
Diese sind einerseits die Untersuchung der Metadaten im Hinblick auf verschiedene diplomatische Fragestellungen und andererseits der Einsatz der Werkzeuge, um die bereits vorhandenen Meta-daten programmatisch zu verbessern beziehungsweise zu erweitern. Dabei stehen besonders die konkreten technischen Voraussetzungen sowie die Limitierungen, die sich aus den eingesetzten Technologien ergeben, im Vordergrund des Vortrags. Dies soll vor allem dazu dienen, zukünftige Einsatzmöglichkeiten von Monasterium.net für die Diplomatik abseits einer bloßen Erhöhung der Zugänglichkeit der Dokumente abzuschätzen.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
600
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
6
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Mehrwert Digitalisierung - Möglichkeiten einer digitalen Diplomatik

  1. 1. MEHRWERT DIGITALISIERUNG? Möglichkeiten einer Digitalen Diplomatik 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  2. 2. Diplomatik = Lehre von den Urkunden  Urkunden: schriftlicher Niederschlag von Rechtshandlungen v. a. im Mittelalter aber auch der frühen Neuzeit  Ursprünglicher Zweck war die Feststellung der Echtheit einer Urkunde  Untersuchung der äußeren und inneren Merkmale einer Urkunde  Im 17. Jhdt. begründet und vor allem ab dem 19. Jhdt. stark weiterentwickelt  Methoden sind u.a. Paläographie, Chronologie, Rechts- und Verfassungsgeschichte  Veröffentlichung von Bearbeitungen (=Editionen) traditionell in gedruckten Quellensammlungen 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  3. 3. Digitalisierung von Urkunden  Digitalisierung: Überführung einer analogen Größe in ein maschinenlesbares, digitales Format  Erste Ansätze bei Urkunden in den 1970er Jahren  Digitalisierung von optischen sowie inhaltlichen Informationen (äußere und innere Merkmale)  Konkret: Aufnahme eines optischen Abbilds und der zum Objekt gehörigen Metadaten (Datum, Aussteller, Ausstellungsort, Regest, Transkription, Material, Zustand, etc.)  Kombination der Daten in einer virtuellen digitalen Repräsentation, also Bild und Metadaten gemeinsam 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  4. 4. Traditioneller Mehrwert Maschinenlesbarkeit Durchsuchen Vernetzen Erreichbarkeit Einbinden in Datenbanken Gemeinsames Arbeiten Reproduzierbarkeit Im Unterricht verwenden Übertragen in andere Kontexte 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  5. 5. „Mehr“ Mehrwert? 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  6. 6. Beispiel: DEEDS ‒ „Documents of Early England Data Set“  Entstanden 1975; Universität Toronto, CA  Ca. 31 000 lateinische Urkunden vom 9. bis Ende des 13. Jahrhunderts  Bereitstellung eines umfangreichen Textkorpus und detaillierten Suchmöglichkeiten darin  Entwicklung von Methoden zur Datierung, Verortung und Identifikation von Personen, Sprachmerkmalen und Zusammenhängen  Eingesetzt werden computerunterstützte Technologien aus den Bereichen der Statistik und Linguistik Quelle: deeds.library.utoronto.ca 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  7. 7. DEEDS datiert lateinische Urkunden Beispiel aus dem Stiftsarchiv Schlägl in Oberösterreich: Urkunde vom 9. Juli 1218; http://www.mom-ca.uni-koeln.de/mom/AT-StiASchl/ Urkunden/1218_VII_09/charter (=Pichler, Isfried H., Urkundenbuch des Stiftes Schlägl, Aigen i. M., 2003, Nr. 2, S. 23) Datierung anhand von Wortmustern auf das Jahr 1234 bzw. mit 90% Wahrscheinlichkeit zwischen den Jahren 1218 und 1247. 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu N: 87 Median: 1233 Min - Max: 1172 - 1284 Q1-Q3: 1226 - 1238 95%: 1202 - 1252 90%: 1218 - 1247 Avg Error: 3 years
  8. 8. Voraussetzungen Zugang zu den Originaldaten Einheitliche Erschließungsstandards Gut dokumentiertes Datenformat Umfangreiches Datenmaterial 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  9. 9. Praxis: Das Monasterium-Portal und seine Datenbank MOM-CA www.monasterium.net 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  10. 10. Überblick  Durchgehende Entwicklung seit 2002  Online Datenbank mit Bestandsübersicht, Volltextsuche, und kollaborative Bearbeitung der Urkunden  Über 400 000 Urkunden aus dem Mittelalter und der Frühen Neuzeit 0 200,000 400,000 600,000 OR T E P E R SONEN B I LDE R T RANS K R. R EGE S T EN UR KUNDEN 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  11. 11. Grundlegende technische Struktur Backend •Browserbasiert •HTML5/JavaScript/XML •Passives Browsen •Aktives Bearbeiten •Kommun. über REST Frontend •XML-Datenbank •Webserver •Metadaten •Indizes •Keine öffentl. Schnittstelle 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  12. 12. Datenbank: Aufbau und Programmierung  Basierend auf der open source XML-Datenbank eXist  Abfragen über xQuery und XPath  Informationen (unter anderem) über Archive (EAG-XML), Bestände (EAD-XML) und Urkunden (CEI-XML)  eXist verfügt über mehrere, auf Apache - Lucene aufbauende Indextypen, die beliebig konfiguriert werden können  Werkzeuge zum Bearbeiten und Überwachen der Abfragen  Möglichkeiten zum Aufbau von komplexen Anwendungen innerhalb der Datenbank  Flexible Bearbeitung innerhalb und außerhalb der Datenbank möglich 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  13. 13. Nachteil: keine öffentliche Schnittstelle zur Datenbank aus Performancegründen Aber: die Datenbank ist vollständig exportierbar und lässt sich lokal installieren und beliebig nutzen 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  14. 14. Datenübersicht 75,566 94,686 69,118 700,282 564,221 1,458,948 0 100,000 200,000 300,000 400,000 500,000 600,000 700,000 Ortsnamen Personennamen Transkriptionen Häufigster Ausdruck ("et") Mehrfach vorkommende Begriffe Gesamtanzahl der Begriffe 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  15. 15. Voraussetzungen  Vertrautheit mit dem Datenmaterial (verwendete XML-Schemata, Datenstruktur etc.)  Bei komplexen Abfragen genügend Ausstattung des Computers mit Arbeitsspeicher (8GB können durchaus zu wenig sein)  Klare Zielsetzung um die Abfragen an die Anforderungen und den zur Verfügung stehenden Ressourcen entsprechend effizient zu schreiben 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  16. 16. Programm erfolgt ähnlich natürlicher Sprache Nimm alle Urkunden in der Datenbank … Nimm davon jene, die Transkriptionen mit als Ort ausgezeichneten Begriffen enthalten und die mit dem Buchstaben „z“ beginnen … Erzeuge eine Liste von allen in den Urkunden enthaltenen Orten … Zähle, wie oft diese Orte jeweils in allen Urkunden vorkommen … Liefere eine Liste dieser Orte gemeinsam mit der Anzahl der Vorkommnisse im Text. 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  17. 17. Alle Orte mit Anfangsbuchstabe „z“ in einer sortierten HTML-Liste 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  18. 18. Ergebnis  Laufzeit der Abfrage etwa 80 Minuten auf Laptop mit Dual-Core CPU und 16GB RAM  Liste mit 1864 Begriffen. Probleme  Abfragen können in diesem System schnell zu komplex werden.  Die Liste bedarf händischer Nacharbeit um aussagekräftig zu sein (vgl. Mehrfachnennungen von Orten; Beispiele: „zwettl“ und „zwetel“ oder „znojmo“ und „znaim“ 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  19. 19. „Klassische“ Problemlösungs-strategien Handarbeit • Listen werden manuell kombiniert • Ähnlichkeiten werden eliminiert •Ungenauigkeiten werden händisch ausgebessert Programmierung • Ergebnisse fließen in neue Abfragen ein • Abfragen finden in mehreren Stufen statt, Kombination findet nachträglich aber automatisch statt. Der großen Varianz an sprachlichen, qualitativen und methodologischen Eigenheiten der Metadaten wird mit etablierten Methoden begegnet. 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  20. 20. Möglichkeit: semi-automatische Verbesserung der Metadaten 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  21. 21. Beispiel: Ansatz für einen semiautomatischen Thesaurus Problem • Häufig existiert nur der reine Text einer Transkription • Bei der Suche müssen alle Varianten berücksichtigt werden Idealfall • Personen und Orte sind im XML-Text ausgezeichnet 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  22. 22. Beispiel: Varianten von Zwettl im Jahr 1352 http://www.mom-ca.uni-koeln.de/mom/AT-StaAZ/Urkunden/3/charter Ist-Stand in MOM-CA • „[…] di gelegen ist datz Zwetl under dem Galgenpuchel […]“ • „[…] in der stat datz Zwetl. […]“ • „[…] der stat anhangundem insigel datz Zwetel […]“ Idealfall • „[…] di gelegen ist datz <placeName reg=″Zwettl″ certainty=″100%″ type=″Stadt″>Zwetl</placeName> under dem Galgenpuchel […]“ • „[…] in der stat datz <placeName reg=″Zwettl″ certainty=″100%″ type=″Stadt″>Zwetl</placeName>. […]“ • „[…] der stat anhangundem insigel datz <placeName reg=″Zwettl″ certainty=″100%″ type=″Stadt″>Zwetel</placeName> […]“ 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  23. 23. Programmkonzept Auf Wunsch Ergänzung der Elemente im Volltext und dadurch Aufnahme in die Datenbank Präsentation der Ergebnisse zusammengefasst in einem Interface, das einem Bearbeiter ermöglicht, zu entscheiden, ob korrekte Identifikationen vorliegen Überprüfung der Ergebnisse auf gemeinsame Kontexte (Zeit, Archiv, etc.), die nahelegen, dass die Begriffe zusammen gehören Für alle Ergebnis-Begriffe Suche in der Datenbank nach bereits vorhandenen „placeName“-Elementen, die eine Identifizierung zulassen Die Datenbank wird auf mehrfache Weise nach dem Begriff („Zwetl“) durchsucht 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  24. 24. 36 Unscharfe Suchergebnisse für „Zwetl“ 1. Zwetel; 207 2. Zwetl; 53 3. Zwettl; 36 4. wette; 27 5. Wette; 18 6. zwetel; 14 7. Zwethl; 13 8. weltl; 12 9. Zwetil; 12 10. Zwettel; 10 11. Wetzl; 7 12. Zwéttl; 6 13. Zwettll; 5 14. O; 3 15. zwetil; 2 16. Wetfl; 2 17. Swett; 2 18. güettl; 2 19. Wetel; 2 20. Zwettln; 1 21. Zwetll; 1 22. Çwetel; 1 23. Wetti; 1 24. bettl; 1 25. wetzl; 1 26. Wittl; 1 27. Zwcttl; 1 28. Wentl; 1 29. wett; 1 30. Pettl; 1 31. zettl; 1 32. Czwettl; 1 33. pettl; 1 34. Zwettla; 1 35. zwetl; 1 36. guettl; 1 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  25. 25. Ergebnisse mit „reg“ XML-Attribut Zwetel •Zwettl, Zisterzienserstift •Zwettl (GB ZT) •Zisterzienserstift Zwettl (GB ZT) •Zisterzienserstift Zwettl Zwetl •Zwettl, Zisterzienserstift Zwettl •Zwettl (GB ZT) •Zwettl, Zisterzienserstift • Zwettl, Zisterzienserstift, Aussteller, Siegler • Zwettl, Cistercienserabtei • Zwettl, Zisterzienser-Stift • Zwettl, Zisterzienserabtei (GB ZT) •Zisterzienserstift Zwettl Zwettl (GB Zwettl, NÖ) Zwetil •Zwettl (GB ZT) •Zwettl, Zisterzienserstift Zwettel •Zwettl, Zisterzienserstift 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  26. 26. Schlussfolgerungen  Man könnte annehmen, dass die Begriffe „Zwetel“, „Zwetl, „Zwettel“, „Zwetil“ und „Zwettel“ den gleichen Ort bezeichnen.  Nach weiterer Überprüfung könnten (theoretisch) alle anderen Vorkommnisse dieser Begriffe mit den Metadaten ergänzt werden, und wären von dem Zeitpunkt an für weitere Untersuchungen zugänglich.  Es wäre angebracht, das Attribut „certainty“ zu verwenden, um die Unsicherheit durch die halbautomatische Erschließung zu dokumentieren <placeName reg=″Zwettl“ certainty =″50%“ >Zwetil</placeName> 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu
  27. 27. Fazit  Der MOM-CA Volltext umfasst momentan in etwa 1.5 Millionen Begriffe  Davon sind lediglich insgesamt ca. 170.000 als Orts- und Personennamen ausgezeichnet.  Selbst wenn ein Bruchteil davon halbautomatisch zugeordnet werden kann, erhöhen sich die Möglichkeiten für die Wissenschaft sprunghaft (in DEEDS sind 31 000 Urkunden enthalten)  Durch die fortschreitende Entwicklung sind weitere Verbesserungen wahrscheinlich. 1,458,948 564,221 700,282 700,000 600,000 500,000 400,000 300,000 200,000 100,000 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu 69,118 2,120 0
  28. 28. Fragen? daniel.jeller @icar-us.eu 17.09.2014 Daniel Jeller || daniel.jeller@icar-us.eu || http://www.icar-us.eu

×