Eine Biografie aus der ADB/NDB als XML

783 Aufrufe

Veröffentlicht am

Folien zum Referat "Eine Biografie aus ADB/NDB als XML" für das Hauptseminar "Datenbanken vs. Markup" bei Prof. Dr. Manfred Thaller an der Universität zu Köln im Wintersemester 2009 / 10

Veröffentlicht in: Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
783
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
40
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Eine Biografie aus der ADB/NDB als XML

  1. 1. Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin
  2. 2. 2 XML – (eXtensible Markup Language) • Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten • Namen der Elemente und Attribute sind frei wählbar • Dateistruktur durch DTD oder XML Schema definierbar • Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …
  3. 3. 3 Vorteile von XML • Für Mensch und Maschine verständliche Informationen (semantic Web) • Lizenzfreiheit • Plattformunabhängigkeit • Medienneutralität ▫ Einsatz in verschiedenen Systemen ▫ Konvertierung in andere Dateiformate
  4. 4. 4 Quelle für die Auszeichnung • Biografie aus ADB / NDB am Beispiel von „Curt Goetz“ • Grafik • Ohne OCR (Texterkennung) ▫ Deshalb nicht durchsuchbar • Große Dateigröße
  5. 5. 5 Ziel der Auszeichnung in XML • Druchsuchbarer Text (geringe Dateigröße und suchmaschinenkonform) • Verlinkungen innerhalb des Textes für schnelle Navigation • (Evtl. Kopplung an die Originalgrafik bei älteren Texten) • Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM) • Semantische Struktur • Für jede Personenbiografie eine Datei
  6. 6. 6 Das wichtigste Element: <person> • Element <person> ist das Kernstück einer Biografie • Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID • Berufe und Personenbeschreibungen werden an die ID gekoppelt. • Für die inter-biografische Verbindung wichtig!
  7. 7. 7 Beispiel des Elements <person> • <person geschlecht="männlich„ id="Goetz_Curt_1"> • Attribute ▫ geschlecht = (männlich | weiblich) ▫ ID besteht aus Nachname_Vorname_Zahl  Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und Nachnamen unterscheiden • Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)
  8. 8. 8 Analyse der Kurzinfo Name, Vorname Beruf • Geburtsdatum / -ort; Sterbadatum / -ort • Konfession • • • Orthographisch: ▫ Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“) ▫ Entities (Stern, Kreuz )
  9. 9. 9 Auszeichnung der Kurzinfo Name wird hervorgehoben Entities werden eingefügt († für Kreuz) • Beruf wird an person gekoppelt durch person_ref • Beruf bekommt eine Kategorie • •
  10. 10. 10 Absätze im Original • Absätze werden durch gekennzeichnet <absatz>...</absatz>
  11. 11. 11 Analyse der Familie Vater Mutter • Ehepartner(in) • Kinder • • • Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex) • Symbole, für die es keine Entities gibt (Eheringe)
  12. 12. 12 Auszeichnung des Vaters • Abschnitt innerhalb <familie> • Personen bekommen ID • Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref
  13. 13. 13 Auszeichnung der Mutter • Komplexe Verschachtelung • Struktur Nur noch im Strukturbaum ersichtlich
  14. 14. 14 Auszeichnung des Ehepartners • Eheringe als Bilddatei! • Mehrere <ehepartner> möglich • <scheidung> kann eingefügt werden (bei Goetz nicht nötig) • Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
  15. 15. 15 Analyse der „eigentlichen“ Biografie • Durchgehender Text • Weitere Personen kommen vor • In anderen Biografien: Studium, Institut und Studienjahre • Mehrere Absätze
  16. 16. 16 Auszeichnung der „eigentlichen“ Biografie • Wird von <biographie> umschlossen • Personen werden ausgezeichnet mittels ID
  17. 17. 17 Analyse der Werke Kategorie (Werkstyp) Titel • Erscheinungsjahr • Sonstige Bemerkungen • •
  18. 18. 18 Auszeichnung der Werke • <werk> bekommt Attrribute typ und jahr • Titel in <werk_name> • Sonstiges innerhalb <werk>
  19. 19. 19 Seitenumbrüche im Original • Seitenumbrüche werden in der XML repräsentiert durch • Übergang von einer Seite zur anderen durch | <seite umbruch="588|589"/> • Auch Seitenzahlen nach anderem Format möglich (XV|XVI; 10a|10b; 45.1|45.2 …) Vorteil: PDF wird 1:1 repräsentiert
  20. 20. 20 Analyse des Literaturnachweises Autor Titel • Erscheinungsjahr • Verlag oder Seitennummer • • • Literaturnachweise getrennt durch Semikolon • Querverweise zu anderen Personen (Wilhelm Rocco)
  21. 21. 21 Auszeichnung des Literaturnachweises Einzelne Einträge in <lit-eintrag> • Sinvoll in autor, titel, jahr usw. zu trennen? • Kopplung der Einträge an ID (wegen W. Rocco) ?
  22. 22. 22 Analyse des Fundstelle Werk Autor • Seitenzahlen • Bandnummer • • • Mehrere Funstellen möglich • Unterscheidung zwischen Haupteintrag und Nebeneintrag
  23. 23. 23 Auszeichnung der Fundstelle • Am Anfang der Datei in <meta> • <fundstelle> hat alle Angaben als Attribute und als Text • Autor separat in <autor> getaggt mit persönlicher ID
  24. 24. 24 Standartisierung der Struktur • Für eine einheitliche Struktur für alle Einträge in der ADB / NDB: ▫ Mehrere verschiedene Strukturtypen taggen ▫ Eine DTD oder ein XML-Schema definieren • Dokumentation der DTD ▫ Welche Elemente können in welchen enthalten sein?
  25. 25. 25

×