Digitale Bibliothek Jakob Voß Datenformate und Standards Digitale Bibliothek WS 2008/2009 Fachhochschule Hannover Informat...
Nochmal Organisatorisches
Semesterplan <ul><li>29.09.08 - Einführung </li></ul><ul><li>06.10.08 -  Datenformate und Standards </li></ul><ul><li>13.1...
Termine für die Kurzvorträge <ul><li>27.10.08 – Privacy, OpenID </li></ul><ul><li>03.11.08 – ATOM, Lizenzmodelle, Weblogs ...
Hinweise zur Recherche <ul><li>Wissenschaftsportal b2i (Metasuche) </li></ul><ul><li>Fachzeitschriften und Konferenzen </l...
Übung zur Datenerfassung
Verarbeitung <ul><li>Format:  [fhhdb08]  und  G,T1,T2,T3,T4,K </li></ul>#!/usr/bin/perl open AUFGABEN, &quot;aufgaben.csv&...
Typische Erfahrungen <ul><li>Kommentare </li></ul><ul><ul><li>&quot;Wenn es möglich ist, würde ich mein Referat gerne im N...
Typische Erfahrungen <ul><li>Uneinheitliche Verknüpfung </li></ul><ul><ul><li>&quot;1&quot;, &quot;2&quot;, &quot;Gr2&quot...
Fazit <ul><li>Im Idealfall geht mit einem guten Datenformate vieles automatisch </li></ul><ul><li>Nicht alle Datenformate ...
Woraus bestehen Datenformate? <ul><li>Abstraktes Datenmodell </li></ul><ul><ul><li>Klassen, Entitäten, Relationen, Kardina...
Konkrete Kodierungsformen <ul><li>Feldbasierte Formate </li></ul><ul><li>Datenbank-Format (SQL) </li></ul><ul><li>XML </li...
Extensible Markup Language <ul><li>Auszeichnung mittels Tags </li></ul><ul><ul><li><Überschrift> Einleitung </Überschrift>...
Zeichen(de)kodierung <ul><li>Werden Daten in eine Struktur eingebettet, müssen in der Regel einige Sonderzeichen speziell ...
JavaScriptObjectNotation (JSON) <ul><li>[  </li></ul><ul><li>{  </li></ul><ul><li>&quot;name&quot;  : &quot;Fritzchen&quot...
Einheitlichkeit und Validierung <ul><li>Was nicht festgelegt ist, wird verschieden gehandhabt </li></ul><ul><li>Was nicht ...
Validierung <ul><li>Spezielles Programm </li></ul><ul><li>Schemadefinition (z.B. XML Schema) </li></ul><ul><ul><li>Wie dür...
Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Vater, Mutter, Kind </li></...
Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Elter, Elter, Kind </li></u...
Visuelles Format
Prolog-Format <ul><li>kind( helios, klymene, aigle ) . </li></ul><ul><li>kind( helios, klymene, phaetusa ) . </li></ul><ul...
GEDCOM-Format <ul><li>0 @I1@ INDI </li></ul><ul><li>1 NAME Helios </li></ul><ul><li>1 FAMS @F1@ </li></ul><ul><li>0 @I2@ I...
GEDCOM-XML-Format <ul><li><?xml version=&quot;1.0&quot;?> </li></ul><ul><li><GEDCOM> </li></ul><ul><li><IndividualRec Id=&...
Schlussfolgerung <ul><li>Es gibt viele Wege, die gleiche Information zu kodieren </li></ul><ul><li>Unterschiedliche Format...
Arten von Standards <ul><li>Normen </li></ul><ul><li>Industriestandard </li></ul><ul><li>De-Facto-Standard </li></ul><ul><...
Normierungsorganisationen <ul><li>Nationale Normen </li></ul><ul><ul><li>DIN, BSI, ANSI... </li></ul></ul><ul><li>Europäis...
Arten von Standards <ul><li>Internetstandards </li></ul><ul><ul><li>Request For Comments (RFC) der IETF </li></ul></ul><ul...
Offene Standards <ul><li>Offene Organisationen (RFC , W3C) </li></ul><ul><li>Anschließende Offenlegung  (z.B. SRU/SRW) </l...
Standard-Mashups <ul><li>Standards basieren auf anderen Standards </li></ul><ul><ul><li>XML (W3C) basiert u.A. auf URI (RF...
Bewertung <ul><li>Standards sind gemeinsame  Vereinbarungen zur Kommunikation </li></ul><ul><li>Standards sind nur so gut ...
Bibliothekarische Datenformate <ul><li>Bernhard Eversberg  (1989, 1994, 1999) : Was sind und was sollen Bibliothekarische ...
Beispiel: PICA-Datenformat <ul><li>Internes (bibliografisches) Datenformat der CBS und LBS-Software </li></ul><ul><li>Stru...
Feldbasiertes Formate <ul><li>Einfach </li></ul><ul><ul><li>Titel : Zettelwirtschaft  </li></ul></ul><ul><ul><li>Autor : K...
Einige weitere Formate <ul><li>[Qualified] Dublin Core (DC) </li></ul><ul><li>Metadata Object Description Schema (MODS) </...
&quot;Semantische&quot; Datenformate <ul><li>Datenfelder als global definierte &quot;Properties&quot; mit einem festen URI...
Zusammenfassung <ul><li>Bei Datenformaten  sehr genau  sein </li></ul><ul><li>Unterscheidung notwendig </li></ul><ul><ul><...
Bis nächste Woche!
Nächste SlideShare
Wird geladen in …5
×

Datenformate und Standards

2.527 Aufrufe

Veröffentlicht am

Vorlesung zu Datenformaten und Standards im Rahmen der Lehrveranstaltung \'Digitale Bibliothek\' an der Fachhochschule Hannover im WS 2008/09

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.527
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
11
Aktionen
Geteilt
0
Downloads
33
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Datenformate und Standards

  1. 1. Digitale Bibliothek Jakob Voß Datenformate und Standards Digitale Bibliothek WS 2008/2009 Fachhochschule Hannover Informationsmanagement (BA) TAG. MONAT 2008
  2. 2. Nochmal Organisatorisches
  3. 3. Semesterplan <ul><li>29.09.08 - Einführung </li></ul><ul><li>06.10.08 - Datenformate und Standards </li></ul><ul><li>13.10.08 - Schnittstellen und Webservices </li></ul><ul><li>20.10.08 - Semantic Web und Wissensorganisation </li></ul><ul><li>27.10.08 - Communities und Soziale Netzwerke </li></ul><ul><li>03.11.08 - Weblogs, Feeds und Syndication </li></ul><ul><li>10.11.08 - Formen und Bestandteile Digitaler Bibliotheken </li></ul><ul><li>17.11.08 - Empfehlungsdienste und Data-Mining </li></ul><ul><li>24.11.08 - Datenkonvertierung und Mapping </li></ul><ul><li>01.12.08 - Mashups und Automatisierung </li></ul><ul><li>08.12.08 - Digitalisierung und Langzeitarchivierung </li></ul><ul><li>15.12.08 - Social Tagging und Indexierung </li></ul><ul><li>22.12.08 - Nutzer, Autoren und Werke im digitalen Raum </li></ul><ul><li>05.01.09 - Zusammenfassung und Ausblick </li></ul>mit Kurzvorträgen zusammen Achtung, Gruppenwechsel!
  4. 4. Termine für die Kurzvorträge <ul><li>27.10.08 – Privacy, OpenID </li></ul><ul><li>03.11.08 – ATOM, Lizenzmodelle, Weblogs </li></ul><ul><li>10.11.08 – Repositories, Föderation </li></ul><ul><li>17.11.08 – Kataloganreicherung, Fernseharchive </li></ul><ul><li>24.11.08 – Hochschulbibliographien, BibTeX </li></ul><ul><li>01.12.08 – OpenStreetmap, Geodaten </li></ul><ul><li>08.12.08 – Netzkunst, Internet Archive </li></ul><ul><li>15.12.08 – Semantic Tagging, LibraryThing </li></ul><ul><li>22.12.08 – Open Library, Kommentarfunktionen </li></ul>
  5. 5. Hinweise zur Recherche <ul><li>Wissenschaftsportal b2i (Metasuche) </li></ul><ul><li>Fachzeitschriften und Konferenzen </li></ul><ul><li>Blogsuche </li></ul><ul><li>Link- und Literaturlisten </li></ul><ul><li>Nachfragen (Mailinglisten, Experten, Bibliothekar etc.) </li></ul><ul><li>Hinweise im Moodle-Wiki lesen, ggf. fragen </li></ul><ul><li>Ergebnisse erschließen bei BibSonomy </li></ul>
  6. 6. Übung zur Datenerfassung
  7. 7. Verarbeitung <ul><li>Format: [fhhdb08] und G,T1,T2,T3,T4,K </li></ul>#!/usr/bin/perl open AUFGABEN, &quot;aufgaben.csv&quot;; while (<AUFGABEN>) { chomp; $_ =~ s/s*,s*/,/g; # Leerzeichen entfernen ($g, $t1, $t2, $t3, $t4, $k) = split &quot;,&quot;, $_; print &quot;$t1 $t2 &quot;; # z.B. alle gewünschte Themen } <ul><li>Mail > Parsen > Aufgaben verteilen </li></ul>
  8. 8. Typische Erfahrungen <ul><li>Kommentare </li></ul><ul><ul><li>&quot;Wenn es möglich ist, würde ich mein Referat gerne im November halten!&quot; </li></ul></ul><ul><ul><li>„ Hochschulbibliographien wäre mein Erstwunsch“ </li></ul></ul><ul><li>Verschiedene Ansetzung </li></ul><ul><ul><li>&quot;T1 Struktur der Inhalte von *LibraryThing&quot; vs. &quot;LibraryThing&quot; </li></ul></ul><ul><ul><li>&quot;Internetarchive&quot; vs. &quot;Internet Archive&quot; </li></ul></ul>
  9. 9. Typische Erfahrungen <ul><li>Uneinheitliche Verknüpfung </li></ul><ul><ul><li>&quot;1&quot;, &quot;2&quot;, &quot;Gr2&quot;, &quot;Gruppe 2&quot; </li></ul></ul><ul><ul><li>&quot;1,4,1,6,7,hoffentlich klappts&quot; </li></ul></ul><ul><li>Lückenhafte Datengrundlage </li></ul><ul><ul><li>&quot;Die Zeile sollte um den Namen des Studenten erweitert werden.&quot; </li></ul></ul><ul><ul><li>Mails bis Freitag Abend: 24/36 </li></ul></ul><ul><ul><li>Mails bis Sonntag Abend : 32/36 </li></ul></ul>
  10. 10. Fazit <ul><li>Im Idealfall geht mit einem guten Datenformate vieles automatisch </li></ul><ul><li>Nicht alle Datenformate sind ideal, vor allem ihre Benutzung nicht! </li></ul>
  11. 11. Woraus bestehen Datenformate? <ul><li>Abstraktes Datenmodell </li></ul><ul><ul><li>Klassen, Entitäten, Relationen, Kardinalität... </li></ul></ul><ul><li>Konkrete Syntax und Kodierung </li></ul><ul><ul><li>CSV, XML, RDF..., Zeichenkodierung </li></ul></ul><ul><ul><li>Oft in mehreren Ebenen </li></ul></ul><ul><li>Verwendung </li></ul><ul><ul><li>Erfahrung und Beispiele </li></ul></ul><ul><ul><li>Werkzeuge </li></ul></ul>
  12. 12. Konkrete Kodierungsformen <ul><li>Feldbasierte Formate </li></ul><ul><li>Datenbank-Format (SQL) </li></ul><ul><li>XML </li></ul><ul><li>JSON </li></ul><ul><li>Microformats </li></ul><ul><li>RDF (Semantic Web) </li></ul><ul><li>... </li></ul>
  13. 13. Extensible Markup Language <ul><li>Auszeichnung mittels Tags </li></ul><ul><ul><li><Überschrift> Einleitung </Überschrift> </li></ul></ul><ul><ul><li><hr /> = <hr></hr> </li></ul></ul><ul><ul><li><a href= &quot;home.htm&quot; class= &quot;mylink&quot; > ... </li></ul></ul><ul><li>Hierarchische Struktur (XML-Baum) </li></ul><ul><li>Character Entities </li></ul><ul><ul><li>& &amp; < &lt; > &gt; &quot; &quot; ' &apos; </li></ul></ul><ul><ul><li>&#xXX; &#DDD; </li></ul></ul>
  14. 14. Zeichen(de)kodierung <ul><li>Werden Daten in eine Struktur eingebettet, müssen in der Regel einige Sonderzeichen speziell kodiert werden </li></ul><ul><ul><li>XML : & < ... &amp; &lt; &lt; &#...; </li></ul></ul><ul><ul><li>URL : # + ... %23 %2B ... </li></ul></ul><ul><li>Mehrfachkodierung über mehrere Schichten </li></ul><ul><li>Achtung : wenn die Kodierung und Ebenen unbekannt sind, kommt Zeichensalat heraus: </li></ul><ul><ul><li>&amp; &amp;amp; &amp;amp;amp; ... </li></ul></ul>
  15. 15. JavaScriptObjectNotation (JSON) <ul><li>[ </li></ul><ul><li>{ </li></ul><ul><li>&quot;name&quot; : &quot;Fritzchen&quot;, </li></ul><ul><li>&quot;alter&quot; : 4 </li></ul><ul><li>}, </li></ul><ul><li>{ </li></ul><ul><li>&quot;name&quot; : &quot;Fritz&quot;, </li></ul><ul><li>&quot;alter&quot; : 24 </li></ul><ul><li>} </li></ul><ul><li>] </li></ul>
  16. 16. Einheitlichkeit und Validierung <ul><li>Was nicht festgelegt ist, wird verschieden gehandhabt </li></ul><ul><li>Was nicht überprüft werden kann, wird missachtet oder ignoriert </li></ul><ul><li>Was keine Auswirkungen hat ist irrelevant </li></ul>
  17. 17. Validierung <ul><li>Spezielles Programm </li></ul><ul><li>Schemadefinition (z.B. XML Schema) </li></ul><ul><ul><li>Wie dürfen Daten aussehen? </li></ul></ul><ul><ul><li>Was ist vorgeschrieben? </li></ul></ul>
  18. 18. Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Vater, Mutter, Kind </li></ul></ul><ul><ul><li>Relation: Nachkomme (Vater, Mutter, Kind) </li></ul></ul>
  19. 19. Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Elter, Elter, Kind </li></ul></ul><ul><ul><li>Relation: Nachkomme (Elter, Elter, Kind) </li></ul></ul>
  20. 20. Visuelles Format
  21. 21. Prolog-Format <ul><li>kind( helios, klymene, aigle ) . </li></ul><ul><li>kind( helios, klymene, phaetusa ) . </li></ul><ul><li>kind( helios, klymene, lampetia ) . </li></ul><ul><li>kind( helios, klymene, phaeton ) . </li></ul><ul><li>geschwister( X, Y ) :- kind( A, B, X ), kind( A, B, Y ) . </li></ul>
  22. 22. GEDCOM-Format <ul><li>0 @I1@ INDI </li></ul><ul><li>1 NAME Helios </li></ul><ul><li>1 FAMS @F1@ </li></ul><ul><li>0 @I2@ INDI </li></ul><ul><li>1 NAME Klymene </li></ul><ul><li>1 FAMS @F1@ </li></ul><ul><li>0 @F1@ FAM </li></ul><ul><li>1 CHIL @I3@ </li></ul><ul><li>1 CHIL @I4@ </li></ul><ul><li>1 CHIL @I5@ </li></ul><ul><li>1 CHIL @I6@ </li></ul><ul><li>0 @I3@ INDI </li></ul><ul><li>1 NAME Aigle </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>0 @I4@ INDI </li></ul><ul><li>1 NAME Phaetusa </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>0 @I5@ INDI </li></ul><ul><li>1 NAME Lampetia </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>0 @I6@ INDI </li></ul><ul><li>1 NAME Phaeto </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>GEnealogical Data COMmunication Format (entwickelt um die Toten zu Taufen ;-) </li></ul>
  23. 23. GEDCOM-XML-Format <ul><li><?xml version=&quot;1.0&quot;?> </li></ul><ul><li><GEDCOM> </li></ul><ul><li><IndividualRec Id=&quot;I1&quot;> </li></ul><ul><li><IndivName>Helios</IndivName> </li></ul><ul><li></IndividualRec> </li></ul><ul><li>... </li></ul><ul><li><FamilyRec Id=&quot;F1&quot;> </li></ul><ul><li><HusbFath> </li></ul><ul><li><Link Target=&quot;IndividualRec&quot; Ref=&quot;I1&quot;/> </li></ul><ul><li></HusbFath> </li></ul><ul><li><WifeMoth> </li></ul><ul><li><Link Target=&quot;IndividualRec&quot; Ref=&quot;I2&quot;/> </li></ul><ul><li></WifeMoth> </li></ul><ul><li><Child> </li></ul><ul><li><Link Target=&quot;IndividualRec&quot; Ref=&quot;I3&quot;/> </li></ul><ul><li></Child> </li></ul><ul><li>... </li></ul>
  24. 24. Schlussfolgerung <ul><li>Es gibt viele Wege, die gleiche Information zu kodieren </li></ul><ul><li>Unterschiedliche Formate und Kodierungen haben unterschiedliche Eigenheiten </li></ul><ul><li>Notwendig sind </li></ul><ul><ul><li>Standards </li></ul></ul><ul><ul><li>Konvertierung zwischen Kodierungen </li></ul></ul>
  25. 25. Arten von Standards <ul><li>Normen </li></ul><ul><li>Industriestandard </li></ul><ul><li>De-Facto-Standard </li></ul><ul><li>Offener Standard </li></ul>
  26. 26. Normierungsorganisationen <ul><li>Nationale Normen </li></ul><ul><ul><li>DIN, BSI, ANSI... </li></ul></ul><ul><li>Europäische Normen (EN) – seit 1961 </li></ul><ul><ul><li>CEN, CENELEC, ETSI </li></ul></ul><ul><li>ISO – seit 1947/1926 (Vorläufer ISI) </li></ul><ul><ul><li>Noch früher: MKS-System (1889) </li></ul></ul><ul><li>Möglichst Konsens-Prinzip aller „Beteiligten“ </li></ul><ul><li>Relativ sicher aber langwierig und teuer </li></ul>
  27. 27. Arten von Standards <ul><li>Internetstandards </li></ul><ul><ul><li>Request For Comments (RFC) der IETF </li></ul></ul><ul><ul><li>Recommendations des W3C </li></ul></ul><ul><li>Bibliothekarische Standards </li></ul><ul><ul><li>MARC, MAB, Z39.50, SRU, FRBR ... </li></ul></ul><ul><ul><li>Datenformate und Verfahren </li></ul></ul>
  28. 28. Offene Standards <ul><li>Offene Organisationen (RFC , W3C) </li></ul><ul><li>Anschließende Offenlegung (z.B. SRU/SRW) </li></ul><ul><li>Community-basiert (Microformats) </li></ul><ul><li>Offene Standards => Freie Märkte </li></ul>
  29. 29. Standard-Mashups <ul><li>Standards basieren auf anderen Standards </li></ul><ul><ul><li>XML (W3C) basiert u.A. auf URI (RFC 2396), UTF-8 (RFC 2279), Sprachcodes (RFC 1766) basierend auf ISO 693 und ISO 3166 ... </li></ul></ul><ul><ul><li>OpenDocument basiert auf XML, ZIP, etc. </li></ul></ul><ul><li>Deshalb: Alles muss genau definiert sein! </li></ul><ul><li>Vorteil wie bei Mashups im Allgemeinen </li></ul><ul><ul><li>Rad nicht dauernd neu erfinden </li></ul></ul><ul><ul><li>Nachnutzung bestehender Infrastruktur </li></ul></ul>
  30. 30. Bewertung <ul><li>Standards sind gemeinsame Vereinbarungen zur Kommunikation </li></ul><ul><li>Standards sind nur so gut wie die Verwendung </li></ul><ul><li>Standards müssen offen und nutzbar sein </li></ul><ul><li>Standards müssen überprüfbar sein </li></ul><ul><li>Keep it simple and provide tools! </li></ul><ul><li>Es ist notwendig genau hinschauen, was genau ein Standard vorschreibt und wo genau er eingesetzt wird </li></ul>
  31. 31. Bibliothekarische Datenformate <ul><li>Bernhard Eversberg (1989, 1994, 1999) : Was sind und was sollen Bibliothekarische Datenformate? http://www.allegro-c.de/formate/ </li></ul><ul><li>MARC, MAB, PICA, Allegro ... </li></ul><ul><ul><li>Insellösungen (eigener Zeichensatz, eigene Werkzeuge, eigene Sonderwege...) </li></ul></ul><ul><li>Heute : Unicode, XML, RDF, HTML ... </li></ul><ul><ul><li>Rein bibliothekarische Datenformate machen keinen Sinn mehr </li></ul></ul>
  32. 32. Beispiel: PICA-Datenformat <ul><li>Internes (bibliografisches) Datenformat der CBS und LBS-Software </li></ul><ul><li>Struktur aus Feldern und Unterfeldern </li></ul><ul><li>Pica3 zur Katalogisierung und Pica+ intern </li></ul><ul><li>Details zur Verwendung geregelt durch Katalogisierungsrichtlinien </li></ul><ul><li>Ähnliche Grund struktur wie MAB/MARC </li></ul>
  33. 33. Feldbasiertes Formate <ul><li>Einfach </li></ul><ul><ul><li>Titel : Zettelwirtschaft </li></ul></ul><ul><ul><li>Autor : Krajewski, Markus </li></ul></ul><ul><li>Pica+ </li></ul><ul><ul><li>021A : </li></ul></ul><ul><ul><ul><li>a : Zettelwirtschaft </li></ul></ul></ul><ul><ul><li>028A : </li></ul></ul><ul><ul><ul><li>d : Markus </li></ul></ul></ul><ul><ul><ul><li>a : Krajeski </li></ul></ul></ul>
  34. 34. Einige weitere Formate <ul><li>[Qualified] Dublin Core (DC) </li></ul><ul><li>Metadata Object Description Schema (MODS) </li></ul><ul><li>Metadata Encoding and Transmission Standard (METS) </li></ul><ul><li>Text Encoding Initiative (TEI) </li></ul><ul><li>Encoded Archival Description (EAD) </li></ul><ul><li>ONIX International (Online Information Exchange) </li></ul><ul><li>EXIF, IPTC (XMP) </li></ul><ul><li>u.v.a.m. ! </li></ul>ONIX
  35. 35. &quot;Semantische&quot; Datenformate <ul><li>Datenfelder als global definierte &quot;Properties&quot; mit einem festen URI </li></ul><ul><ul><li>Beispiel: http://xmlns.com/foaf/0.1/name </li></ul></ul><ul><li>Ggf. zusätzliche Beschränkung auf bestimmte Datentypen </li></ul><ul><li>Ohne Validierung wenig hilfreich! </li></ul><ul><li>Vom Datenformat zur Ontologie </li></ul>
  36. 36. Zusammenfassung <ul><li>Bei Datenformaten sehr genau sein </li></ul><ul><li>Unterscheidung notwendig </li></ul><ul><ul><li>Abstrakte Strukturierung (Datenmodell) </li></ul></ul><ul><ul><li>Konkrete Kodierung (Datenformat) </li></ul></ul><ul><ul><li>Anwendung (Werkzeuge und Praxis) </li></ul></ul><ul><li>Definiert durch Standards </li></ul><ul><li>Datenformate basieren aufeinander </li></ul>
  37. 37. Bis nächste Woche!

×