Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Digitale Bibliothek Jakob Voß Datenformate und Standards Digitale Bibliothek WS 2008/2009 Fachhochschule Hannover Informat...
Nochmal Organisatorisches
Semesterplan <ul><li>29.09.08 - Einführung </li></ul><ul><li>06.10.08 -  Datenformate und Standards </li></ul><ul><li>13.1...
Termine für die Kurzvorträge <ul><li>27.10.08 – Privacy, OpenID </li></ul><ul><li>03.11.08 – ATOM, Lizenzmodelle, Weblogs ...
Hinweise zur Recherche <ul><li>Wissenschaftsportal b2i (Metasuche) </li></ul><ul><li>Fachzeitschriften und Konferenzen </l...
Übung zur Datenerfassung
Verarbeitung <ul><li>Format:  [fhhdb08]  und  G,T1,T2,T3,T4,K </li></ul>#!/usr/bin/perl open AUFGABEN, &quot;aufgaben.csv&...
Typische Erfahrungen <ul><li>Kommentare </li></ul><ul><ul><li>&quot;Wenn es möglich ist, würde ich mein Referat gerne im N...
Typische Erfahrungen <ul><li>Uneinheitliche Verknüpfung </li></ul><ul><ul><li>&quot;1&quot;, &quot;2&quot;, &quot;Gr2&quot...
Fazit <ul><li>Im Idealfall geht mit einem guten Datenformate vieles automatisch </li></ul><ul><li>Nicht alle Datenformate ...
Woraus bestehen Datenformate? <ul><li>Abstraktes Datenmodell </li></ul><ul><ul><li>Klassen, Entitäten, Relationen, Kardina...
Konkrete Kodierungsformen <ul><li>Feldbasierte Formate </li></ul><ul><li>Datenbank-Format (SQL) </li></ul><ul><li>XML </li...
Extensible Markup Language <ul><li>Auszeichnung mittels Tags </li></ul><ul><ul><li><Überschrift> Einleitung </Überschrift>...
Zeichen(de)kodierung <ul><li>Werden Daten in eine Struktur eingebettet, müssen in der Regel einige Sonderzeichen speziell ...
JavaScriptObjectNotation (JSON) <ul><li>[  </li></ul><ul><li>{  </li></ul><ul><li>&quot;name&quot;  : &quot;Fritzchen&quot...
Einheitlichkeit und Validierung <ul><li>Was nicht festgelegt ist, wird verschieden gehandhabt </li></ul><ul><li>Was nicht ...
Validierung <ul><li>Spezielles Programm </li></ul><ul><li>Schemadefinition (z.B. XML Schema) </li></ul><ul><ul><li>Wie dür...
Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Vater, Mutter, Kind </li></...
Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Elter, Elter, Kind </li></u...
Visuelles Format
Prolog-Format <ul><li>kind( helios, klymene, aigle ) . </li></ul><ul><li>kind( helios, klymene, phaetusa ) . </li></ul><ul...
GEDCOM-Format <ul><li>0 @I1@ INDI </li></ul><ul><li>1 NAME Helios </li></ul><ul><li>1 FAMS @F1@ </li></ul><ul><li>0 @I2@ I...
GEDCOM-XML-Format <ul><li><?xml version=&quot;1.0&quot;?> </li></ul><ul><li><GEDCOM> </li></ul><ul><li><IndividualRec Id=&...
Schlussfolgerung <ul><li>Es gibt viele Wege, die gleiche Information zu kodieren </li></ul><ul><li>Unterschiedliche Format...
Arten von Standards <ul><li>Normen </li></ul><ul><li>Industriestandard </li></ul><ul><li>De-Facto-Standard </li></ul><ul><...
Normierungsorganisationen <ul><li>Nationale Normen </li></ul><ul><ul><li>DIN, BSI, ANSI... </li></ul></ul><ul><li>Europäis...
Arten von Standards <ul><li>Internetstandards </li></ul><ul><ul><li>Request For Comments (RFC) der IETF </li></ul></ul><ul...
Offene Standards <ul><li>Offene Organisationen (RFC , W3C) </li></ul><ul><li>Anschließende Offenlegung  (z.B. SRU/SRW) </l...
Standard-Mashups <ul><li>Standards basieren auf anderen Standards </li></ul><ul><ul><li>XML (W3C) basiert u.A. auf URI (RF...
Bewertung <ul><li>Standards sind gemeinsame  Vereinbarungen zur Kommunikation </li></ul><ul><li>Standards sind nur so gut ...
Bibliothekarische Datenformate <ul><li>Bernhard Eversberg  (1989, 1994, 1999) : Was sind und was sollen Bibliothekarische ...
Beispiel: PICA-Datenformat <ul><li>Internes (bibliografisches) Datenformat der CBS und LBS-Software </li></ul><ul><li>Stru...
Feldbasiertes Formate <ul><li>Einfach </li></ul><ul><ul><li>Titel : Zettelwirtschaft  </li></ul></ul><ul><ul><li>Autor : K...
Einige weitere Formate <ul><li>[Qualified] Dublin Core (DC) </li></ul><ul><li>Metadata Object Description Schema (MODS) </...
&quot;Semantische&quot; Datenformate <ul><li>Datenfelder als global definierte &quot;Properties&quot; mit einem festen URI...
Zusammenfassung <ul><li>Bei Datenformaten  sehr genau  sein </li></ul><ul><li>Unterscheidung notwendig </li></ul><ul><ul><...
Bis nächste Woche!
Nächste SlideShare
Wird geladen in …5
×

Datenformate und Standards

2.619 Aufrufe

Veröffentlicht am

Vorlesung zu Datenformaten und Standards im Rahmen der Lehrveranstaltung \'Digitale Bibliothek\' an der Fachhochschule Hannover im WS 2008/09

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Datenformate und Standards

  1. 1. Digitale Bibliothek Jakob Voß Datenformate und Standards Digitale Bibliothek WS 2008/2009 Fachhochschule Hannover Informationsmanagement (BA) TAG. MONAT 2008
  2. 2. Nochmal Organisatorisches
  3. 3. Semesterplan <ul><li>29.09.08 - Einführung </li></ul><ul><li>06.10.08 - Datenformate und Standards </li></ul><ul><li>13.10.08 - Schnittstellen und Webservices </li></ul><ul><li>20.10.08 - Semantic Web und Wissensorganisation </li></ul><ul><li>27.10.08 - Communities und Soziale Netzwerke </li></ul><ul><li>03.11.08 - Weblogs, Feeds und Syndication </li></ul><ul><li>10.11.08 - Formen und Bestandteile Digitaler Bibliotheken </li></ul><ul><li>17.11.08 - Empfehlungsdienste und Data-Mining </li></ul><ul><li>24.11.08 - Datenkonvertierung und Mapping </li></ul><ul><li>01.12.08 - Mashups und Automatisierung </li></ul><ul><li>08.12.08 - Digitalisierung und Langzeitarchivierung </li></ul><ul><li>15.12.08 - Social Tagging und Indexierung </li></ul><ul><li>22.12.08 - Nutzer, Autoren und Werke im digitalen Raum </li></ul><ul><li>05.01.09 - Zusammenfassung und Ausblick </li></ul>mit Kurzvorträgen zusammen Achtung, Gruppenwechsel!
  4. 4. Termine für die Kurzvorträge <ul><li>27.10.08 – Privacy, OpenID </li></ul><ul><li>03.11.08 – ATOM, Lizenzmodelle, Weblogs </li></ul><ul><li>10.11.08 – Repositories, Föderation </li></ul><ul><li>17.11.08 – Kataloganreicherung, Fernseharchive </li></ul><ul><li>24.11.08 – Hochschulbibliographien, BibTeX </li></ul><ul><li>01.12.08 – OpenStreetmap, Geodaten </li></ul><ul><li>08.12.08 – Netzkunst, Internet Archive </li></ul><ul><li>15.12.08 – Semantic Tagging, LibraryThing </li></ul><ul><li>22.12.08 – Open Library, Kommentarfunktionen </li></ul>
  5. 5. Hinweise zur Recherche <ul><li>Wissenschaftsportal b2i (Metasuche) </li></ul><ul><li>Fachzeitschriften und Konferenzen </li></ul><ul><li>Blogsuche </li></ul><ul><li>Link- und Literaturlisten </li></ul><ul><li>Nachfragen (Mailinglisten, Experten, Bibliothekar etc.) </li></ul><ul><li>Hinweise im Moodle-Wiki lesen, ggf. fragen </li></ul><ul><li>Ergebnisse erschließen bei BibSonomy </li></ul>
  6. 6. Übung zur Datenerfassung
  7. 7. Verarbeitung <ul><li>Format: [fhhdb08] und G,T1,T2,T3,T4,K </li></ul>#!/usr/bin/perl open AUFGABEN, &quot;aufgaben.csv&quot;; while (<AUFGABEN>) { chomp; $_ =~ s/s*,s*/,/g; # Leerzeichen entfernen ($g, $t1, $t2, $t3, $t4, $k) = split &quot;,&quot;, $_; print &quot;$t1 $t2 &quot;; # z.B. alle gewünschte Themen } <ul><li>Mail > Parsen > Aufgaben verteilen </li></ul>
  8. 8. Typische Erfahrungen <ul><li>Kommentare </li></ul><ul><ul><li>&quot;Wenn es möglich ist, würde ich mein Referat gerne im November halten!&quot; </li></ul></ul><ul><ul><li>„ Hochschulbibliographien wäre mein Erstwunsch“ </li></ul></ul><ul><li>Verschiedene Ansetzung </li></ul><ul><ul><li>&quot;T1 Struktur der Inhalte von *LibraryThing&quot; vs. &quot;LibraryThing&quot; </li></ul></ul><ul><ul><li>&quot;Internetarchive&quot; vs. &quot;Internet Archive&quot; </li></ul></ul>
  9. 9. Typische Erfahrungen <ul><li>Uneinheitliche Verknüpfung </li></ul><ul><ul><li>&quot;1&quot;, &quot;2&quot;, &quot;Gr2&quot;, &quot;Gruppe 2&quot; </li></ul></ul><ul><ul><li>&quot;1,4,1,6,7,hoffentlich klappts&quot; </li></ul></ul><ul><li>Lückenhafte Datengrundlage </li></ul><ul><ul><li>&quot;Die Zeile sollte um den Namen des Studenten erweitert werden.&quot; </li></ul></ul><ul><ul><li>Mails bis Freitag Abend: 24/36 </li></ul></ul><ul><ul><li>Mails bis Sonntag Abend : 32/36 </li></ul></ul>
  10. 10. Fazit <ul><li>Im Idealfall geht mit einem guten Datenformate vieles automatisch </li></ul><ul><li>Nicht alle Datenformate sind ideal, vor allem ihre Benutzung nicht! </li></ul>
  11. 11. Woraus bestehen Datenformate? <ul><li>Abstraktes Datenmodell </li></ul><ul><ul><li>Klassen, Entitäten, Relationen, Kardinalität... </li></ul></ul><ul><li>Konkrete Syntax und Kodierung </li></ul><ul><ul><li>CSV, XML, RDF..., Zeichenkodierung </li></ul></ul><ul><ul><li>Oft in mehreren Ebenen </li></ul></ul><ul><li>Verwendung </li></ul><ul><ul><li>Erfahrung und Beispiele </li></ul></ul><ul><ul><li>Werkzeuge </li></ul></ul>
  12. 12. Konkrete Kodierungsformen <ul><li>Feldbasierte Formate </li></ul><ul><li>Datenbank-Format (SQL) </li></ul><ul><li>XML </li></ul><ul><li>JSON </li></ul><ul><li>Microformats </li></ul><ul><li>RDF (Semantic Web) </li></ul><ul><li>... </li></ul>
  13. 13. Extensible Markup Language <ul><li>Auszeichnung mittels Tags </li></ul><ul><ul><li><Überschrift> Einleitung </Überschrift> </li></ul></ul><ul><ul><li><hr /> = <hr></hr> </li></ul></ul><ul><ul><li><a href= &quot;home.htm&quot; class= &quot;mylink&quot; > ... </li></ul></ul><ul><li>Hierarchische Struktur (XML-Baum) </li></ul><ul><li>Character Entities </li></ul><ul><ul><li>& &amp; < &lt; > &gt; &quot; &quot; ' &apos; </li></ul></ul><ul><ul><li>&#xXX; &#DDD; </li></ul></ul>
  14. 14. Zeichen(de)kodierung <ul><li>Werden Daten in eine Struktur eingebettet, müssen in der Regel einige Sonderzeichen speziell kodiert werden </li></ul><ul><ul><li>XML : & < ... &amp; &lt; &lt; &#...; </li></ul></ul><ul><ul><li>URL : # + ... %23 %2B ... </li></ul></ul><ul><li>Mehrfachkodierung über mehrere Schichten </li></ul><ul><li>Achtung : wenn die Kodierung und Ebenen unbekannt sind, kommt Zeichensalat heraus: </li></ul><ul><ul><li>&amp; &amp;amp; &amp;amp;amp; ... </li></ul></ul>
  15. 15. JavaScriptObjectNotation (JSON) <ul><li>[ </li></ul><ul><li>{ </li></ul><ul><li>&quot;name&quot; : &quot;Fritzchen&quot;, </li></ul><ul><li>&quot;alter&quot; : 4 </li></ul><ul><li>}, </li></ul><ul><li>{ </li></ul><ul><li>&quot;name&quot; : &quot;Fritz&quot;, </li></ul><ul><li>&quot;alter&quot; : 24 </li></ul><ul><li>} </li></ul><ul><li>] </li></ul>
  16. 16. Einheitlichkeit und Validierung <ul><li>Was nicht festgelegt ist, wird verschieden gehandhabt </li></ul><ul><li>Was nicht überprüft werden kann, wird missachtet oder ignoriert </li></ul><ul><li>Was keine Auswirkungen hat ist irrelevant </li></ul>
  17. 17. Validierung <ul><li>Spezielles Programm </li></ul><ul><li>Schemadefinition (z.B. XML Schema) </li></ul><ul><ul><li>Wie dürfen Daten aussehen? </li></ul></ul><ul><ul><li>Was ist vorgeschrieben? </li></ul></ul>
  18. 18. Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Vater, Mutter, Kind </li></ul></ul><ul><ul><li>Relation: Nachkomme (Vater, Mutter, Kind) </li></ul></ul>
  19. 19. Weiteres Beispiel Stammbaum-Format <ul><li>Abstrakt </li></ul><ul><ul><li>Personen und Rollen: Elter, Elter, Kind </li></ul></ul><ul><ul><li>Relation: Nachkomme (Elter, Elter, Kind) </li></ul></ul>
  20. 20. Visuelles Format
  21. 21. Prolog-Format <ul><li>kind( helios, klymene, aigle ) . </li></ul><ul><li>kind( helios, klymene, phaetusa ) . </li></ul><ul><li>kind( helios, klymene, lampetia ) . </li></ul><ul><li>kind( helios, klymene, phaeton ) . </li></ul><ul><li>geschwister( X, Y ) :- kind( A, B, X ), kind( A, B, Y ) . </li></ul>
  22. 22. GEDCOM-Format <ul><li>0 @I1@ INDI </li></ul><ul><li>1 NAME Helios </li></ul><ul><li>1 FAMS @F1@ </li></ul><ul><li>0 @I2@ INDI </li></ul><ul><li>1 NAME Klymene </li></ul><ul><li>1 FAMS @F1@ </li></ul><ul><li>0 @F1@ FAM </li></ul><ul><li>1 CHIL @I3@ </li></ul><ul><li>1 CHIL @I4@ </li></ul><ul><li>1 CHIL @I5@ </li></ul><ul><li>1 CHIL @I6@ </li></ul><ul><li>0 @I3@ INDI </li></ul><ul><li>1 NAME Aigle </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>0 @I4@ INDI </li></ul><ul><li>1 NAME Phaetusa </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>0 @I5@ INDI </li></ul><ul><li>1 NAME Lampetia </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>0 @I6@ INDI </li></ul><ul><li>1 NAME Phaeto </li></ul><ul><li>1 FAMC @F1@ </li></ul><ul><li>GEnealogical Data COMmunication Format (entwickelt um die Toten zu Taufen ;-) </li></ul>
  23. 23. GEDCOM-XML-Format <ul><li><?xml version=&quot;1.0&quot;?> </li></ul><ul><li><GEDCOM> </li></ul><ul><li><IndividualRec Id=&quot;I1&quot;> </li></ul><ul><li><IndivName>Helios</IndivName> </li></ul><ul><li></IndividualRec> </li></ul><ul><li>... </li></ul><ul><li><FamilyRec Id=&quot;F1&quot;> </li></ul><ul><li><HusbFath> </li></ul><ul><li><Link Target=&quot;IndividualRec&quot; Ref=&quot;I1&quot;/> </li></ul><ul><li></HusbFath> </li></ul><ul><li><WifeMoth> </li></ul><ul><li><Link Target=&quot;IndividualRec&quot; Ref=&quot;I2&quot;/> </li></ul><ul><li></WifeMoth> </li></ul><ul><li><Child> </li></ul><ul><li><Link Target=&quot;IndividualRec&quot; Ref=&quot;I3&quot;/> </li></ul><ul><li></Child> </li></ul><ul><li>... </li></ul>
  24. 24. Schlussfolgerung <ul><li>Es gibt viele Wege, die gleiche Information zu kodieren </li></ul><ul><li>Unterschiedliche Formate und Kodierungen haben unterschiedliche Eigenheiten </li></ul><ul><li>Notwendig sind </li></ul><ul><ul><li>Standards </li></ul></ul><ul><ul><li>Konvertierung zwischen Kodierungen </li></ul></ul>
  25. 25. Arten von Standards <ul><li>Normen </li></ul><ul><li>Industriestandard </li></ul><ul><li>De-Facto-Standard </li></ul><ul><li>Offener Standard </li></ul>
  26. 26. Normierungsorganisationen <ul><li>Nationale Normen </li></ul><ul><ul><li>DIN, BSI, ANSI... </li></ul></ul><ul><li>Europäische Normen (EN) – seit 1961 </li></ul><ul><ul><li>CEN, CENELEC, ETSI </li></ul></ul><ul><li>ISO – seit 1947/1926 (Vorläufer ISI) </li></ul><ul><ul><li>Noch früher: MKS-System (1889) </li></ul></ul><ul><li>Möglichst Konsens-Prinzip aller „Beteiligten“ </li></ul><ul><li>Relativ sicher aber langwierig und teuer </li></ul>
  27. 27. Arten von Standards <ul><li>Internetstandards </li></ul><ul><ul><li>Request For Comments (RFC) der IETF </li></ul></ul><ul><ul><li>Recommendations des W3C </li></ul></ul><ul><li>Bibliothekarische Standards </li></ul><ul><ul><li>MARC, MAB, Z39.50, SRU, FRBR ... </li></ul></ul><ul><ul><li>Datenformate und Verfahren </li></ul></ul>
  28. 28. Offene Standards <ul><li>Offene Organisationen (RFC , W3C) </li></ul><ul><li>Anschließende Offenlegung (z.B. SRU/SRW) </li></ul><ul><li>Community-basiert (Microformats) </li></ul><ul><li>Offene Standards => Freie Märkte </li></ul>
  29. 29. Standard-Mashups <ul><li>Standards basieren auf anderen Standards </li></ul><ul><ul><li>XML (W3C) basiert u.A. auf URI (RFC 2396), UTF-8 (RFC 2279), Sprachcodes (RFC 1766) basierend auf ISO 693 und ISO 3166 ... </li></ul></ul><ul><ul><li>OpenDocument basiert auf XML, ZIP, etc. </li></ul></ul><ul><li>Deshalb: Alles muss genau definiert sein! </li></ul><ul><li>Vorteil wie bei Mashups im Allgemeinen </li></ul><ul><ul><li>Rad nicht dauernd neu erfinden </li></ul></ul><ul><ul><li>Nachnutzung bestehender Infrastruktur </li></ul></ul>
  30. 30. Bewertung <ul><li>Standards sind gemeinsame Vereinbarungen zur Kommunikation </li></ul><ul><li>Standards sind nur so gut wie die Verwendung </li></ul><ul><li>Standards müssen offen und nutzbar sein </li></ul><ul><li>Standards müssen überprüfbar sein </li></ul><ul><li>Keep it simple and provide tools! </li></ul><ul><li>Es ist notwendig genau hinschauen, was genau ein Standard vorschreibt und wo genau er eingesetzt wird </li></ul>
  31. 31. Bibliothekarische Datenformate <ul><li>Bernhard Eversberg (1989, 1994, 1999) : Was sind und was sollen Bibliothekarische Datenformate? http://www.allegro-c.de/formate/ </li></ul><ul><li>MARC, MAB, PICA, Allegro ... </li></ul><ul><ul><li>Insellösungen (eigener Zeichensatz, eigene Werkzeuge, eigene Sonderwege...) </li></ul></ul><ul><li>Heute : Unicode, XML, RDF, HTML ... </li></ul><ul><ul><li>Rein bibliothekarische Datenformate machen keinen Sinn mehr </li></ul></ul>
  32. 32. Beispiel: PICA-Datenformat <ul><li>Internes (bibliografisches) Datenformat der CBS und LBS-Software </li></ul><ul><li>Struktur aus Feldern und Unterfeldern </li></ul><ul><li>Pica3 zur Katalogisierung und Pica+ intern </li></ul><ul><li>Details zur Verwendung geregelt durch Katalogisierungsrichtlinien </li></ul><ul><li>Ähnliche Grund struktur wie MAB/MARC </li></ul>
  33. 33. Feldbasiertes Formate <ul><li>Einfach </li></ul><ul><ul><li>Titel : Zettelwirtschaft </li></ul></ul><ul><ul><li>Autor : Krajewski, Markus </li></ul></ul><ul><li>Pica+ </li></ul><ul><ul><li>021A : </li></ul></ul><ul><ul><ul><li>a : Zettelwirtschaft </li></ul></ul></ul><ul><ul><li>028A : </li></ul></ul><ul><ul><ul><li>d : Markus </li></ul></ul></ul><ul><ul><ul><li>a : Krajeski </li></ul></ul></ul>
  34. 34. Einige weitere Formate <ul><li>[Qualified] Dublin Core (DC) </li></ul><ul><li>Metadata Object Description Schema (MODS) </li></ul><ul><li>Metadata Encoding and Transmission Standard (METS) </li></ul><ul><li>Text Encoding Initiative (TEI) </li></ul><ul><li>Encoded Archival Description (EAD) </li></ul><ul><li>ONIX International (Online Information Exchange) </li></ul><ul><li>EXIF, IPTC (XMP) </li></ul><ul><li>u.v.a.m. ! </li></ul>ONIX
  35. 35. &quot;Semantische&quot; Datenformate <ul><li>Datenfelder als global definierte &quot;Properties&quot; mit einem festen URI </li></ul><ul><ul><li>Beispiel: http://xmlns.com/foaf/0.1/name </li></ul></ul><ul><li>Ggf. zusätzliche Beschränkung auf bestimmte Datentypen </li></ul><ul><li>Ohne Validierung wenig hilfreich! </li></ul><ul><li>Vom Datenformat zur Ontologie </li></ul>
  36. 36. Zusammenfassung <ul><li>Bei Datenformaten sehr genau sein </li></ul><ul><li>Unterscheidung notwendig </li></ul><ul><ul><li>Abstrakte Strukturierung (Datenmodell) </li></ul></ul><ul><ul><li>Konkrete Kodierung (Datenformat) </li></ul></ul><ul><ul><li>Anwendung (Werkzeuge und Praxis) </li></ul></ul><ul><li>Definiert durch Standards </li></ul><ul><li>Datenformate basieren aufeinander </li></ul>
  37. 37. Bis nächste Woche!

×