Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

(2) Von der Hofbibliothek zum digitalen Medienzentrum

879 Aufrufe

Veröffentlicht am

Web@rchiv Österreich

Veröffentlicht in: Bildung
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

(2) Von der Hofbibliothek zum digitalen Medienzentrum

  1. 1. Web@rchiv Österreich Webarchivierung an der Österreichischen Nationalbibliothek Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Eine kleine Zeitreise (1) BKA Dezember 2010 Quelle: http://www.austria.gv.at/
  3. 3. Eine kleine Zeitreise (2) BKA Februar 2007 Quelle: www.archive.org
  4. 4. Eine kleine Zeitreise (3) BKA Jänner 2001 Quelle: www.archive.org
  5. 5. Eine kleine Zeitreise (4) BKA Juli 1997 Quelle: www.archive.org
  6. 6. Webarchive international <ul><li>Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation </li></ul><ul><ul><li>Derzeit > 4,5 Petabytes Daten </li></ul></ul><ul><ul><li>Zuwachs von 20 Terabytes/Monat </li></ul></ul><ul><ul><li>150 Milliarden Seiten </li></ul></ul><ul><ul><li>Archiv öffentlich </li></ul></ul>
  7. 7. Ergebnisse www.vmoe.at Quelle: www.archive.org
  8. 8. www.vmoe.at, 28.11.2001 Quelle: www.archive.org
  9. 9. Umfeld <ul><li>Massenmedium, nationales Kulturgut </li></ul><ul><li>Sammelauftrag Österreichische Nationalbibliothek: Mediengesetz (Novelle seit März 2009 in Kraft) </li></ul><ul><li>Herausforderungen: </li></ul><ul><ul><li>Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress) </li></ul></ul><ul><ul><li>Deep Web </li></ul></ul><ul><ul><li>Neue Technologien </li></ul></ul><ul><ul><li>Viren etc. </li></ul></ul><ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul></ul>
  10. 10. Datenmengen global <ul><li>„ The current size of the world’s digital content is equivalent to all the information that could be stored on 75bn Apple iPads , or the amount that would be generated by everyone in the world posting messages on the microblogging site Twitter constantly for a century ….“ </li></ul><ul><li>2007: 161.000 PB 2009: 800.000 PB 2010: 1,2 ZB </li></ul><ul><li>1 Zettabyte = 1 Mrd. Terabytes oder </li></ul>1,000,000,000,000,000,000,000 Bytes Quelle: http://www.telegraph.co.uk/technology/news/7675214/Digital-universe-to-smash-zettabyte-barrier-for-first-time.html, IDC Survey, Mai 2010
  11. 11. Web@rchiv Österreich <ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle März 2009 </li></ul><ul><li>Team: 2 VZÄ, Abt. Digitale Bibliothek: </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><li>Speicher und Back-Up ausgelagert an Bundesrechenzentrum (+ Kopie ZAS St. Johann) </li></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  12. 12. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand Dez. 2010: ca. 985.000 Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , nächstes Domain Harvesting 2011 </li></ul></ul>
  13. 13. Domain Crawl 2009/2010 <ul><li>Ca. 900.000 Domains </li></ul><ul><li>Physischer Speicher: ca. 6 TB (original ca. 8,5 TB, komprimiert und dedupliziert) </li></ul><ul><li>Ca. 386 Mio. Objekte </li></ul><ul><li>Erkenntnisse zu .at Webseiten : </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  14. 14. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>Verwaltung/Behörden, </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten </li></ul></ul></ul><ul><ul><ul><li>Gesellschaft, Wirtschaft, Kultur etc. </li></ul></ul></ul><ul><ul><li>Neue Kollektionen 2011: </li></ul></ul><ul><ul><ul><li>„ Medien“ </li></ul></ul></ul><ul><ul><ul><li>„ Österreichische Autoren&quot; </li></ul></ul></ul>
  15. 15. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul><ul><ul><ul><li>ORF.Futurezone 2010 </li></ul></ul></ul>
  16. 16. Beispiel Event ARCHIV LIVE WEB
  17. 17. Statistik gesamt <ul><li>Aktuell ca. 6,6 TB Daten (komprimiert und dedupliziert) </li></ul><ul><li>Entspricht ca. 9,4 TB Rohdaten </li></ul><ul><li>350 GB Metadaten </li></ul><ul><li>455 Mio. Objekte </li></ul>
  18. 18. Zugang <ul><li>Nur am Standort der Bibliotheken, nicht online (spezielle Terminals) </li></ul><ul><li>Nur Ausdruck, kein Speichern oder Versenden </li></ul><ul><li>Passwortgeschützte Seiten nur Einzeluser </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  19. 23. Demo
  20. 24. Weitere Infos: http:// www.onb.ac.at / about / webarchivierung.htm Social Media: http:// twitter.com / AT_Webarchive http:// www.facebook.com / ATWebarchive http:// www.slideshare.net / ATWebarchive http:// screenr.com / user / AT_Webarchive Vielen Dank für die Aufmerksamkeit!

×