Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und relevantere Anzeigen zu schalten. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Web@rchiv Österreich bei "Österreich liest"

938 Aufrufe

Veröffentlicht am

Präsentation im Rahmen von "Österreich liest", Oktober 2011

  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Web@rchiv Österreich bei "Österreich liest"

  1. 1. Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Zeitreise (1) BKA Juli 1997 Quelle: www.archive.org
  3. 3. Zeitreise (2) BKA Jänner 2001 Quelle: www.archive.org
  4. 4. Zeitreise (3) BKA Februar 2007 Quelle: www.archive.org
  5. 5. Zeitreise (4) BKA Juni 2011 Quelle: www.archive.org
  6. 6. Ergebnisse www.austria.gv.at Quelle: www.archive.org
  7. 7. Webarchivierung international <ul><li>Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation </li></ul><ul><ul><li>Derzeit > 4,5 Petabytes Daten </li></ul></ul><ul><ul><li>Zuwachs von 20 Terabytes/Monat </li></ul></ul><ul><ul><li>150 Milliarden Seiten </li></ul></ul><ul><ul><li>Archiv öffentlich </li></ul></ul>
  8. 8. Quelle: http://www.leahybrands.com/blog/wp-content/uploads/Storage-Infographic.jpg
  9. 9. Herausforderungen <ul><li>Kurze Lebenszeit von Webseiten: durchschnittlich 44-75 Tage </li></ul><ul><li>Zeitdruck : „Collect now, ask later why“ </li></ul><ul><li>„ Richtige“ Selektion </li></ul><ul><li>Deep Web </li></ul><ul><li>Neue Technologien </li></ul><ul><li>Unerwüschter Content : Viren, Parkingseiten etc. </li></ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul>
  10. 10. Web@rchiv Österreich (1) <ul><li>Pilotprojekt AOLA mit TU Wien 2001 </li></ul><ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle 01. März 2009 </li></ul><ul><li>Team: 2 Personen in der Abteilung Digitale Bibliothek: </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><ul><li>Web Kurator </li></ul></ul><ul><ul><li>Qualitätskontrolle </li></ul></ul>
  11. 11. Web@rchiv Österreich (2) <ul><li>Software (open source): </li></ul><ul><ul><li>NetarchiveSuite (Kooperation mit Dänemark und Frankreich) </li></ul></ul><ul><ul><li>Wayback Machine </li></ul></ul><ul><li>Hardware: </li></ul><ul><ul><li>8 Crawler (mit je 3 Instanzen) </li></ul></ul><ul><ul><li>2 Testcrawler </li></ul></ul><ul><li>Speicher / Back-Up: </li></ul><ul><ul><li>ausgelagert an Bundesrechenzentrum (+ Kopie Zentrales Ausweich System St. Johann) </li></ul></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  12. 12. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand Okt. 2011: ca. 1,08 Mio. Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Mediengesetz erlaubt jährl. 4 Crawls </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , aktueller Domain Crawl läuft seit August 2011 </li></ul></ul>
  13. 13. Domain Crawl 2009/2010 <ul><li>Ca. 900.000 Domains </li></ul><ul><li>Physischer Speicher: ca. 6 TB (original ca. 8,5 TB, komprimiert und dedupliziert) </li></ul><ul><li>Ca. 386 Mio. Objekte </li></ul><ul><li>Erkenntnisse zu .at Webseiten : </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  14. 14. Domain Wachstum D-A-CH CH DE AT Quellen: http://www.denic.de , http://www.nic.at/ , https://www.nic.ch
  15. 15. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>Verwaltung/Behörden (.gv.at), </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten (.ac.at) </li></ul></ul></ul><ul><ul><ul><li>Gesellschaft, Wirtschaft, Kultur etc. </li></ul></ul></ul><ul><ul><li>Neue Kollektionen 2011: </li></ul></ul><ul><ul><ul><li>„ Medien“ (gestartet am 01.04.2011) </li></ul></ul></ul><ul><ul><ul><li>„ Österreichische Autoren&quot; </li></ul></ul></ul>
  16. 16. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul><ul><ul><ul><li>ORF.Futurezone 2010 (Technologie Portal) </li></ul></ul></ul>
  17. 17. Web@rchiv Österreich Beispiele ARCHIV LIVE WEB
  18. 18. Speicher <ul><li>Derzeit 8,5 TB (komprimiert, dedupliziert), original ca. 14 TB </li></ul><ul><li>über 650 Mio. Dateien </li></ul>
  19. 19. Wo finden Sie uns? <ul><li>Derzeit nur an der Österreichischen Nationalbibliothek, nicht online </li></ul><ul><li>Spezielle Terminals </li></ul><ul><li>Künftig Recherche auch online </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  20. 24. Demo Screencast
  21. 25. Weitere Infos: http://www.onb.ac.at/about/webarchivierung.htm Social Media: http://twitter.com/AT_Webarchive http://www.facebook.com/ATWebarchive http://www.slideshare.net/ATWebarchive http://screenr.com/user/AT_Webarchive Fragen?

×