Web@rchiv Österreich Webarchivierung an der  Österreichischen Nationalbibliothek Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
Umfeld Massenmedium, nationales  Kulturgut Sammelauftrag Österreichische Nationalbibliothek:  Mediengesetz  (Novelle seit März 2009 in Kraft)  Herausforderungen: Kurze  Lebenszeit  von Internet-Seiten: durchschnittlich 44-75 Tage  (Quelle: Library of Congress) Deep Web   Neue  Technologien Viren  etc. Langzeitarchivierung : Migration, Emulation?
Webarchive international (1) Internet Archive  www.archive.org USA, seit 1996 Non-Profit Organisation Derzeit > 4,5 Petabytes Daten Zuwachs von 20 Terabytes/Monat 150 Milliarden Seiten Archiv öffentlich
Web@rchiv Österreich (1) Webarchivierungsprojekt  Start 2008  Mediengesetznovelle  März 2009 Team:  2 VZÄ, Abt. Digitale Bibliothek:  Projektmanager  Entwickler / Crawl Engineer System Administrator Speicher  und  Back-Up   ausgelagert an  Bundesrechenzentrum  (+ Kopie ZAS St. Johann) Grafik: Kurier, http://kurier.at/techno/2004890.php
Web@rchiv Österreich (2) Software  (nur open source) Crawler  Heritrix Crawl Management mit  NetarchiveSuite  (http://netarchive.dk, Kooperation mit Dänemark, Frankreich)  Zugang mit  Wayback Machine Hardware 8 Maschinen: 6 Crawler (mit je 3 Crawlerinstanzen) 1 für Datentransfer BRZ 1 DB und Indexierung  Betriebssystem Linux
Web@rchiv Österreich (3) Zugang Nur am Standort der Bibliotheken,  nicht online  (spezielle Terminals)  Nur Ausdruck, kein Speichern oder Versenden Passwortgeschützte Seiten nur Einzeluser Berechtigte Bibliotheken Bundeskanzleramt, Parlament Österreichisches Staatsarchiv Universitäts-, Studien- und Landesbibliotheken
Sammlungsstrategien (1) Domain Harvesting Gesamte  Top-Level-Domain .at  (Stand Okt. 2010: ca. 970.000 Domains, Quelle: nic.at) andere Top-Level-Domains mit  Österreich-Bezug  (keine Definition im Gesetz, manueller Aufwand) Durchführung  alle 2 Jahre , nächstes Domain Harvesting 2011
Entwicklung .at Domain Quelle: nic.at
Domain Crawl 2009/2010 Dauer: September 2009 - Juli 2010 Ca. 900.000 Domains 1. Durchlauf max. 10 MB/Domain  2. Durchlauf max. 100 MB/Domain Physischer Speicher: ca. 6 TB (komprimiert und dedupliziert, original ca. 8,5 TB) Ca. 386 Mio. Objekte (Komponenten der Webseiten) Erkenntnisse zu .at Webseiten: 14% (115.000) sind > 10 MB 71% (580.000) sind < 1 MB 10% (90.000) enthalten 0 Objekte 53% (470.000) enthalten < 10 Objekte
Sammlungsstrategien (2) Selektives Harvesting Ausgewählte Seiten, die häufigen Änderungen unterliegen Harvesting in geeigneten Intervallen Inhalte:  Medien national und regional,  dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden,  Wissenschaft/Universitäten Herbst 2010 Kollektion „Medien“ 2011: „Österreichische Autoren&quot;
Sammlungsstrategien (3) Event Harvesting Spezielle Anlässe und Großereignisse (z.B. Wahlen) Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen Bisherige Event Harvestings: (EURO TM  2008) (Nationalratswahl 2008) EU-Wahl 2009 Olympische Spiele 2010 Bundespräsidentenwahl 2010
Sammlungsstrategien (4) Zeit Abdeckung Domain Harvesting Selektives Harvesting Event Harvesting Vgl. Bjarne Andersen, http://netarchive.dk/publikationer/DFrevy_english.pdf
Web@rchiv Österreich Statistik Aktuell ca. 6,2 TB Daten (komprimiert und dedupliziert)  Entspricht ca. 9,3 TB Rohdaten 350 GB Metadaten 420 Mio. Objekte
 
 
 
 
 
Web@rchiv Österreich Beispiele ARCHIV LIVE WEB
Weitere Infos: http:// www.onb.ac.at / about / webarchivierung.htm   Social Media: http:// twitter.com / AT_Webarchive http:// www.facebook.com / ATWebarchive http:// www.slideshare.net / ATWebarchive http:// screenr.com / user / AT_Webarchive   Vielen Dank für die Aufmerksamkeit!

Österreich liest Vortrag zum Web@rchiv Österreich

  • 1.
    Web@rchiv Österreich Webarchivierungan der Österreichischen Nationalbibliothek Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  • 2.
    Umfeld Massenmedium, nationales Kulturgut Sammelauftrag Österreichische Nationalbibliothek: Mediengesetz (Novelle seit März 2009 in Kraft) Herausforderungen: Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress) Deep Web Neue Technologien Viren etc. Langzeitarchivierung : Migration, Emulation?
  • 3.
    Webarchive international (1)Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation Derzeit > 4,5 Petabytes Daten Zuwachs von 20 Terabytes/Monat 150 Milliarden Seiten Archiv öffentlich
  • 4.
    Web@rchiv Österreich (1)Webarchivierungsprojekt Start 2008 Mediengesetznovelle März 2009 Team: 2 VZÄ, Abt. Digitale Bibliothek: Projektmanager Entwickler / Crawl Engineer System Administrator Speicher und Back-Up ausgelagert an Bundesrechenzentrum (+ Kopie ZAS St. Johann) Grafik: Kurier, http://kurier.at/techno/2004890.php
  • 5.
    Web@rchiv Österreich (2)Software (nur open source) Crawler Heritrix Crawl Management mit NetarchiveSuite (http://netarchive.dk, Kooperation mit Dänemark, Frankreich) Zugang mit Wayback Machine Hardware 8 Maschinen: 6 Crawler (mit je 3 Crawlerinstanzen) 1 für Datentransfer BRZ 1 DB und Indexierung Betriebssystem Linux
  • 6.
    Web@rchiv Österreich (3)Zugang Nur am Standort der Bibliotheken, nicht online (spezielle Terminals) Nur Ausdruck, kein Speichern oder Versenden Passwortgeschützte Seiten nur Einzeluser Berechtigte Bibliotheken Bundeskanzleramt, Parlament Österreichisches Staatsarchiv Universitäts-, Studien- und Landesbibliotheken
  • 7.
    Sammlungsstrategien (1) DomainHarvesting Gesamte Top-Level-Domain .at (Stand Okt. 2010: ca. 970.000 Domains, Quelle: nic.at) andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) Durchführung alle 2 Jahre , nächstes Domain Harvesting 2011
  • 8.
    Entwicklung .at DomainQuelle: nic.at
  • 9.
    Domain Crawl 2009/2010Dauer: September 2009 - Juli 2010 Ca. 900.000 Domains 1. Durchlauf max. 10 MB/Domain 2. Durchlauf max. 100 MB/Domain Physischer Speicher: ca. 6 TB (komprimiert und dedupliziert, original ca. 8,5 TB) Ca. 386 Mio. Objekte (Komponenten der Webseiten) Erkenntnisse zu .at Webseiten: 14% (115.000) sind > 10 MB 71% (580.000) sind < 1 MB 10% (90.000) enthalten 0 Objekte 53% (470.000) enthalten < 10 Objekte
  • 10.
    Sammlungsstrategien (2) SelektivesHarvesting Ausgewählte Seiten, die häufigen Änderungen unterliegen Harvesting in geeigneten Intervallen Inhalte: Medien national und regional, dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden, Wissenschaft/Universitäten Herbst 2010 Kollektion „Medien“ 2011: „Österreichische Autoren&quot;
  • 11.
    Sammlungsstrategien (3) EventHarvesting Spezielle Anlässe und Großereignisse (z.B. Wahlen) Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen Bisherige Event Harvestings: (EURO TM 2008) (Nationalratswahl 2008) EU-Wahl 2009 Olympische Spiele 2010 Bundespräsidentenwahl 2010
  • 12.
    Sammlungsstrategien (4) ZeitAbdeckung Domain Harvesting Selektives Harvesting Event Harvesting Vgl. Bjarne Andersen, http://netarchive.dk/publikationer/DFrevy_english.pdf
  • 13.
    Web@rchiv Österreich StatistikAktuell ca. 6,2 TB Daten (komprimiert und dedupliziert) Entspricht ca. 9,3 TB Rohdaten 350 GB Metadaten 420 Mio. Objekte
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
    Weitere Infos: http://www.onb.ac.at / about / webarchivierung.htm Social Media: http:// twitter.com / AT_Webarchive http:// www.facebook.com / ATWebarchive http:// www.slideshare.net / ATWebarchive http:// screenr.com / user / AT_Webarchive Vielen Dank für die Aufmerksamkeit!