Österreich liest Vortrag zum Web@rchiv Österreich

1.275 Aufrufe

Veröffentlicht am

Webarchivierung an der Österreichischen Nationalbibliothek

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.275
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
10
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Österreich liest Vortrag zum Web@rchiv Österreich

  1. 1. Web@rchiv Österreich Webarchivierung an der Österreichischen Nationalbibliothek Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Umfeld <ul><li>Massenmedium, nationales Kulturgut </li></ul><ul><li>Sammelauftrag Österreichische Nationalbibliothek: Mediengesetz (Novelle seit März 2009 in Kraft) </li></ul><ul><li>Herausforderungen: </li></ul><ul><ul><li>Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress) </li></ul></ul><ul><ul><li>Deep Web </li></ul></ul><ul><ul><li>Neue Technologien </li></ul></ul><ul><ul><li>Viren etc. </li></ul></ul><ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul></ul>
  3. 3. Webarchive international (1) <ul><li>Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation </li></ul><ul><ul><li>Derzeit > 4,5 Petabytes Daten </li></ul></ul><ul><ul><li>Zuwachs von 20 Terabytes/Monat </li></ul></ul><ul><ul><li>150 Milliarden Seiten </li></ul></ul><ul><ul><li>Archiv öffentlich </li></ul></ul>
  4. 4. Web@rchiv Österreich (1) <ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle März 2009 </li></ul><ul><li>Team: 2 VZÄ, Abt. Digitale Bibliothek: </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><li>Speicher und Back-Up ausgelagert an Bundesrechenzentrum (+ Kopie ZAS St. Johann) </li></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  5. 5. Web@rchiv Österreich (2) <ul><li>Software (nur open source) </li></ul><ul><ul><li>Crawler Heritrix </li></ul></ul><ul><ul><li>Crawl Management mit NetarchiveSuite (http://netarchive.dk, Kooperation mit Dänemark, Frankreich) </li></ul></ul><ul><ul><li>Zugang mit Wayback Machine </li></ul></ul><ul><li>Hardware </li></ul><ul><ul><li>8 Maschinen: 6 Crawler (mit je 3 Crawlerinstanzen) 1 für Datentransfer BRZ 1 DB und Indexierung </li></ul></ul><ul><ul><li>Betriebssystem Linux </li></ul></ul>
  6. 6. Web@rchiv Österreich (3) Zugang <ul><li>Nur am Standort der Bibliotheken, nicht online (spezielle Terminals) </li></ul><ul><li>Nur Ausdruck, kein Speichern oder Versenden </li></ul><ul><li>Passwortgeschützte Seiten nur Einzeluser </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  7. 7. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand Okt. 2010: ca. 970.000 Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , nächstes Domain Harvesting 2011 </li></ul></ul>
  8. 8. Entwicklung .at Domain Quelle: nic.at
  9. 9. Domain Crawl 2009/2010 <ul><li>Dauer: September 2009 - Juli 2010 </li></ul><ul><li>Ca. 900.000 Domains </li></ul><ul><li>1. Durchlauf max. 10 MB/Domain </li></ul><ul><li>2. Durchlauf max. 100 MB/Domain </li></ul><ul><li>Physischer Speicher: ca. 6 TB (komprimiert und dedupliziert, original ca. 8,5 TB) </li></ul><ul><li>Ca. 386 Mio. Objekte (Komponenten der Webseiten) </li></ul><ul><li>Erkenntnisse zu .at Webseiten: </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  10. 10. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden, </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten </li></ul></ul></ul><ul><ul><li>Herbst 2010 Kollektion „Medien“ </li></ul></ul><ul><ul><li>2011: „Österreichische Autoren&quot; </li></ul></ul>
  11. 11. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul>
  12. 12. Sammlungsstrategien (4) Zeit Abdeckung Domain Harvesting Selektives Harvesting Event Harvesting Vgl. Bjarne Andersen, http://netarchive.dk/publikationer/DFrevy_english.pdf
  13. 13. Web@rchiv Österreich Statistik <ul><li>Aktuell ca. 6,2 TB Daten (komprimiert und dedupliziert) </li></ul><ul><li>Entspricht ca. 9,3 TB Rohdaten </li></ul><ul><li>350 GB Metadaten </li></ul><ul><li>420 Mio. Objekte </li></ul>
  14. 19. Web@rchiv Österreich Beispiele ARCHIV LIVE WEB
  15. 20. Weitere Infos: http:// www.onb.ac.at / about / webarchivierung.htm Social Media: http:// twitter.com / AT_Webarchive http:// www.facebook.com / ATWebarchive http:// www.slideshare.net / ATWebarchive http:// screenr.com / user / AT_Webarchive Vielen Dank für die Aufmerksamkeit!

×