Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [...
Warum Webarchivierung? <ul><li>Sammeln, Bewahren, Zugänglich machen  (im Rahmen der rechtlichen Möglichkeiten) </li></ul><...
Wer macht Webarchivierung? <ul><li>Bibliotheken: </li></ul><ul><ul><li>Nationalbibliotheken </li></ul></ul><ul><ul><li>Sta...
Herausforderungen <ul><li>Kurze Lebenszeit  von Webseiten: durchschnittlich 44-75 Tage  (Quelle: Library of Congress) </li...
Domain Wachstum D-A-CH CH DE AT Quellen:  http://www.denic.de ,  http://www.nic.at/ ,  https://www.nic.ch
Web@rchiv Österreich (1) <ul><li>Pilotprojekt  AOLA mit TU Wien 2001 </li></ul><ul><li>Webarchivierungsprojekt  Start 2008...
Web@rchiv Österreich (2) <ul><li>Software: </li></ul><ul><ul><li>NetarchiveSuite </li></ul></ul><ul><ul><li>Wayback Machin...
Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte  Top-Level-Domain .at  (Stand April 2011: ...
Domain Crawl 2009/2010 <ul><li>Ca.  900.000 Domains </li></ul><ul><li>Physischer Speicher: ca.  6 TB  (original ca. 8,5 TB...
Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen un...
Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) ...
Statistik gesamt <ul><li>Aktuell ca. 6,6 TB Daten (komprimiert und dedupliziert)  </li></ul><ul><li>Entspricht ca. 11 TB R...
Zugang (1) <ul><li>Nur am Standort der berechtigten Bibliotheken,  nicht online </li></ul><ul><li>Sperren  bis max. 1 Jahr...
Zugang (2) <ul><li>Nur Ausdruck , kein Speichern oder Versenden (ÖNB spezielle Terminals,   extern VPN)   </li></ul><ul><l...
 
Demo
Weitere Infos: http://www.onb.ac.at/about/webarchivierung.htm   Social Media: http://twitter.com/AT_Webarchive http://www....
Nächste SlideShare
Wird geladen in …5
×

Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich

1.423 Aufrufe

Veröffentlicht am

Präsentation zur Nestor Veranstaltung "Webarchivierung im deutschsprachigen Raum"

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.423
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
28
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich

  1. 1. Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Warum Webarchivierung? <ul><li>Sammeln, Bewahren, Zugänglich machen (im Rahmen der rechtlichen Möglichkeiten) </li></ul><ul><ul><li>Kulturelles Erbe </li></ul></ul><ul><ul><li>Gesetzlicher Auftrag / Digitale Pflichtexemplare </li></ul></ul><ul><ul><li>Ergänzung zu Printmaterial </li></ul></ul><ul><ul><li>„ Medienkonkurrenz “ – veränderte Publikations- und Kommunikationsmechanismen </li></ul></ul><ul><ul><li>Forschungsgrundlage </li></ul></ul><ul><ul><li>Sicherung von Quellen </li></ul></ul><ul><ul><li>Virtuelle Bibliotheken </li></ul></ul><ul><ul><li>Recherchearchive </li></ul></ul><ul><ul><li>Dokumentationspflicht </li></ul></ul><ul><ul><li>Data Mining </li></ul></ul><ul><li>Vollständigkeit  </li></ul>
  3. 3. Wer macht Webarchivierung? <ul><li>Bibliotheken: </li></ul><ul><ul><li>Nationalbibliotheken </li></ul></ul><ul><ul><li>Staatsbibliotheken </li></ul></ul><ul><ul><li>Landesbibliotheken </li></ul></ul><ul><ul><li>Universitätsbibliotheken </li></ul></ul><ul><ul><li>Bundestag/Parlament </li></ul></ul><ul><ul><li>(Virtuelle) Fachbibliotheken </li></ul></ul><ul><li>Archive: </li></ul><ul><ul><li>Nationale Archive </li></ul></ul><ul><ul><li>Landesarchive </li></ul></ul><ul><ul><li>Stadtarchive </li></ul></ul><ul><ul><li>Thematische Archive </li></ul></ul><ul><li>Institutionen mit Spezialfokus: </li></ul><ul><ul><li>Audiovisuelles Material </li></ul></ul><ul><ul><li>Web 2.0 </li></ul></ul><ul><li>ForscherInnen </li></ul><ul><li>Unternehmen </li></ul><ul><li>Non Profit Organisationen (z.B. Internet Archive) </li></ul><ul><li>Kommerzielle Anbieter </li></ul>
  4. 4. Herausforderungen <ul><li>Kurze Lebenszeit von Webseiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress) </li></ul><ul><li>Zeitdruck : „Collect now, ask later why“ </li></ul><ul><li>„ Richtige“ Selektion </li></ul><ul><li>Deep Web </li></ul><ul><li>Neue Technologien </li></ul><ul><li>Unerwüschter Content : Viren, Parkingseiten etc. </li></ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul>
  5. 5. Domain Wachstum D-A-CH CH DE AT Quellen: http://www.denic.de , http://www.nic.at/ , https://www.nic.ch
  6. 6. Web@rchiv Österreich (1) <ul><li>Pilotprojekt AOLA mit TU Wien 2001 </li></ul><ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle 01. März 2009 (Verhandlungsdauer 2 Jahre) </li></ul><ul><li>Team: Abteilung Digitale Bibliothek: 2 VZÄ </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><ul><li>Web Kurator </li></ul></ul><ul><ul><li>Qualitätskontrolle </li></ul></ul>
  7. 7. Web@rchiv Österreich (2) <ul><li>Software: </li></ul><ul><ul><li>NetarchiveSuite </li></ul></ul><ul><ul><li>Wayback Machine </li></ul></ul><ul><li>Hardware: </li></ul><ul><ul><li>8 Crawler (mit je 2 Instanzen) </li></ul></ul><ul><ul><li>2 Testcrawler </li></ul></ul><ul><li>Speicher / Back-Up: </li></ul><ul><ul><li>ausgelagert an Bundesrechenzentrum (+ Kopie Zentrales Ausweich System St. Johann) </li></ul></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  8. 8. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand April 2011: ca. 1,03 Mio. Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Mediengesetz erlaubt jährl. 4 Crawls </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , nächstes Domain Harvesting Sommer 2011 </li></ul></ul>
  9. 9. Domain Crawl 2009/2010 <ul><li>Ca. 900.000 Domains </li></ul><ul><li>Physischer Speicher: ca. 6 TB (original ca. 8,5 TB, komprimiert und dedupliziert) </li></ul><ul><li>Ca. 386 Mio. Objekte </li></ul><ul><li>Erkenntnisse zu .at Webseiten : </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  10. 10. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>Verwaltung/Behörden (.gv.at), </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten (.ac.at) </li></ul></ul></ul><ul><ul><ul><li>Gesellschaft, Wirtschaft, Kultur etc. </li></ul></ul></ul><ul><ul><li>Neue Kollektionen 2011: </li></ul></ul><ul><ul><ul><li>„ Medien“ (gestartet am 01.04.2011) </li></ul></ul></ul><ul><ul><ul><li>„ Österreichische Autoren&quot; </li></ul></ul></ul>
  11. 11. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul><ul><ul><ul><li>ORF.Futurezone 2010 (Technologie Portal) </li></ul></ul></ul>
  12. 12. Statistik gesamt <ul><li>Aktuell ca. 6,6 TB Daten (komprimiert und dedupliziert) </li></ul><ul><li>Entspricht ca. 11 TB Rohdaten </li></ul><ul><li>483 Mio. Objekte </li></ul>
  13. 13. Zugang (1) <ul><li>Nur am Standort der berechtigten Bibliotheken, nicht online </li></ul><ul><li>Sperren bis max. 1 Jahr möglich </li></ul><ul><li>Passwortgeschützte Seiten nur Einzeluser </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  14. 14. Zugang (2) <ul><li>Nur Ausdruck , kein Speichern oder Versenden (ÖNB spezielle Terminals, extern VPN) </li></ul><ul><li>Kosten : § 43d (7) ... haben sie der ÖNB die ihr durch die Zurverfügungstellung erwachsenden zusätzlichen Kosten zu erstatten. </li></ul><ul><li>Regionale Aufteilung bei Selektiven und Event Harvestings (nach Sitz des Medieninhabers) </li></ul><ul><li>Keine Katalogisierung </li></ul>
  15. 16. Demo
  16. 17. Weitere Infos: http://www.onb.ac.at/about/webarchivierung.htm Social Media: http://twitter.com/AT_Webarchive http://www.facebook.com/ATWebarchive http://www.slideshare.net/ATWebarchive http://screenr.com/user/AT_Webarchive Fragen?

×