Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [...
Warum Webarchivierung? <ul><li>Sammeln, Bewahren, Zugänglich machen  (im Rahmen der rechtlichen Möglichkeiten) </li></ul><...
Wer macht Webarchivierung? <ul><li>Bibliotheken: </li></ul><ul><ul><li>Nationalbibliotheken </li></ul></ul><ul><ul><li>Sta...
Herausforderungen <ul><li>Kurze Lebenszeit  von Webseiten: durchschnittlich 44-75 Tage  (Quelle: Library of Congress) </li...
Domain Wachstum D-A-CH CH DE AT Quellen:  http://www.denic.de ,  http://www.nic.at/ ,  https://www.nic.ch
Web@rchiv Österreich (1) <ul><li>Pilotprojekt  AOLA mit TU Wien 2001 </li></ul><ul><li>Webarchivierungsprojekt  Start 2008...
Web@rchiv Österreich (2) <ul><li>Software: </li></ul><ul><ul><li>NetarchiveSuite </li></ul></ul><ul><ul><li>Wayback Machin...
Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte  Top-Level-Domain .at  (Stand April 2011: ...
Domain Crawl 2009/2010 <ul><li>Ca.  900.000 Domains </li></ul><ul><li>Physischer Speicher: ca.  6 TB  (original ca. 8,5 TB...
Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen un...
Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) ...
Statistik gesamt <ul><li>Aktuell ca. 6,6 TB Daten (komprimiert und dedupliziert)  </li></ul><ul><li>Entspricht ca. 11 TB R...
Zugang (1) <ul><li>Nur am Standort der berechtigten Bibliotheken,  nicht online </li></ul><ul><li>Sperren  bis max. 1 Jahr...
Zugang (2) <ul><li>Nur Ausdruck , kein Speichern oder Versenden (ÖNB spezielle Terminals,   extern VPN)   </li></ul><ul><l...
 
Demo
Weitere Infos: http://www.onb.ac.at/about/webarchivierung.htm   Social Media: http://twitter.com/AT_Webarchive http://www....
Nächste SlideShare
Wird geladen in …5
×

Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich

1.469 Aufrufe

Veröffentlicht am

Präsentation zur Nestor Veranstaltung "Webarchivierung im deutschsprachigen Raum"

  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich

  1. 1. Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Warum Webarchivierung? <ul><li>Sammeln, Bewahren, Zugänglich machen (im Rahmen der rechtlichen Möglichkeiten) </li></ul><ul><ul><li>Kulturelles Erbe </li></ul></ul><ul><ul><li>Gesetzlicher Auftrag / Digitale Pflichtexemplare </li></ul></ul><ul><ul><li>Ergänzung zu Printmaterial </li></ul></ul><ul><ul><li>„ Medienkonkurrenz “ – veränderte Publikations- und Kommunikationsmechanismen </li></ul></ul><ul><ul><li>Forschungsgrundlage </li></ul></ul><ul><ul><li>Sicherung von Quellen </li></ul></ul><ul><ul><li>Virtuelle Bibliotheken </li></ul></ul><ul><ul><li>Recherchearchive </li></ul></ul><ul><ul><li>Dokumentationspflicht </li></ul></ul><ul><ul><li>Data Mining </li></ul></ul><ul><li>Vollständigkeit  </li></ul>
  3. 3. Wer macht Webarchivierung? <ul><li>Bibliotheken: </li></ul><ul><ul><li>Nationalbibliotheken </li></ul></ul><ul><ul><li>Staatsbibliotheken </li></ul></ul><ul><ul><li>Landesbibliotheken </li></ul></ul><ul><ul><li>Universitätsbibliotheken </li></ul></ul><ul><ul><li>Bundestag/Parlament </li></ul></ul><ul><ul><li>(Virtuelle) Fachbibliotheken </li></ul></ul><ul><li>Archive: </li></ul><ul><ul><li>Nationale Archive </li></ul></ul><ul><ul><li>Landesarchive </li></ul></ul><ul><ul><li>Stadtarchive </li></ul></ul><ul><ul><li>Thematische Archive </li></ul></ul><ul><li>Institutionen mit Spezialfokus: </li></ul><ul><ul><li>Audiovisuelles Material </li></ul></ul><ul><ul><li>Web 2.0 </li></ul></ul><ul><li>ForscherInnen </li></ul><ul><li>Unternehmen </li></ul><ul><li>Non Profit Organisationen (z.B. Internet Archive) </li></ul><ul><li>Kommerzielle Anbieter </li></ul>
  4. 4. Herausforderungen <ul><li>Kurze Lebenszeit von Webseiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress) </li></ul><ul><li>Zeitdruck : „Collect now, ask later why“ </li></ul><ul><li>„ Richtige“ Selektion </li></ul><ul><li>Deep Web </li></ul><ul><li>Neue Technologien </li></ul><ul><li>Unerwüschter Content : Viren, Parkingseiten etc. </li></ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul>
  5. 5. Domain Wachstum D-A-CH CH DE AT Quellen: http://www.denic.de , http://www.nic.at/ , https://www.nic.ch
  6. 6. Web@rchiv Österreich (1) <ul><li>Pilotprojekt AOLA mit TU Wien 2001 </li></ul><ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle 01. März 2009 (Verhandlungsdauer 2 Jahre) </li></ul><ul><li>Team: Abteilung Digitale Bibliothek: 2 VZÄ </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><ul><li>Web Kurator </li></ul></ul><ul><ul><li>Qualitätskontrolle </li></ul></ul>
  7. 7. Web@rchiv Österreich (2) <ul><li>Software: </li></ul><ul><ul><li>NetarchiveSuite </li></ul></ul><ul><ul><li>Wayback Machine </li></ul></ul><ul><li>Hardware: </li></ul><ul><ul><li>8 Crawler (mit je 2 Instanzen) </li></ul></ul><ul><ul><li>2 Testcrawler </li></ul></ul><ul><li>Speicher / Back-Up: </li></ul><ul><ul><li>ausgelagert an Bundesrechenzentrum (+ Kopie Zentrales Ausweich System St. Johann) </li></ul></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  8. 8. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand April 2011: ca. 1,03 Mio. Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Mediengesetz erlaubt jährl. 4 Crawls </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , nächstes Domain Harvesting Sommer 2011 </li></ul></ul>
  9. 9. Domain Crawl 2009/2010 <ul><li>Ca. 900.000 Domains </li></ul><ul><li>Physischer Speicher: ca. 6 TB (original ca. 8,5 TB, komprimiert und dedupliziert) </li></ul><ul><li>Ca. 386 Mio. Objekte </li></ul><ul><li>Erkenntnisse zu .at Webseiten : </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  10. 10. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>Verwaltung/Behörden (.gv.at), </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten (.ac.at) </li></ul></ul></ul><ul><ul><ul><li>Gesellschaft, Wirtschaft, Kultur etc. </li></ul></ul></ul><ul><ul><li>Neue Kollektionen 2011: </li></ul></ul><ul><ul><ul><li>„ Medien“ (gestartet am 01.04.2011) </li></ul></ul></ul><ul><ul><ul><li>„ Österreichische Autoren&quot; </li></ul></ul></ul>
  11. 11. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul><ul><ul><ul><li>ORF.Futurezone 2010 (Technologie Portal) </li></ul></ul></ul>
  12. 12. Statistik gesamt <ul><li>Aktuell ca. 6,6 TB Daten (komprimiert und dedupliziert) </li></ul><ul><li>Entspricht ca. 11 TB Rohdaten </li></ul><ul><li>483 Mio. Objekte </li></ul>
  13. 13. Zugang (1) <ul><li>Nur am Standort der berechtigten Bibliotheken, nicht online </li></ul><ul><li>Sperren bis max. 1 Jahr möglich </li></ul><ul><li>Passwortgeschützte Seiten nur Einzeluser </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  14. 14. Zugang (2) <ul><li>Nur Ausdruck , kein Speichern oder Versenden (ÖNB spezielle Terminals, extern VPN) </li></ul><ul><li>Kosten : § 43d (7) ... haben sie der ÖNB die ihr durch die Zurverfügungstellung erwachsenden zusätzlichen Kosten zu erstatten. </li></ul><ul><li>Regionale Aufteilung bei Selektiven und Event Harvestings (nach Sitz des Medieninhabers) </li></ul><ul><li>Keine Katalogisierung </li></ul>
  15. 16. Demo
  16. 17. Weitere Infos: http://www.onb.ac.at/about/webarchivierung.htm Social Media: http://twitter.com/AT_Webarchive http://www.facebook.com/ATWebarchive http://www.slideshare.net/ATWebarchive http://screenr.com/user/AT_Webarchive Fragen?

×