Web@rchiv Österreich bei "Österreich liest"

897 Aufrufe

Veröffentlicht am

Präsentation im Rahmen von "Österreich liest", Oktober 2011

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
897
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
106
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Web@rchiv Österreich bei "Österreich liest"

  1. 1. Web@rchiv Österreich Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Zeitreise (1) BKA Juli 1997 Quelle: www.archive.org
  3. 3. Zeitreise (2) BKA Jänner 2001 Quelle: www.archive.org
  4. 4. Zeitreise (3) BKA Februar 2007 Quelle: www.archive.org
  5. 5. Zeitreise (4) BKA Juni 2011 Quelle: www.archive.org
  6. 6. Ergebnisse www.austria.gv.at Quelle: www.archive.org
  7. 7. Webarchivierung international <ul><li>Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation </li></ul><ul><ul><li>Derzeit > 4,5 Petabytes Daten </li></ul></ul><ul><ul><li>Zuwachs von 20 Terabytes/Monat </li></ul></ul><ul><ul><li>150 Milliarden Seiten </li></ul></ul><ul><ul><li>Archiv öffentlich </li></ul></ul>
  8. 8. Quelle: http://www.leahybrands.com/blog/wp-content/uploads/Storage-Infographic.jpg
  9. 9. Herausforderungen <ul><li>Kurze Lebenszeit von Webseiten: durchschnittlich 44-75 Tage </li></ul><ul><li>Zeitdruck : „Collect now, ask later why“ </li></ul><ul><li>„ Richtige“ Selektion </li></ul><ul><li>Deep Web </li></ul><ul><li>Neue Technologien </li></ul><ul><li>Unerwüschter Content : Viren, Parkingseiten etc. </li></ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul>
  10. 10. Web@rchiv Österreich (1) <ul><li>Pilotprojekt AOLA mit TU Wien 2001 </li></ul><ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle 01. März 2009 </li></ul><ul><li>Team: 2 Personen in der Abteilung Digitale Bibliothek: </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><ul><li>Web Kurator </li></ul></ul><ul><ul><li>Qualitätskontrolle </li></ul></ul>
  11. 11. Web@rchiv Österreich (2) <ul><li>Software (open source): </li></ul><ul><ul><li>NetarchiveSuite (Kooperation mit Dänemark und Frankreich) </li></ul></ul><ul><ul><li>Wayback Machine </li></ul></ul><ul><li>Hardware: </li></ul><ul><ul><li>8 Crawler (mit je 3 Instanzen) </li></ul></ul><ul><ul><li>2 Testcrawler </li></ul></ul><ul><li>Speicher / Back-Up: </li></ul><ul><ul><li>ausgelagert an Bundesrechenzentrum (+ Kopie Zentrales Ausweich System St. Johann) </li></ul></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  12. 12. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand Okt. 2011: ca. 1,08 Mio. Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Mediengesetz erlaubt jährl. 4 Crawls </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , aktueller Domain Crawl läuft seit August 2011 </li></ul></ul>
  13. 13. Domain Crawl 2009/2010 <ul><li>Ca. 900.000 Domains </li></ul><ul><li>Physischer Speicher: ca. 6 TB (original ca. 8,5 TB, komprimiert und dedupliziert) </li></ul><ul><li>Ca. 386 Mio. Objekte </li></ul><ul><li>Erkenntnisse zu .at Webseiten : </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  14. 14. Domain Wachstum D-A-CH CH DE AT Quellen: http://www.denic.de , http://www.nic.at/ , https://www.nic.ch
  15. 15. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>Verwaltung/Behörden (.gv.at), </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten (.ac.at) </li></ul></ul></ul><ul><ul><ul><li>Gesellschaft, Wirtschaft, Kultur etc. </li></ul></ul></ul><ul><ul><li>Neue Kollektionen 2011: </li></ul></ul><ul><ul><ul><li>„ Medien“ (gestartet am 01.04.2011) </li></ul></ul></ul><ul><ul><ul><li>„ Österreichische Autoren&quot; </li></ul></ul></ul>
  16. 16. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Informationspflicht vorab </li></ul></ul><ul><ul><li>Besondere Regelungen für Zugriff </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul><ul><ul><ul><li>ORF.Futurezone 2010 (Technologie Portal) </li></ul></ul></ul>
  17. 17. Web@rchiv Österreich Beispiele ARCHIV LIVE WEB
  18. 18. Speicher <ul><li>Derzeit 8,5 TB (komprimiert, dedupliziert), original ca. 14 TB </li></ul><ul><li>über 650 Mio. Dateien </li></ul>
  19. 19. Wo finden Sie uns? <ul><li>Derzeit nur an der Österreichischen Nationalbibliothek, nicht online </li></ul><ul><li>Spezielle Terminals </li></ul><ul><li>Künftig Recherche auch online </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  20. 24. Demo Screencast
  21. 25. Weitere Infos: http://www.onb.ac.at/about/webarchivierung.htm Social Media: http://twitter.com/AT_Webarchive http://www.facebook.com/ATWebarchive http://www.slideshare.net/ATWebarchive http://screenr.com/user/AT_Webarchive Fragen?

×