SlideShare ist ein Scribd-Unternehmen logo
Internetarchive
Präsentation von Elisabeth Hennecke
Gliederung

1. Das „dunkle digitale Zeitalter“ und Fehler 404
2. Wayback Machine
3. www.archive.org
4. Andere Archive
5. Probleme
6. Perspektiven
Quelle: www.cartoon.deinmeister.de/zukarch

Das „dunkle digitale Zeitalter“

Schon heute: aus der Anfangszeit des Internets
sind kaum noch Originaldokumente erhalten
Inhalte aus dem Internet verschwinden wieder
Internetarchive
Fehler 404
Tritt auf wenn...
… die Seite nicht verfügbar ist
… die Seite nicht mehr existiert
… die Adresse der Seite sich geändert hat
(… und bei Tippfehlern)
Grund dafür: Hyperlink ist unidirektional
konzipiert
www.waybackmachine.org
Vorgehen: URL eingeben
Zeitpunkt auswählen
Seite wird angezeigt
Internetarchive
Internetarchive
www.archive.org

1996 in San Francisco gegründet
Gemeinnütziges Projekt
Finanzierung: Spenden, Stiftungen, Einnahmen
aus Digitalisierung von Bibliotheksbeständen
Gründer: Brewster Kahle
Informatiker
Entwickelte diverse frühe Internet-Applikationen
(z.B. Suchdienste, Publikationssoftware)
Idee:
Das gesamte Wissen der Menschheit frei
zugänglich machen
Was wird archiviert?
Texte: derzeit ca. 2.785.000
werden eingescannt und von Usern
hochgeladen
Neues Projekt: open library
Metadaten jedes jemals veröffentlichten Buchs
Ziel: Link zu Volltext
Audiodateien:
werden von Usern hochgeladen
Live-Aufnahmen: 91.700, andere: 871.000
Filme:
meist mit Creative Common License
zur Zeit: 503.000
Software:
über 64.000
Z.B.: Game Patches, Open Source Software, alle
möglichen Freeware-Anwendungen
Archivierung von Internetseiten
Zur Zeit: 150 Milliarden Seiten archiviert
Exkurs: Archivierungsarten
Crawler = Programm, das Seiten aufruft und
abfotografiert
- Snapshot Crawls
- Event Harvesting/Focused Crawls
- Selective Harvesting
- Manual Crawling
Warum wird das Internet archiviert?
Verhindern eines „dunklen digitalen Zeitalters“
Bewahrung von „digital-born“ Dokumenten
Recht auf frei zugängliches Wissen
Für zukünftige Wissenschaftler:
- Entwicklung des Internets

- Sprachentwicklung
- historische Untersuchung unserer Gesellschaft

Hilfe bei „toten Links“ durch Wayback Machine
Weitere Internetarchive und Archive
im Internet
Dazu gehören:
- nationale Webarchive
- themenbezogene Archive (Datenbanken)
- Projekt Gutenberg: Retrodigitalisate
- World Digital Library (UNESCO)
Problem: Copyright

Regelungen noch zeitgemäß?
Keine global gültigen Regelungen
„Verwaiste Werke“
Pluspunkt: Copyrightverletzungen werden auch
archiviert
Problem: Format

Formatvielfalt
Software und Hardware veralten
Allgemein Problem der Langzeitarchivierung von
digitalen Daten
Lösungsmöglichkeit

Hardware-Museum

Emulation

Migration

Wie funktioniert
das?

Aufbewahrung jedes
jemals hergestellten
Computers

Vorteil

Authentizität

Authentizität

Bereits erprobt, evtl.
Qualitätsverbesserung,
automatisierbar

Nachteil

Riesige Auswahl an
Computern
Kosten
Software
Lebensdauer von
Geräten

Herstellung eines
Emulators ist sehr
aufwendig, noch
nicht ausgereift

Es werden nur die
Inhalte erhalten,
nicht authentisch

Erstellen eines
Regelmäßiges
virtuellen Abbilds
Umspeichern in neue
eines alten
Formate
Computers mit
sämtlichen Hard-und
Softwaremerkmalen
Weitere Probleme
Auswahl
Sicherung vor Hacker- oder Virenangriffen
Inhalte sind ohne Zwischengerät nicht lesbar
Interessensvielfalt: Autoren, Künstler, Verlage,
Produktionsfirmen, Archive, Bibliotheken, die
Gesellschaft, der Einzelne (Persönlichkeitsrechte)
Perspektiven
Bedarf an ...
… rechtlichen Regelungen
… standardisierten Formaten
… Klarheit über öffentlich/privat
→ das Internet ist nicht nur Publikationsmedium, sondern
auch Kommunikationsmedium

Ziel muss sein:
nicht nur Daten erhalten, sondern die
Datenmenge auch übersichtlich machen!

Weitere ähnliche Inhalte

Ähnlich wie Internetarchive

Selbermachen!
Selbermachen! Selbermachen!
Ist Web 2.0 in den Bibliotheken angekommen?
Ist Web 2.0 in den Bibliotheken angekommen?Ist Web 2.0 in den Bibliotheken angekommen?
Ist Web 2.0 in den Bibliotheken angekommen?
Christian Hauschke
 
Webinar WebQquests
Webinar WebQquestsWebinar WebQquests
Webinar WebQquests
anna_pal
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Joachim Kemper
 
Präsentation_Wikipedia_9
Präsentation_Wikipedia_9Präsentation_Wikipedia_9
Präsentation_Wikipedia_9
Wolfgang Gross
 
Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09
jintan
 
2.0: Praxis in der Bibliothekswelt
2.0: Praxis in der Bibliothekswelt2.0: Praxis in der Bibliothekswelt
2.0: Praxis in der Bibliothekswelt
Christian Hauschke
 
Ein Makerspace in der Ausbildung: das LibraryLab an der HTW Chur
Ein Makerspace in der Ausbildung: das LibraryLab an der HTW ChurEin Makerspace in der Ausbildung: das LibraryLab an der HTW Chur
Ein Makerspace in der Ausbildung: das LibraryLab an der HTW Chur
Rudolf Mumenthaler
 
TU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela MayrTU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela Mayr
Web@rchive Austria
 
Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...
Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...
Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...
Karin Janner
 
Christian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, TechnologienChristian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, Technologien
Zukunftswerkstatt
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
Max Kaiser
 
Slideshare (PPP Rave - Computereinsatz)
Slideshare (PPP Rave - Computereinsatz)Slideshare (PPP Rave - Computereinsatz)
Slideshare (PPP Rave - Computereinsatz)
mkirchner1
 
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Kai Eckert
 
Kulturerbeobjekte in der digitalen Welt sichtbar machen
Kulturerbeobjekte in der digitalen Welt sichtbar machenKulturerbeobjekte in der digitalen Welt sichtbar machen
Kulturerbeobjekte in der digitalen Welt sichtbar machen
museum-digital
 
Web20 im Fremdsprachenunterricht
Web20 im FremdsprachenunterrichtWeb20 im Fremdsprachenunterricht
Web20 im Fremdsprachenunterricht
Uwe Klemm
 
Netzsensibilität von Museen (PDF)
Netzsensibilität von Museen (PDF)Netzsensibilität von Museen (PDF)
Netzsensibilität von Museen (PDF)
Thomas Tunsch
 
Webinar_Open_culture_bw_2105
Webinar_Open_culture_bw_2105Webinar_Open_culture_bw_2105
Webinar_Open_culture_bw_2105
MFG Innovationsagentur
 
Social Media in Bibliotheken. Geschichte einer Immigration ins Digitale
Social Media in Bibliotheken. Geschichte einer Immigration ins DigitaleSocial Media in Bibliotheken. Geschichte einer Immigration ins Digitale
Social Media in Bibliotheken. Geschichte einer Immigration ins Digitale
Hans-Christoph Hobohm
 

Ähnlich wie Internetarchive (20)

Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
Ist Web 2.0 in den Bibliotheken angekommen?
Ist Web 2.0 in den Bibliotheken angekommen?Ist Web 2.0 in den Bibliotheken angekommen?
Ist Web 2.0 in den Bibliotheken angekommen?
 
Webinar WebQquests
Webinar WebQquestsWebinar WebQquests
Webinar WebQquests
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
Präsentation_Wikipedia_9
Präsentation_Wikipedia_9Präsentation_Wikipedia_9
Präsentation_Wikipedia_9
 
Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09Create Berlin (Input) am 08.04.09
Create Berlin (Input) am 08.04.09
 
2.0: Praxis in der Bibliothekswelt
2.0: Praxis in der Bibliothekswelt2.0: Praxis in der Bibliothekswelt
2.0: Praxis in der Bibliothekswelt
 
Ein Makerspace in der Ausbildung: das LibraryLab an der HTW Chur
Ein Makerspace in der Ausbildung: das LibraryLab an der HTW ChurEin Makerspace in der Ausbildung: das LibraryLab an der HTW Chur
Ein Makerspace in der Ausbildung: das LibraryLab an der HTW Chur
 
TU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela MayrTU Wien Gastvortrag 07.06.2010, Michaela Mayr
TU Wien Gastvortrag 07.06.2010, Michaela Mayr
 
Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...
Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...
Handout Workshop Web2 0 im Kulturbetrieb, Karin Janner + Frank Tentler für ne...
 
Christian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, TechnologienChristian Hasiewicz: Kunden, Services, Technologien
Christian Hasiewicz: Kunden, Services, Technologien
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
Slideshare (PPP Rave - Computereinsatz)
Slideshare (PPP Rave - Computereinsatz)Slideshare (PPP Rave - Computereinsatz)
Slideshare (PPP Rave - Computereinsatz)
 
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
 
Kulturerbeobjekte in der digitalen Welt sichtbar machen
Kulturerbeobjekte in der digitalen Welt sichtbar machenKulturerbeobjekte in der digitalen Welt sichtbar machen
Kulturerbeobjekte in der digitalen Welt sichtbar machen
 
Web20 im Fremdsprachenunterricht
Web20 im FremdsprachenunterrichtWeb20 im Fremdsprachenunterricht
Web20 im Fremdsprachenunterricht
 
Netzsensibilität von Museen (PDF)
Netzsensibilität von Museen (PDF)Netzsensibilität von Museen (PDF)
Netzsensibilität von Museen (PDF)
 
Webinar_Open_culture_bw_2105
Webinar_Open_culture_bw_2105Webinar_Open_culture_bw_2105
Webinar_Open_culture_bw_2105
 
Social Media in Bibliotheken. Geschichte einer Immigration ins Digitale
Social Media in Bibliotheken. Geschichte einer Immigration ins DigitaleSocial Media in Bibliotheken. Geschichte einer Immigration ins Digitale
Social Media in Bibliotheken. Geschichte einer Immigration ins Digitale
 
CSL10
CSL10CSL10
CSL10
 

Internetarchive

  • 2. Gliederung 1. Das „dunkle digitale Zeitalter“ und Fehler 404 2. Wayback Machine 3. www.archive.org 4. Andere Archive 5. Probleme 6. Perspektiven
  • 3. Quelle: www.cartoon.deinmeister.de/zukarch Das „dunkle digitale Zeitalter“ Schon heute: aus der Anfangszeit des Internets sind kaum noch Originaldokumente erhalten Inhalte aus dem Internet verschwinden wieder
  • 5. Fehler 404 Tritt auf wenn... … die Seite nicht verfügbar ist … die Seite nicht mehr existiert … die Adresse der Seite sich geändert hat (… und bei Tippfehlern) Grund dafür: Hyperlink ist unidirektional konzipiert
  • 9. www.archive.org 1996 in San Francisco gegründet Gemeinnütziges Projekt Finanzierung: Spenden, Stiftungen, Einnahmen aus Digitalisierung von Bibliotheksbeständen
  • 10. Gründer: Brewster Kahle Informatiker Entwickelte diverse frühe Internet-Applikationen (z.B. Suchdienste, Publikationssoftware) Idee: Das gesamte Wissen der Menschheit frei zugänglich machen
  • 11. Was wird archiviert? Texte: derzeit ca. 2.785.000 werden eingescannt und von Usern hochgeladen Neues Projekt: open library Metadaten jedes jemals veröffentlichten Buchs Ziel: Link zu Volltext
  • 12. Audiodateien: werden von Usern hochgeladen Live-Aufnahmen: 91.700, andere: 871.000 Filme: meist mit Creative Common License zur Zeit: 503.000 Software: über 64.000 Z.B.: Game Patches, Open Source Software, alle möglichen Freeware-Anwendungen
  • 13. Archivierung von Internetseiten Zur Zeit: 150 Milliarden Seiten archiviert Exkurs: Archivierungsarten Crawler = Programm, das Seiten aufruft und abfotografiert - Snapshot Crawls - Event Harvesting/Focused Crawls - Selective Harvesting - Manual Crawling
  • 14. Warum wird das Internet archiviert? Verhindern eines „dunklen digitalen Zeitalters“ Bewahrung von „digital-born“ Dokumenten Recht auf frei zugängliches Wissen Für zukünftige Wissenschaftler: - Entwicklung des Internets - Sprachentwicklung - historische Untersuchung unserer Gesellschaft Hilfe bei „toten Links“ durch Wayback Machine
  • 15. Weitere Internetarchive und Archive im Internet Dazu gehören: - nationale Webarchive - themenbezogene Archive (Datenbanken) - Projekt Gutenberg: Retrodigitalisate - World Digital Library (UNESCO)
  • 16. Problem: Copyright Regelungen noch zeitgemäß? Keine global gültigen Regelungen „Verwaiste Werke“ Pluspunkt: Copyrightverletzungen werden auch archiviert
  • 17. Problem: Format Formatvielfalt Software und Hardware veralten Allgemein Problem der Langzeitarchivierung von digitalen Daten
  • 18. Lösungsmöglichkeit Hardware-Museum Emulation Migration Wie funktioniert das? Aufbewahrung jedes jemals hergestellten Computers Vorteil Authentizität Authentizität Bereits erprobt, evtl. Qualitätsverbesserung, automatisierbar Nachteil Riesige Auswahl an Computern Kosten Software Lebensdauer von Geräten Herstellung eines Emulators ist sehr aufwendig, noch nicht ausgereift Es werden nur die Inhalte erhalten, nicht authentisch Erstellen eines Regelmäßiges virtuellen Abbilds Umspeichern in neue eines alten Formate Computers mit sämtlichen Hard-und Softwaremerkmalen
  • 19. Weitere Probleme Auswahl Sicherung vor Hacker- oder Virenangriffen Inhalte sind ohne Zwischengerät nicht lesbar Interessensvielfalt: Autoren, Künstler, Verlage, Produktionsfirmen, Archive, Bibliotheken, die Gesellschaft, der Einzelne (Persönlichkeitsrechte)
  • 20. Perspektiven Bedarf an ... … rechtlichen Regelungen … standardisierten Formaten … Klarheit über öffentlich/privat → das Internet ist nicht nur Publikationsmedium, sondern auch Kommunikationsmedium Ziel muss sein: nicht nur Daten erhalten, sondern die Datenmenge auch übersichtlich machen!