SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Downloaden Sie, um offline zu lesen
Český webový archiv
aneb Webarchiv jako pamatník českého internetu
Jaroslav Kvasnica
Webová archivace
“Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the
public.”
Co stojí za to archivovat?
“more is more, less is less”
vs.
“hoarding is not a strategy”
Co stojí za to archivovat?
• V dnešní době můžeme jen hádat.
• Lidstvo nikdy nedokáže kategorizovat všechna data na
světě.
Základní typologie akvizice
celoplošné sklízení
kvantita > kvalita
výběrové sklízení
kvalita > kvantita
Celoplošné sklízení
1. všechno, celý web (Internet Archive)
2. předem definovaná část webu (národní web, TLD)
• Semínka nevybírají kurátoři
• Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně
automatizovaně
• nutnost definovat výsek, který chceme sklízet (všichni
nemůžou být IA)
Výběrové sklízení
• Semínka připravují kurátoři
• Důraz na kvalitu: obsahovou, technickou (QA)
• na základě tématu, události
IIPC collaborative collection
Europan Refugee Crisis, World War I.
https://archive-it.org/home/IIPC
Nový projekt: Online News Around the World
Instantní archivace
• news, social media
• technicky náročné (výpočetní výkon, nárok na kurátory)
• RSS
• často je aplikovaná při zvláštních událostech
instantní archivace - příklady
“(…) a Ukrainian separatist leader also known as
Strelkov, or someone acting on his behalf, posted a
message on VKontakte, a Russian social-media site:
“We just downed a plane, an AN-26.” (An Antonov 26 is
a Soviet-built military cargo plane.) The post includes
links to video of the wreckage of a plane; it appears to
be a Boeing 777. (…)”
http://www.newyorker.com/magazine/2015/01/26/cobweb
Social media
• všichni chtějí, ale nikdo to pořádně neumí = problém
• individuální nastavení pro každou službu
• technicky náročné
• podobná situace i pro digitální knihovny, databáze atd.
Webarchiv
Český webový archiv, více
Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 250 TB
• frekvence sklízení: 1x|2x|6x|12x/rok
• hloubka sklízení: 5000 - 15 000 objektů/doména
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na profil archivu
• “V současnosti standardně soubory robots.txt nezohledňujeme,
jelikož věříme, že historie webu by se měla uchovat v takové podobě,
v jaké ho vidí lidé a ne vyhledávače.”
Celoplošné sklizně
• smlouva s CZ.NIC
• dnes ~ 1 300 000 domén
• dvakrát za rok sklizeň celé .cz domény
• menší hloubka, časově a objemově náročné
Výběrové sklizně
• manuální práce kurátorů
• “standardní” výběrová sklizeň -> konspekt
• tématické sklizně -> aktuální událost
• kolekce -> společné téma, obor, instituce…
Webový archivŽivý web
Legislativa
• “povinný výtisk” - zatím neexistuje pro webové zdroje
• Autorský zákon - můžeme vytvářet kopie pro archivní
účely na základě knihovní licence (ne zpřístupňovat)
• online přístup - na základě smluv s vydavateli nebo
Creative Commons licence
• méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v NK ČR
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci
Mrtvé weby
Badatelé
• badatelé nevědí co chtějí
• většinou chtějí přístup ke všemu
• většinou nepotřebují přístup ke všemu
badatelé nepotřebují velké datasety, ale flexibilní delivery
service
w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz
www.webarchiv.cz
facebook.com/webarchivcz

Weitere ähnliche Inhalte

Ähnlich wie Blok expertu

Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0
JanKanka
 
Fulltextový vyhledávač
Fulltextový vyhledávačFulltextový vyhledávač
Fulltextový vyhledávač
seznamVyvojari
 
Adolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna ManuscriptoriumAdolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna Manuscriptorium
KISK FF MU
 

Ähnlich wie Blok expertu (10)

Uchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůUchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentů
 
Webarchiv jako digitální knihovna
Webarchiv jako digitální knihovnaWebarchiv jako digitální knihovna
Webarchiv jako digitální knihovna
 
Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017
 
Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017
 
Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0
 
Fulltextový vyhledávač
Fulltextový vyhledávačFulltextový vyhledávač
Fulltextový vyhledávač
 
Knihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsKnihovna 2.0 + Google Docs
Knihovna 2.0 + Google Docs
 
Webové technologie
Webové technologieWebové technologie
Webové technologie
 
Adolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna ManuscriptoriumAdolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna Manuscriptorium
 
Zdeněk Hruška - Archivematica a projekty ve světě
Zdeněk Hruška - Archivematica a projekty ve světěZdeněk Hruška - Archivematica a projekty ve světě
Zdeněk Hruška - Archivematica a projekty ve světě
 

Mehr von Webarchive of National Library of the Czech Republic

Mehr von Webarchive of National Library of the Czech Republic (20)

Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka
 
Inzerát datovy analytik_wa
Inzerát datovy analytik_waInzerát datovy analytik_wa
Inzerát datovy analytik_wa
 
Sys admin wa_rvv
Sys admin wa_rvvSys admin wa_rvv
Sys admin wa_rvv
 
Volné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivuVolné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivu
 
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
 
Volné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivuVolné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivu
 
Webarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvoláchWebarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvolách
 
Datovy analytik
Datovy analytikDatovy analytik
Datovy analytik
 
Webarchiv CZ 2017
Webarchiv CZ 2017Webarchiv CZ 2017
Webarchiv CZ 2017
 
Kurz webové archivace 2017/4
Kurz webové archivace 2017/4Kurz webové archivace 2017/4
Kurz webové archivace 2017/4
 
Kurz webové archivace 2017/3
Kurz webové archivace 2017/3Kurz webové archivace 2017/3
Kurz webové archivace 2017/3
 
Kurz webové archivace 2017/2
Kurz webové archivace 2017/2Kurz webové archivace 2017/2
Kurz webové archivace 2017/2
 
WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?
 
WARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verzeWARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verze
 
Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.
 
Kurz webové archivace III.
Kurz webové archivace III.Kurz webové archivace III.
Kurz webové archivace III.
 
Kurz webové archivace II.
Kurz webové archivace II.Kurz webové archivace II.
Kurz webové archivace II.
 
Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.
 
Prezentace obsahu webového archivu
Prezentace obsahu webového archivuPrezentace obsahu webového archivu
Prezentace obsahu webového archivu
 
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s HeritrixemInfrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
 

Blok expertu

  • 1. Český webový archiv aneb Webarchiv jako pamatník českého internetu Jaroslav Kvasnica
  • 2. Webová archivace “Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.”
  • 3.
  • 4. Co stojí za to archivovat? “more is more, less is less” vs. “hoarding is not a strategy”
  • 5. Co stojí za to archivovat? • V dnešní době můžeme jen hádat. • Lidstvo nikdy nedokáže kategorizovat všechna data na světě.
  • 6. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  • 7. Celoplošné sklízení 1. všechno, celý web (Internet Archive) 2. předem definovaná část webu (národní web, TLD) • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • nutnost definovat výsek, který chceme sklízet (všichni nemůžou být IA)
  • 8. Výběrové sklízení • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události
  • 9. IIPC collaborative collection Europan Refugee Crisis, World War I. https://archive-it.org/home/IIPC Nový projekt: Online News Around the World
  • 10. Instantní archivace • news, social media • technicky náročné (výpočetní výkon, nárok na kurátory) • RSS • často je aplikovaná při zvláštních událostech
  • 11. instantní archivace - příklady “(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.) The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)” http://www.newyorker.com/magazine/2015/01/26/cobweb
  • 12.
  • 13. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  • 15. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  • 16. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 250 TB • frekvence sklízení: 1x|2x|6x|12x/rok • hloubka sklízení: 5000 - 15 000 objektů/doména
  • 17. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na profil archivu • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  • 18. Celoplošné sklizně • smlouva s CZ.NIC • dnes ~ 1 300 000 domén • dvakrát za rok sklizeň celé .cz domény • menší hloubka, časově a objemově náročné
  • 19. Výběrové sklizně • manuální práce kurátorů • “standardní” výběrová sklizeň -> konspekt • tématické sklizně -> aktuální událost • kolekce -> společné téma, obor, instituce…
  • 20.
  • 21.
  • 22.
  • 23.
  • 25. Legislativa • “povinný výtisk” - zatím neexistuje pro webové zdroje • Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat) • online přístup - na základě smluv s vydavateli nebo Creative Commons licence
  • 26.
  • 27. • méně než 1 % zdrojů zpřístupněných online • celý archiv dostupný pouze v NK ČR • Bude to lepší v budoucnu? Ne. • terminály v dalších knihovnách? • metadata
  • 28. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  • 30. Badatelé • badatelé nevědí co chtějí • většinou chtějí přístup ke všemu • většinou nepotřebují přístup ke všemu badatelé nepotřebují velké datasety, ale flexibilní delivery service
  • 31. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz www.webarchiv.cz facebook.com/webarchivcz