2. Webová archivace
“Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the
public.”
3.
4. Co stojí za to archivovat?
“more is more, less is less”
vs.
“hoarding is not a strategy”
5. Co stojí za to archivovat?
• V dnešní době můžeme jen hádat.
• Lidstvo nikdy nedokáže kategorizovat všechna data na
světě.
7. Celoplošné sklízení
1. všechno, celý web (Internet Archive)
2. předem definovaná část webu (národní web, TLD)
• Semínka nevybírají kurátoři
• Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně
automatizovaně
• nutnost definovat výsek, který chceme sklízet (všichni
nemůžou být IA)
8. Výběrové sklízení
• Semínka připravují kurátoři
• Důraz na kvalitu: obsahovou, technickou (QA)
• na základě tématu, události
10. Instantní archivace
• news, social media
• technicky náročné (výpočetní výkon, nárok na kurátory)
• RSS
• často je aplikovaná při zvláštních událostech
11. instantní archivace - příklady
“(…) a Ukrainian separatist leader also known as
Strelkov, or someone acting on his behalf, posted a
message on VKontakte, a Russian social-media site:
“We just downed a plane, an AN-26.” (An Antonov 26 is
a Soviet-built military cargo plane.) The post includes
links to video of the wreckage of a plane; it appears to
be a Boeing 777. (…)”
http://www.newyorker.com/magazine/2015/01/26/cobweb
12.
13. Social media
• všichni chtějí, ale nikdo to pořádně neumí = problém
• individuální nastavení pro každou službu
• technicky náročné
• podobná situace i pro digitální knihovny, databáze atd.
15. Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
17. • robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na profil archivu
• “V současnosti standardně soubory robots.txt nezohledňujeme,
jelikož věříme, že historie webu by se měla uchovat v takové podobě,
v jaké ho vidí lidé a ne vyhledávače.”
18. Celoplošné sklizně
• smlouva s CZ.NIC
• dnes ~ 1 300 000 domén
• dvakrát za rok sklizeň celé .cz domény
• menší hloubka, časově a objemově náročné
25. Legislativa
• “povinný výtisk” - zatím neexistuje pro webové zdroje
• Autorský zákon - můžeme vytvářet kopie pro archivní
účely na základě knihovní licence (ne zpřístupňovat)
• online přístup - na základě smluv s vydavateli nebo
Creative Commons licence
26.
27. • méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v NK ČR
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata
28. Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci
30. Badatelé
• badatelé nevědí co chtějí
• většinou chtějí přístup ke všemu
• většinou nepotřebují přístup ke všemu
badatelé nepotřebují velké datasety, ale flexibilní delivery
service
31. w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz
www.webarchiv.cz
facebook.com/webarchivcz