SlideShare a Scribd company logo
1 of 14
Download to read offline
Webarchiv
Český webový archiv, více
Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 350 TB
• narůst: 30 - 50 TB / rok
• hloubka sklízení: 5000 - 15 000 objektů/doména
Základní typologie akvizice
celoplošné sklízení
kvantita > kvalita
výběrové sklízení
kvalita > kvantita
Celoplošné sklízení
Všechny webové stránky zveřejněné na .cz doméně
• Semínka nevybírají kurátoři
• Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně
automatizovaně
• smlouva s CZ.NIC
• dvakrát za rok sklizeň celé .cz domény
• menší hloubka, časově a objemově náročné
Výběrové sklízení
Výběrová sklizeň pokrývá pouze vybrané zdroje, ale na
rozdíl od celoplošných sklizní je kladen důraz na zachycení
zdroje a jeho změn v celém rozsahu.
• Semínka připravují kurátoři
• Důraz na kvalitu: obsahovou, technickou (QA)
• na základě tématu, události
• katalogizace zdrojů se souhlasem
Tematické kolekce
Tematické kolekce jsou sbírky archivovaných zdrojů
vztahující se k určitému tématu nebo události.
• Mohou být vytvářeny za účelem:
• zachycení událostí, které mají širší ohlas v prostředí
internetu
• archivace konkrétního tématu, oboru nebo významné
historické události
• Něco mezi celoplošnou a výběrovou sklizní 

Social media
• všichni chtějí, ale nikdo to pořádně neumí = problém
• individuální nastavení pro každou službu
• technicky náročné
• podobná situace i pro digitální knihovny, databáze atd.
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na profil archivu
• “V současnosti standardně soubory robots.txt nezohledňujeme,
jelikož věříme, že historie webu by se měla uchovat v takové podobě,
v jaké ho vidí lidé a ne vyhledávače.”
Legislativa
• “povinný výtisk” - zatím neexistuje pro webové zdroje
• Autorský zákon - můžeme vytvářet kopie pro archivní
účely na základě knihovní licence (ne zpřístupňovat)
• online přístup - na základě smluv s vydavateli nebo
Creative Commons licence
• méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v NK ČR
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci
Badatelé
• badatelé nevědí co chtějí
• většinou chtějí přístup ke všemu
• většinou nepotřebují přístup ke všemu
badatelé nepotřebují velké datasety, ale flexibilní delivery
service
w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz
www.webarchiv.cz
facebook.com/webarchivcz

More Related Content

Similar to Webarchiv

Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz
 
Knihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsKnihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsJanKanka
 
Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0JanKanka
 
Do knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlizeDo knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlizeMilan Janíček
 
Knihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz
 
Adolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna ManuscriptoriumAdolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna ManuscriptoriumKISK FF MU
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0JanKanka
 
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
 Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)  Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR) Národní technická knihovna (NTK)
 
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámEuropeana Newspapers
 
Komu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsKomu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsTereza Simandlová
 
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámEuropeana Newspapers
 
Workshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy praktickyWorkshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy praktickyswenney
 
Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Ústřední knihovna FF MU
 
Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...
Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...
Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...KISK FF MU
 
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkámEuropeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkámEuropeana Newspapers
 
KP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan PacholKP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan PacholInfodays
 
Elektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSIElektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSIUstredni knihovna VUT
 
Uchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůUchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůtomas.sibek
 

Similar to Webarchiv (20)

Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017
 
Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017
 
Knihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsKnihovna 2.0 + Google Docs
Knihovna 2.0 + Google Docs
 
Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0
 
Kurz webové archivace 2018/1
Kurz webové archivace 2018/1Kurz webové archivace 2018/1
Kurz webové archivace 2018/1
 
Do knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlizeDo knihovny skrze webovy prohlize
Do knihovny skrze webovy prohlize
 
Knihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihoven
 
Adolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna ManuscriptoriumAdolf Knoll - Digitální knihovna Manuscriptorium
Adolf Knoll - Digitální knihovna Manuscriptorium
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0
 
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
 Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)  Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
Rešeršní služby v NK ČR (Mgr. Karolína Košťálová, NK ČR)
 
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
 
Komu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsKomu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access Greenhorns
 
Projekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinámProjekt Europeana Newspapers - online brána k evropským historickým novinám
Projekt Europeana Newspapers - online brána k evropským historickým novinám
 
Workshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy praktickyWorkshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy prakticky
 
Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia
 
Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...
Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...
Pavel Procházka: Jak otevřít knihovnu s nulovým rozpočtem (marketing odbornýc...
 
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkámEuropeana Newspapers - evropská brána k digitálním novinovým sbírkám
Europeana Newspapers - evropská brána k digitálním novinovým sbírkám
 
KP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan PacholKP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
KP-SYS: Portaro / Tomáš Krejzek, Jan Pachol
 
Elektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSIElektronické informační zdroje na VUT a vědecké publikování - FSI
Elektronické informační zdroje na VUT a vědecké publikování - FSI
 
Uchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůUchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentů
 

More from Webarchive of National Library of the Czech Republic

More from Webarchive of National Library of the Czech Republic (20)

Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka
 
Inzerát datovy analytik_wa
Inzerát datovy analytik_waInzerát datovy analytik_wa
Inzerát datovy analytik_wa
 
Sys admin wa_rvv
Sys admin wa_rvvSys admin wa_rvv
Sys admin wa_rvv
 
Volné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivuVolné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivu
 
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
 
Volné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivuVolné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivu
 
Webarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvoláchWebarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvolách
 
Datovy analytik
Datovy analytikDatovy analytik
Datovy analytik
 
Webarchiv CZ 2017
Webarchiv CZ 2017Webarchiv CZ 2017
Webarchiv CZ 2017
 
Kurz webové archivace 2017/4
Kurz webové archivace 2017/4Kurz webové archivace 2017/4
Kurz webové archivace 2017/4
 
Kurz webové archivace 2017/3
Kurz webové archivace 2017/3Kurz webové archivace 2017/3
Kurz webové archivace 2017/3
 
Kurz webové archivace 2017/2
Kurz webové archivace 2017/2Kurz webové archivace 2017/2
Kurz webové archivace 2017/2
 
WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?
 
WARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verzeWARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verze
 
Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.
 
Kurz webové archivace III.
Kurz webové archivace III.Kurz webové archivace III.
Kurz webové archivace III.
 
Kurz webové archivace II.
Kurz webové archivace II.Kurz webové archivace II.
Kurz webové archivace II.
 
Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.
 
Prezentace obsahu webového archivu
Prezentace obsahu webového archivuPrezentace obsahu webového archivu
Prezentace obsahu webového archivu
 
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s HeritrixemInfrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
 

Webarchiv

  • 2. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  • 3. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 350 TB • narůst: 30 - 50 TB / rok • hloubka sklízení: 5000 - 15 000 objektů/doména
  • 4. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  • 5. Celoplošné sklízení Všechny webové stránky zveřejněné na .cz doméně • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • smlouva s CZ.NIC • dvakrát za rok sklizeň celé .cz domény • menší hloubka, časově a objemově náročné
  • 6. Výběrové sklízení Výběrová sklizeň pokrývá pouze vybrané zdroje, ale na rozdíl od celoplošných sklizní je kladen důraz na zachycení zdroje a jeho změn v celém rozsahu. • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události • katalogizace zdrojů se souhlasem
  • 7. Tematické kolekce Tematické kolekce jsou sbírky archivovaných zdrojů vztahující se k určitému tématu nebo události. • Mohou být vytvářeny za účelem: • zachycení událostí, které mají širší ohlas v prostředí internetu • archivace konkrétního tématu, oboru nebo významné historické události • Něco mezi celoplošnou a výběrovou sklizní 

  • 8. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  • 9. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na profil archivu • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  • 10. Legislativa • “povinný výtisk” - zatím neexistuje pro webové zdroje • Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat) • online přístup - na základě smluv s vydavateli nebo Creative Commons licence
  • 11. • méně než 1 % zdrojů zpřístupněných online • celý archiv dostupný pouze v NK ČR • Bude to lepší v budoucnu? Ne. • terminály v dalších knihovnách? • metadata
  • 12. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  • 13. Badatelé • badatelé nevědí co chtějí • většinou chtějí přístup ke všemu • většinou nepotřebují přístup ke všemu badatelé nepotřebují velké datasety, ale flexibilní delivery service
  • 14. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz www.webarchiv.cz facebook.com/webarchivcz