SlideShare a Scribd company logo
1 of 23
Nätet och nyheterna :
              Om insamling och
              bevarande av
              webbtidningar
                   Pär Nilsson / Kungliga biblioteket
                        @selanna / @kungbib
12-03-19                  par.nilsson@kb.se
Sidnummer 1
                              www.kb.se
Kungliga biblioteket - historia och mål

• Sveriges nationalbibliotek och statlig
  myndighet – kungligt från 1500-1877

• Stockholm: Humlegården, över och
  under jord – och Karlavägen

• Bålsta: Statens biblioteksdepå – bland
  annat 122 miljoner sidor dagstidningar

• Strängnäs: Roggebiblioteket – stifts- och
  läroverksbibliotek och bokbinderi

• Samlar, bevarar och lånar ut allt svenskt
  tryck, ljud och rörlig bild

• KB:s uppdrag: att bevara för samtida och
  framtida forskning.

12-03-19
Sidnummer 2
Pliktleveranser av tryck, ljud och rörlig bild

• Lagen om leveransplikt från 1661 – från kontroll till forskning.

• Tryckt material till KB och 6 universitetsbibliotek: böcker, tidskrifter,
  dagstidningar, kartor, noter, reklam, medlemsblad, instruktionsböcker,
  broschyrer med mera.

• Etermedia, film, video och fonogram som sprids till svensk allmänhet till KB.

• Digitalt material endast om det getts ut på fysisk bärare (diskett, CD)




                                  www.kb.se/plikt/




12-03-19
Sidnummer 3
Dagstidningar - tryck, mikrofilm, digitaliserat

• Alla nuvarande svenska dagstidningar (cirka 200), inklusive alla editioner,
  bilagor och löpsedlar. Sammanlagt cirka 2 miljoner sidor per år.

• Mikrofilmning (i svartvitt!) av allt unikt innehåll sedan 1979 och en stor del av
  den svenska pressen även tidigare. 70 av 122 miljoner sidor på mikrofilm.

• Digitalisering av 2-3 miljoner sidor (Aftonbladet 1830-2010 och Svenska
  dagbladet 1884-2010) i projekt med EU-stöd och samarbete med Riksarkivet.
  Webbpublicering av det som är upphovsrättsligt fritt (t.o.m.1850).




12-03-19
Sidnummer 4
Webben i backspegeln

• CERN:s tillkännagivande att World Wide
  Web skulle vara fritt för alla – 30 april
  1993

• NCSA Mosaic – 10 september 1993

• Aftonbladet som första svenska
  dagstidningen på webben – 25 augusti
  1994

• Första insamlingen av Aftonbladet hos
  Internet Archive – 23 oktober 1996

• Första insamlingen av Aftonbladet i KB:s
  webbinsamling Kulturarw3 – 1997



12-03-19
Sidnummer 5
Insamling och arkivering av webben

• The Internet Archive 1996

• Pandoraprojektet (Australien) oktober 1996

• Kulturarw3-projektet på Kungliga biblioteket sommaren 1997

• Kungliga biblioteket medlem av International Internet Preservation Consortium
  (IIPC) sedan 2003




               (www.kb.se/om/projekt/Svenska-webbsidor---Kulturarw3/)



12-03-19
Sidnummer 6
”Kungl. bibliotekets digitala kulturarvsprojekt”

• Den svenska webbinsamlingen (Kulturarw3) reglerad i förordning sen maj 2002

• Förordningen tillåter KB att “med hjälp av automatiserad robotteknik samla in,
  bevara och tillhandahålla det nationella digitala kulturarvet i form av det
  svenska material som publiceras på Internet”.

• Förordningen gäller “material som går att hänföra till Sverige genom sådan
  anknytning som adress, adressat, språk, upphovsman eller avsändare.”

• "Personuppgifter får behandlas i projektet för att tillgodose behovet av
  forskning och information", även när det gäller ras eller etniskt ursprung,
  politiska åsikter, religiös eller filosofisk övertygelse, medlemskap i fackförening
  och uppgifter som rör hälsa eller sexualliv.

              (www.riksdagen.se/webbnav/index.aspx?nid=3911&bet=2002:287)



12-03-19
Sidnummer 7
Vad har samlats in och hur?

Vad?

• Alla svenska webbplatser sedan 1997 – 1-3 gånger per år

• Cirka 140 svenska dagstidningars webbplatser på daglig basis sedan 2004

• 1,7 miljarder objekt och 1,5 petabyte data

Hur?

• Helt automatiserad robotinsamling utan manuella kontroller

• Ett begränsat antal objekt per webbplats

• Ett begränsat djup i insamlingen per webbplats




12-03-19
Sidnummer 8
Resultat av Kulturarw3 för dagstidningarna

• En omfattande samling som täcker stora och små tidningar

• Snapshots vid tidpunkten för insamlingen

• Ofta ofullständiga sidor där stilmallar och bilder saknas

• En hel del av överflödigt material, upprepat från dag till dag

• De arkiverade sidorna innehåller ibland länkar till reklam som inte har samlats
  in och i stället visas nuvarande annonser




12-03-19
Sidnummer 9
Tillgång till materialet i Kulturarw3

• Två allmänt tillgängliga datorer på biblioteket, utan anslutning till Internet.

• Kopiering av arkiverade sidor är inte tillåtet, men utskrift är OK.

• Inga sökfunktion för sidorna, men åtkomst genom URL till sidor och länkar som
  presenteras i resultatet, med en länk för varje gång sidan arkiveras.
  Dagstidningars webbplatser förtecknas separat

• Arkiverade webbsidor lagras på band och hämtas till disk på begäran, vilket tar
  cirka två minuter.




12-03-19
Sidnummer 10
Fyra scenarier för webbarkivering

• The "Nirvana" Scenario
• The "Apocalypse" Scenario
• The "Singularity" Scenario
• The "Dusty Archive" Scenario




               Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder
                         30 juni 2011 - Oxford Internet Institute, University of Oxford
                 (netpreserve.org/publications/2011_06_IIPC_WebArchives-TheFutures.pdf)




12-03-19
Sidnummer 11
The ”Nirvana” scenario

   “… web archives would be at once robust, standardized, and securely
   preserved while at the same time, open, flexible, widely used, and part
   of the standard research toolkit in Internet science, political science,
   economics, sociology, contemporary history (and, in the future, history
   of the late 20th and early 21st century), journalism, linguistics,
   communications, business, media studies, and other disciplines …

   usable and useful for the general public, governments, policy units and
   think tanks, businesses, and non-governmental organizations.”
Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder




12-03-19
Sidnummer 12
The ”Apocalypse” scenario

  “The vast amount of information being created globally today may just
  as well have been written on scraps of paper storied in a billion
  shoeboxes, for all the good it will do towards understanding
  developments in the world as reflected by the content on the Internet.”
Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder




12-03-19
Sidnummer 13
The ”Singularity” scenario

   "a world in which human and machine intelligence become inextricably
   inter-twined, and the boundary between them diffuse. In such a world,
   it is not even clear what “archiving” could possibly mean, so as time
   goes forward, the past is inevitably and irretrievably lost. "
Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder




12-03-19
Sidnummer 14
The "Dusty Archive" Scenario

   “often well-curated and maintained, but hardly used.

   Even though the web archiving community continues to develop
   standards and practices for preserving portions of the Internet, few
   really impressive uses emerge from the research community.

   Pages may be individually consulted via online tools, and some
   researchers will continue to build small archives for particular research
   topics, but Internet research will continue to focus primarily on the live
   web, and little interest will develop in using the past web for serious
   research any time in the near future.”
Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder




12-03-19
Sidnummer 15
E-plikt - vad är det?

Elektroniskt material som:

• är av avslutad och permanent karaktär, formuleras:
  ”en avgränsad enhet av elektroniskt material med text, ljud eller bild som har
  ett på förhand bestämt innehåll som är avsett att presenteras vid varje
  användning”

• gjorts tillgängligt för allmänheten genom överföring via nätverk

• riktar sig till allmänheten i Sverige eller till personer som förstår svenska
  språket eller om materialet har en svensk upphovsman




12-03-19
Sidnummer 16
E-plikt – vad ska levereras?

• Artiklar (reportage, krönikor, debattartiklar, bloggposter, recensioner)

• Egenpublicerade annonser

• Broschyrer, vägledningar, guider

• Egenproducerad rörlig bild (webb-tv, videoklipp)

• Webbradio

• Poddradio

• Bilder




12-03-19
Sidnummer 17
E-plikt - vad ska inte levereras?

• Hela webbsidor, hela databaser
• Programkod som bygger upp databaser
• Direktsändning
• Material som förs fortlöpande (t.ex. wikiwebbplats som uppdateras av vem som
  helst)
• Krönikor som är identiska med den i den tryckta versionen av dagstidningen
• Seminarieinbjudan
• Innehåll på intranät eller andra slutna nätverk
• Privatpublicerade bilder, musik, filmer, bloggar och kommentarer
• Kalendarier, tablåer
• Artiklar utgivna av nyhetsbyråer
• Reklamfilm/text som inleder egenproducerat tv-inslag

12-03-19
Sidnummer 18
Vad kommer e-plikten att ge?
                                          Metadata
                                    <vem>SVD</vem>
                                  <när>2010-05-24</när>
                                            Etc




                                 Metadata
                        <vem>Försäkringskassan</vem>
                           <när>2010-05-24</när>
                                    Etc




12-03-19
Sidnummer 19
Metoder för leverans av e-pliktmaterial

• Fysisk bärare
    – Leverans av pliktmaterial ska enligt lagförslaget ske via fysisk bärare
    – KB kommer att föreskriva att USB-minne ska användas för detta ändamål

• Nätverk
   – KB kommer att tillhandahålla leverans via nätverk
   – Ger möjlighet att automatisera inleverans
   – Olika metoder, leverantören väljer det som passar bäst utifrån karaktären
     på materialet
   – KB tillhandahåller specifikationer och genomför testleveranser i samarbete
     med leverantören




12-03-19
Sidnummer 20
Leverans av e-pliktmaterial via nätverk

• FTP
   – Metadata samt filresurser förs över via ftp
   – Möjligt med flera ftp-kanaler för en och samma leverantör
   – Automatiserat, eller manuellt, flöde hos leverantören

• RSS
   – RSS 2.0 med tillägg av vissa element från MediaRSS och DCMI Metadata
     Terms (Dublin Core)
   – Möjligt med flera RSS-flöden för en och samma leverantör
   – Helt automatiserat flöde för leverantören
   – KB läser med lämpligt intervall RSS-flöden och hämtar pliktmaterial

• Webbgränssnitt
   – Manuell uppladdning av filresurser via webbgränssnitt
   – Metadata anges i formulär, alternativt bifogas som fil
   – Lämpligt för leverantörer med liten mängd material
12-03-19
Sidnummer 21
Vad kan bevaras av nätets nyheter?

Via robotinsamlingen:

• Helheten, så gott det går

• Utseendet

• En ögonblicksbild

Via e-plikten:

• Delarna, så gott det går

• Ren information, i text, bild, ljud eller video

• En nyhets utveckling över dygnet




12-03-19
Sidnummer 22
Hur bevara nyheterna på nätet?

• Fortsatt dagliga insamling med mer kontroll över vad vi får

• Bättre kontroll över stilmallar etc för att bevara layout

• Möjligen insamling en gång per månad till ett större djup

• Styrd insamling så att viktiga nyheter fångas i sitt sammanhang

• E-pliktleveranser som representerar tidslinjen för en nyhet

• Nytt gränssnitt och indexering för att söka i arkivet och se tidslinjer

• Och - i Nirvana - inte bara bitar av papper i en skokartong, men en sömlös
  integration av robotinsamlat material och e-pliktmaterial




12-03-19
Sidnummer 23

More Related Content

Viewers also liked

Who runs the (Airport) world?
Who runs the (Airport) world?Who runs the (Airport) world?
Who runs the (Airport) world?Branding pass
 
Gelatina com partículas microencapsuladas
Gelatina com partículas microencapsuladasGelatina com partículas microencapsuladas
Gelatina com partículas microencapsuladasAmanda Rios
 
54145899 sap-sd-int-tips
54145899 sap-sd-int-tips54145899 sap-sd-int-tips
54145899 sap-sd-int-tipsNitesh Mahajan
 
miRNA Activity in Arabidopsis thaliana
miRNA Activity in Arabidopsis thalianamiRNA Activity in Arabidopsis thaliana
miRNA Activity in Arabidopsis thalianatsandrew
 
3장 태그로부터의 지능 정보 추출
3장 태그로부터의 지능 정보 추출3장 태그로부터의 지능 정보 추출
3장 태그로부터의 지능 정보 추출병국 윤
 
Basic rules-in-sap-sd-module
Basic rules-in-sap-sd-moduleBasic rules-in-sap-sd-module
Basic rules-in-sap-sd-moduleNitesh Mahajan
 
Adopter 2기 3회차 목표설정 (20160319)
Adopter 2기 3회차 목표설정 (20160319)Adopter 2기 3회차 목표설정 (20160319)
Adopter 2기 3회차 목표설정 (20160319)병국 윤
 
유디스 세미나 - 그로스해킹 시작하기
유디스 세미나 - 그로스해킹 시작하기유디스 세미나 - 그로스해킹 시작하기
유디스 세미나 - 그로스해킹 시작하기병국 윤
 
Unidad 1 metodologia investigacion accion parte 2
Unidad 1 metodologia investigacion accion parte 2Unidad 1 metodologia investigacion accion parte 2
Unidad 1 metodologia investigacion accion parte 2Paula Arenas
 

Viewers also liked (10)

Who runs the (Airport) world?
Who runs the (Airport) world?Who runs the (Airport) world?
Who runs the (Airport) world?
 
M2tech CNBS server
M2tech CNBS serverM2tech CNBS server
M2tech CNBS server
 
Gelatina com partículas microencapsuladas
Gelatina com partículas microencapsuladasGelatina com partículas microencapsuladas
Gelatina com partículas microencapsuladas
 
54145899 sap-sd-int-tips
54145899 sap-sd-int-tips54145899 sap-sd-int-tips
54145899 sap-sd-int-tips
 
miRNA Activity in Arabidopsis thaliana
miRNA Activity in Arabidopsis thalianamiRNA Activity in Arabidopsis thaliana
miRNA Activity in Arabidopsis thaliana
 
3장 태그로부터의 지능 정보 추출
3장 태그로부터의 지능 정보 추출3장 태그로부터의 지능 정보 추출
3장 태그로부터의 지능 정보 추출
 
Basic rules-in-sap-sd-module
Basic rules-in-sap-sd-moduleBasic rules-in-sap-sd-module
Basic rules-in-sap-sd-module
 
Adopter 2기 3회차 목표설정 (20160319)
Adopter 2기 3회차 목표설정 (20160319)Adopter 2기 3회차 목표설정 (20160319)
Adopter 2기 3회차 목표설정 (20160319)
 
유디스 세미나 - 그로스해킹 시작하기
유디스 세미나 - 그로스해킹 시작하기유디스 세미나 - 그로스해킹 시작하기
유디스 세미나 - 그로스해킹 시작하기
 
Unidad 1 metodologia investigacion accion parte 2
Unidad 1 metodologia investigacion accion parte 2Unidad 1 metodologia investigacion accion parte 2
Unidad 1 metodologia investigacion accion parte 2
 

Similar to Nätet och nyheterna

Pickit - Visby 2016-11-23
Pickit - Visby 2016-11-23Pickit - Visby 2016-11-23
Pickit - Visby 2016-11-23Lars Lundqvist
 
Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...
Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...
Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...Stina Degerstedt
 
Ekosystem digikult 2015
Ekosystem digikult 2015Ekosystem digikult 2015
Ekosystem digikult 2015Sven Rentzhog
 
En webbpolicy för stockholms stads digitala samlingar cc sem juni 10
En webbpolicy för stockholms stads digitala samlingar cc sem juni 10En webbpolicy för stockholms stads digitala samlingar cc sem juni 10
En webbpolicy för stockholms stads digitala samlingar cc sem juni 10Fotosekretariatet
 
Länsmuseernas samarbetsråd 24 0kt 2012
Länsmuseernas samarbetsråd 24 0kt 2012Länsmuseernas samarbetsråd 24 0kt 2012
Länsmuseernas samarbetsråd 24 0kt 2012RICHES
 
Öppna nya kanaler till skönlitteraturen – hur då
Öppna nya kanaler till skönlitteraturen – hur dåÖppna nya kanaler till skönlitteraturen – hur då
Öppna nya kanaler till skönlitteraturen – hur dåAnn Östman
 
Tekniskt Museum Oslo 2016-10-06
Tekniskt Museum Oslo 2016-10-06Tekniskt Museum Oslo 2016-10-06
Tekniskt Museum Oslo 2016-10-06Lars Lundqvist
 
Styrelsen Föremålsvård 2015-02-12
Styrelsen Föremålsvård 2015-02-12Styrelsen Föremålsvård 2015-02-12
Styrelsen Föremålsvård 2015-02-12Lars Lundqvist
 
Trafikverkets museiråd 2016-11-23
Trafikverkets museiråd 2016-11-23Trafikverkets museiråd 2016-11-23
Trafikverkets museiråd 2016-11-23Lars Lundqvist
 
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...Digisam
 
Digisam - ett samordningssekretariat för digitalisering 1.0
Digisam - ett samordningssekretariat för digitalisering 1.0Digisam - ett samordningssekretariat för digitalisering 1.0
Digisam - ett samordningssekretariat för digitalisering 1.0RICHES
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Bibliotek 24
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Linnéa Sjögren
 
"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23
"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23
"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23Lars Lundqvist
 
Museiutredningen 2014-05-14
Museiutredningen 2014-05-14Museiutredningen 2014-05-14
Museiutredningen 2014-05-14Lars Lundqvist
 
Making history come alive - OpenArch Conference, Foteviken 2012
Making history come alive - OpenArch Conference, Foteviken 2012Making history come alive - OpenArch Conference, Foteviken 2012
Making history come alive - OpenArch Conference, Foteviken 2012EXARC
 
För nyanställda på I-avd RAÄ, 2015
För nyanställda på I-avd RAÄ, 2015För nyanställda på I-avd RAÄ, 2015
För nyanställda på I-avd RAÄ, 2015Lars Lundqvist
 

Similar to Nätet och nyheterna (20)

Pickit - Visby 2016-11-23
Pickit - Visby 2016-11-23Pickit - Visby 2016-11-23
Pickit - Visby 2016-11-23
 
Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...
Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...
Hur säkrar vi det digitala kulturarvet? Om e-plikt och digital insamling vid ...
 
Vejledning om ophavsret til svenske arkiver og museer
Vejledning om ophavsret til svenske arkiver og museerVejledning om ophavsret til svenske arkiver og museer
Vejledning om ophavsret til svenske arkiver og museer
 
LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...
LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...
LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...
 
Ekosystem digikult 2015
Ekosystem digikult 2015Ekosystem digikult 2015
Ekosystem digikult 2015
 
En webbpolicy för stockholms stads digitala samlingar cc sem juni 10
En webbpolicy för stockholms stads digitala samlingar cc sem juni 10En webbpolicy för stockholms stads digitala samlingar cc sem juni 10
En webbpolicy för stockholms stads digitala samlingar cc sem juni 10
 
Kkn 17 dec 2012
Kkn 17 dec 2012Kkn 17 dec 2012
Kkn 17 dec 2012
 
Länsmuseernas samarbetsråd 24 0kt 2012
Länsmuseernas samarbetsråd 24 0kt 2012Länsmuseernas samarbetsråd 24 0kt 2012
Länsmuseernas samarbetsråd 24 0kt 2012
 
Öppna nya kanaler till skönlitteraturen – hur då
Öppna nya kanaler till skönlitteraturen – hur dåÖppna nya kanaler till skönlitteraturen – hur då
Öppna nya kanaler till skönlitteraturen – hur då
 
Tekniskt Museum Oslo 2016-10-06
Tekniskt Museum Oslo 2016-10-06Tekniskt Museum Oslo 2016-10-06
Tekniskt Museum Oslo 2016-10-06
 
Styrelsen Föremålsvård 2015-02-12
Styrelsen Föremålsvård 2015-02-12Styrelsen Föremålsvård 2015-02-12
Styrelsen Föremålsvård 2015-02-12
 
Trafikverkets museiråd 2016-11-23
Trafikverkets museiråd 2016-11-23Trafikverkets museiråd 2016-11-23
Trafikverkets museiråd 2016-11-23
 
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
 
Digisam - ett samordningssekretariat för digitalisering 1.0
Digisam - ett samordningssekretariat för digitalisering 1.0Digisam - ett samordningssekretariat för digitalisering 1.0
Digisam - ett samordningssekretariat för digitalisering 1.0
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009
 
"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23
"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23
"Den nya öppenheten" - Svenska Arkivsamfundet och Arkivrådet AAS 2013-10-23
 
Museiutredningen 2014-05-14
Museiutredningen 2014-05-14Museiutredningen 2014-05-14
Museiutredningen 2014-05-14
 
Making history come alive - OpenArch Conference, Foteviken 2012
Making history come alive - OpenArch Conference, Foteviken 2012Making history come alive - OpenArch Conference, Foteviken 2012
Making history come alive - OpenArch Conference, Foteviken 2012
 
För nyanställda på I-avd RAÄ, 2015
För nyanställda på I-avd RAÄ, 2015För nyanställda på I-avd RAÄ, 2015
För nyanställda på I-avd RAÄ, 2015
 

Nätet och nyheterna

  • 1. Nätet och nyheterna : Om insamling och bevarande av webbtidningar Pär Nilsson / Kungliga biblioteket @selanna / @kungbib 12-03-19 par.nilsson@kb.se Sidnummer 1 www.kb.se
  • 2. Kungliga biblioteket - historia och mål • Sveriges nationalbibliotek och statlig myndighet – kungligt från 1500-1877 • Stockholm: Humlegården, över och under jord – och Karlavägen • Bålsta: Statens biblioteksdepå – bland annat 122 miljoner sidor dagstidningar • Strängnäs: Roggebiblioteket – stifts- och läroverksbibliotek och bokbinderi • Samlar, bevarar och lånar ut allt svenskt tryck, ljud och rörlig bild • KB:s uppdrag: att bevara för samtida och framtida forskning. 12-03-19 Sidnummer 2
  • 3. Pliktleveranser av tryck, ljud och rörlig bild • Lagen om leveransplikt från 1661 – från kontroll till forskning. • Tryckt material till KB och 6 universitetsbibliotek: böcker, tidskrifter, dagstidningar, kartor, noter, reklam, medlemsblad, instruktionsböcker, broschyrer med mera. • Etermedia, film, video och fonogram som sprids till svensk allmänhet till KB. • Digitalt material endast om det getts ut på fysisk bärare (diskett, CD) www.kb.se/plikt/ 12-03-19 Sidnummer 3
  • 4. Dagstidningar - tryck, mikrofilm, digitaliserat • Alla nuvarande svenska dagstidningar (cirka 200), inklusive alla editioner, bilagor och löpsedlar. Sammanlagt cirka 2 miljoner sidor per år. • Mikrofilmning (i svartvitt!) av allt unikt innehåll sedan 1979 och en stor del av den svenska pressen även tidigare. 70 av 122 miljoner sidor på mikrofilm. • Digitalisering av 2-3 miljoner sidor (Aftonbladet 1830-2010 och Svenska dagbladet 1884-2010) i projekt med EU-stöd och samarbete med Riksarkivet. Webbpublicering av det som är upphovsrättsligt fritt (t.o.m.1850). 12-03-19 Sidnummer 4
  • 5. Webben i backspegeln • CERN:s tillkännagivande att World Wide Web skulle vara fritt för alla – 30 april 1993 • NCSA Mosaic – 10 september 1993 • Aftonbladet som första svenska dagstidningen på webben – 25 augusti 1994 • Första insamlingen av Aftonbladet hos Internet Archive – 23 oktober 1996 • Första insamlingen av Aftonbladet i KB:s webbinsamling Kulturarw3 – 1997 12-03-19 Sidnummer 5
  • 6. Insamling och arkivering av webben • The Internet Archive 1996 • Pandoraprojektet (Australien) oktober 1996 • Kulturarw3-projektet på Kungliga biblioteket sommaren 1997 • Kungliga biblioteket medlem av International Internet Preservation Consortium (IIPC) sedan 2003 (www.kb.se/om/projekt/Svenska-webbsidor---Kulturarw3/) 12-03-19 Sidnummer 6
  • 7. ”Kungl. bibliotekets digitala kulturarvsprojekt” • Den svenska webbinsamlingen (Kulturarw3) reglerad i förordning sen maj 2002 • Förordningen tillåter KB att “med hjälp av automatiserad robotteknik samla in, bevara och tillhandahålla det nationella digitala kulturarvet i form av det svenska material som publiceras på Internet”. • Förordningen gäller “material som går att hänföra till Sverige genom sådan anknytning som adress, adressat, språk, upphovsman eller avsändare.” • "Personuppgifter får behandlas i projektet för att tillgodose behovet av forskning och information", även när det gäller ras eller etniskt ursprung, politiska åsikter, religiös eller filosofisk övertygelse, medlemskap i fackförening och uppgifter som rör hälsa eller sexualliv. (www.riksdagen.se/webbnav/index.aspx?nid=3911&bet=2002:287) 12-03-19 Sidnummer 7
  • 8. Vad har samlats in och hur? Vad? • Alla svenska webbplatser sedan 1997 – 1-3 gånger per år • Cirka 140 svenska dagstidningars webbplatser på daglig basis sedan 2004 • 1,7 miljarder objekt och 1,5 petabyte data Hur? • Helt automatiserad robotinsamling utan manuella kontroller • Ett begränsat antal objekt per webbplats • Ett begränsat djup i insamlingen per webbplats 12-03-19 Sidnummer 8
  • 9. Resultat av Kulturarw3 för dagstidningarna • En omfattande samling som täcker stora och små tidningar • Snapshots vid tidpunkten för insamlingen • Ofta ofullständiga sidor där stilmallar och bilder saknas • En hel del av överflödigt material, upprepat från dag till dag • De arkiverade sidorna innehåller ibland länkar till reklam som inte har samlats in och i stället visas nuvarande annonser 12-03-19 Sidnummer 9
  • 10. Tillgång till materialet i Kulturarw3 • Två allmänt tillgängliga datorer på biblioteket, utan anslutning till Internet. • Kopiering av arkiverade sidor är inte tillåtet, men utskrift är OK. • Inga sökfunktion för sidorna, men åtkomst genom URL till sidor och länkar som presenteras i resultatet, med en länk för varje gång sidan arkiveras. Dagstidningars webbplatser förtecknas separat • Arkiverade webbsidor lagras på band och hämtas till disk på begäran, vilket tar cirka två minuter. 12-03-19 Sidnummer 10
  • 11. Fyra scenarier för webbarkivering • The "Nirvana" Scenario • The "Apocalypse" Scenario • The "Singularity" Scenario • The "Dusty Archive" Scenario Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder 30 juni 2011 - Oxford Internet Institute, University of Oxford (netpreserve.org/publications/2011_06_IIPC_WebArchives-TheFutures.pdf) 12-03-19 Sidnummer 11
  • 12. The ”Nirvana” scenario “… web archives would be at once robust, standardized, and securely preserved while at the same time, open, flexible, widely used, and part of the standard research toolkit in Internet science, political science, economics, sociology, contemporary history (and, in the future, history of the late 20th and early 21st century), journalism, linguistics, communications, business, media studies, and other disciplines … usable and useful for the general public, governments, policy units and think tanks, businesses, and non-governmental organizations.” Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder 12-03-19 Sidnummer 12
  • 13. The ”Apocalypse” scenario “The vast amount of information being created globally today may just as well have been written on scraps of paper storied in a billion shoeboxes, for all the good it will do towards understanding developments in the world as reflected by the content on the Internet.” Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder 12-03-19 Sidnummer 13
  • 14. The ”Singularity” scenario "a world in which human and machine intelligence become inextricably inter-twined, and the boundary between them diffuse. In such a world, it is not even clear what “archiving” could possibly mean, so as time goes forward, the past is inevitably and irretrievably lost. " Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder 12-03-19 Sidnummer 14
  • 15. The "Dusty Archive" Scenario “often well-curated and maintained, but hardly used. Even though the web archiving community continues to develop standards and practices for preserving portions of the Internet, few really impressive uses emerge from the research community. Pages may be individually consulted via online tools, and some researchers will continue to build small archives for particular research topics, but Internet research will continue to focus primarily on the live web, and little interest will develop in using the past web for serious research any time in the near future.” Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder 12-03-19 Sidnummer 15
  • 16. E-plikt - vad är det? Elektroniskt material som: • är av avslutad och permanent karaktär, formuleras: ”en avgränsad enhet av elektroniskt material med text, ljud eller bild som har ett på förhand bestämt innehåll som är avsett att presenteras vid varje användning” • gjorts tillgängligt för allmänheten genom överföring via nätverk • riktar sig till allmänheten i Sverige eller till personer som förstår svenska språket eller om materialet har en svensk upphovsman 12-03-19 Sidnummer 16
  • 17. E-plikt – vad ska levereras? • Artiklar (reportage, krönikor, debattartiklar, bloggposter, recensioner) • Egenpublicerade annonser • Broschyrer, vägledningar, guider • Egenproducerad rörlig bild (webb-tv, videoklipp) • Webbradio • Poddradio • Bilder 12-03-19 Sidnummer 17
  • 18. E-plikt - vad ska inte levereras? • Hela webbsidor, hela databaser • Programkod som bygger upp databaser • Direktsändning • Material som förs fortlöpande (t.ex. wikiwebbplats som uppdateras av vem som helst) • Krönikor som är identiska med den i den tryckta versionen av dagstidningen • Seminarieinbjudan • Innehåll på intranät eller andra slutna nätverk • Privatpublicerade bilder, musik, filmer, bloggar och kommentarer • Kalendarier, tablåer • Artiklar utgivna av nyhetsbyråer • Reklamfilm/text som inleder egenproducerat tv-inslag 12-03-19 Sidnummer 18
  • 19. Vad kommer e-plikten att ge? Metadata <vem>SVD</vem> <när>2010-05-24</när> Etc Metadata <vem>Försäkringskassan</vem> <när>2010-05-24</när> Etc 12-03-19 Sidnummer 19
  • 20. Metoder för leverans av e-pliktmaterial • Fysisk bärare – Leverans av pliktmaterial ska enligt lagförslaget ske via fysisk bärare – KB kommer att föreskriva att USB-minne ska användas för detta ändamål • Nätverk – KB kommer att tillhandahålla leverans via nätverk – Ger möjlighet att automatisera inleverans – Olika metoder, leverantören väljer det som passar bäst utifrån karaktären på materialet – KB tillhandahåller specifikationer och genomför testleveranser i samarbete med leverantören 12-03-19 Sidnummer 20
  • 21. Leverans av e-pliktmaterial via nätverk • FTP – Metadata samt filresurser förs över via ftp – Möjligt med flera ftp-kanaler för en och samma leverantör – Automatiserat, eller manuellt, flöde hos leverantören • RSS – RSS 2.0 med tillägg av vissa element från MediaRSS och DCMI Metadata Terms (Dublin Core) – Möjligt med flera RSS-flöden för en och samma leverantör – Helt automatiserat flöde för leverantören – KB läser med lämpligt intervall RSS-flöden och hämtar pliktmaterial • Webbgränssnitt – Manuell uppladdning av filresurser via webbgränssnitt – Metadata anges i formulär, alternativt bifogas som fil – Lämpligt för leverantörer med liten mängd material 12-03-19 Sidnummer 21
  • 22. Vad kan bevaras av nätets nyheter? Via robotinsamlingen: • Helheten, så gott det går • Utseendet • En ögonblicksbild Via e-plikten: • Delarna, så gott det går • Ren information, i text, bild, ljud eller video • En nyhets utveckling över dygnet 12-03-19 Sidnummer 22
  • 23. Hur bevara nyheterna på nätet? • Fortsatt dagliga insamling med mer kontroll över vad vi får • Bättre kontroll över stilmallar etc för att bevara layout • Möjligen insamling en gång per månad till ett större djup • Styrd insamling så att viktiga nyheter fångas i sitt sammanhang • E-pliktleveranser som representerar tidslinjen för en nyhet • Nytt gränssnitt och indexering för att söka i arkivet och se tidslinjer • Och - i Nirvana - inte bara bitar av papper i en skokartong, men en sömlös integration av robotinsamlat material och e-pliktmaterial 12-03-19 Sidnummer 23

Editor's Notes

  1. As any large collection of web pages inevitably will contain a lot of personal information which may come into conflict with the Swedish Personal Data Act, the Swedish Data Inspection Board in 2002 proposed that the web harvesting done by the NLS should be regulated in law, so as to control what is stored and in what way the stored material is made available.&amp;quot; The regulation was passed in May 2002 and clearly permits the library to collect and store the Swedish &amp;quot;national digital cultural heritage&amp;quot; as it is published on the Internet. 32 This includes all material which can be classified as Swedish on the grounds of &amp;quot;address, addressee, language, originator or sender&amp;quot;. According to the regulation, information about individuals may be collected and stored in the database &amp;quot;in order to benefit the need for research and information&amp;quot;, even if it is sensitive information as defined in the Personal Data Act, i.e. concerns ethnicity, political views, religion, etc. The information may even be exported on e.g. CD or DVD, but solely for research purposes. Direct access to the database, however, is only allowed on the premises of the library.
  2. 11 Access to the Harvested Pages So far, the only way to access the Swedish web archive is through two publicly available PCs at the NLS. The PCs used for browsing the archive are not connected to the internet, as we must make sure that the archived pages are not copied, but you are allowed to print the pages. There is no search facility, by which you could &amp;quot;google&amp;quot; the pages. Instead, for the pages from the complete harvesting cycles, you have to know the URL of the page, enter it in a search box and choose one of the links presented in the result list. There is one link for each time the page was archived. For the harvested newspaper web pages things are a little easier. Here you can choose one of the available URLs from a list. The archived web pages are kept in a tape archive and are fetched to disk on request, which means that you have to wait for about two minutes. This has hardly made the archive attractive to users, but the whole archive will now be put on disk instead.