Anders Klindt Myrvoll, Netarkivet, Det Kongelige. Bibliotek: Billeder og metadata i netarkiver. Billledesøgninger ud fra GPS-placering ved brug af EXIF meta-data og søgning ved upload af billeder. Netarkivet på Det Kgl. Bibliotek er et lukket arkiv. Derfor skal vi se på åbne arkiver fra Ungarn og Grækenland der har brugt Det Kgl. Biblioteks nyudviklede prototype open source kode, SolrWayback, som adgangsløsning til deres webarkiver, herunder billeddata.
Maria Knude Oldhøj Nielsen, DFI Danmark på film version 2.0.
Anders Klindt Myrvoll, Netarkivet, Det Kongelige. Bibliotek: Billeder og metadata i netarkiver
1. Billledesøgninger ud fra GPS-placering ved
brug af EXIF meta-data og søgning ved
upload af billeder i SolrWayback
Anders Klindt Myrvoll
Programme Manager – Netarkivet
Thomas Egense
IT specialist
Landsforeningen til bevaring af Foto og Film
LFF kursus: Metadata – Nøglen til samlingen også i fremtiden
31. Januar 2019 Odense
Billeder og metadata
i netarkiver
10. Netarkivet og billeder
•27 mia hits/items (alle typer af filer)
•ca. 1/4 billeder.
•ca. 60 mio billeder med
location i exif-meta data.
IIPC, Wellington, 2018
11. WEB ARCHIVE
MED ARC/WARC
FILER
INDEX
British Library
Webarchive-
discovery/
Warc-indexer
framework
SEARCH/
FRONT END
INTERFACE
PLAYBACK
ENGINE
TOOLS
Høstning
PWID
WWW
Indbygget socks proxy
For at undgå liveleaking
Out of the box, open source web-application
for forskere til at udforske Arc/Warc filer.
12. Nye tiltag
• I Innovation-week på ITU lavede Thomas Egense en lille SolrWayback demo
som viser hvordan billederne fordeler sig over tid. Den er også med i
Ungarn's version!
Her er valgt budapest og 200km radius:
• http://193.6.201.202/solrwayback/geo_time.html?latitude=47.4979&longitude
=19.0402&d=200
• Der er sat grænse ved 1000 billeder. Man kan se hvordan de fordeler sig over
tid, det er de små streger under slideren.
18. • Nemt at installere og bruge på Mac, Linux og
Windows. Indeholder Webserver, Solr og Warc-
indekseringsværktøj. Bare slip Arc / Warcs i en
mappe og begynd at udforske corpus.
•Github-link
https://github.com/netarchivesuite/solrwayback
Installering af SolrWayback
19. Mere info
The National Széchényi Library - Hungary http://193.6.201.202/solrwayback/
Gabor Vitez genskrev geo search fra google maps til open streetmaps.
Athens University of Economics and Business (ældre version SolrWayback)
http://archive.aueb.gr/
• Toke Eskildsen har hjulpet med sparring / performance tuning og en warc
eksport.
• Niels Gamborg har lavet 75% af front-end
søgning grænseflade og værktøjer.
Pensioneret nu.
Abstract IIPC 2018 - Wellington
IIPC, Wellington, 2018
20. Kontakt
SolrWayback - Thomas Egense
teg@kb.dk @ThomasEgense
PWID - Eld Zierau
elzi@kb.dk @EldZierau
Netarkivet og generel info –
Anders Klindt Myrvoll
ankm@kb.dk @AndersKlindt
24. SOLRWayback showing an archived webpage with an overlay statistics and
further navigation options.
25. Page previews for different harvest times of a given url. Images are generated
real-time and uses the build in socks proxy to prevent leaking to the live web.
The Booktower at the Royal Danish Library in Aarhus!
The Black Diamond in Copenhagen
Link til Hungarian Live SolrWayback er på laptop-ikonet ved “Search/front end interface”
Jeg har fundet et eksempel med 5 høstninger: søg på “Blikk” – vælg html og så kan der ses lidt mere end hvis der var 2 høstninger.
Tools: tag PWID til sidst og så til slides PWID – give me a shout out if you want to talk more about this.
SolrWayback is a many-facetted tool.
På geografisk billede søgning skal du taste *:* efter at have valgt et område, så ser du alle billeder.
It´s an open source web-application for searching and viewing Arc/Warc files. It is both a search interface and a viewer for historical webpages. The Arc/Warc files must be indexed using the British Library Webarchive-discovery/Warc-indexer framework.
Free text search in all Mime types
Image search (similar to Google Images)
Image search by GPS location using exif meta-data.
Graph tools (domain links graph, statistics etc.)
Streaming export of search result to a new Warc-file. Can be used to extract a corpus from a collection.
Screenshot previews of a url over different harvest times.
See harvest times for all resources on a webpage.
Upload a resource (image etc.) to see if it exists in the corpus.
- Linkes til fra tools på oversigtssiden
Fordelene ved PWID: kan bruges på åbne OG lukkede arkiver – unikt ID
Kommenter ift. .jpeg – PWID kan være med til at sikre at referencen til et billede er unik
Building a graph like this takes maybe 20 sec, not hours or days
Backup-slides - Link er på ”Laptop på search” på oversigts-siden hvis Live-URL ikke virker