VU ICT4D symposium 2017 Wendelien Tuyp: Boosting african agriculture
Vk niod jan_2013
1. Het Verrijkt Koninkrijk
NIOD Lunchlezing
08/01/2013
Johan van Doornik (UvA) Victor de Boer (VUA)
2. The Kingdom of the Netherlands
During World War II
• History of German occupied Dutch society
(1940-1945)
• 14 volumes, 30 parts, 18.000 pages
• Digitized version online in 2011, crashing the
server
“Published between 1969 and 1991,
the 30 volumes still combine the
qualities of an authoritative work for a
general audience, and an inevitable
point of reference for scholars”
3. Clarin-VK: Verrijkt Koninkrijk
“The aim of this project is twofold; in the demonstrator part of
the project advanced tools and techniques are applied to
gather data on De Jong's perception of the much debated issue
of pillarization (Dutch: 'verzuiling') and group identity. In the
resource curation part of the project the corpus will be
enriched and made available to the CLARIN-community for
further research”
4. Verrijkt Koninkrijk Project
NIOD: Historical research
questions
UvA: Representation of digital
text, Named Entity extraction and
consolidation, search prototype
VUA: Enrichment of structured
sources, internal and external
linking. Hackathon
DANS: Data storage and access.
7. <book xmlns="http://www.loedejongdigitaal.nl" vk:id="nl.vk.d.5-I">
<index vk:title="Inhoud" vk:id="nl.vk.d.5-I.1">
<chapter vk:title="Lente 4 1" vk:number="1" vk:id="nl.vk.d.5-I.2">
<section vk:title="" vk:id="nl.vk.d.5-I.2.1">
<section vk:title="Oorlogsverloop en -perspectiej?" vk:id="nl.vk.d.5-I.2.2">
<section vk:title="II. Midden-Oosten, lente 1941" vk:id="nl.vk.d.5-I.2.3">
<subsection vk:id="nl.vk.d.5-I.2.3.1">
<subsection vk:id="nl.vk.d.5-I.2.3.2">
<p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.1">Hoe kon Engeland ooit de oorlog winnen?</p>
<p vk:pdf-page-ref="21" vk:id="nl.vk.d.5-I.2.3.2.2">Het is, achteraf gezien, volstrekt duidelijk ...
<p vk:pdf-page-ref="22" vk:id="nl.vk.d.5-I.2.3.2.3">Deze conceptie was bemoedigend en dit ...
<page vk:pdf-page="22" vk:original-page="14" vk:id="nl.vk.d.5-I.2.3.2.3.14">
<backofbook-ref>
</page>
<header vk:id="nl.vk.d.5-I.2.3.2.3.15">HET BRITSE OORLOGSPLAN</header>men zich in Londen: in de ...
<p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.4">Hoe dat zij vooral Churchill ...
<p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.3.2.5">Had men dat in bezet Nederland vernomen ...
</subsection>
</section>
<section vk:title="Publieke opinie" vk:id="nl.vk.d.5-I.2.4">
<subsection vk:id="nl.vk.d.5-I.2.4.1">
<p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.1">Het verwachtingspatroon van een volk ...
<p vk:pdf-page-ref="23" vk:id="nl.vk.d.5-I.2.4.1.2">1 Aangehaald in Butler ....
<page vk:pdf-page="23" vk:original-page="15" vk:id="nl.vk.d.5-I.2.4.1.2.4">
<backofbook-ref>
<lemma-ref>Azoren</lemma-ref>
<lemma-ref>Bomber Command</lemma-ref>
<lemma-ref>Canarische eilanden</lemma-ref>
<lemma-ref>Madeira</lemma-ref>
<lemma-ref>Portugal</lemma-ref>
<lemma-ref>Spanje</lemma-ref>
<lemma-ref>Tsjechoslowakije</lemma-ref>
</backofbook-ref>
</page>
8. Back of the Book
Required specialized parsing:
Pages (312, 316, …) and page ranges (210-215, …)
See and See also references
OCR correction for numbers (3I2 = 312, …)
Verification of all page references
Mapping page references to paragraph references
Terms that span multiple pages in the back of book
Layout not always as consistent as you would like
10. Resolver
http://resolver.loedejongdigitaal.nl/nl.vk.d.5-II.6.1.2.2
country, collection, doc-type, volume, chapter, section, sub-section, paragraph
<p vk:pdf-page-ref="338" vk:id="nl.vk.d.5-II.6.1.2.2">En in het algemeen leed de
Geallieerde koopvaardij in de eerste zes maanden van '42 opnieuw zeer zware verliezen. Zij
waren vooral gevolg van het feit dat de Amerikanen traag waren met het treffen van
veiligheidsmaatregelen in de Caraïbische Zee en in de zeegebieden bij de Amerikaanse
oostkust. Maandenlang vonden<i>U-Boote</i>daar een uiterst profijtelijk jachtterrein. Het
aantal<i>U-Boote</i>nam ook steeds toe; in juli '41 waren er constant 65 in de vaart, in juli
'42 140. Hitler bezat er toen 331 en er waren, doordat de<i>U-Boote</i>zich zo verspreid
hadden, in de zeven maandenvan januari t.e.m. juli '42 slechts weinige vernietigd: 31. In die
periode verloren de Geallieerden daartentegen per maand gemiddeld meer dan een half
miljoen ton aan scheepsruimte. Het waren vooral die scheepsverliezen die de Geallieerde
oorlogsleiders in de eerste helft van '42 voortdurend aanleiding gaven tot diepe bezorgdheid.
Hoe haakten zij naar de dag waarop de Duitsers en Italianen uit NoordAfrika verdreven
zouden zijn! Dan zou eindelijk de lange, schepen verslindende toevoerroute naar Egypte om
Afrika heen door de zoveel kortere via de Straat van Gibraltar vervangen kunnen
worden.</p>
11. Named Entities + Wikification
1. Natural Language Processing with FROG
2. Detecting names
Machine learned detection using POS and capitalization
3. Linking to Wikipedia with ILPS tools
Mussert Anton Mussert
Avondklok Spertijd
Nationale Padvindersraad Padvinder
14. What is Linked Open Data
•Open data is about open licenses
•Linked (Open) Data is about interoperability
``a term used to describe a
recommended best practice for
exposing, sharing, and connecting
pieces of data, information,
and knowledge on the Semantic
Web using URIs and RDF.’’ --Wikipedia
``Sharable, spreadable and nerd-
friendly’’
-- Charlotte S H Jensen, kulturweb
23. Back of the Back-of-the-Book Index (SKOS)
Book-index
botb:Amsterdam
niod:botb-Blitzkrieg
niod:botb-Blitzkrieg
botb:Blitzkrieg
http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386
24. Named Entities (SKOS)
Named Entity
Results
entity:Maassluis
entity:Amsterdam
niod:botb-Blitzkrieg
niod:botb-Blitzkrieg
entity:Abraham Kuijper
http://resolver.verrijktkoninkrijk.nl/nl.vk.d.reg.4.1386
25. Linked Data
Niod Named Entity Back of the
thesaurus Results Book-index
Verrijkt Koninkrijk