Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

Netwerkdag Oorlogsbronnen, 15 november 2018
Workshop: digging into archives

Programma
• Tribunaalarchieven als Digitale Onderzoeksfaciliteit (TRIADO)
* Anne Gorter (Nationaal Archief), over het Centraal Archief
Bijzondere Rechtspleging
* Edwin Klijn (NOB), over het pilotproject TRIADO
* Rutger van Koert (Huygens ING/KNAW HUC), over nieuwe
technologie om archiefcollecties te ontsluiten
• IMPRESSO. Mining 200 years of newspapers
* Marten Düring (Scientific Advisory Committee TRIADO, C2DH)

Confusion matrix
Ground truth Topic modelling
Stratified random sampling
Named Entity Recognition
Auto-classificatieAuto-clustering
Recall
Precision
Optical Character Recognition
Keyword spotting
Data mining
Entity disambiguation
Sift search
Convnets

TRIADO: van laboratorium naar ‘reality check’
• Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk
Oorlogsbronnen
• Steekproef uit Centraal Archief Bijzondere Rechtspleging
• 2017-2019
• Budget 5 ton, KNAW Onderzoeksfonds

Onderzoeksvragen
1. Welke digitale methoden zijn het meest geschikt om grote corpora
van ongestructureerde, imperfecte data geschikt te maken als
onderzoeksfaciliteit? [GENERIEK DEEL]
2. Is het mogelijk op basis van de gekozen ontsluitingssystematiek
antwoord te geven op specifieke, vooral kwantitatief-statistische
wetenschappelijke onderzoeksvragen? [SPECIFIEK DEEL]

Metadata
Tekst
Beeld
Audio/video
Full-content
Vindbaar………………………………………………………………Bruikbaar

Belangrijkste resultaten
• Plan voor massadigitaliseringsworkflow CABR.
• Wetenschappelijke publicaties over digitale methodologie en
toegepast onderzoek
• Zoeksysteem dat het mogelijk maakt om op de ‘wie, wat, waar en
wanneer’ door de data van de steekproef te zoeken.

Anne Gorter (Nationaal Archief)

Het Centraal Archief Bijzondere
Rechtspleging
Een korte geschiedenis

• Regering in Londen
• Besluiten
• Besluit Bijzonder Strafrecht
• Besluit op de Bijzondere Gerechtshoven
• Besluit Buitengewone Rechtspleging
• Bijzondere Gratie-adviesbesluit
• Tribunaal Besluit
Wettelijke basis

Instellingen
• Opsporingsdiensten
Politieke opsporingsdienst, Politieke Recherche Afdeling, Politieke
Recherche Afdeling Collaboratie, Gemeentepolitie, Rijkspolitie
• Procureur Fiscaal
• Tribunaal
• Bijzonder Gerechtshof
• Bijzondere Raad van Cassatie

Bijzonder
Gerechtshof
Opsporings-
diensten
Bijzondere Raad
van Cassatie
Procureur- Fiscaal
Tribunaal
Opbouw

• Lijsten
• Processen-verbaal
• Sententies
• Memoires
• Foto’s
• Brieven
• Agenda’s
• Formulieren
• Documentatie Nationaal Socialistische organisaties
• En nog veel meer!
Wat zit er in een dossier?

• Begin jaren ‘50
• Kilometers papier
• Kaartsystemen
Centralisatie

Klijn
Kleijn
Klein
Kleyn
Voorbeeld

• Overdracht naar Nationaal Archief
• Toename in aantal aanvragen
• Beperking openbaarheid
• Digitalisering kaartsysteem
Vanaf 2000

• Digitalisering
• Optical Character Recognition
• Named Entity Recognition
• Autoclassificatie
• Privacy?
De toekomst?

TRIADO in vogelvlucht
Edwin Klijn (Netwerk Oorlogsbronnen)

Stappen
1. Inventarisatie: jan-sep 17
2. Digitalisering steekproef en inrichting testomgeving: okt
17-jan 18
3. Transcriptie: jan 18
4. Dataverrijking: feb 18-dec 18
5. Onderzoek: jan 19- juni 19

Optical Character Recognition (OCR)

Optical Character Recognition
Naam en voornamen: GROEN,HENDRIK Geboortep!aats en-datum: Zaandam, 29 October 1897
Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat
25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger)
Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben
gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende:
dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche
goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte
heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis
van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden
Personen
Organisaties
Geografische lokatie
Datum

Dataverrijkingstechnologie
• Named Entity Recognition (NER): personen, organisaties, locaties,
producten, gebeurtenissen, overig.
• Datumextractie: 01-02-1943, feb. 43, februari 1943 etc.
• Auto-classificatie: automatisch herkennen van typen documenten
• Auto-clustering: automatisch sorteren van soortgelijke documenten
• Topic modelling: extractie van ‘significant words’ uit corpora

Voorlopige bevindingen TRIADO
• OCR’en zinvol. Word Error Rate (WER) van 15% voor processen-
verbaal en besluiten.
• Auto-classificatie en datumextractie beloftevol. Error rate van 20%.
• Het trainen van de software (machine-learning) en voorbewerken van
images ter verbetering van de OCR leidt tot goede resultaten.
• Het extraheren van locaties, organisaties en personen met NER-
software kent een hoog foutgehalte. Beter: matchen met bestaande
lijsten.

Rutger van Koert (Huygens ING/ KNAW Humanities Cluster)

Digitale technieken
• Digital Infrastructure HuC
• NOB
Digital Infrastructure HuC

Overview
• Image data
• Data extractie
• Gouden standaard
• OCR verbeteren
• Autoclassificatie
• Topic modeling
• Presentatie data

Image data
• Tiff, 300 dpi
• ~160.000 scans
• Enkele tientallen zijne defect(bad scans)
• Mixed: typemachine, drukwerk, handschriften, foto’s, tekeningen,
paspoorten, diverse formulieren

Data uit de images halen
• OCR
 Abbyy => beste overall
 Tesseract =>
 simpel trainen (LSTM)
• Andere data
 Hoogte/Breedte
 Kleur profielen
 “features”

Donker maken en trainenTesseract
• Vervaagde inkt /carbon kopieen
• Als het er als inkt uitziet: maak het donker
• (voorbeeld uit Archief Joodsche Raad)

Handmatige annotaties
• Dank aan Marielle and Edwin!
• Gouden standaard van wat waar staat in elk image (dat
geselecteerd is)
• Gouden standaard document types
• Gouden standaard Named Entities
• Data voor training en evaluatie verzameld

TrainingTesseract
 150 paginas, 80% training, 20% testing
0
2
4
6
8
10
12
14
16
18
20
1 1000 2000 5000 10000 20000 30000 40000 50000 60000 70000 80000 100000
CER
WER
Error

Convnets
• Convolutional Neural Networks
Architecture of a CNN. — Source: https://www.mathworks.com/videos/introduction-to-deep-learning-what-are-convolutional-neural-networks--1489512765771.html

• document type bepalen via layout
• Features: kolommen, kleur papier, tekst regels
• Redeneren over deze features? Kolommen, etc
• Machine learning, feature extractie en redeneringen automatisch:
Convolutional Neural Networks
• Langzaaaaam….
Autoclassificatie

 Rvl-cdip dataset
Autoclassificatie

 Vragenlijst
 Email
 Budget
Autoclassification

Autoclassificatie
 Via tekst: random forests
 Goede resultaten~80% correct
 Via Document Layout: deep learning
 Meer training nodig: ~50% accuracy na 8 uur rekenen

Topic Modeling
Topic #17: groningen landwachters <name> <name> gearresteerd
slochteren <name> siddeburen ondergedoken huis landwacht
<name> arrestatie <name> overgebracht onderduikers
gemeente<name> schildwolde duitsland schuilplaats zoeken
getuigen personen boerderij <name> <name>

Onderzoeks omgeving
• React, Postgres, Dropwizard, DL4J, tensorflow, docker, d3js en
meer

Frontend
• Full text search in meerdere tekst lagen
• Diverse facetten: taal, tekst grootte, image hoogte, breedte,
document type, namen van mensen, plaatsen, organisaties,
datums, andere metadata zoals aantal tekst kolommen

False positives
 Namen van mensen gegroepeerd op voor- en achternamen,
slachtoffers(Stichting oorlogsgraven, Joodse slachtoffers) en
verdachten(namen van CABR database), geonames

Vragen?
• Rutger.van.koert@di.huc.knaw.nl
• PS: we’re hiring software engineers

Marten Düring (Scientific Advisory Committee TRIADO, University of
Luxembourg)

v
v
Mining 200 years of historical newspapers
https://impresso-project.ch/

What would a historical media monitoring tool
suite look like?

Partners
Funding
Associated Partners
● Swiss National Library, SNL
● National Library of Luxembourg, BnL
● State Archives of Valais, AEV
● Swiss Economic Archives, SWA
● Le Temps
● Neue Zürcher Zeitung, NZZ
● History department, University of
Lausanne, UNIL
● infoclio

+ a team of historical
Advisors
+ a team of associated
historians

Key concepts: Generosity, Transparency
& Co-Design

Simon Clematide & Philip
Ströbel (UZH)
OCR/HTR performance
evaluation based on a sample of
NZZ front pages (1780-1946)
using READ HTR
Technology developed for the recognition of hand-writing promises a
breakthrough in text recognition for newspapers as well:

Search page, with autocomplete

Search page, with a search query and few filters

Search text field, with the active filters for the current search
query

Viewer page, article in context

Viewer page, text transcription mode with annotations

Collections
Shareable, you can make them public
Labels
Basic keyword - for personal use only

Collection page, article in context

Visual comparison of two collections

What’s next?
Early 2019: Interface and corpus ready for testing by Associated Researchers
Community calls:
Named entities - Friday 1 Feb 2018, 11h00-12h00
Topic Modeling - Friday 1 March 2019, 11h00-12h00
Text reuse - Friday 12 April 2019, 11h00-12h00
Workshop on epistemology of digital newspapers – October 2019
More on http://impresso-project.ch/

Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

Recommended

Recommended

More Related Content

Similar to Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

Similar to Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018 (11)

More from Netwerk Oorlogsbronnen

More from Netwerk Oorlogsbronnen (20)

Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018