SlideShare a Scribd company logo
1 of 68
Netwerkdag Oorlogsbronnen, 15 november 2018
Workshop: digging into archives
Programma
• Tribunaalarchieven als Digitale Onderzoeksfaciliteit (TRIADO)
* Anne Gorter (Nationaal Archief), over het Centraal Archief
Bijzondere Rechtspleging
* Edwin Klijn (NOB), over het pilotproject TRIADO
* Rutger van Koert (Huygens ING/KNAW HUC), over nieuwe
technologie om archiefcollecties te ontsluiten
• IMPRESSO. Mining 200 years of newspapers
* Marten Düring (Scientific Advisory Committee TRIADO, C2DH)
Confusion matrix
Ground truth Topic modelling
Stratified random sampling
Named Entity Recognition
Auto-classificatieAuto-clustering
Recall
Precision
Optical Character Recognition
Keyword spotting
Data mining
Entity disambiguation
Sift search
Convnets
TRIADO: van laboratorium naar ‘reality check’
• Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk
Oorlogsbronnen
• Steekproef uit Centraal Archief Bijzondere Rechtspleging
• 2017-2019
• Budget 5 ton, KNAW Onderzoeksfonds
Onderzoeksvragen
1. Welke digitale methoden zijn het meest geschikt om grote corpora
van ongestructureerde, imperfecte data geschikt te maken als
onderzoeksfaciliteit? [GENERIEK DEEL]
2. Is het mogelijk op basis van de gekozen ontsluitingssystematiek
antwoord te geven op specifieke, vooral kwantitatief-statistische
wetenschappelijke onderzoeksvragen? [SPECIFIEK DEEL]
Metadata
Tekst
Beeld
Audio/video
Full-content
Vindbaar………………………………………………………………Bruikbaar
Belangrijkste resultaten
• Plan voor massadigitaliseringsworkflow CABR.
• Wetenschappelijke publicaties over digitale methodologie en
toegepast onderzoek
• Zoeksysteem dat het mogelijk maakt om op de ‘wie, wat, waar en
wanneer’ door de data van de steekproef te zoeken.
Anne Gorter (Nationaal Archief)
NOB Netwerkdag 15-11-2018
Het Centraal Archief Bijzondere
Rechtspleging
Een korte geschiedenis
• Regering in Londen
• Besluiten
• Besluit Bijzonder Strafrecht
• Besluit op de Bijzondere Gerechtshoven
• Besluit Buitengewone Rechtspleging
• Bijzondere Gratie-adviesbesluit
• Tribunaal Besluit
Wettelijke basis
Instellingen
• Opsporingsdiensten
Politieke opsporingsdienst, Politieke Recherche Afdeling, Politieke
Recherche Afdeling Collaboratie, Gemeentepolitie, Rijkspolitie
• Procureur Fiscaal
• Tribunaal
• Bijzonder Gerechtshof
• Bijzondere Raad van Cassatie
Bijzonder
Gerechtshof
Opsporings-
diensten
Bijzondere Raad
van Cassatie
Procureur- Fiscaal
Tribunaal
Opbouw
• Lijsten
• Processen-verbaal
• Sententies
• Memoires
• Foto’s
• Brieven
• Agenda’s
• Formulieren
• Documentatie Nationaal Socialistische organisaties
• En nog veel meer!
Wat zit er in een dossier?
• Begin jaren ‘50
• Kilometers papier
• Kaartsystemen
Centralisatie
Klijn
Kleijn
Klein
Kleyn
Voorbeeld
• Overdracht naar Nationaal Archief
• Toename in aantal aanvragen
• Beperking openbaarheid
• Digitalisering kaartsysteem
Vanaf 2000
• Digitalisering
• Optical Character Recognition
• Named Entity Recognition
• Autoclassificatie
• Privacy?
De toekomst?
TRIADO in vogelvlucht
Edwin Klijn (Netwerk Oorlogsbronnen)
Stappen
1. Inventarisatie: jan-sep 17
2. Digitalisering steekproef en inrichting testomgeving: okt
17-jan 18
3. Transcriptie: jan 18
4. Dataverrijking: feb 18-dec 18
5. Onderzoek: jan 19- juni 19
Googlen op documentniveau…
Optical Character Recognition (OCR)
Optical Character Recognition
Naam en voornamen: GROEN,HENDRIK Geboortep!aats en-datum: Zaandam, 29 October 1897
Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat
25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger)
Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben
gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende:
dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche
goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte
heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis
van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden
Personen
Organisaties
Geografische lokatie
Datum
Dataverrijkingstechnologie
• Named Entity Recognition (NER): personen, organisaties, locaties,
producten, gebeurtenissen, overig.
• Datumextractie: 01-02-1943, feb. 43, februari 1943 etc.
• Auto-classificatie: automatisch herkennen van typen documenten
• Auto-clustering: automatisch sorteren van soortgelijke documenten
• Topic modelling: extractie van ‘significant words’ uit corpora
Voorlopige bevindingen TRIADO
• OCR’en zinvol. Word Error Rate (WER) van 15% voor processen-
verbaal en besluiten.
• Auto-classificatie en datumextractie beloftevol. Error rate van 20%.
• Het trainen van de software (machine-learning) en voorbewerken van
images ter verbetering van de OCR leidt tot goede resultaten.
• Het extraheren van locaties, organisaties en personen met NER-
software kent een hoog foutgehalte. Beter: matchen met bestaande
lijsten.
Rutger van Koert (Huygens ING/ KNAW Humanities Cluster)
Digitale technieken
• Digital Infrastructure HuC
• NOB
Digital Infrastructure HuC
Overview
• Image data
• Data extractie
• Gouden standaard
• OCR verbeteren
• Autoclassificatie
• Topic modeling
• Presentatie data
Image data
• Tiff, 300 dpi
• ~160.000 scans
• Enkele tientallen zijne defect(bad scans)
• Mixed: typemachine, drukwerk, handschriften, foto’s, tekeningen,
paspoorten, diverse formulieren
Data uit de images halen
• OCR
 Abbyy => beste overall
 Tesseract =>
 simpel trainen (LSTM)
• Andere data
 Hoogte/Breedte
 Kleur profielen
 “features”
Donker maken en trainenTesseract
• Vervaagde inkt /carbon kopieen
• Als het er als inkt uitziet: maak het donker
• (voorbeeld uit Archief Joodsche Raad)
Handmatige annotaties
• Dank aan Marielle and Edwin!
• Gouden standaard van wat waar staat in elk image (dat
geselecteerd is)
• Gouden standaard document types
• Gouden standaard Named Entities
• Data voor training en evaluatie verzameld
TrainingTesseract
 150 paginas, 80% training, 20% testing
0
2
4
6
8
10
12
14
16
18
20
1 1000 2000 5000 10000 20000 30000 40000 50000 60000 70000 80000 100000
CER
WER
Error
Convnets
• Convolutional Neural Networks
Architecture of a CNN. — Source: https://www.mathworks.com/videos/introduction-to-deep-learning-what-are-convolutional-neural-networks--1489512765771.html
• document type bepalen via layout
• Features: kolommen, kleur papier, tekst regels
• Redeneren over deze features? Kolommen, etc
• Machine learning, feature extractie en redeneringen automatisch:
Convolutional Neural Networks
• Langzaaaaam….
Autoclassificatie
Autoclassificatie
DL4J standaard learning curve
 Rvl-cdip dataset
Autoclassificatie
 Vragenlijst
 Email
 Budget
Autoclassification
Autoclassificatie
 Via tekst: random forests
 Goede resultaten~80% correct
 Via Document Layout: deep learning
 Meer training nodig: ~50% accuracy na 8 uur rekenen
Topic Modeling
Topic #17: groningen landwachters <name> <name> gearresteerd
slochteren <name> siddeburen ondergedoken huis landwacht
<name> arrestatie <name> overgebracht onderduikers
gemeente<name> schildwolde duitsland schuilplaats zoeken
getuigen personen boerderij <name> <name>
Onderzoeks omgeving
• React, Postgres, Dropwizard, DL4J, tensorflow, docker, d3js en
meer
Frontend
• Full text search in meerdere tekst lagen
• Diverse facetten: taal, tekst grootte, image hoogte, breedte,
document type, namen van mensen, plaatsen, organisaties,
datums, andere metadata zoals aantal tekst kolommen
False positives
 Namen van mensen gegroepeerd op voor- en achternamen,
slachtoffers(Stichting oorlogsgraven, Joodse slachtoffers) en
verdachten(namen van CABR database), geonames
Vragen?
• Rutger.van.koert@di.huc.knaw.nl
• PS: we’re hiring software engineers
Marten Düring (Scientific Advisory Committee TRIADO, University of
Luxembourg)
v
v
Mining 200 years of historical newspapers
https://impresso-project.ch/
What would a historical media monitoring tool
suite look like?
Partners
Funding
Associated Partners
● Swiss National Library, SNL
● National Library of Luxembourg, BnL
● State Archives of Valais, AEV
● Swiss Economic Archives, SWA
● Le Temps
● Neue Zürcher Zeitung, NZZ
● History department, University of
Lausanne, UNIL
● infoclio
+ a team of historical
Advisors
+ a team of associated
historians
…and our plan to build one:
Key concepts: Generosity, Transparency
& Co-Design
Simon Clematide & Philip
Ströbel (UZH)
OCR/HTR performance
evaluation based on a sample of
NZZ front pages (1780-1946)
using READ HTR
Technology developed for the recognition of hand-writing promises a
breakthrough in text recognition for newspapers as well:
Search page
Search page, with autocomplete
Search page, with a search query and few filters
Search text field, with the active filters for the current search
query
Viewer page, article in context
Viewer page, text transcription mode with annotations
Viewer page, text transcription mode with annotations
Collections
Shareable, you can make them public
Labels
Basic keyword - for personal use only
Collection page, article in context
Visual comparison of two collections
What’s next?
Early 2019: Interface and corpus ready for testing by Associated Researchers
Community calls:
Named entities - Friday 1 Feb 2018, 11h00-12h00
Topic Modeling - Friday 1 March 2019, 11h00-12h00
Text reuse - Friday 12 April 2019, 11h00-12h00
Workshop on epistemology of digital newspapers – October 2019
More on http://impresso-project.ch/
Vragen en discussie

More Related Content

Similar to Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Ikinnoveer
 
20140617 kvan def
20140617 kvan def20140617 kvan def
20140617 kvan def
KVANdagen
 
Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...
Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...
Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...
Zilvermuseum Sterckshof
 

Similar to Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018 (11)

Erfgoed Experts 2016 - Netwerk Digitaal Erfgoed 1 jaar later
Erfgoed Experts 2016 - Netwerk Digitaal Erfgoed 1 jaar laterErfgoed Experts 2016 - Netwerk Digitaal Erfgoed 1 jaar later
Erfgoed Experts 2016 - Netwerk Digitaal Erfgoed 1 jaar later
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
 
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogs...
 
Idm Groningen
Idm GroningenIdm Groningen
Idm Groningen
 
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
 
Vrijwilligersdag Amsterdam Museum 2013 - Project re:DDS
Vrijwilligersdag Amsterdam Museum 2013 - Project re:DDS Vrijwilligersdag Amsterdam Museum 2013 - Project re:DDS
Vrijwilligersdag Amsterdam Museum 2013 - Project re:DDS
 
Volautomatische archiefontsluiting | Edwin Klijn & Anne Gorter
Volautomatische archiefontsluiting | Edwin Klijn & Anne GorterVolautomatische archiefontsluiting | Edwin Klijn & Anne Gorter
Volautomatische archiefontsluiting | Edwin Klijn & Anne Gorter
 
Upstream Kennissessie sdl65: Project re:DDS Amsterdam Museum
Upstream Kennissessie sdl65: Project re:DDS Amsterdam MuseumUpstream Kennissessie sdl65: Project re:DDS Amsterdam Museum
Upstream Kennissessie sdl65: Project re:DDS Amsterdam Museum
 
20140617 kvan def
20140617 kvan def20140617 kvan def
20140617 kvan def
 
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
 
Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...
Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...
Digitalisering van erfgoedcollecties in bibliotheken, archieven en musea. Ove...
 

More from Netwerk Oorlogsbronnen

More from Netwerk Oorlogsbronnen (20)

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de Vooren
 
Van archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin KlijnVan archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin Klijn
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
 
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomHet succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
 
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno LansWikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
Wikidata als auteursdatahub | Workshop Open Data WO2 | Hanno Lans
 

Digging into archives | Sessie 1 | Netwerkdag Oorlogsbronnen 2018

  • 1. Netwerkdag Oorlogsbronnen, 15 november 2018 Workshop: digging into archives
  • 2. Programma • Tribunaalarchieven als Digitale Onderzoeksfaciliteit (TRIADO) * Anne Gorter (Nationaal Archief), over het Centraal Archief Bijzondere Rechtspleging * Edwin Klijn (NOB), over het pilotproject TRIADO * Rutger van Koert (Huygens ING/KNAW HUC), over nieuwe technologie om archiefcollecties te ontsluiten • IMPRESSO. Mining 200 years of newspapers * Marten Düring (Scientific Advisory Committee TRIADO, C2DH)
  • 3. Confusion matrix Ground truth Topic modelling Stratified random sampling Named Entity Recognition Auto-classificatieAuto-clustering Recall Precision Optical Character Recognition Keyword spotting Data mining Entity disambiguation Sift search Convnets
  • 4. TRIADO: van laboratorium naar ‘reality check’ • Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk Oorlogsbronnen • Steekproef uit Centraal Archief Bijzondere Rechtspleging • 2017-2019 • Budget 5 ton, KNAW Onderzoeksfonds
  • 5. Onderzoeksvragen 1. Welke digitale methoden zijn het meest geschikt om grote corpora van ongestructureerde, imperfecte data geschikt te maken als onderzoeksfaciliteit? [GENERIEK DEEL] 2. Is het mogelijk op basis van de gekozen ontsluitingssystematiek antwoord te geven op specifieke, vooral kwantitatief-statistische wetenschappelijke onderzoeksvragen? [SPECIFIEK DEEL]
  • 7. Belangrijkste resultaten • Plan voor massadigitaliseringsworkflow CABR. • Wetenschappelijke publicaties over digitale methodologie en toegepast onderzoek • Zoeksysteem dat het mogelijk maakt om op de ‘wie, wat, waar en wanneer’ door de data van de steekproef te zoeken.
  • 10. Het Centraal Archief Bijzondere Rechtspleging Een korte geschiedenis
  • 11. • Regering in Londen • Besluiten • Besluit Bijzonder Strafrecht • Besluit op de Bijzondere Gerechtshoven • Besluit Buitengewone Rechtspleging • Bijzondere Gratie-adviesbesluit • Tribunaal Besluit Wettelijke basis
  • 12. Instellingen • Opsporingsdiensten Politieke opsporingsdienst, Politieke Recherche Afdeling, Politieke Recherche Afdeling Collaboratie, Gemeentepolitie, Rijkspolitie • Procureur Fiscaal • Tribunaal • Bijzonder Gerechtshof • Bijzondere Raad van Cassatie
  • 14. • Lijsten • Processen-verbaal • Sententies • Memoires • Foto’s • Brieven • Agenda’s • Formulieren • Documentatie Nationaal Socialistische organisaties • En nog veel meer! Wat zit er in een dossier?
  • 15. • Begin jaren ‘50 • Kilometers papier • Kaartsystemen Centralisatie
  • 17. • Overdracht naar Nationaal Archief • Toename in aantal aanvragen • Beperking openbaarheid • Digitalisering kaartsysteem Vanaf 2000
  • 18. • Digitalisering • Optical Character Recognition • Named Entity Recognition • Autoclassificatie • Privacy? De toekomst?
  • 19. TRIADO in vogelvlucht Edwin Klijn (Netwerk Oorlogsbronnen)
  • 20. Stappen 1. Inventarisatie: jan-sep 17 2. Digitalisering steekproef en inrichting testomgeving: okt 17-jan 18 3. Transcriptie: jan 18 4. Dataverrijking: feb 18-dec 18 5. Onderzoek: jan 19- juni 19
  • 23. Optical Character Recognition Naam en voornamen: GROEN,HENDRIK Geboortep!aats en-datum: Zaandam, 29 October 1897 Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat 25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger) Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende: dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A Domeinspecifieke woorden Personen Organisaties Geografische lokatie Datum
  • 24. Dataverrijkingstechnologie • Named Entity Recognition (NER): personen, organisaties, locaties, producten, gebeurtenissen, overig. • Datumextractie: 01-02-1943, feb. 43, februari 1943 etc. • Auto-classificatie: automatisch herkennen van typen documenten • Auto-clustering: automatisch sorteren van soortgelijke documenten • Topic modelling: extractie van ‘significant words’ uit corpora
  • 25. Voorlopige bevindingen TRIADO • OCR’en zinvol. Word Error Rate (WER) van 15% voor processen- verbaal en besluiten. • Auto-classificatie en datumextractie beloftevol. Error rate van 20%. • Het trainen van de software (machine-learning) en voorbewerken van images ter verbetering van de OCR leidt tot goede resultaten. • Het extraheren van locaties, organisaties en personen met NER- software kent een hoog foutgehalte. Beter: matchen met bestaande lijsten.
  • 26. Rutger van Koert (Huygens ING/ KNAW Humanities Cluster)
  • 27. Digitale technieken • Digital Infrastructure HuC • NOB Digital Infrastructure HuC
  • 28. Overview • Image data • Data extractie • Gouden standaard • OCR verbeteren • Autoclassificatie • Topic modeling • Presentatie data
  • 29. Image data • Tiff, 300 dpi • ~160.000 scans • Enkele tientallen zijne defect(bad scans) • Mixed: typemachine, drukwerk, handschriften, foto’s, tekeningen, paspoorten, diverse formulieren
  • 30. Data uit de images halen • OCR  Abbyy => beste overall  Tesseract =>  simpel trainen (LSTM) • Andere data  Hoogte/Breedte  Kleur profielen  “features”
  • 31. Donker maken en trainenTesseract • Vervaagde inkt /carbon kopieen • Als het er als inkt uitziet: maak het donker • (voorbeeld uit Archief Joodsche Raad)
  • 32. Handmatige annotaties • Dank aan Marielle and Edwin! • Gouden standaard van wat waar staat in elk image (dat geselecteerd is) • Gouden standaard document types • Gouden standaard Named Entities • Data voor training en evaluatie verzameld
  • 33. TrainingTesseract  150 paginas, 80% training, 20% testing 0 2 4 6 8 10 12 14 16 18 20 1 1000 2000 5000 10000 20000 30000 40000 50000 60000 70000 80000 100000 CER WER Error
  • 34. Convnets • Convolutional Neural Networks Architecture of a CNN. — Source: https://www.mathworks.com/videos/introduction-to-deep-learning-what-are-convolutional-neural-networks--1489512765771.html
  • 35. • document type bepalen via layout • Features: kolommen, kleur papier, tekst regels • Redeneren over deze features? Kolommen, etc • Machine learning, feature extractie en redeneringen automatisch: Convolutional Neural Networks • Langzaaaaam…. Autoclassificatie
  • 39.  Vragenlijst  Email  Budget Autoclassification
  • 40.
  • 41. Autoclassificatie  Via tekst: random forests  Goede resultaten~80% correct  Via Document Layout: deep learning  Meer training nodig: ~50% accuracy na 8 uur rekenen
  • 42. Topic Modeling Topic #17: groningen landwachters <name> <name> gearresteerd slochteren <name> siddeburen ondergedoken huis landwacht <name> arrestatie <name> overgebracht onderduikers gemeente<name> schildwolde duitsland schuilplaats zoeken getuigen personen boerderij <name> <name>
  • 43. Onderzoeks omgeving • React, Postgres, Dropwizard, DL4J, tensorflow, docker, d3js en meer
  • 44. Frontend • Full text search in meerdere tekst lagen • Diverse facetten: taal, tekst grootte, image hoogte, breedte, document type, namen van mensen, plaatsen, organisaties, datums, andere metadata zoals aantal tekst kolommen
  • 45. False positives  Namen van mensen gegroepeerd op voor- en achternamen, slachtoffers(Stichting oorlogsgraven, Joodse slachtoffers) en verdachten(namen van CABR database), geonames
  • 46. Vragen? • Rutger.van.koert@di.huc.knaw.nl • PS: we’re hiring software engineers
  • 47. Marten Düring (Scientific Advisory Committee TRIADO, University of Luxembourg)
  • 48. v v Mining 200 years of historical newspapers https://impresso-project.ch/
  • 49. What would a historical media monitoring tool suite look like?
  • 50. Partners Funding Associated Partners ● Swiss National Library, SNL ● National Library of Luxembourg, BnL ● State Archives of Valais, AEV ● Swiss Economic Archives, SWA ● Le Temps ● Neue Zürcher Zeitung, NZZ ● History department, University of Lausanne, UNIL ● infoclio
  • 51. + a team of historical Advisors + a team of associated historians
  • 52. …and our plan to build one:
  • 53. Key concepts: Generosity, Transparency & Co-Design
  • 54. Simon Clematide & Philip Ströbel (UZH) OCR/HTR performance evaluation based on a sample of NZZ front pages (1780-1946) using READ HTR Technology developed for the recognition of hand-writing promises a breakthrough in text recognition for newspapers as well:
  • 56. Search page, with autocomplete
  • 57.
  • 58. Search page, with a search query and few filters
  • 59.
  • 60. Search text field, with the active filters for the current search query
  • 61. Viewer page, article in context
  • 62. Viewer page, text transcription mode with annotations
  • 63. Viewer page, text transcription mode with annotations
  • 64. Collections Shareable, you can make them public Labels Basic keyword - for personal use only
  • 66. Visual comparison of two collections
  • 67. What’s next? Early 2019: Interface and corpus ready for testing by Associated Researchers Community calls: Named entities - Friday 1 Feb 2018, 11h00-12h00 Topic Modeling - Friday 1 March 2019, 11h00-12h00 Text reuse - Friday 12 April 2019, 11h00-12h00 Workshop on epistemology of digital newspapers – October 2019 More on http://impresso-project.ch/