New digital technology allows us to improve access to textual resources. In this session you will get a glimpse behind the scenes of two projects currently exploring new, fully or semi-automated ways to make archives searchable and create datasets for re-use.
De sessie 'Digging into archives' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Met Anne Gorter (project manager Dutch National Archives), Edwin Klijn (project manager Netwerk Oorlogsbronnen + projectleider TRIADO), Rutger van Koert (developer HuygensING / KNAW Humanities Cluster) en Marten Düring (member Scientific Advisory Committee TRIADO, University of Luxembourg.
2. Programma
• Tribunaalarchieven als Digitale Onderzoeksfaciliteit (TRIADO)
* Anne Gorter (Nationaal Archief), over het Centraal Archief
Bijzondere Rechtspleging
* Edwin Klijn (NOB), over het pilotproject TRIADO
* Rutger van Koert (Huygens ING/KNAW HUC), over nieuwe
technologie om archiefcollecties te ontsluiten
• IMPRESSO. Mining 200 years of newspapers
* Marten Düring (Scientific Advisory Committee TRIADO, C2DH)
3. Confusion matrix
Ground truth Topic modelling
Stratified random sampling
Named Entity Recognition
Auto-classificatieAuto-clustering
Recall
Precision
Optical Character Recognition
Keyword spotting
Data mining
Entity disambiguation
Sift search
Convnets
4. TRIADO: van laboratorium naar ‘reality check’
• Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk
Oorlogsbronnen
• Steekproef uit Centraal Archief Bijzondere Rechtspleging
• 2017-2019
• Budget 5 ton, KNAW Onderzoeksfonds
5. Onderzoeksvragen
1. Welke digitale methoden zijn het meest geschikt om grote corpora
van ongestructureerde, imperfecte data geschikt te maken als
onderzoeksfaciliteit? [GENERIEK DEEL]
2. Is het mogelijk op basis van de gekozen ontsluitingssystematiek
antwoord te geven op specifieke, vooral kwantitatief-statistische
wetenschappelijke onderzoeksvragen? [SPECIFIEK DEEL]
7. Belangrijkste resultaten
• Plan voor massadigitaliseringsworkflow CABR.
• Wetenschappelijke publicaties over digitale methodologie en
toegepast onderzoek
• Zoeksysteem dat het mogelijk maakt om op de ‘wie, wat, waar en
wanneer’ door de data van de steekproef te zoeken.
14. • Lijsten
• Processen-verbaal
• Sententies
• Memoires
• Foto’s
• Brieven
• Agenda’s
• Formulieren
• Documentatie Nationaal Socialistische organisaties
• En nog veel meer!
Wat zit er in een dossier?
15. • Begin jaren ‘50
• Kilometers papier
• Kaartsystemen
Centralisatie
23. Optical Character Recognition
Naam en voornamen: GROEN,HENDRIK Geboortep!aats en-datum: Zaandam, 29 October 1897
Echtgenoote van / Beroep: voorheen agent van Politie, t Laatste woonptaats en adres: Kanaalstraat
25 II Amsterdam Persoonsbewijs-no.:z 2 01239 afgegeven te Leeuwarden Nationaiiteit (evt. vroeger)
Nederlander die ervan verdacht wordt: joodsche personen in macht van den vijand te hebben
gebracht,terwijl hij in dienst was van de S.D. Terzake gehoord, verkiaarde verdachte mij het votgende:
dat hij in dienst was getreden van Lippmann en Rosenthal voor de inventarisatie van joodsche
goederen,vervolgens overgegaan naar de S.D.,afdeeling joodsche zaken te Amsterdam Verdachte
heb ik, optastvan den Chef Opsporingsdienst D.P.M. op 28 Mei 1945 bewaring , togesteid, in het Huis
van Bewaring I te Amsterdam P.O.D. Amsterdam. Mode! A
Domeinspecifieke woorden
Personen
Organisaties
Geografische lokatie
Datum
24. Dataverrijkingstechnologie
• Named Entity Recognition (NER): personen, organisaties, locaties,
producten, gebeurtenissen, overig.
• Datumextractie: 01-02-1943, feb. 43, februari 1943 etc.
• Auto-classificatie: automatisch herkennen van typen documenten
• Auto-clustering: automatisch sorteren van soortgelijke documenten
• Topic modelling: extractie van ‘significant words’ uit corpora
25. Voorlopige bevindingen TRIADO
• OCR’en zinvol. Word Error Rate (WER) van 15% voor processen-
verbaal en besluiten.
• Auto-classificatie en datumextractie beloftevol. Error rate van 20%.
• Het trainen van de software (machine-learning) en voorbewerken van
images ter verbetering van de OCR leidt tot goede resultaten.
• Het extraheren van locaties, organisaties en personen met NER-
software kent een hoog foutgehalte. Beter: matchen met bestaande
lijsten.
28. Overview
• Image data
• Data extractie
• Gouden standaard
• OCR verbeteren
• Autoclassificatie
• Topic modeling
• Presentatie data
29. Image data
• Tiff, 300 dpi
• ~160.000 scans
• Enkele tientallen zijne defect(bad scans)
• Mixed: typemachine, drukwerk, handschriften, foto’s, tekeningen,
paspoorten, diverse formulieren
30. Data uit de images halen
• OCR
Abbyy => beste overall
Tesseract =>
simpel trainen (LSTM)
• Andere data
Hoogte/Breedte
Kleur profielen
“features”
31. Donker maken en trainenTesseract
• Vervaagde inkt /carbon kopieen
• Als het er als inkt uitziet: maak het donker
• (voorbeeld uit Archief Joodsche Raad)
32. Handmatige annotaties
• Dank aan Marielle and Edwin!
• Gouden standaard van wat waar staat in elk image (dat
geselecteerd is)
• Gouden standaard document types
• Gouden standaard Named Entities
• Data voor training en evaluatie verzameld
41. Autoclassificatie
Via tekst: random forests
Goede resultaten~80% correct
Via Document Layout: deep learning
Meer training nodig: ~50% accuracy na 8 uur rekenen
44. Frontend
• Full text search in meerdere tekst lagen
• Diverse facetten: taal, tekst grootte, image hoogte, breedte,
document type, namen van mensen, plaatsen, organisaties,
datums, andere metadata zoals aantal tekst kolommen
45. False positives
Namen van mensen gegroepeerd op voor- en achternamen,
slachtoffers(Stichting oorlogsgraven, Joodse slachtoffers) en
verdachten(namen van CABR database), geonames
49. What would a historical media monitoring tool
suite look like?
50. Partners
Funding
Associated Partners
● Swiss National Library, SNL
● National Library of Luxembourg, BnL
● State Archives of Valais, AEV
● Swiss Economic Archives, SWA
● Le Temps
● Neue Zürcher Zeitung, NZZ
● History department, University of
Lausanne, UNIL
● infoclio
51. + a team of historical
Advisors
+ a team of associated
historians
54. Simon Clematide & Philip
Ströbel (UZH)
OCR/HTR performance
evaluation based on a sample of
NZZ front pages (1780-1946)
using READ HTR
Technology developed for the recognition of hand-writing promises a
breakthrough in text recognition for newspapers as well:
67. What’s next?
Early 2019: Interface and corpus ready for testing by Associated Researchers
Community calls:
Named entities - Friday 1 Feb 2018, 11h00-12h00
Topic Modeling - Friday 1 March 2019, 11h00-12h00
Text reuse - Friday 12 April 2019, 11h00-12h00
Workshop on epistemology of digital newspapers – October 2019
More on http://impresso-project.ch/