Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

•Als PPTX, PDF herunterladen•

0 gefällt mir•145 views

De presentatie 'Van laboratorium naar praktijk: digitaal zoeken door historische archieven' van Edwin Klijn (NOB) tijdens de Noordelijke Netwerkdag Oorlogsbronnen 'Wisseling van de wacht. De bevrijding van kampen en hun nieuwe bewoners' op 23 mei 2019 bij Groninger Archieven / OVCG.

Daten & Analysen

Digitaal zoeken door historische
archieven
Edwin Klijn, Noordelijke Netwerkdag 2019

Stand van zaken
• 11% van archieven gedigitaliseerd (Enumerate 2017)
• Kwart van beschrijvingen niet digitaal beschreven (Enumerate
2017)
• Gebruikers worden steeds digitaler
• Collecties niet aan elkaar verbonden
• Collecties wel gescand maar niet nader toegankelijk gemaakt

Netwerk Oorlogsbronnen
• Doel: betere toegang tot de “Collectie WO2 Nederland”
• Ca. 80 deelnemers en 23 gelieerd
• Projecten rondom digitale collectieontsluiting
• “Thematisch intellectueel beheer”
• www.oorlogsbronnen.nl

Pilot digitalisering Centraal Archief
Bijzondere Rechtspleging (TRIADO)
Bron: Centraal Depot Justitie (collectie Nationaal Archief)

TRIADO: van laboratorium naar ‘reality check’
• Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk
Oorlogsbronnen
• 2017-2019
• Steekproef (13 meter) uit Centraal Archief Bijzondere
Rechtspleging
• Pilot: wat kan er nu met digitale technologie?

Dataverrijkingstechnologie
• Named Entity Recognition (NER): personen, organisaties, locaties,
producten, gebeurtenissen, overig.
• Datum extractie: 01-02-1943, feb. 43, februari 1943 etc.
• Auto-classificatie: automatisch herkennen van typen documenten
• Koppelen aan bestaande databestanden: Nationale Database
Vervolgings Slachtoffers, CABR-database, Oorlogsgravenstichting

Wat kunnen we met nieuwe technologie?
• CABR doorzoekbaar maken op elk woord in de tekst (15% foutmarge)
• CABR doorzoekbaar maken op datum
• CABR doorzoekbaar maken op soort document (20% foutmarge)
• CABR-data koppelen aan bestaande data over locaties, organisaties,
gebeurtenissen en personen (Oorlogslevens, WO2 thesaurus,
Wikidata)

Kansen: verbinding met andere
informatiebronnen!

Artikel 26 BBS was het ‘verraadartikel’. Hierin was degene
strafbaar gesteld, die een ander blootgesteld had aan
opsporing, vervolging, aanhouding en vrijheidsbeneming
door de Duitse vijand of diens handlangers.

www.oorlogsbronnen.nl
@Oorlogsbronnen
info@oorlogsbronnen.nl

Weitere ähnliche Inhalte

Ähnlich wie Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Netwerk Oorlogsbronnen

5 Marco De Niet Denplatform meta-informatie

Mackenzie Een Nieuw Levenbartvcv

Eindrapport_CollectieDigitaal_DEFChido Houbraken

1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigenKVANdagen

Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoedPicturae

Open Cultuur Data / Open Beelden - HackersNL #6Lotte Belice Baltussen

Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekElco van Staveren

Open Cultuur DataArchief 2.0

Open Cultuur Data - KVAN 2012Lotte Belice Baltussen

20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - InleidingGerben Zaagsma

Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld John...imec.archive

Aezel.korte presentatie.nov.2012Peer Boselie

Bronnendromenland | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen

Symposium en Dijksterhuislezing 2012: Project: re:DDSTjarda de Haan

Walther Hasselo - Regionaal Archief LeidenKVANdagen

Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...Netwerk Oorlogsbronnen

20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3 - Bronnenkri...Gerben Zaagsma

Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)ysprick

E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012ErfGeo

Ähnlich wie Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019 (20)

Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018

5 Marco De Niet Den

Mackenzie Een Nieuw Leven

Eindrapport_CollectieDigitaal_DEF

1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen

Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoed

Open Cultuur Data / Open Beelden - HackersNL #6

Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek

Open Cultuur Data

Open Cultuur Data - KVAN 2012

20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding

Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld John...

Aezel.korte presentatie.nov.2012

Bronnendromenland | Netwerkdag Oorlogsbronnen 2018

Symposium en Dijksterhuislezing 2012: Project: re:DDS

Walther Hasselo - Regionaal Archief Leiden

Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...

20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3 - Bronnenkri...

Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)

E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012

Mehr von Netwerk Oorlogsbronnen

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Netwerk Oorlogsbronnen

Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Netwerk Oorlogsbronnen

Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannNetwerk Oorlogsbronnen

Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaNetwerk Oorlogsbronnen

Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen

III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen

Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Netwerk Oorlogsbronnen

Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen

De bevrijding van Nijmegen in woord en beeld | Joost RosendaalNetwerk Oorlogsbronnen

Voetbal in Puinland | Jurryt van de VoorenNetwerk Oorlogsbronnen

Van archief tot verhaal | Edwin KlijnNetwerk Oorlogsbronnen

Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Netwerk Oorlogsbronnen

Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen

Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Netwerk Oorlogsbronnen

Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Netwerk Oorlogsbronnen

De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...Netwerk Oorlogsbronnen

De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019Netwerk Oorlogsbronnen

Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Netwerk Oorlogsbronnen

Patatje Oorlog | KNVI jaarcongres | 13 december 2018Netwerk Oorlogsbronnen

Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomNetwerk Oorlogsbronnen

Mehr von Netwerk Oorlogsbronnen (20)

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...

Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019

Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann

Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna

Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019

III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...

Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...

Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019

De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal

Voetbal in Puinland | Jurryt van de Vooren

Van archief tot verhaal | Edwin Klijn

Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...

Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...

Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...

Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...

De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...

De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019

Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...

Patatje Oorlog | KNVI jaarcongres | 13 december 2018

Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom

Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

1. Digitaal zoeken door historische archieven Edwin Klijn, Noordelijke Netwerkdag 2019

5. Stand van zaken • 11% van archieven gedigitaliseerd (Enumerate 2017) • Kwart van beschrijvingen niet digitaal beschreven (Enumerate 2017) • Gebruikers worden steeds digitaler • Collecties niet aan elkaar verbonden • Collecties wel gescand maar niet nader toegankelijk gemaakt

6. Netwerk Oorlogsbronnen • Doel: betere toegang tot de “Collectie WO2 Nederland” • Ca. 80 deelnemers en 23 gelieerd • Projecten rondom digitale collectieontsluiting • “Thematisch intellectueel beheer” • www.oorlogsbronnen.nl

7. 225 collecties, 10+ mil. objecten

10. Pilot digitalisering Centraal Archief Bijzondere Rechtspleging (TRIADO) Bron: Centraal Depot Justitie (collectie Nationaal Archief)

11. TRIADO: van laboratorium naar ‘reality check’ • Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk Oorlogsbronnen • 2017-2019 • Steekproef (13 meter) uit Centraal Archief Bijzondere Rechtspleging • Pilot: wat kan er nu met digitale technologie?

12. Googlen op documentniveau…

13. Automatische tekstherkenning

14. Dataverrijkingstechnologie • Named Entity Recognition (NER): personen, organisaties, locaties, producten, gebeurtenissen, overig. • Datum extractie: 01-02-1943, feb. 43, februari 1943 etc. • Auto-classificatie: automatisch herkennen van typen documenten • Koppelen aan bestaande databestanden: Nationale Database Vervolgings Slachtoffers, CABR-database, Oorlogsgravenstichting

15.

16. Wat kunnen we met nieuwe technologie? • CABR doorzoekbaar maken op elk woord in de tekst (15% foutmarge) • CABR doorzoekbaar maken op datum • CABR doorzoekbaar maken op soort document (20% foutmarge) • CABR-data koppelen aan bestaande data over locaties, organisaties, gebeurtenissen en personen (Oorlogslevens, WO2 thesaurus, Wikidata)

17.

18.

19.

20. Kansen: verbinding met andere informatiebronnen!

21.

22. Artikel 26 BBS was het ‘verraadartikel’. Hierin was degene strafbaar gesteld, die een ander blootgesteld had aan opsporing, vervolging, aanhouding en vrijheidsbeneming door de Duitse vijand of diens handlangers.

23.

24.

25.

26.

27.

28.

29.

30.

31. www.oorlogsbronnen.nl @Oorlogsbronnen info@oorlogsbronnen.nl

Hinweis der Redaktion

Titelpagina met titel, ondertitel (of datum) en beeld
Standaard slide
Standaard slide
Standaard slide
Standaard slide
Standaard slide
Standaard slide
Standaard slide
Waar draait dit project om: hoe kun je van een een ongestructureerd analoog archief bruikbare digitale data maken? Uitleggen dat veel archieven slechts beschreven zijn op metadataniveau, collectie of deelcollectie (correspondentie 33-39, het dossier van meneer Jansen, etc.) Dit gaat erom om losse documenten machineleesbaar te maken.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
Laatste pagina met wit vlak voor logootjes (hoogte aanpassen naar behoefte)

Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

Ähnlich wie Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019 (20)

Mehr von Netwerk Oorlogsbronnen

Mehr von Netwerk Oorlogsbronnen (20)

Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

Hinweis der Redaktion