SlideShare ist ein Scribd-Unternehmen logo
1 von 31
Digitaal zoeken door historische
archieven
Edwin Klijn, Noordelijke Netwerkdag 2019
Stand van zaken
• 11% van archieven gedigitaliseerd (Enumerate 2017)
• Kwart van beschrijvingen niet digitaal beschreven (Enumerate
2017)
• Gebruikers worden steeds digitaler
• Collecties niet aan elkaar verbonden
• Collecties wel gescand maar niet nader toegankelijk gemaakt
Netwerk Oorlogsbronnen
• Doel: betere toegang tot de “Collectie WO2 Nederland”
• Ca. 80 deelnemers en 23 gelieerd
• Projecten rondom digitale collectieontsluiting
• “Thematisch intellectueel beheer”
• www.oorlogsbronnen.nl
225 collecties, 10+ mil. objecten
Pilot digitalisering Centraal Archief
Bijzondere Rechtspleging (TRIADO)
Bron: Centraal Depot Justitie (collectie Nationaal Archief)
TRIADO: van laboratorium naar ‘reality check’
• Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk
Oorlogsbronnen
• 2017-2019
• Steekproef (13 meter) uit Centraal Archief Bijzondere
Rechtspleging
• Pilot: wat kan er nu met digitale technologie?
Googlen op documentniveau…
Automatische tekstherkenning
Dataverrijkingstechnologie
• Named Entity Recognition (NER): personen, organisaties, locaties,
producten, gebeurtenissen, overig.
• Datum extractie: 01-02-1943, feb. 43, februari 1943 etc.
• Auto-classificatie: automatisch herkennen van typen documenten
• Koppelen aan bestaande databestanden: Nationale Database
Vervolgings Slachtoffers, CABR-database, Oorlogsgravenstichting
Wat kunnen we met nieuwe technologie?
• CABR doorzoekbaar maken op elk woord in de tekst (15% foutmarge)
• CABR doorzoekbaar maken op datum
• CABR doorzoekbaar maken op soort document (20% foutmarge)
• CABR-data koppelen aan bestaande data over locaties, organisaties,
gebeurtenissen en personen (Oorlogslevens, WO2 thesaurus,
Wikidata)
Kansen: verbinding met andere
informatiebronnen!
Artikel 26 BBS was het ‘verraadartikel’. Hierin was degene
strafbaar gesteld, die een ander blootgesteld had aan
opsporing, vervolging, aanhouding en vrijheidsbeneming
door de Duitse vijand of diens handlangers.
www.oorlogsbronnen.nl
@Oorlogsbronnen
info@oorlogsbronnen.nl

Weitere ähnliche Inhalte

Ähnlich wie Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Netwerk Oorlogsbronnen
 
Mackenzie Een Nieuw Leven
Mackenzie Een Nieuw LevenMackenzie Een Nieuw Leven
Mackenzie Een Nieuw Levenbartvcv
 
Eindrapport_CollectieDigitaal_DEF
Eindrapport_CollectieDigitaal_DEFEindrapport_CollectieDigitaal_DEF
Eindrapport_CollectieDigitaal_DEFChido Houbraken
 
1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen
1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen
1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigenKVANdagen
 
Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoed
Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoedErfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoed
Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoedPicturae
 
Open Cultuur Data / Open Beelden - HackersNL #6
Open Cultuur Data / Open Beelden - HackersNL #6Open Cultuur Data / Open Beelden - HackersNL #6
Open Cultuur Data / Open Beelden - HackersNL #6Lotte Belice Baltussen
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekElco van Staveren
 
20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding
20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding
20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - InleidingGerben Zaagsma
 
Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld John...
Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld   John...Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld   John...
Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld John...imec.archive
 
Aezel.korte presentatie.nov.2012
Aezel.korte presentatie.nov.2012Aezel.korte presentatie.nov.2012
Aezel.korte presentatie.nov.2012Peer Boselie
 
Bronnendromenland | Netwerkdag Oorlogsbronnen 2018
Bronnendromenland | Netwerkdag Oorlogsbronnen 2018Bronnendromenland | Netwerkdag Oorlogsbronnen 2018
Bronnendromenland | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
 
Symposium en Dijksterhuislezing 2012: Project: re:DDS
Symposium en Dijksterhuislezing 2012: Project: re:DDSSymposium en Dijksterhuislezing 2012: Project: re:DDS
Symposium en Dijksterhuislezing 2012: Project: re:DDSTjarda de Haan
 
Walther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief LeidenWalther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief LeidenKVANdagen
 
Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...
Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...
Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...Netwerk Oorlogsbronnen
 
20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3 - Bronnenkri...
20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3  - Bronnenkri...20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3  - Bronnenkri...
20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3 - Bronnenkri...Gerben Zaagsma
 
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)ysprick
 
E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012
E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012
E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012ErfGeo
 

Ähnlich wie Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019 (20)

Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
 
5 Marco De Niet Den
5 Marco De Niet Den5 Marco De Niet Den
5 Marco De Niet Den
 
Mackenzie Een Nieuw Leven
Mackenzie Een Nieuw LevenMackenzie Een Nieuw Leven
Mackenzie Een Nieuw Leven
 
Eindrapport_CollectieDigitaal_DEF
Eindrapport_CollectieDigitaal_DEFEindrapport_CollectieDigitaal_DEF
Eindrapport_CollectieDigitaal_DEF
 
1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen
1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen
1206_Klijn_Netwerk_Oorlogsbronnen_samen_voor_ons_eigen
 
Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoed
Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoedErfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoed
Erfgoedexperts 2016 - Toekomstperspectieven op digitaal erfgoed
 
Open Cultuur Data / Open Beelden - HackersNL #6
Open Cultuur Data / Open Beelden - HackersNL #6Open Cultuur Data / Open Beelden - HackersNL #6
Open Cultuur Data / Open Beelden - HackersNL #6
 
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheekInctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
Inctspiratie 2009 - KB - Op weg naar de digitale bibliotheek
 
Open Cultuur Data
Open Cultuur DataOpen Cultuur Data
Open Cultuur Data
 
Open Cultuur Data - KVAN 2012
Open Cultuur Data - KVAN 2012Open Cultuur Data - KVAN 2012
Open Cultuur Data - KVAN 2012
 
20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding
20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding
20130215 - Cursus Digitaal Historisch Onderzoek 2013: College 1 - Inleiding
 
Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld John...
Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld   John...Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld   John...
Erfgoed2 0 2 Reflecties Op Memory Insititutions In Een Digitale Wereld John...
 
Aezel.korte presentatie.nov.2012
Aezel.korte presentatie.nov.2012Aezel.korte presentatie.nov.2012
Aezel.korte presentatie.nov.2012
 
Bronnendromenland | Netwerkdag Oorlogsbronnen 2018
Bronnendromenland | Netwerkdag Oorlogsbronnen 2018Bronnendromenland | Netwerkdag Oorlogsbronnen 2018
Bronnendromenland | Netwerkdag Oorlogsbronnen 2018
 
Symposium en Dijksterhuislezing 2012: Project: re:DDS
Symposium en Dijksterhuislezing 2012: Project: re:DDSSymposium en Dijksterhuislezing 2012: Project: re:DDS
Symposium en Dijksterhuislezing 2012: Project: re:DDS
 
Walther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief LeidenWalther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief Leiden
 
Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...
Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...
Werken in een netwerk | Informatiebijeenkomst Erfgoedhuis Zuid-Holland | 19 j...
 
20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3 - Bronnenkri...
20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3  - Bronnenkri...20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3  - Bronnenkri...
20130315 - Cursus Digitaal Historisch Onderzoek 2013: College 3 - Bronnenkri...
 
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
 
E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012
E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012
E&L-presentatie Digitaal Erfgoedconferentie 2012 - 04/12/2012
 

Mehr von Netwerk Oorlogsbronnen

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Netwerk Oorlogsbronnen
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Netwerk Oorlogsbronnen
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannNetwerk Oorlogsbronnen
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaNetwerk Oorlogsbronnen
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Netwerk Oorlogsbronnen
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Netwerk Oorlogsbronnen
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalNetwerk Oorlogsbronnen
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenNetwerk Oorlogsbronnen
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Netwerk Oorlogsbronnen
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Netwerk Oorlogsbronnen
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Netwerk Oorlogsbronnen
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Netwerk Oorlogsbronnen
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...Netwerk Oorlogsbronnen
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019Netwerk Oorlogsbronnen
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Netwerk Oorlogsbronnen
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Netwerk Oorlogsbronnen
 
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomHet succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomNetwerk Oorlogsbronnen
 

Mehr von Netwerk Oorlogsbronnen (20)

Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
Webinar Huis voor de Kunsten Limburg | Lizzy Jongma & Edwin Klijn | Netwerk O...
 
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
Componisten in verzet | Leo Smit Stichting | Netwerkdag 2019
 
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael HoffmannSessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
Sessie II Collecting Collections | Netwerkdag 2019| Michael Hoffmann
 
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke JornaSessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
Sessie II Collecting Collections | Netwerkdag 2019| Janneke Jorna
 
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
Facebook van Vervolging | Lizzy Jongma | Netwerkdag Oorlogsbronnen 2019
 
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
III Het mijnenveld van datamining | Joost Gijselman | Netwerkdag Oorlogsbronn...
 
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
Sessie I Oorlogsbronnen in een nieuw jasje | Perspekt | Netwerkdag Oorlogsbro...
 
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
Kreatief met Kollecties | Edwin Klijn | Netwerkdag Oorlogsbronnen 2019
 
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost RosendaalDe bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
De bevrijding van Nijmegen in woord en beeld | Joost Rosendaal
 
Voetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de VoorenVoetbal in Puinland | Jurryt van de Vooren
Voetbal in Puinland | Jurryt van de Vooren
 
Van archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin KlijnVan archief tot verhaal | Edwin Klijn
Van archief tot verhaal | Edwin Klijn
 
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
Workshop AI en u | Edwin Klijn en Rutger van Koert | TRIADO slotcongres| 13 s...
 
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
Kamp Westerbork 1945-1971 | Guido Abuys | Noordelijke Netwerkdag Oorlogsbronn...
 
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
Kamp De Beetse na de bevrijding | Jochem Abbes | Noordelijke Netwerkdag Oorlo...
 
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
Fries Verzetsmuseum online | Nynke Kuipers | Noordelijke Netwerkdag Oorlogsbr...
 
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
De Holocaust als nieuws | Huub Wijfjes | Noordelijke Netwerkdag Oorlogsbronne...
 
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
De meerwaarde van samenwerking bij data- en contentdonatie | WikiconNL 2019
 
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
Startbijeenkomst Crowdsouringproject 'Rotterdamse arrestanten' | Tessa Free |...
 
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018Patatje Oorlog | KNVI jaarcongres | 13 december 2018
Patatje Oorlog | KNVI jaarcongres | 13 december 2018
 
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd BlomHet succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
Het succes van de lepelaar | Workshop Open Data WO2 | Ruurd Blom
 

Van laboratorium naar praktijk | Edwin Klijn | Noordelijke Netwerkdag Oorlogsbronnen 2019

  • 1. Digitaal zoeken door historische archieven Edwin Klijn, Noordelijke Netwerkdag 2019
  • 2.
  • 3.
  • 4.
  • 5. Stand van zaken • 11% van archieven gedigitaliseerd (Enumerate 2017) • Kwart van beschrijvingen niet digitaal beschreven (Enumerate 2017) • Gebruikers worden steeds digitaler • Collecties niet aan elkaar verbonden • Collecties wel gescand maar niet nader toegankelijk gemaakt
  • 6. Netwerk Oorlogsbronnen • Doel: betere toegang tot de “Collectie WO2 Nederland” • Ca. 80 deelnemers en 23 gelieerd • Projecten rondom digitale collectieontsluiting • “Thematisch intellectueel beheer” • www.oorlogsbronnen.nl
  • 7. 225 collecties, 10+ mil. objecten
  • 8.
  • 9.
  • 10. Pilot digitalisering Centraal Archief Bijzondere Rechtspleging (TRIADO) Bron: Centraal Depot Justitie (collectie Nationaal Archief)
  • 11. TRIADO: van laboratorium naar ‘reality check’ • Partners: Nationaal Archief, NIOD, Huygens ING, Netwerk Oorlogsbronnen • 2017-2019 • Steekproef (13 meter) uit Centraal Archief Bijzondere Rechtspleging • Pilot: wat kan er nu met digitale technologie?
  • 14. Dataverrijkingstechnologie • Named Entity Recognition (NER): personen, organisaties, locaties, producten, gebeurtenissen, overig. • Datum extractie: 01-02-1943, feb. 43, februari 1943 etc. • Auto-classificatie: automatisch herkennen van typen documenten • Koppelen aan bestaande databestanden: Nationale Database Vervolgings Slachtoffers, CABR-database, Oorlogsgravenstichting
  • 15.
  • 16. Wat kunnen we met nieuwe technologie? • CABR doorzoekbaar maken op elk woord in de tekst (15% foutmarge) • CABR doorzoekbaar maken op datum • CABR doorzoekbaar maken op soort document (20% foutmarge) • CABR-data koppelen aan bestaande data over locaties, organisaties, gebeurtenissen en personen (Oorlogslevens, WO2 thesaurus, Wikidata)
  • 17.
  • 18.
  • 19.
  • 20. Kansen: verbinding met andere informatiebronnen!
  • 21.
  • 22. Artikel 26 BBS was het ‘verraadartikel’. Hierin was degene strafbaar gesteld, die een ander blootgesteld had aan opsporing, vervolging, aanhouding en vrijheidsbeneming door de Duitse vijand of diens handlangers.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.

Hinweis der Redaktion

  1. Titelpagina met titel, ondertitel (of datum) en beeld
  2. Standaard slide
  3. Standaard slide
  4. Standaard slide
  5. Standaard slide
  6. Standaard slide
  7. Standaard slide
  8. Standaard slide
  9. Waar draait dit project om: hoe kun je van een een ongestructureerd analoog archief bruikbare digitale data maken? Uitleggen dat veel archieven slechts beschreven zijn op metadataniveau, collectie of deelcollectie (correspondentie 33-39, het dossier van meneer Jansen, etc.) Dit gaat erom om losse documenten machineleesbaar te maken.
  10. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  11. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  12. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  13. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  14. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  15. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  16. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  17. NEr We hebben 65654 woorden aan ground truth. Die bevatten 3264 entity mentions, verdeeld over de klassen PER (persoon): 1484 LOC (locatie): 1160 ORG (organisatie): 409 MISC (overig): 202 EVE (gebeurtenis): 2 PRO (product): 7 We voeren de ground truth, zonder labels, aan Frog en meten het resultaat. We gebruiken standaardinstellingen voor Frog, behalve dat we de tokenizer vervangen door die van Apache OpenNLP, om technische redenen. We meten met drie maten, de standaardmaten voor dit probleem: Precision = (true positives) / (true positives + false positives) (hoe veel van wat we vinden is correct?) Recall = (true positives) / (true positives + false negatives) (hoe veel vinden we van wat er in de ground truth is?) F1 = (2 * Precision * Recall) / (Precision + Recall) (harmonisch gemiddelde van bovenstaande.) Merk op dat alledrie de maten getallen tussen de 1 (perfect) en 0 (alles fout) opleveren. Precision = 0,312 Recall = 0,398 F1 = 0,350 Als we de labels (PER, ORG, LOC, etc.) weglaten en alleen kijken naar waar de entities staan, dan worden de scores beter: Precision = 0,397 Recall = 0,506 F1 = 0,445 Dat volgt mee, gezien de ruizige data die we aan Frog voeren. Op schone data (getranscribeerde krantentekst) zou een F1-score van 80% te halen moeten zijn. Inspectie van het resultaat laat zien: * Waar hoofdlettergebruik en interpunctie niet zijn wat Frog verwacht, zit hij er vaak net naast, zodat bijv. een achternaam wordt herkend maar de voorletters niet. Dat levert een score van 0 op voor de evaluatie, maar zal in de praktijk niet een groot probleem opleveren. * Hoofdlettergebruik in kopjes stuurt Frog soms in de war, zoals te verwachten was. Hiervoor kunnen we wat postcorrectie toevoegen. Bestanden ter reproductie van dit resultaat zijn ~/triadotest/txt/NL-HaNA_2.09.09/{all,frog}.conll. Date extraction Er zijn 696 datums geannoteerd in de ground truth. Met een simpel script dat zoekt naar de namen van maanden en dan controleert of links en rechts een dagnummer en een jaartal staan, vinden we 886 datums. De F1-score van dit script is 63,3%. Bij een maximale precisie van 696/886 = 78,6% is dat extreem hoog; de recall is bijna perfect. Ter verbetering: er moeten meer datums geannoteerd worden. In de tekst bevatten zo weinig datums OCR-fouten dat het aanvankelijke plan om fuzzy regular expressions te gebruiken, waarschijnlijk overkill is.
  18. Laatste pagina met wit vlak voor logootjes (hoogte aanpassen naar behoefte)