SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Downloaden Sie, um offline zu lesen
Tekstkwaliteit
Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten
Marian Hellema, 24 maart 2015
Hoe goed het is …. (1850)
Hoe slecht het is …. (1650)
Hoe is de tekst gemaakt?
• OCR: geautomatiseerd (docWorks/Finereader)
• deels met historische woordenlijst
• krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8%
correcte tekens
• overige tekst niet gecorrigeerd
Veelgestelde vraag
“Hoe goed is de tekstkwaliteit?”
Antwoord: dat weten we niet precies.
Meten van tekstkwaliteit
Kwaliteitscijfers
• precieze meting van het aantal fouten op het totaal
• arbeidsintensief
• niet beschikbaar
versus
Confidence levels
• hoe zeker de ocr-software is van correcte tekenherkenning
• beste benadering van kwaliteitscijfers die we hebben (maar
het is dus iets anders)
• wel beschikbaar
Veelgestelde vraag
“Waarom zorgen jullie niet voor betere tekstkwaliteit?”
Antwoord 1: er wordt aan gewerkt
Antwoord 2:
• afweging kwaliteit versus kwantiteit
• m.a.w. waar geef je je geld aan uit?
• voor toekomstige digitalisering: differentiatie in kwaliteit
• soms heel hoge tekstkwaliteit (bv. DBNL)
• soms heel hoge beeldkwaliteit
• afhankelijk van doel
Verbetering tekstkwaliteit
Project voor tekstverbetering:
Meertens Instituut
• editor voor overtikken krantenartikelen
• groep vrijwilligers
• 17e eeuwse kranten
KB
• software om verbeterde tekst te verwerken
• en in Delpher beschikbaar te stellen
NIOD
• vrijwilligers voor oorlogskranten
Verbetering tekstkwaliteit
Iets meer detail:
• 160 vrijwilligers, waarvan de helft actief
• 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan
• ±1.900 kranten (van de ±6200)
• ±18.500 artikelen (van de ±46000)
Verbetering tekstkwaliteit
Iets meer detail:
• woordcoördinaten worden meeverbeterd (highlighting)
• confidence levels worden opgehoogd
• oorspronkelijke versie van de tekst wel bewaard, maar niet
direct toegankelijk
• beschikbaarstelling als dataset en in Delpher zal geleidelijk
gaan
• uitbreidbaar:
• andere delen van de krantencollectie. (Wie wil?)
• (met aanpassingen) andere collecties
Keuzes
• geautomatiseerde tekstverbetering of overtikken?
• oude versies bewaren?
• hoe gegevens over verbeteringen/verrijkingen publiceren?
(verantwoording)
• betekenis van identifiers?
• het object
• of een versie van het object
• gedifferentieerd kwaliteitsbeleid
Vragen?
marian.hellema@kb.nl

Weitere ähnliche Inhalte

Mehr von ingeangevaare (9)

08. ham auteursrecht kb-kranten
08. ham auteursrecht kb-kranten08. ham auteursrecht kb-kranten
08. ham auteursrecht kb-kranten
 
07 verheul texcavator
07 verheul texcavator07 verheul texcavator
07 verheul texcavator
 
06 traub
06 traub06 traub
06 traub
 
05. de boer dutchships
05. de boer dutchships05. de boer dutchships
05. de boer dutchships
 
04 wijfjes pillarisationin_historicalresources
04 wijfjes pillarisationin_historicalresources04 wijfjes pillarisationin_historicalresources
04 wijfjes pillarisationin_historicalresources
 
02 claeyssens het_kb-krantencorpus
02 claeyssens het_kb-krantencorpus02 claeyssens het_kb-krantencorpus
02 claeyssens het_kb-krantencorpus
 
20111117 pdfa angevaare
20111117 pdfa angevaare20111117 pdfa angevaare
20111117 pdfa angevaare
 
20100923i pres
20100923i pres20100923i pres
20100923i pres
 
20100906 kenniskoppelen
20100906 kenniskoppelen20100906 kenniskoppelen
20100906 kenniskoppelen
 

10 hellema tekstkwaliteit_en_tekstverbetering_kb_corpus

  • 1. Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten Marian Hellema, 24 maart 2015
  • 2. Hoe goed het is …. (1850)
  • 3. Hoe slecht het is …. (1650)
  • 4. Hoe is de tekst gemaakt? • OCR: geautomatiseerd (docWorks/Finereader) • deels met historische woordenlijst • krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8% correcte tekens • overige tekst niet gecorrigeerd
  • 5. Veelgestelde vraag “Hoe goed is de tekstkwaliteit?” Antwoord: dat weten we niet precies.
  • 6. Meten van tekstkwaliteit Kwaliteitscijfers • precieze meting van het aantal fouten op het totaal • arbeidsintensief • niet beschikbaar versus Confidence levels • hoe zeker de ocr-software is van correcte tekenherkenning • beste benadering van kwaliteitscijfers die we hebben (maar het is dus iets anders) • wel beschikbaar
  • 7. Veelgestelde vraag “Waarom zorgen jullie niet voor betere tekstkwaliteit?” Antwoord 1: er wordt aan gewerkt Antwoord 2: • afweging kwaliteit versus kwantiteit • m.a.w. waar geef je je geld aan uit? • voor toekomstige digitalisering: differentiatie in kwaliteit • soms heel hoge tekstkwaliteit (bv. DBNL) • soms heel hoge beeldkwaliteit • afhankelijk van doel
  • 8. Verbetering tekstkwaliteit Project voor tekstverbetering: Meertens Instituut • editor voor overtikken krantenartikelen • groep vrijwilligers • 17e eeuwse kranten KB • software om verbeterde tekst te verwerken • en in Delpher beschikbaar te stellen NIOD • vrijwilligers voor oorlogskranten
  • 9.
  • 10. Verbetering tekstkwaliteit Iets meer detail: • 160 vrijwilligers, waarvan de helft actief • 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan • ±1.900 kranten (van de ±6200) • ±18.500 artikelen (van de ±46000)
  • 11. Verbetering tekstkwaliteit Iets meer detail: • woordcoördinaten worden meeverbeterd (highlighting) • confidence levels worden opgehoogd • oorspronkelijke versie van de tekst wel bewaard, maar niet direct toegankelijk • beschikbaarstelling als dataset en in Delpher zal geleidelijk gaan • uitbreidbaar: • andere delen van de krantencollectie. (Wie wil?) • (met aanpassingen) andere collecties
  • 12. Keuzes • geautomatiseerde tekstverbetering of overtikken? • oude versies bewaren? • hoe gegevens over verbeteringen/verrijkingen publiceren? (verantwoording) • betekenis van identifiers? • het object • of een versie van het object • gedifferentieerd kwaliteitsbeleid