SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Oliver Paetzel, intranda GmbH 01.10.2014 
1 
OCR! Und jetzt? 
Ein Werkstattbericht - 1. Oktober 2014
Oliver Paetzel, intranda GmbH 01.10.2014 
2 
Gliederung 
1. Was wir jetzt haben - OCR 
2. Named Entity Recognition 
3. Normdatenerfassung
Oliver Paetzel, intranda GmbH 01.10.2014 
3 
Toll aber auch irgendwie langweilig 
1. Was wir jetzt haben - OCR
Oliver Paetzel, intranda GmbH 01.10.2014 
4 
1. Was wir jetzt haben - OCR
Oliver Paetzel, intranda GmbH 01.10.2014 
5 
OCR in Goobi
Oliver Paetzel, intranda GmbH 01.10.2014 
6 
Die Reise beginnt 
Volltext mit Koordinaten 
1 
ALTO mit Koordinaten 
2 
3 4 5
Oliver Paetzel, intranda GmbH 01.10.2014 
7 
Natural Language Processing in Aktion 
2. Named Entity Recognition
Oliver Paetzel, intranda GmbH 01.10.2014 
8 
2. Named Entity Recognition 
 Ist ein Teilgebiet des „Natural Language Processing“ 
 Es geht darum benannte Instanzen/Entitäten in einem 
Fließtext zu erkennen und zu markieren 
 Die Named Entities werden in Klassen eingeteilt. Die drei 
klassischen Klassen sind „location“, „person“ und 
„organization“ 
 Es gibt regelbasierte und stochastische 
Herangehensweisen
Oliver Paetzel, intranda GmbH 01.10.2014 
9 
Stanford NER 
 Wird aktiv weiterentwickelt 
 Nutzt intern den CRF(Conditional Random Field) 
Algorithmus 
 Markiert wenige „false positives“ 
 Ist robust gegenüber OCR-Fehlern
Oliver Paetzel, intranda GmbH 01.10.2014 
10 
Ein kleiner Umweg 
 Der Stanford NE Tagger muss trainiert werden 
 Dies geschieht zwar nur einmal pro Sprache bzw. 
Werktyp, ist aber trotzdem wichtig 
 Von bereits vorhandenen Tools wurde uns abgeraten 
oder sie waren zu überladen 
 → Entwicklung eines eigenen Tools
Oliver Paetzel, intranda GmbH 01.10.2014 
11 
intranda NEAT 
 NEAT steht für „Named Entity Annotation Tool“ 
 In einer einfachen Benutzeroberfläche können im Multi- 
User Betrieb Trainingsdaten erfasst werden 
 Die Daten werden sowohl im Stanford NER 
Traingsformat als auch als getaggtes ALTO-xml exportiert
Oliver Paetzel, intranda GmbH 01.10.2014 
12 
intranda NEAT
Oliver Paetzel, intranda GmbH 01.10.2014 
13 
intranda NEAT
Oliver Paetzel, intranda GmbH 01.10.2014 
14 
Volltext mit erkannten Named Enities
Oliver Paetzel, intranda GmbH 01.10.2014 
15 
Die Reise geht weiter... 
Volltext mit Koordinaten 
1 
ALTO mit Koordinaten 
2 
ALTO mit Named Entities 
3 
4 5
Oliver Paetzel, intranda GmbH 01.10.2014 
16 
Das Tor zu Linked Open Data 
3. Normdatenerfassung
Oliver Paetzel, intranda GmbH 01.10.2014 
17 
3. Normdatenerfassung 
 Die Normdaten werden von der GND per SRU abgefragt 
 Wenn kein eindeutiger Trefer gefunden werden kann, 
muss der Nutzer eingreifen → Crowdsourcing 
 Die Normdaten werden dann anhand eines Links zur rdf- 
Präsentation der Normdaten in der DNB zum ALTO 
hinzugefügt
Oliver Paetzel, intranda GmbH 01.10.2014 
18 
Warum Normdaten? 
 Mit den erkannten Named Entities alleine lässt sich noch 
nicht viel anfangen 
 Durch die Normdaten in der GND wird die jeweilige 
Named Entity noch einmal durch viele Metadaten 
angereichert 
 Die GND ist noch nicht alles! Of sind auch Links zu 
dbpedia oder viaf in der GND hinterlegt
Oliver Paetzel, intranda GmbH 01.10.2014 
19 
Die Reise geht abermals weiter... 
Volltext mit Koordinaten 
1 
ALTO mit Koordinaten 
2 
ALTO mit Named Entities 
3 
ALTO mit Normdaten 
4 
5
Oliver Paetzel, intranda GmbH 01.10.2014 
20 
NER in Goobi
Oliver Paetzel, intranda GmbH 01.10.2014 
21 
Ende der Reise (Live-Demo) 
Volltext mit Koordinaten 
1 
ALTO mit Koordinaten 
2 
ALTO mit Named Entities 
3 
ALTO mit Normdaten 
4 
Spielereien mit LOD 
5

Weitere ähnliche Inhalte

Was ist angesagt?

Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow EntwicklungsrückblickGoobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblickintranda GmbH
 
3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...
3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...
3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...intranda GmbH
 
2. intranda viewer Tag: Willkommen und Organisatorisches
2. intranda viewer Tag: Willkommen und Organisatorisches2. intranda viewer Tag: Willkommen und Organisatorisches
2. intranda viewer Tag: Willkommen und Organisatorischesintranda GmbH
 
Goobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - WillkommenGoobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - Willkommenintranda GmbH
 
Entwicklungsrückblick über die letzten 12 Monate Goobi workflow
Entwicklungsrückblick über die letzten 12 Monate Goobi workflowEntwicklungsrückblick über die letzten 12 Monate Goobi workflow
Entwicklungsrückblick über die letzten 12 Monate Goobi workflowintranda GmbH
 
Entwicklungsrückblick Goobi workflow über die letzten 12 Monate
Entwicklungsrückblick Goobi workflow über die letzten 12 MonateEntwicklungsrückblick Goobi workflow über die letzten 12 Monate
Entwicklungsrückblick Goobi workflow über die letzten 12 Monateintranda GmbH
 
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewerintranda GmbH
 

Was ist angesagt? (7)

Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow EntwicklungsrückblickGoobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
Goobi-Tag 2020 - Goobi workflow Entwicklungsrückblick
 
3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...
3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...
3. intranda viewer Tag: Status quo und Releaseplanung des intranda viewers in...
 
2. intranda viewer Tag: Willkommen und Organisatorisches
2. intranda viewer Tag: Willkommen und Organisatorisches2. intranda viewer Tag: Willkommen und Organisatorisches
2. intranda viewer Tag: Willkommen und Organisatorisches
 
Goobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - WillkommenGoobi-viewer-Tag 2019 - Willkommen
Goobi-viewer-Tag 2019 - Willkommen
 
Entwicklungsrückblick über die letzten 12 Monate Goobi workflow
Entwicklungsrückblick über die letzten 12 Monate Goobi workflowEntwicklungsrückblick über die letzten 12 Monate Goobi workflow
Entwicklungsrückblick über die letzten 12 Monate Goobi workflow
 
Entwicklungsrückblick Goobi workflow über die letzten 12 Monate
Entwicklungsrückblick Goobi workflow über die letzten 12 MonateEntwicklungsrückblick Goobi workflow über die letzten 12 Monate
Entwicklungsrückblick Goobi workflow über die letzten 12 Monate
 
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2021 - Entwicklungsrückblick Goobi viewer
 

Andere mochten auch

Social Media for the Smart Job Seeker
Social Media for the Smart Job SeekerSocial Media for the Smart Job Seeker
Social Media for the Smart Job SeekerChris Everett
 
Jobvite social-job-seeker-survey-2011
Jobvite social-job-seeker-survey-2011Jobvite social-job-seeker-survey-2011
Jobvite social-job-seeker-survey-2011Taz1975
 
Ch7460PP
Ch7460PPCh7460PP
Ch7460PPfiegent
 
Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015
Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015
Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015Matthias Kaenzig
 
PRSA- search and social media collide
PRSA- search and social media collidePRSA- search and social media collide
PRSA- search and social media collideSite-Seeker, Inc.
 
Using Ethnographic User Research to Drive Knowledge Management and Intranet S...
Using Ethnographic User Research to Drive Knowledge Management and Intranet S...Using Ethnographic User Research to Drive Knowledge Management and Intranet S...
Using Ethnographic User Research to Drive Knowledge Management and Intranet S...NavigationArts
 
Demanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferenceDemanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferencePablo Moretti
 
Emprego da Visão Computacional no contexto de AP - Cameras
Emprego da Visão Computacional  no contexto de AP - CamerasEmprego da Visão Computacional  no contexto de AP - Cameras
Emprego da Visão Computacional no contexto de AP - Cameraspipesmythe
 
Guided Missiles2 2003
Guided Missiles2 2003Guided Missiles2 2003
Guided Missiles2 2003Rakesh Nair A
 
Métodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histogramaMétodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histogramaAnderson Dantas
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity RecognitionFabrício Barth
 
Salient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognitionSalient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognitionGustavo Viegas
 

Andere mochten auch (20)

Social Media for the Smart Job Seeker
Social Media for the Smart Job SeekerSocial Media for the Smart Job Seeker
Social Media for the Smart Job Seeker
 
Jobvite social-job-seeker-survey-2011
Jobvite social-job-seeker-survey-2011Jobvite social-job-seeker-survey-2011
Jobvite social-job-seeker-survey-2011
 
Ch7460PP
Ch7460PPCh7460PP
Ch7460PP
 
Week 8 Chapter 6
Week 8 Chapter 6Week 8 Chapter 6
Week 8 Chapter 6
 
FullFace_2015
FullFace_2015FullFace_2015
FullFace_2015
 
Flyer webinare job seeker
Flyer webinare job seekerFlyer webinare job seeker
Flyer webinare job seeker
 
Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015
Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015
Augmented Reality – Zusammenfassung Takondi Innovations Apéro 7.5.2015
 
PRSA- search and social media collide
PRSA- search and social media collidePRSA- search and social media collide
PRSA- search and social media collide
 
Using Ethnographic User Research to Drive Knowledge Management and Intranet S...
Using Ethnographic User Research to Drive Knowledge Management and Intranet S...Using Ethnographic User Research to Drive Knowledge Management and Intranet S...
Using Ethnographic User Research to Drive Knowledge Management and Intranet S...
 
Nescafe
NescafeNescafe
Nescafe
 
Demanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers ConferenceDemanda - MercadoLivre Developers Conference
Demanda - MercadoLivre Developers Conference
 
Emprego da Visão Computacional no contexto de AP - Cameras
Emprego da Visão Computacional  no contexto de AP - CamerasEmprego da Visão Computacional  no contexto de AP - Cameras
Emprego da Visão Computacional no contexto de AP - Cameras
 
Guided Missiles2 2003
Guided Missiles2 2003Guided Missiles2 2003
Guided Missiles2 2003
 
OCR: Uma Tecnologia a Serviço do Professor
OCR: Uma Tecnologia a Serviço do ProfessorOCR: Uma Tecnologia a Serviço do Professor
OCR: Uma Tecnologia a Serviço do Professor
 
Métodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histogramaMétodos de clustering para dados intervalares e do tipo histograma
Métodos de clustering para dados intervalares e do tipo histograma
 
Demanda
DemandaDemanda
Demanda
 
Adoração
AdoraçãoAdoração
Adoração
 
Introdução OCR
Introdução OCRIntrodução OCR
Introdução OCR
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Salient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognitionSalient effects of publicity in advertised brand recall and recognition
Salient effects of publicity in advertised brand recall and recognition
 

Mehr von intranda GmbH

Goobi-Tag 2021: Barrierefreiheit im Goobi viewer
Goobi-Tag 2021: Barrierefreiheit im Goobi viewerGoobi-Tag 2021: Barrierefreiheit im Goobi viewer
Goobi-Tag 2021: Barrierefreiheit im Goobi viewerintranda GmbH
 
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...intranda GmbH
 
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...intranda GmbH
 
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / ErfahrungenGoobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungenintranda GmbH
 
Goobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker ContainernGoobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker Containernintranda GmbH
 
Goobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer DesignGoobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer Designintranda GmbH
 
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...intranda GmbH
 
Goobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesGoobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesintranda GmbH
 
Goobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open SourceGoobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open Sourceintranda GmbH
 
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...intranda GmbH
 
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?intranda GmbH
 
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...intranda GmbH
 
Goobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - WillkommenGoobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - Willkommenintranda GmbH
 
Goobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - AusblickGoobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - Ausblickintranda GmbH
 
Goobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - WillkommenGoobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - Willkommenintranda GmbH
 
Goobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the HoodGoobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the Hoodintranda GmbH
 
Goobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - AusblickGoobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - Ausblickintranda GmbH
 
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewerintranda GmbH
 
Goobi-Tag 2021 - Willkommen
Goobi-Tag 2021 - WillkommenGoobi-Tag 2021 - Willkommen
Goobi-Tag 2021 - Willkommenintranda GmbH
 
OCR Qualität objektiv gemessen
OCR Qualität objektiv gemessenOCR Qualität objektiv gemessen
OCR Qualität objektiv gemessenintranda GmbH
 

Mehr von intranda GmbH (20)

Goobi-Tag 2021: Barrierefreiheit im Goobi viewer
Goobi-Tag 2021: Barrierefreiheit im Goobi viewerGoobi-Tag 2021: Barrierefreiheit im Goobi viewer
Goobi-Tag 2021: Barrierefreiheit im Goobi viewer
 
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
 
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
Goobi-Tage 2019: Nachlass Robert Koch: in Augias verzeichnet mit Goobi digita...
 
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / ErfahrungenGoobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
Goobi-Tage 2019: Goobi-to-go Ersatz für Test-Server Überlegungen / Erfahrungen
 
Goobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker ContainernGoobi-Tag 2021: Goobi viewer in Docker Containern
Goobi-Tag 2021: Goobi viewer in Docker Containern
 
Goobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer DesignGoobi-Tag 2021: Right to left - Goobi viewer Design
Goobi-Tag 2021: Right to left - Goobi viewer Design
 
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
Goobi-Tag 2021: Goobi im Einsatz im Niedersächsischen Landesamt für Denkmalpf...
 
Goobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesGoobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-libraries
 
Goobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open SourceGoobi viewer - Der lange Weg zu Open Source
Goobi viewer - Der lange Weg zu Open Source
 
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
Goobi-viewer-Tag 2019 - Viel zu tun: Geheimbaustellen und Ideen für die nächs...
 
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
Goobi-viewer-Tag 2019 - Goobi viewer 4.0 - What happened?
 
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...Goobi-Tage 2019 -  Goobi workflow Entwicklungsrückblick über die letzten 12 M...
Goobi-Tage 2019 - Goobi workflow Entwicklungsrückblick über die letzten 12 M...
 
Goobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - WillkommenGoobi-workflow-Tag 2019 - Willkommen
Goobi-workflow-Tag 2019 - Willkommen
 
Goobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - AusblickGoobi-Tag 2020 - Ausblick
Goobi-Tag 2020 - Ausblick
 
Goobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - WillkommenGoobi-Tag 2020 - Willkommen
Goobi-Tag 2020 - Willkommen
 
Goobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the HoodGoobi-Tage 2019 - Goobi 19.09 under the Hood
Goobi-Tage 2019 - Goobi 19.09 under the Hood
 
Goobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - AusblickGoobi-Tag 2021 - Ausblick
Goobi-Tag 2021 - Ausblick
 
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewerGoobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
Goobi-Tag 2020 - Entwicklungsrückblick Goobi viewer
 
Goobi-Tag 2021 - Willkommen
Goobi-Tag 2021 - WillkommenGoobi-Tag 2021 - Willkommen
Goobi-Tag 2021 - Willkommen
 
OCR Qualität objektiv gemessen
OCR Qualität objektiv gemessenOCR Qualität objektiv gemessen
OCR Qualität objektiv gemessen
 

1. intranda Goobi Tag: OCR und jetzt

  • 1. Oliver Paetzel, intranda GmbH 01.10.2014 1 OCR! Und jetzt? Ein Werkstattbericht - 1. Oktober 2014
  • 2. Oliver Paetzel, intranda GmbH 01.10.2014 2 Gliederung 1. Was wir jetzt haben - OCR 2. Named Entity Recognition 3. Normdatenerfassung
  • 3. Oliver Paetzel, intranda GmbH 01.10.2014 3 Toll aber auch irgendwie langweilig 1. Was wir jetzt haben - OCR
  • 4. Oliver Paetzel, intranda GmbH 01.10.2014 4 1. Was wir jetzt haben - OCR
  • 5. Oliver Paetzel, intranda GmbH 01.10.2014 5 OCR in Goobi
  • 6. Oliver Paetzel, intranda GmbH 01.10.2014 6 Die Reise beginnt Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 3 4 5
  • 7. Oliver Paetzel, intranda GmbH 01.10.2014 7 Natural Language Processing in Aktion 2. Named Entity Recognition
  • 8. Oliver Paetzel, intranda GmbH 01.10.2014 8 2. Named Entity Recognition  Ist ein Teilgebiet des „Natural Language Processing“  Es geht darum benannte Instanzen/Entitäten in einem Fließtext zu erkennen und zu markieren  Die Named Entities werden in Klassen eingeteilt. Die drei klassischen Klassen sind „location“, „person“ und „organization“  Es gibt regelbasierte und stochastische Herangehensweisen
  • 9. Oliver Paetzel, intranda GmbH 01.10.2014 9 Stanford NER  Wird aktiv weiterentwickelt  Nutzt intern den CRF(Conditional Random Field) Algorithmus  Markiert wenige „false positives“  Ist robust gegenüber OCR-Fehlern
  • 10. Oliver Paetzel, intranda GmbH 01.10.2014 10 Ein kleiner Umweg  Der Stanford NE Tagger muss trainiert werden  Dies geschieht zwar nur einmal pro Sprache bzw. Werktyp, ist aber trotzdem wichtig  Von bereits vorhandenen Tools wurde uns abgeraten oder sie waren zu überladen  → Entwicklung eines eigenen Tools
  • 11. Oliver Paetzel, intranda GmbH 01.10.2014 11 intranda NEAT  NEAT steht für „Named Entity Annotation Tool“  In einer einfachen Benutzeroberfläche können im Multi- User Betrieb Trainingsdaten erfasst werden  Die Daten werden sowohl im Stanford NER Traingsformat als auch als getaggtes ALTO-xml exportiert
  • 12. Oliver Paetzel, intranda GmbH 01.10.2014 12 intranda NEAT
  • 13. Oliver Paetzel, intranda GmbH 01.10.2014 13 intranda NEAT
  • 14. Oliver Paetzel, intranda GmbH 01.10.2014 14 Volltext mit erkannten Named Enities
  • 15. Oliver Paetzel, intranda GmbH 01.10.2014 15 Die Reise geht weiter... Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 ALTO mit Named Entities 3 4 5
  • 16. Oliver Paetzel, intranda GmbH 01.10.2014 16 Das Tor zu Linked Open Data 3. Normdatenerfassung
  • 17. Oliver Paetzel, intranda GmbH 01.10.2014 17 3. Normdatenerfassung  Die Normdaten werden von der GND per SRU abgefragt  Wenn kein eindeutiger Trefer gefunden werden kann, muss der Nutzer eingreifen → Crowdsourcing  Die Normdaten werden dann anhand eines Links zur rdf- Präsentation der Normdaten in der DNB zum ALTO hinzugefügt
  • 18. Oliver Paetzel, intranda GmbH 01.10.2014 18 Warum Normdaten?  Mit den erkannten Named Entities alleine lässt sich noch nicht viel anfangen  Durch die Normdaten in der GND wird die jeweilige Named Entity noch einmal durch viele Metadaten angereichert  Die GND ist noch nicht alles! Of sind auch Links zu dbpedia oder viaf in der GND hinterlegt
  • 19. Oliver Paetzel, intranda GmbH 01.10.2014 19 Die Reise geht abermals weiter... Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 ALTO mit Named Entities 3 ALTO mit Normdaten 4 5
  • 20. Oliver Paetzel, intranda GmbH 01.10.2014 20 NER in Goobi
  • 21. Oliver Paetzel, intranda GmbH 01.10.2014 21 Ende der Reise (Live-Demo) Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 ALTO mit Named Entities 3 ALTO mit Normdaten 4 Spielereien mit LOD 5