1. intranda Goobi Tag: OCR und jetzt

704 Aufrufe

Veröffentlicht am

1. intranda Goobi Tag: OCR und jetzt
Named Entity Recognition mit Goobi und dem intranda TaskManager

Veröffentlicht in: Software
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
704
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
157
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

1. intranda Goobi Tag: OCR und jetzt

  1. 1. Oliver Paetzel, intranda GmbH 01.10.2014 1 OCR! Und jetzt? Ein Werkstattbericht - 1. Oktober 2014
  2. 2. Oliver Paetzel, intranda GmbH 01.10.2014 2 Gliederung 1. Was wir jetzt haben - OCR 2. Named Entity Recognition 3. Normdatenerfassung
  3. 3. Oliver Paetzel, intranda GmbH 01.10.2014 3 Toll aber auch irgendwie langweilig 1. Was wir jetzt haben - OCR
  4. 4. Oliver Paetzel, intranda GmbH 01.10.2014 4 1. Was wir jetzt haben - OCR
  5. 5. Oliver Paetzel, intranda GmbH 01.10.2014 5 OCR in Goobi
  6. 6. Oliver Paetzel, intranda GmbH 01.10.2014 6 Die Reise beginnt Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 3 4 5
  7. 7. Oliver Paetzel, intranda GmbH 01.10.2014 7 Natural Language Processing in Aktion 2. Named Entity Recognition
  8. 8. Oliver Paetzel, intranda GmbH 01.10.2014 8 2. Named Entity Recognition  Ist ein Teilgebiet des „Natural Language Processing“  Es geht darum benannte Instanzen/Entitäten in einem Fließtext zu erkennen und zu markieren  Die Named Entities werden in Klassen eingeteilt. Die drei klassischen Klassen sind „location“, „person“ und „organization“  Es gibt regelbasierte und stochastische Herangehensweisen
  9. 9. Oliver Paetzel, intranda GmbH 01.10.2014 9 Stanford NER  Wird aktiv weiterentwickelt  Nutzt intern den CRF(Conditional Random Field) Algorithmus  Markiert wenige „false positives“  Ist robust gegenüber OCR-Fehlern
  10. 10. Oliver Paetzel, intranda GmbH 01.10.2014 10 Ein kleiner Umweg  Der Stanford NE Tagger muss trainiert werden  Dies geschieht zwar nur einmal pro Sprache bzw. Werktyp, ist aber trotzdem wichtig  Von bereits vorhandenen Tools wurde uns abgeraten oder sie waren zu überladen  → Entwicklung eines eigenen Tools
  11. 11. Oliver Paetzel, intranda GmbH 01.10.2014 11 intranda NEAT  NEAT steht für „Named Entity Annotation Tool“  In einer einfachen Benutzeroberfläche können im Multi- User Betrieb Trainingsdaten erfasst werden  Die Daten werden sowohl im Stanford NER Traingsformat als auch als getaggtes ALTO-xml exportiert
  12. 12. Oliver Paetzel, intranda GmbH 01.10.2014 12 intranda NEAT
  13. 13. Oliver Paetzel, intranda GmbH 01.10.2014 13 intranda NEAT
  14. 14. Oliver Paetzel, intranda GmbH 01.10.2014 14 Volltext mit erkannten Named Enities
  15. 15. Oliver Paetzel, intranda GmbH 01.10.2014 15 Die Reise geht weiter... Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 ALTO mit Named Entities 3 4 5
  16. 16. Oliver Paetzel, intranda GmbH 01.10.2014 16 Das Tor zu Linked Open Data 3. Normdatenerfassung
  17. 17. Oliver Paetzel, intranda GmbH 01.10.2014 17 3. Normdatenerfassung  Die Normdaten werden von der GND per SRU abgefragt  Wenn kein eindeutiger Trefer gefunden werden kann, muss der Nutzer eingreifen → Crowdsourcing  Die Normdaten werden dann anhand eines Links zur rdf- Präsentation der Normdaten in der DNB zum ALTO hinzugefügt
  18. 18. Oliver Paetzel, intranda GmbH 01.10.2014 18 Warum Normdaten?  Mit den erkannten Named Entities alleine lässt sich noch nicht viel anfangen  Durch die Normdaten in der GND wird die jeweilige Named Entity noch einmal durch viele Metadaten angereichert  Die GND ist noch nicht alles! Of sind auch Links zu dbpedia oder viaf in der GND hinterlegt
  19. 19. Oliver Paetzel, intranda GmbH 01.10.2014 19 Die Reise geht abermals weiter... Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 ALTO mit Named Entities 3 ALTO mit Normdaten 4 5
  20. 20. Oliver Paetzel, intranda GmbH 01.10.2014 20 NER in Goobi
  21. 21. Oliver Paetzel, intranda GmbH 01.10.2014 21 Ende der Reise (Live-Demo) Volltext mit Koordinaten 1 ALTO mit Koordinaten 2 ALTO mit Named Entities 3 ALTO mit Normdaten 4 Spielereien mit LOD 5

×