SlideShare ist ein Scribd-Unternehmen logo
||ETH-Bibliothek
107. Deutscher Bibliothekartag: offen & vernetzt
Berlin, 13. Juni 2018
Regina Wanger, Michael Gasser
Wenn Algorithmen Zeitschriften lesen.
Vom Mehrwert automatisierter Textanreicherung
||ETH-Bibliothek 18.06.2018((Vorname Nachname)) 2
Ausgangslage
||ETH-Bibliothek
 Die Online-Plattform für digitalisierte Fachzeitschriften der Schweiz
 Rund 300 Zeitschriften online
 Rund 7 Mio. Seiten
 Hosting und Betrieb durch die ETH-Bibliothek
 Laufender inhaltlicher Ausbau
 Laufender funktionaler Ausbau
 Datenbestand
 Master-TIFF, JPEG
 Metadaten (XML)
 Volltexte
13.06.2018 3
E-Periodica
Regina Wanger, Michael Gasser
||ETH-Bibliothek
Dataset aus der Plattform E-Periodica
 Zwei Architektur-Zeitschriften
 Schweizerische Bauzeitung (142 Jahrgänge, 1874–2016)
 Werk, Bauen und Wohnen (102 Jahrgänge, 1914–2016)
Forschungspartner
 Institut für Computerlinguistik der Universität Zürich: Prof. Martin Volk, Ismail Prada
Ziel: Mehrwert in drei Bereichen schaffen
1. Textkorpus automatisiert anreichern:
Named Entity Recognition (NER) / Named Entity Linking (NEL)
2. Ausbau von Fachwissen an der ETH-Bibliothek
3. Zusatzfunktionen für Nutzerinnen und Nutzer von E-Periodica schaffen
4
Pilotprojekt zur automatisierten Textanreicherung
13.06.2018Regina Wanger, Michael Gasser
380’000 Seiten
||ETH-Bibliothek 05.06.2018Regina Wanger, Michael Gasser 5
Mehrwert 1: Automatisierte Textanreicherung
||ETH-Bibliothek 13.06.2018 6
Vorgehen und Methode
I. Automatische OCR-Korrektur
II. Orts- und Ländernamenerkennung
III. Personennamenerkennung
IV. Verlinkung mit GND (Gemeinsame Normdatei)
 Regel-basiertes Verfahren des Instituts für
Computerlinguistik UZH (Python Skripte,
u. a. Orts- und Namenlisten)
 Fokus auf Präzision (= sichere Erkennung)
 Goldstandard
− Subset des Datenkorpus, bestehend aus
3 Jahrgängen (1895, 1940, 1990)
− von Hand korrigiert und annotiert
 Vergleich mit einem statistischen System
Goldstandard
Beispiel: Bauzeitung 1940
14’430 Zeilen (OCR-Textfile)
119 OCR-Fehler
269 Wörter in Personennamen
61 Ortsnamen (55 in der Schweiz)
12 Ländernamen
Regina Wanger, Michael Gasser
||ETH-Bibliothek 13.06.2018Regina Wanger, Michael Gasser 7
Automatische Erkennung I
(Bezug: Goldstandard)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
OCR-Korrektur
Ortsnamenerkennung
Ländernamenerkennung
Personennamenerkennung
Ausbeute Präzision
Tiefe Ausbeute v. a. wegen
Beschränkung auf Mindestlänge
von sechs Zeichen
Nur Ortsnamen der Schweiz
Schwierigkeiten:
- Beznau: AKW oder Gemeinde?
- Montana: US-Bundesstaat oder
CH-Gemeinde?
Fokus auf Präzision zulasten der Ausbeute
Fehlerquellen z. B. Konstruktionen wie
«Charles Aussage»
||ETH-Bibliothek
Verlinkung mit der GND
 Suche nach Übereinstimmung zu jedem
erkannten Personennamen
 «Sicherheitswert» 1-5 anhand der aggregierten
Merkmale Name, Vorname, Geburtsjahr, Geschlecht,
Beruf (Sicherheit 5: alle Merkmale stimmen überein)
 Ausbeute mit hohen Sicherheitswerten relativ gering
(mehrheitlich Verlinkung von «VIPs»)
Vergleich mit statistischem Verfahren
 System der Zürcher Hochschule für Angewandte Wissenschaft (ZHAW)
 Test: Erkennung von Personennamen auf Basis des Goldstandards
 Fazit: Höhere Ausbeute bei geringerer Präzision (mehr false positives)
8
Automatische Erkennung II
(Bezug: Goldstandard)
13.06.2018Regina Wanger, Michael Gasser
Sicherheit
korrekte
Verlinkungen
Stufe 5 92.3%
Stufe 4 95.0%
Stufe 3 60.0%
Stufe 2 60.0%
Stufe 1 65.0%
Total
Verlinkungen
12
94
123
207
251
Verlinkungen Bauzeitung Jhrg. 1940
||ETH-Bibliothek
 XML-Dateien
 Aggregation der Informationen
pro Zeitschrift und Jahrgang
 Bsp. Personenerkennung
 Identifizierende Merkmale
 GND mit «Sicherheitswert»
 Referenzen mit Positionsangaben
13.06.2018 9
Ausgabedateien
Regina Wanger, Michael Gasser
||ETH-Bibliothek 13.06.2018Regina Wanger, Michael Gasser 10
Mehrwert 2: Ausbau von Fachwissen
||ETH-Bibliothek
 Rights Clearance für Text- und Datamining Projekte
 Technischer Know-how-Transfer
 Installation der Skripte und Python-Programme
 Verifizierung der Resultate des Testlaufs anhand weiterer Zeitschriften
 Überprüfung des Verhältnisses zwischen Präzision und Ausbeute
 Übertragbarkeit der Resultate auf andere Zeitschriften bzw. Themengebiete
 Aktueller Fokus auf OCR Post-Processing
 Anwendung der Eigennamenerkennung auf das gesamte Angebot von
E-Periodica
13.06.2018 11
Ausbau des bibliotheksinternen Fachwissens
Regina Wanger, Michael Gasser
||ETH-Bibliothek 13.06.2018Regina Wanger, Michael Gasser 12
Mehrwert 3: Zusatzfunktionen
für Nutzerinnen und Nutzer
||ETH-Bibliothek
Wünsche von Nutzerinnen und Nutzern
 Kontinuierliche OCR-Optimierung
 Named Entity Recognition von Länder- und Ortsnamen als Basis für georeferenzierte
Darstellungen
 Named Entity Linking von Personen als Basis für die Verlinkung …
 … auf weitere Treffer innerhalb von E-Periodica
 … auf weitere Ressourcen der ETH-Bibliothek und externe Datenquellen
13
Zusatzfunktionen in E-Periodica
13.06.2018Regina Wanger, Michael Gasser
||ETH-Bibliothek 18.06.2018((Vorname Nachname)) 14
Robert Maillart (1872 – 1940)
Schweizer Bauingenieur
Weitere Artikel in E-Periodica
Weitere Ressourcen der ETH-Bibliothek
Bücher Bilder Archivalien
Weitere Informationen
Wikipedia
Historisches Lexikon der Schweiz
Deutsche Biographie
Deutsche Digitale Bibliothek
Wikimedia Commons
||ETH-Bibliothek
Wünsche von Nutzerinnen und Nutzern
 Kontinuierliche OCR-Optimierung
 Named Entity Linking von Länder- und Ortsnamen als Basis für georeferenzierte
Darstellungen
 Named Entity Linking von Personen als Basis für die Verlinkung …
 … auf weitere Treffer innerhalb von E-Periodica
 … auf weitere Ressourcen der ETH-Bibliothek und externe Datenquellen
Mögliche Forschungsdesiderate
 Erweiterung des Systems auf Texte in anderen Sprachen (F, I, gemischt)
 Erkennung und Verlinkungen weiterer Entitäten, z. B. Gebäude, geografische
Bezeichnungen (Berge, Täler, Seen) oder Firmennamen, Organisationen etc.
15
Zusatzfunktionen in E-Periodica
13.06.2018Regina Wanger, Michael Gasser
||ETH-Bibliothek
 Online Plattform E-Periodica mit 7 Mio. Seiten
 Pilotprojekt zur automatisierten Textanreicherung
 Eigennamenerkennung in zwei Architektur-Zeitschriften
 Präzision vor Ausbeute (zentrale Herausforderung für den praktischen Einsatz)
 Low hanging fruits: Erkennung von Ländernamen und Ortsnamen der Schweiz
 Gute Resultate: Personennamenerkennung
 Klare Grenzen der sicheren Identifizierung und GND-Verlinkung: Named Entity Linking
 Know-how-Transfer und laufende Optimierungen
 OCR Post-Processing als wichtige Zusatzaufgabe im Betrieb
 Ausweitung des Systems auf weitere Themen / Zeitschriften in E-Periodica
 Entwicklung von Zusatzfunktionen (als Prototypen) im direkten Austausch mit Usern
 Weitere Forschungsfragen
13.06.2018 16
Zusammenfassung
Regina Wanger, Michael Gasser
||ETH-Bibliothek
Fragen
13.06.2018 17
?
Regina Wanger, Michael Gasser
||ETH-Bibliothek
Vielen Dank für Ihr Interesse!
ETH-Bibliothek, Regina Wanger, Leitung DigiCenter
Tel. +41 44 632 69 10, regina.wanger@library.ethz.ch
ETH-Bibliothek, Michael Gasser, Leitung Archive
Tel. +41 44 632 21 82, michael.gasser@library.ethz.ch
Twitter handle: @M_Gasser
13.06.2018 18Regina Wanger, Michael Gasser

Weitere ähnliche Inhalte

Mehr von ETH-Bibliothek

17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
ETH-Bibliothek
 
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin BlockchainOriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
ETH-Bibliothek
 
Tracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDsTracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDs
ETH-Bibliothek
 
Persistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCSPersistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCS
ETH-Bibliothek
 
Building Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDsBuilding Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDs
ETH-Bibliothek
 
DataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying KnowledgeDataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying Knowledge
ETH-Bibliothek
 
Bilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und TricksBilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und Tricks
ETH-Bibliothek
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von Metadaten
ETH-Bibliothek
 
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
ETH-Bibliothek
 
Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?
ETH-Bibliothek
 
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
ETH-Bibliothek
 
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen GlobusCitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
ETH-Bibliothek
 
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-BibliothekFORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
ETH-Bibliothek
 
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
ETH-Bibliothek
 
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek „Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
ETH-Bibliothek
 
Texte visualisieren und lesen
Texte visualisieren und lesenTexte visualisieren und lesen
Texte visualisieren und lesen
ETH-Bibliothek
 
Netzwerk Metadatenmanagement
Netzwerk MetadatenmanagementNetzwerk Metadatenmanagement
Netzwerk Metadatenmanagement
ETH-Bibliothek
 
Intellectual Property is Common Property
Intellectual Property is Common PropertyIntellectual Property is Common Property
Intellectual Property is Common Property
ETH-Bibliothek
 
Open access requirements in SNSF and EU projects
Open access requirements in SNSF and EU projectsOpen access requirements in SNSF and EU projects
Open access requirements in SNSF and EU projects
ETH-Bibliothek
 

Mehr von ETH-Bibliothek (20)

17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
17:15 Kolloquium – Donnerstag, 27. Februar 2020 – Das Büro darf nicht nur Mit...
 
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin BlockchainOriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
OriginStamp: Trusted Time Stamping via the Bitcoin Blockchain
 
Tracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDsTracking Citations to Research Software via PIDs
Tracking Citations to Research Software via PIDs
 
Persistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCSPersistent Identifiers for Scientific Data at CSCS
Persistent Identifiers for Scientific Data at CSCS
 
Building Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDsBuilding Open Research Infrastructure with PIDs
Building Open Research Infrastructure with PIDs
 
DataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying KnowledgeDataCite and its Members: Connecting Research and Identifying Knowledge
DataCite and its Members: Connecting Research and Identifying Knowledge
 
Bilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und TricksBilder online recherchieren – Tipps und Tricks
Bilder online recherchieren – Tipps und Tricks
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von Metadaten
 
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
Gamification und Game Design: Theorie und Praxis jenseits der Heilsversprechu...
 
Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?Data Management in Research –WhyandHow?
Data Management in Research –WhyandHow?
 
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
Openness, exchange, FAIR DATA – oh brave new world that has such vision! (Dr....
 
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen GlobusCitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
CitizenScience - Freiwillige lokalisieren Bilder im virtuellen Globus
 
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-BibliothekFORUM - Das Bottom-up Gremium der ETH-Bibliothek
FORUM - Das Bottom-up Gremium der ETH-Bibliothek
 
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
Digitaler Zugang zu Lesespuren - Das Projekt „Thomas Mann Nachlassbibliothek“...
 
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek „Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
„Ex meis libris“ - Die Provenienzdatenbank der ETH-Bibliothek
 
Texte visualisieren und lesen
Texte visualisieren und lesenTexte visualisieren und lesen
Texte visualisieren und lesen
 
Netzwerk Metadatenmanagement
Netzwerk MetadatenmanagementNetzwerk Metadatenmanagement
Netzwerk Metadatenmanagement
 
Intellectual Property is Common Property
Intellectual Property is Common PropertyIntellectual Property is Common Property
Intellectual Property is Common Property
 
Open access requirements in SNSF and EU projects
Open access requirements in SNSF and EU projectsOpen access requirements in SNSF and EU projects
Open access requirements in SNSF and EU projects
 

Wenn Algorithmen Zeitschriften lesen - Vom Mehrwert automatisierter Textanreicherung

  • 1. ||ETH-Bibliothek 107. Deutscher Bibliothekartag: offen & vernetzt Berlin, 13. Juni 2018 Regina Wanger, Michael Gasser Wenn Algorithmen Zeitschriften lesen. Vom Mehrwert automatisierter Textanreicherung
  • 3. ||ETH-Bibliothek  Die Online-Plattform für digitalisierte Fachzeitschriften der Schweiz  Rund 300 Zeitschriften online  Rund 7 Mio. Seiten  Hosting und Betrieb durch die ETH-Bibliothek  Laufender inhaltlicher Ausbau  Laufender funktionaler Ausbau  Datenbestand  Master-TIFF, JPEG  Metadaten (XML)  Volltexte 13.06.2018 3 E-Periodica Regina Wanger, Michael Gasser
  • 4. ||ETH-Bibliothek Dataset aus der Plattform E-Periodica  Zwei Architektur-Zeitschriften  Schweizerische Bauzeitung (142 Jahrgänge, 1874–2016)  Werk, Bauen und Wohnen (102 Jahrgänge, 1914–2016) Forschungspartner  Institut für Computerlinguistik der Universität Zürich: Prof. Martin Volk, Ismail Prada Ziel: Mehrwert in drei Bereichen schaffen 1. Textkorpus automatisiert anreichern: Named Entity Recognition (NER) / Named Entity Linking (NEL) 2. Ausbau von Fachwissen an der ETH-Bibliothek 3. Zusatzfunktionen für Nutzerinnen und Nutzer von E-Periodica schaffen 4 Pilotprojekt zur automatisierten Textanreicherung 13.06.2018Regina Wanger, Michael Gasser 380’000 Seiten
  • 5. ||ETH-Bibliothek 05.06.2018Regina Wanger, Michael Gasser 5 Mehrwert 1: Automatisierte Textanreicherung
  • 6. ||ETH-Bibliothek 13.06.2018 6 Vorgehen und Methode I. Automatische OCR-Korrektur II. Orts- und Ländernamenerkennung III. Personennamenerkennung IV. Verlinkung mit GND (Gemeinsame Normdatei)  Regel-basiertes Verfahren des Instituts für Computerlinguistik UZH (Python Skripte, u. a. Orts- und Namenlisten)  Fokus auf Präzision (= sichere Erkennung)  Goldstandard − Subset des Datenkorpus, bestehend aus 3 Jahrgängen (1895, 1940, 1990) − von Hand korrigiert und annotiert  Vergleich mit einem statistischen System Goldstandard Beispiel: Bauzeitung 1940 14’430 Zeilen (OCR-Textfile) 119 OCR-Fehler 269 Wörter in Personennamen 61 Ortsnamen (55 in der Schweiz) 12 Ländernamen Regina Wanger, Michael Gasser
  • 7. ||ETH-Bibliothek 13.06.2018Regina Wanger, Michael Gasser 7 Automatische Erkennung I (Bezug: Goldstandard) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% OCR-Korrektur Ortsnamenerkennung Ländernamenerkennung Personennamenerkennung Ausbeute Präzision Tiefe Ausbeute v. a. wegen Beschränkung auf Mindestlänge von sechs Zeichen Nur Ortsnamen der Schweiz Schwierigkeiten: - Beznau: AKW oder Gemeinde? - Montana: US-Bundesstaat oder CH-Gemeinde? Fokus auf Präzision zulasten der Ausbeute Fehlerquellen z. B. Konstruktionen wie «Charles Aussage»
  • 8. ||ETH-Bibliothek Verlinkung mit der GND  Suche nach Übereinstimmung zu jedem erkannten Personennamen  «Sicherheitswert» 1-5 anhand der aggregierten Merkmale Name, Vorname, Geburtsjahr, Geschlecht, Beruf (Sicherheit 5: alle Merkmale stimmen überein)  Ausbeute mit hohen Sicherheitswerten relativ gering (mehrheitlich Verlinkung von «VIPs») Vergleich mit statistischem Verfahren  System der Zürcher Hochschule für Angewandte Wissenschaft (ZHAW)  Test: Erkennung von Personennamen auf Basis des Goldstandards  Fazit: Höhere Ausbeute bei geringerer Präzision (mehr false positives) 8 Automatische Erkennung II (Bezug: Goldstandard) 13.06.2018Regina Wanger, Michael Gasser Sicherheit korrekte Verlinkungen Stufe 5 92.3% Stufe 4 95.0% Stufe 3 60.0% Stufe 2 60.0% Stufe 1 65.0% Total Verlinkungen 12 94 123 207 251 Verlinkungen Bauzeitung Jhrg. 1940
  • 9. ||ETH-Bibliothek  XML-Dateien  Aggregation der Informationen pro Zeitschrift und Jahrgang  Bsp. Personenerkennung  Identifizierende Merkmale  GND mit «Sicherheitswert»  Referenzen mit Positionsangaben 13.06.2018 9 Ausgabedateien Regina Wanger, Michael Gasser
  • 10. ||ETH-Bibliothek 13.06.2018Regina Wanger, Michael Gasser 10 Mehrwert 2: Ausbau von Fachwissen
  • 11. ||ETH-Bibliothek  Rights Clearance für Text- und Datamining Projekte  Technischer Know-how-Transfer  Installation der Skripte und Python-Programme  Verifizierung der Resultate des Testlaufs anhand weiterer Zeitschriften  Überprüfung des Verhältnisses zwischen Präzision und Ausbeute  Übertragbarkeit der Resultate auf andere Zeitschriften bzw. Themengebiete  Aktueller Fokus auf OCR Post-Processing  Anwendung der Eigennamenerkennung auf das gesamte Angebot von E-Periodica 13.06.2018 11 Ausbau des bibliotheksinternen Fachwissens Regina Wanger, Michael Gasser
  • 12. ||ETH-Bibliothek 13.06.2018Regina Wanger, Michael Gasser 12 Mehrwert 3: Zusatzfunktionen für Nutzerinnen und Nutzer
  • 13. ||ETH-Bibliothek Wünsche von Nutzerinnen und Nutzern  Kontinuierliche OCR-Optimierung  Named Entity Recognition von Länder- und Ortsnamen als Basis für georeferenzierte Darstellungen  Named Entity Linking von Personen als Basis für die Verlinkung …  … auf weitere Treffer innerhalb von E-Periodica  … auf weitere Ressourcen der ETH-Bibliothek und externe Datenquellen 13 Zusatzfunktionen in E-Periodica 13.06.2018Regina Wanger, Michael Gasser
  • 14. ||ETH-Bibliothek 18.06.2018((Vorname Nachname)) 14 Robert Maillart (1872 – 1940) Schweizer Bauingenieur Weitere Artikel in E-Periodica Weitere Ressourcen der ETH-Bibliothek Bücher Bilder Archivalien Weitere Informationen Wikipedia Historisches Lexikon der Schweiz Deutsche Biographie Deutsche Digitale Bibliothek Wikimedia Commons
  • 15. ||ETH-Bibliothek Wünsche von Nutzerinnen und Nutzern  Kontinuierliche OCR-Optimierung  Named Entity Linking von Länder- und Ortsnamen als Basis für georeferenzierte Darstellungen  Named Entity Linking von Personen als Basis für die Verlinkung …  … auf weitere Treffer innerhalb von E-Periodica  … auf weitere Ressourcen der ETH-Bibliothek und externe Datenquellen Mögliche Forschungsdesiderate  Erweiterung des Systems auf Texte in anderen Sprachen (F, I, gemischt)  Erkennung und Verlinkungen weiterer Entitäten, z. B. Gebäude, geografische Bezeichnungen (Berge, Täler, Seen) oder Firmennamen, Organisationen etc. 15 Zusatzfunktionen in E-Periodica 13.06.2018Regina Wanger, Michael Gasser
  • 16. ||ETH-Bibliothek  Online Plattform E-Periodica mit 7 Mio. Seiten  Pilotprojekt zur automatisierten Textanreicherung  Eigennamenerkennung in zwei Architektur-Zeitschriften  Präzision vor Ausbeute (zentrale Herausforderung für den praktischen Einsatz)  Low hanging fruits: Erkennung von Ländernamen und Ortsnamen der Schweiz  Gute Resultate: Personennamenerkennung  Klare Grenzen der sicheren Identifizierung und GND-Verlinkung: Named Entity Linking  Know-how-Transfer und laufende Optimierungen  OCR Post-Processing als wichtige Zusatzaufgabe im Betrieb  Ausweitung des Systems auf weitere Themen / Zeitschriften in E-Periodica  Entwicklung von Zusatzfunktionen (als Prototypen) im direkten Austausch mit Usern  Weitere Forschungsfragen 13.06.2018 16 Zusammenfassung Regina Wanger, Michael Gasser
  • 18. ||ETH-Bibliothek Vielen Dank für Ihr Interesse! ETH-Bibliothek, Regina Wanger, Leitung DigiCenter Tel. +41 44 632 69 10, regina.wanger@library.ethz.ch ETH-Bibliothek, Michael Gasser, Leitung Archive Tel. +41 44 632 21 82, michael.gasser@library.ethz.ch Twitter handle: @M_Gasser 13.06.2018 18Regina Wanger, Michael Gasser