Was tun mit den Ergebnissen der OCR?

1.590 Aufrufe

Veröffentlicht am

Die Sicht der Nutzer von Volltexten. Vortrag auf dem IMPACT Workshop in München am 4.3.2010

Veröffentlicht in: Bildung, Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.590
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
51
Aktionen
Geteilt
0
Downloads
6
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Was tun mit den Ergebnissen der OCR?

  1. 1. Was tun mit den Ergebnissen der OCR? Die Sicht der Endnutzer CB4 IMPACT Workshop, 4.3.2010 Ralf Stockmann SUB Göttingen / Abteilung Forschung und Entwicklung
  2. 2. OCR in Göttingen <ul><li>Bestand: 8 Mio. Seiten </li></ul><ul><li>Ca. 20 % Fraktur (derzeit keine OCR vorgesehen) </li></ul><ul><li>Jährlicher Zuwachs: 2 Mio. Seiten </li></ul><ul><li>Renderfarm beim GBV (16 Kerne) </li></ul><ul><li>ABBY recognition server </li></ul><ul><li>160 Seiten pro Minute </li></ul><ul><li>In Goobi Workflowsystem integriert </li></ul><ul><li>Als Dienstleistung auf dem Markt angeboten </li></ul>
  3. 3. Endnutzer – wer ist das? <ul><li>Wissenschaftler </li></ul><ul><li>Schüler/Studierende </li></ul><ul><li>Laien </li></ul><ul><li>Bibliothekare (Aufbau von digitalen Inhaltsverzeichnissen) </li></ul><ul><li>Google (und andere Dienste) </li></ul>
  4. 4. Wie sichtbar sind die Volltexte? <ul><li>Versteckt in Suchindex </li></ul><ul><li>Versteckt, aber Image-Highlighting der Fundstelle </li></ul><ul><li>Volltext als Layer hinter dem Image (etwa in PDF gebunden) </li></ul><ul><li>Volltext sichtbar über / neben dem Image </li></ul><ul><li>Nur Volltext sichtbar </li></ul><ul><li>Volltext als Download </li></ul><ul><li>Volltext für Harvester verfügbar (TEI Datei in OAI) </li></ul>
  5. 5. In welchen Formaten? <ul><li>Fragmentiert in einem Suchindex (Text nicht rekonstruierbar) </li></ul><ul><li>Durch Wortkoordinaten platziert, aber kein Dokumentenzusammenhang (bin ich Teil eines Satzes?) </li></ul><ul><li>Text einer Seite (eventuell mit Absätzen / Zeilenumbruch / Spalten) </li></ul><ul><li>Dokumenttext über mehrere Seiten </li></ul><ul><ul><li>PDF </li></ul></ul><ul><ul><li>TEI (Text Encoding Initiative) </li></ul></ul><ul><ul><li>Semantische Auszeichnung </li></ul></ul><ul><li>Informationen, die der Anbieter wegwirft / wegsperrt, kann der Nutzer nicht wieder herstellen </li></ul>
  6. 6. Vier Gruppen der Nutzung <ul><li>Suche / Retrieval </li></ul><ul><ul><li>Bekannt und gezeigt </li></ul></ul><ul><li>Als Werkzeug zur Generierung händischer Metadaten </li></ul><ul><li>Semantische / qualitative Analysen </li></ul><ul><ul><li>Themenkarrieren </li></ul></ul><ul><ul><li>Netzwerke (Personen) </li></ul></ul><ul><li>Textarbeit </li></ul><ul><ul><li>Virtuelle Forschungsumgebungen </li></ul></ul>
  7. 7. OCR als Produktionswerkzeug
  8. 8. Semantische Graphen über <ul><li>Themen </li></ul><ul><li>Personen </li></ul><ul><li>Personenbeziehungen </li></ul>
  9. 9. Anwendungen <ul><li>Exploratives Browsing </li></ul><ul><li>Relevanz von Metadaten für die Erschließungsqualität, oder: kann man durch den Einsatz von Volltexten auf Meta- Strukturdatengenerierung verzichten? </li></ul><ul><li>Experiment: Vergleich der semantischen Graphen zu </li></ul><ul><ul><li>Nur bibliographische Metadaten </li></ul></ul><ul><ul><li>Metadaten + Strukturdaten (Inhaltsverzeichnisse) </li></ul></ul><ul><ul><li>Nur Volltexte </li></ul></ul><ul><ul><li>Bibliographische Metadaten + Volltexte </li></ul></ul><ul><ul><li>Bibliographische Metadaten + Strukturdaten + Volltexte </li></ul></ul><ul><ul><li>Ergebnisse auf dem Bibliothekartag in Leipzig </li></ul></ul>
  10. 10. Semantische / qualitative Analysen Goethe
  11. 11. Goethe Schiller
  12. 12. Virtuelle Forschungsumgebungen TextGridLab
  13. 13. Empfehlungen <ul><li>Alle Qualität der OCR nutzt nichts, wenn es nicht bei unseren Kunden ankommt </li></ul><ul><li>auch fehlerhafte OCR Ergebnisse sind nützlich </li></ul><ul><li>Explorative, semantische Verfahren werden viele Textwissenschaften nachhaltig beeinflussen </li></ul><ul><li>Aber: wir können nur einen Bruchteil der denkbaren und sinnvollen Nutzungen vorhersehen / anbieten </li></ul><ul><li>Darum: Volltexte in möglichst vielen Formaten und an möglichst vielen Schnittstellen zur Nachnutzung anbieten (PDF, txt, TEI, OAI, ...) </li></ul>
  14. 14. Ausblick <ul><li>Ulrich Johannes Schneider in der SZ am 1.3. </li></ul><ul><ul><li>Sollten wir nicht anerkennen, dass die neue Technik mindestens ebenso revolutionär wirkt wie der Buchdruck selbst vor über 500 Jahren? </li></ul></ul><ul><li>Ja – aber nicht durch Image-Digitalisierung, sondern die Volltexterfassung. </li></ul>

×