SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Downloaden Sie, um offline zu lesen
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Spezial-Lexika zur Erschließung historischer Texte
Ludwig-Maximilians-Universität München
Centrum für Informations- und Sprachverarbeitung
Annette Gotscharek




11. 10. 2011, BSB München – IMPACT Demo Day
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Spezial-Lexika zur Erschließung historischer Texte:
                 “Erschließung”?
 OCR :
           Textuelle Repräsentation des Dokuments aus dem Scan gewinnen.
           Aufgabe des Lexikons:
           Definition der Menge gültiger Wörter (mit Wahrscheinlichkeiten)

                    ...                     Teil (355.133)
                                            des (1.243.455)
                                            Lexikons (4.625)
                                            Lexika (512)                                                      ...


 11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Spezial-Lexika zur Erschließung historischer Texte:
                 “Erschließung”?
 Information Retrieval (IR):
           Zu einer Benutzeranfrage relevante Dokumente aus einer Kollektion
              finden.
           Aufgabe des Lexikons:
           Benutzeranfrage sinnvoll erweitern, um Recall zu erhöhen.

                    ...                     Lexikon Lexika, Lexikons
                                            Teil Teile, Teils, Teilen
                                            Geist Geister, Geists, Geistern                                                         ...



 11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




             Problem der historischen Sprachvariation




        Historische Schreibvarianten: geyſte Geiste
        Veraltetes Vokabular: mirackel Wunder (?)
        Historische Morphologie: er frug er fragte
        Veralteter Zeichensatz: ſ s, aͤ ä, …



11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




 Adaptierte Lexika für historische Texte: Struktur
OCR :                                      ...
                                           Teil (355.133)                                                    Theile (223.405)
                                           des (1.243.455)                                                   teyls (41.944)
                                           Lexikons (4.625)                                                  Lexicons (1.520)
                                           Lexika (512)                                                      frug (2.311)
                                                                                                             ...


IR:                  ...
                     Geist Geister, Geists, Geistern,                                                        geyſte, geyſt, geyster
                     Lexikon Lexika, Lexikons,                                                               Lexicon, Lexica, Lexicons
                     Teil Teile, Teils, Teilen,                                                              Theyl, Theil, Theyls, Theilen
                     …

11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Ressourcen und Spezial-Lexika
für historische Texte
        Diachrones Groundtruth Korpus (1500-1950)
        Hypothetisches Lexikon für regelbasierte Varianten
        Manuell verifiziertes Lexikon
        Lexika für Named Entities




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Ressourcen und Spezial-Lexika
für historische Texte
        Diachrones Groundtruth Korpus (1500-1950)
        Hypothetisches Lexikon für regelbasierte Varianten
        Manuell verifiziertes Lexikon
        Lexika für Named Entities




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Diachrones Groundtruth – Korpus (1500-1950)
        Korpus-Erstellung aus verschiedenen Quellen im Web bzw. nicht-öffentlichen
        elektronischen Korpora (IDS Mannheim).
        Große Lücke insbesondere im 16. /17. Jahrhundert
                 Mit BSB: Erstellung eines zusätzlichen Korpus aus BSB-Dokumenten.



                                                                                                                       Insgesamt ~ 3.380.000 token aus
                                                                                                                       4 Jahrhunderten.
                                                                                                                         Basis für verschiedene
                                                                                                                       Analysen und Lexikonerstellung




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Ressourcen und Spezial-Lexika
für historische Texte
        Diachrones Groundtruth Korpus (1500-1950)
        Hypothetisches Lexikon für regelbasierte Varianten
        Manuell verifiziertes Lexikon
        Lexika für Named Entities




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Hypothetisches Lexikon: Regelbasierte Varianten

        Regelmäßig auftretende Ersetzungsmuster (Patterns) erklären auf
        Symbolebene die Unterschiede zwischen moderner und historischer
        Schreibung:
                                                                      t → th , ei → ey
                                      teil   → theyl

        Auf Basis des modernen Lexikons und der 140 Patterns kann
        automatisch die Menge der potentiellen regelbasierten historischen
        Varianten erzeugt werden („Hypothetisches Lexikon“).

11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




   Hypothetisches Lexikon
                                                                                                   Hypothetisches
                                                                                                             Lexikon
     …
   Esel                                                                                  Teil
     …                                                 Esel                             Teill
    Teil                                               Esell                            Teyl
                                                                                                                                                              …
     …                                                Esehl                                                                                                  e →eh
                                                                                        Teyll
                                                      Esehll                                                                                                 ei →ey
                                                                                       Tehill
                                                       Eßel                                                                                                  s →ß
                                                                                       Theil
Modernes                                               Eßell                                                                                                  l→ll
                                                                                         …
                                                     Eßehll                                                                                                  t →th
Lexikon                                                                                                                                                        …
                                                         …

                                                                                                                                                 Patternmenge

   11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                                        11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Hypothetisches Lexikon: Regelbasierte Varianten

        Zuordnung von regelbasierten Varianten zu ihren Entsprechungen im
        modernen Wortschatz automatisch möglich:
                                           Geyst = Geist + (ei ey)
                                           Theile = Teile + (t th)


        Bei weitem nicht alle historischen Varianten lassen sich mit
        einfachen Ersetzungsregeln ableiten:
                                           frug = fragte + ?
                                           Mirackel = ? + ?

11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




 Abdeckung auf diachronem Korpus
Types (%)                        1500- 1550- 1600- 1650- 1700- 1750- 1800- 1850- 1900-
                                 1549              1599             1649             1699              1749             1799             1849             1899   1949
Modern simple                      15.3             28.8              29.2             31.5             38.1              52.0           54.7             48.0   60.1
words
Modern                             5.1              6.1               6.9              8.6              7.13              15.5           20.6             28.1   27.8
compounds
Hypothetic                         29.5             29.8              27.9             26.0             21.9              14.3           8.1              7.7    2.0



         Einsatz als Lexikon bei der OCR: Verbesserung der Erkennungsqualität über
         IMPACT Abbyy External Dictionary Interface (publiziert 2009)
         Zentrale Ressource bei Text- und Fehlerprofilierung und im Postkorrektursystem
         ( vgl. Vortrag Ulrich Reffle)
 11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                                            13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




 Abdeckung auf diachronem Korpus
Types (%)                        1500- 1550- 1600- 1650- 1700- 1750- 1800- 1850- 1900-
                                 1549              1599             1649             1699              1749             1799             1849             1899   1949
Modern simple                      15.3             28.8              29.2             31.5             38.1              52.0           54.7             48.0   60.1
words
Modern                             5.1              6.1               6.9              8.6              7.13              15.5           20.6             28.1   27.8
compounds
Hypothetic                         29.5             29.8              27.9             26.0             21.9              14.3           8.1              7.7    2.0


Missing                            45.9             28.7              29.7             26.0             23.5              15.1           13.9             13.5   8.1


         Hoher Anteil „schwierigen“ Vokabulars vor 1750, insbesondere im 16. Jhdt.
           manuell verifiziertes Lexikon notwendig!

 11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                                            14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Ressourcen und Spezial-Lexika
für historische Texte
        Diachrones Groundtruth Korpus (1500-1950)
        Hypothetisches Lexikon für regelbasierte Varianten
        Manuell verifiziertes Lexikon
        Lexika für Named Entities




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Manuell verifiziertes IR-Lexikon: Struktur
Ein Eintrag enthält:
          –      Historische Wortform aus Korpus
          –      Entsprechende moderne Wortform
          –      Ggf. Patterns
          –      Entsprechendes modernes Lemma
          –      Mindestens eine Textstelle aus dem Korpus als Beleg für die Lesart


        Manuelle Zuordnung von moderner Wortform und Lemma
        Explizites Kodieren nicht regelbasierter historischer Varianten



11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Manuell verifiziertes IR-Lexikon: Erstellung

        Webbasierte, kollaborative Oberfläche
        Unterstützung des Bearbeiters durch:
          – Vorschläge für entsprechende moderne Wortformen für regelbasierte
            Varianten durch Hypothetisches Lexikon (theile -> teile)
          – Vorschläge aller möglichen Lemmas für die entsprechende moderne
            Wortform aus einem großen modernen Lexikon CISLEX
            (teile -> der Teil, das Teil, teilen)
          – Konkordanz der zu bearbeitenden Variante



11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              17
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Aktueller Stand des IR-Lexikons

        Auf dem diachronen Korpus wurden 41.300 Einträge für 24.700
        historische Wortformen erstellt, 71.400 Belegstellen annotiert.

        IMPACT-Partner in Slowenien und Bulgarien erstellen
        entsprechende historische Lexika mithilfe einer adaptierte Version
        des tools.

        Suchmaschine mit Queryexpansion


11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Suchmaschine mit Queryexpansion
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.



Ressourcen und Spezial-Lexika
für historische Texte
        Diachrones Groundtruth Korpus (1500-1950)
        Hypothetisches Lexikon für regelbasierte Varianten
        Manuell verifiziertes Lexikon
        Lexika für Named Entities




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              20
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Named Entities (NEs)


        Wörter / Mehrwortlexeme, die auf einzelnes Element der realen Welt
        referieren (Personen, geographische Bezeichner, Organisationen).

        NEs sind nicht im allgemeinen Lexikon enthalten und sind besonders
        problematisch für die OCR.




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              21
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Named Entities

        Evaluationskorpus: NE-Annotation von Materialen u.a. von der
        Österreichischen Nationalbibliothek
        Gekeyte NE-Daten von der ONB: 85 Dokumente (Adress-Register,
        Ortsnamenverzeichnisse)
        ~ 300.000 geographische Entitäten, Vor- und Nachnamen-Lexika
        Tests zur NE-Erkennung:
          – mithilfe lokaler Grammatiken (regelbasiert)
          – mithilfe eines statistischen Klassifikators (maschinelles Lernen).


11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              22
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




NEs – Erkennung: Reichsrat-Protokolle
             Classifier                           Recall                               Precision                           F
             Stat +train +lex                     89,62                                96,91                               92,98
             Stat +train –lex                     88,38                                96,01                               92,04
             Stat –train +lex                     21,01                                90,03                               34,07
             Stat –train –lex                     20,15                                87,71                               32,77
             RB +lex                              70,49                                85,02                               77,07
             RB –lex                              20,91                                86,76                               24,07


        Statistische (stat) und regelbasierte (RB) Klassifikatoren.
        Mit speziellen NE-Lexika (+lex) bzw. ohne NE-Lexika (-lex)
        Trainiert auf allgemeinem Korpus (-train) bzw. auf Reichsrat-Korpus (+train)
11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              23
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Suchmaschine mit NE Highlighting
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                                                    Vielen Dank.




11. 10. 2011, BSB München – IMPACT Demo Day                                                                                                              25

Weitere ähnliche Inhalte

Ähnlich wie BSB Demo Day - Gotscharek - Spezial-Lexika

Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...
Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...
Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...Thomas Tunsch
 
EuropeanaConnect
EuropeanaConnectEuropeanaConnect
EuropeanaConnectMax Kaiser
 
Wissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit BibliothekenWissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit Bibliothekenstabihh
 

Ähnlich wie BSB Demo Day - Gotscharek - Spezial-Lexika (6)

BSB Demo Day - Zechmeister - OCR-Software
BSB Demo Day - Zechmeister - OCR-SoftwareBSB Demo Day - Zechmeister - OCR-Software
BSB Demo Day - Zechmeister - OCR-Software
 
Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...
Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...
Kommunikation für Experten: Kulturelle Gedächtnisorganisationen und vernetzte...
 
BSB Demo Day - Schlarb - Workflow-Design
BSB Demo Day - Schlarb - Workflow-DesignBSB Demo Day - Schlarb - Workflow-Design
BSB Demo Day - Schlarb - Workflow-Design
 
EuropeanaConnect
EuropeanaConnectEuropeanaConnect
EuropeanaConnect
 
CSL10
CSL10CSL10
CSL10
 
Wissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit BibliothekenWissenschaftliches Publizieren mit Bibliotheken
Wissenschaftliches Publizieren mit Bibliotheken
 

Mehr von IMPACT Centre of Competence

Mehr von IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

BSB Demo Day - Gotscharek - Spezial-Lexika

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Spezial-Lexika zur Erschließung historischer Texte Ludwig-Maximilians-Universität München Centrum für Informations- und Sprachverarbeitung Annette Gotscharek 11. 10. 2011, BSB München – IMPACT Demo Day
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Spezial-Lexika zur Erschließung historischer Texte: “Erschließung”? OCR : Textuelle Repräsentation des Dokuments aus dem Scan gewinnen. Aufgabe des Lexikons: Definition der Menge gültiger Wörter (mit Wahrscheinlichkeiten) ... Teil (355.133) des (1.243.455) Lexikons (4.625) Lexika (512) ... 11. 10. 2011, BSB München – IMPACT Demo Day 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Spezial-Lexika zur Erschließung historischer Texte: “Erschließung”? Information Retrieval (IR): Zu einer Benutzeranfrage relevante Dokumente aus einer Kollektion finden. Aufgabe des Lexikons: Benutzeranfrage sinnvoll erweitern, um Recall zu erhöhen. ... Lexikon Lexika, Lexikons Teil Teile, Teils, Teilen Geist Geister, Geists, Geistern ... 11. 10. 2011, BSB München – IMPACT Demo Day 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Problem der historischen Sprachvariation Historische Schreibvarianten: geyſte Geiste Veraltetes Vokabular: mirackel Wunder (?) Historische Morphologie: er frug er fragte Veralteter Zeichensatz: ſ s, aͤ ä, … 11. 10. 2011, BSB München – IMPACT Demo Day 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Adaptierte Lexika für historische Texte: Struktur OCR : ... Teil (355.133) Theile (223.405) des (1.243.455) teyls (41.944) Lexikons (4.625) Lexicons (1.520) Lexika (512) frug (2.311) ... IR: ... Geist Geister, Geists, Geistern, geyſte, geyſt, geyster Lexikon Lexika, Lexikons, Lexicon, Lexica, Lexicons Teil Teile, Teils, Teilen, Theyl, Theil, Theyls, Theilen … 11. 10. 2011, BSB München – IMPACT Demo Day 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ressourcen und Spezial-Lexika für historische Texte Diachrones Groundtruth Korpus (1500-1950) Hypothetisches Lexikon für regelbasierte Varianten Manuell verifiziertes Lexikon Lexika für Named Entities 11. 10. 2011, BSB München – IMPACT Demo Day 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ressourcen und Spezial-Lexika für historische Texte Diachrones Groundtruth Korpus (1500-1950) Hypothetisches Lexikon für regelbasierte Varianten Manuell verifiziertes Lexikon Lexika für Named Entities 11. 10. 2011, BSB München – IMPACT Demo Day 7
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Diachrones Groundtruth – Korpus (1500-1950) Korpus-Erstellung aus verschiedenen Quellen im Web bzw. nicht-öffentlichen elektronischen Korpora (IDS Mannheim). Große Lücke insbesondere im 16. /17. Jahrhundert Mit BSB: Erstellung eines zusätzlichen Korpus aus BSB-Dokumenten. Insgesamt ~ 3.380.000 token aus 4 Jahrhunderten. Basis für verschiedene Analysen und Lexikonerstellung 11. 10. 2011, BSB München – IMPACT Demo Day 8
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ressourcen und Spezial-Lexika für historische Texte Diachrones Groundtruth Korpus (1500-1950) Hypothetisches Lexikon für regelbasierte Varianten Manuell verifiziertes Lexikon Lexika für Named Entities 11. 10. 2011, BSB München – IMPACT Demo Day 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Hypothetisches Lexikon: Regelbasierte Varianten Regelmäßig auftretende Ersetzungsmuster (Patterns) erklären auf Symbolebene die Unterschiede zwischen moderner und historischer Schreibung: t → th , ei → ey teil   → theyl Auf Basis des modernen Lexikons und der 140 Patterns kann automatisch die Menge der potentiellen regelbasierten historischen Varianten erzeugt werden („Hypothetisches Lexikon“). 11. 10. 2011, BSB München – IMPACT Demo Day 10
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Hypothetisches Lexikon Hypothetisches Lexikon … Esel Teil … Esel Teill Teil Esell Teyl … … Esehl e →eh Teyll Esehll ei →ey Tehill Eßel s →ß Theil Modernes Eßell l→ll … Eßehll t →th Lexikon … … Patternmenge 11. 10. 2011, BSB München – IMPACT Demo Day 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Hypothetisches Lexikon: Regelbasierte Varianten Zuordnung von regelbasierten Varianten zu ihren Entsprechungen im modernen Wortschatz automatisch möglich: Geyst = Geist + (ei ey) Theile = Teile + (t th) Bei weitem nicht alle historischen Varianten lassen sich mit einfachen Ersetzungsregeln ableiten: frug = fragte + ? Mirackel = ? + ? 11. 10. 2011, BSB München – IMPACT Demo Day 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Abdeckung auf diachronem Korpus Types (%) 1500- 1550- 1600- 1650- 1700- 1750- 1800- 1850- 1900- 1549 1599 1649 1699 1749 1799 1849 1899 1949 Modern simple 15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1 words Modern 5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8 compounds Hypothetic 29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0 Einsatz als Lexikon bei der OCR: Verbesserung der Erkennungsqualität über IMPACT Abbyy External Dictionary Interface (publiziert 2009) Zentrale Ressource bei Text- und Fehlerprofilierung und im Postkorrektursystem ( vgl. Vortrag Ulrich Reffle) 11. 10. 2011, BSB München – IMPACT Demo Day 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Abdeckung auf diachronem Korpus Types (%) 1500- 1550- 1600- 1650- 1700- 1750- 1800- 1850- 1900- 1549 1599 1649 1699 1749 1799 1849 1899 1949 Modern simple 15.3 28.8 29.2 31.5 38.1 52.0 54.7 48.0 60.1 words Modern 5.1 6.1 6.9 8.6 7.13 15.5 20.6 28.1 27.8 compounds Hypothetic 29.5 29.8 27.9 26.0 21.9 14.3 8.1 7.7 2.0 Missing 45.9 28.7 29.7 26.0 23.5 15.1 13.9 13.5 8.1 Hoher Anteil „schwierigen“ Vokabulars vor 1750, insbesondere im 16. Jhdt. manuell verifiziertes Lexikon notwendig! 11. 10. 2011, BSB München – IMPACT Demo Day 14
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ressourcen und Spezial-Lexika für historische Texte Diachrones Groundtruth Korpus (1500-1950) Hypothetisches Lexikon für regelbasierte Varianten Manuell verifiziertes Lexikon Lexika für Named Entities 11. 10. 2011, BSB München – IMPACT Demo Day 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Manuell verifiziertes IR-Lexikon: Struktur Ein Eintrag enthält: – Historische Wortform aus Korpus – Entsprechende moderne Wortform – Ggf. Patterns – Entsprechendes modernes Lemma – Mindestens eine Textstelle aus dem Korpus als Beleg für die Lesart Manuelle Zuordnung von moderner Wortform und Lemma Explizites Kodieren nicht regelbasierter historischer Varianten 11. 10. 2011, BSB München – IMPACT Demo Day 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Manuell verifiziertes IR-Lexikon: Erstellung Webbasierte, kollaborative Oberfläche Unterstützung des Bearbeiters durch: – Vorschläge für entsprechende moderne Wortformen für regelbasierte Varianten durch Hypothetisches Lexikon (theile -> teile) – Vorschläge aller möglichen Lemmas für die entsprechende moderne Wortform aus einem großen modernen Lexikon CISLEX (teile -> der Teil, das Teil, teilen) – Konkordanz der zu bearbeitenden Variante 11. 10. 2011, BSB München – IMPACT Demo Day 17
  • 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Aktueller Stand des IR-Lexikons Auf dem diachronen Korpus wurden 41.300 Einträge für 24.700 historische Wortformen erstellt, 71.400 Belegstellen annotiert. IMPACT-Partner in Slowenien und Bulgarien erstellen entsprechende historische Lexika mithilfe einer adaptierte Version des tools. Suchmaschine mit Queryexpansion 11. 10. 2011, BSB München – IMPACT Demo Day 18
  • 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Suchmaschine mit Queryexpansion
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ressourcen und Spezial-Lexika für historische Texte Diachrones Groundtruth Korpus (1500-1950) Hypothetisches Lexikon für regelbasierte Varianten Manuell verifiziertes Lexikon Lexika für Named Entities 11. 10. 2011, BSB München – IMPACT Demo Day 20
  • 21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Named Entities (NEs) Wörter / Mehrwortlexeme, die auf einzelnes Element der realen Welt referieren (Personen, geographische Bezeichner, Organisationen). NEs sind nicht im allgemeinen Lexikon enthalten und sind besonders problematisch für die OCR. 11. 10. 2011, BSB München – IMPACT Demo Day 21
  • 22. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Named Entities Evaluationskorpus: NE-Annotation von Materialen u.a. von der Österreichischen Nationalbibliothek Gekeyte NE-Daten von der ONB: 85 Dokumente (Adress-Register, Ortsnamenverzeichnisse) ~ 300.000 geographische Entitäten, Vor- und Nachnamen-Lexika Tests zur NE-Erkennung: – mithilfe lokaler Grammatiken (regelbasiert) – mithilfe eines statistischen Klassifikators (maschinelles Lernen). 11. 10. 2011, BSB München – IMPACT Demo Day 22
  • 23. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. NEs – Erkennung: Reichsrat-Protokolle Classifier Recall Precision F Stat +train +lex 89,62 96,91 92,98 Stat +train –lex 88,38 96,01 92,04 Stat –train +lex 21,01 90,03 34,07 Stat –train –lex 20,15 87,71 32,77 RB +lex 70,49 85,02 77,07 RB –lex 20,91 86,76 24,07 Statistische (stat) und regelbasierte (RB) Klassifikatoren. Mit speziellen NE-Lexika (+lex) bzw. ohne NE-Lexika (-lex) Trainiert auf allgemeinem Korpus (-train) bzw. auf Reichsrat-Korpus (+train) 11. 10. 2011, BSB München – IMPACT Demo Day 23
  • 24. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Suchmaschine mit NE Highlighting
  • 25. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Vielen Dank. 11. 10. 2011, BSB München – IMPACT Demo Day 25