UNIVERSITÄT HEIDELBERG
Neuphilologische Fakultät
Seminar für Computerlinguistik
MAGISTERARBEIT
Von Dependenzstrukturen zu ...
ii
Selbständigkeitserklärung
Hiermit erkläre ich, dass ich die Magisterarbeit zum Thema
Von Dependenzstrukturen zu Konstituen...
Danksagung
Ich danke Frau Prof. Dr. Anette Frank für ihre kompetente Betreuung und hilfreiche
Anregungen. Mein besonderer ...
Inhaltsverzeichnis
1 Einleitung 4
2 Theoretischer Hintergrund 7
2.1 Konstituenz und Dependenz . . . . . . . . . . . . . . ...
Inhaltsverzeichnis
7.3.3 Gesamtsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7.3.4 Training auf den ...
Abbildungsverzeichnis
2.1 Konstituentenstruktur und Dependenzstruktur . . . . . . . . . . . . . . . 8
2.2 C- und F-Struktu...
Abbildungsverzeichnis
7.2 Penn-Treebank-Baum für den Satz The demon seems to have gone . . . . 44
7.3 F-Struktur für den S...
Tabellenverzeichnis
3.1 Ergebnisse der Evaluierung von drei Algorithmen auf Sektion 0 der Penn
Treebank (unlabeled) . . . ...
1 Einleitung
Grammatiktheorien verwenden Formalismen, um die syntaktischen Satzstrukturen zu re-
präsentieren. Die Formali...
1 Einleitung
Die Erstellung einer Baumbank, besonders einer Baumbank mit parallelen Strukturen, ist
aber eine aufwändige A...
1 Einleitung
Das Ziel dieser Arbeit ist, ein Generierungsverfahren KS-aus-DS zu entwickeln, das auf
statistischen Methoden...
2 Theoretischer Hintergrund
2.1 Konstituenz und Dependenz
In diesem Abschnitt werden die zwei syntaktischen Relationen rep...
2 Theoretischer Hintergrund
Abb. 2.1: Konstituentenstruktur und Dependenzstruktur
Eine weitere Notationsform für die Darst...
2 Theoretischer Hintergrund
komplementär betrachtet:
”Mit Hilfe von Dependenzgrammatik kann zwar die innere Organisation
e...
2 Theoretischer Hintergrund
bzw. funktionale Rollen (Subjekt, Objekt, Adjunkt etc.) benannt. In der Abbildung (2.2)
werden...
2 Theoretischer Hintergrund
Abb. 2.3: F-Struktur vs. Dependenzstruktur
Zuordnung von C-Struktur zu F-Struktur. Die Korresp...
2 Theoretischer Hintergrund
Abb. 2.4: Lange Dependenz in F-Struktur und in Dependenzbaum
auf eine F-Struktur abgebildet we...
2 Theoretischer Hintergrund
Abb. 2.5: Abbildung von C-Struktur-Knoten auf F-Strukturen
13
3 Bisherige Ansätze
3.1 Xia und Palmer (2001)
Xia und Palmer (2001) entwickelten einen Algorithmus, der DSen in KSen konve...
3 Bisherige Ansätze
Abb. 3.1: Penn-Treebank-Baum und Dependenzbaum
Der Algorithmus verwendet folgende heuristische Regeln:...
3 Bisherige Ansätze
Abb. 3.2: Regeln der X-Bar-Theorie (a) und Algorithmus 1: DS (b) und KS (c) (aus Xia
et al., 2009)
Der...
3 Bisherige Ansätze
Abb. 3.3: Die von Algorithmus 1 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia
et al., 2009)
• Die...
3 Bisherige Ansätze
Abb. 3.4: Das Schema für Algorithmus 2: DS (a) und KS (b) (aus Xia et al., 2009)
Ergebnisse
Die Ergebn...
3 Bisherige Ansätze
Abb. 3.5: Die von Algorithmus 2 erzeugte KS für DS in der Abbildung 2.1b (vgl. Xia
et al., 2009)
• 7 F...
3 Bisherige Ansätze
Abb. 3.6: Die von Algorithmus 3 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia
et al., 2009)
des B...
3 Bisherige Ansätze
Abb. 3.7: Konvertierungsregeln (aus Xia et al., 2009)
Es sei die DS in der Abbildung 3.1a und die Konv...
3 Bisherige Ansätze
Abb. 3.8: Input-DS und Teilbäume, die von Zeilen (3)-(4) des Algorithmus erzeugt wurden
(aus Xia et al...
3 Bisherige Ansätze
Abb. 3.9: Schrittweise Verknüpfen von Dependenten von join (aus Xia et al., 2009)
Bei Xia und Palmer (...
4 Statistischer Ansatz
4.1 Statistische Verfahren in der Sprachverarbeitung
Die Konvertierung von DSen in KSen kann als ei...
4 Statistischer Ansatz
führen – d.h. zu einer großen Anzahl an Alternativen.
2. Jeder Hypothese wird ein Wahrscheinlichkei...
4 Statistischer Ansatz
Abb. 4.1: Abbildung von DS in KS
eine DS, ist gleich dem Verhältnis von der Anzahl der Vorkommen (C...
4 Statistischer Ansatz
DS-Segmenten, auf die die KS-Segmente abgebildet werden:
P(relcs(csi, csj)|relds(dsi, dsj)) (4.5)
D...
5 Daten: LFG-Korpus
Das Lernen von Konvertierungsregeln und das Training von probabilistischen Modellen
setzen einen Korpu...
5 Daten: LFG-Korpus
Abb. 5.1: Ein Beispielbaum aus der Penn Treebank
Die Penn Treebank wurde mit LFG-F-Strukturen automati...
5 Daten: LFG-Korpus
Strukturen müssen in einer Korrespondenzbeziehung stehen. Es stellt sich damit die
Frage, was KS- und ...
5 Daten: LFG-Korpus
Abb. 5.3: Referenzen (Links) im LFG-Korpus
Baum. In der F-Struktur wird diese grammatische Funktion al...
5 Daten: LFG-Korpus
Nullelementen wiedergegeben werden können (s. Kapitel 2.2).
Die Punktuationszeichen sind in F-Struktur...
6 Generierung von Penn-Treebank-Bäumen
aus LFG-F-Strukturen
6.1 Modell für Abbildung von LFG-F-Strukturen in
Penn-Treebank...
6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Im Kapitel 4 wurde ein allgemeines probabilistisches Modell de...
6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Bei der Spezifizierung der jeweiligen Verbindung sind drei Punk...
6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Es wird ein spezifiziertes Modell definiert, das diese Faktoren ...
6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
ist eine mögliche Konfiguration repräsentiert, die nach dem Anh...
6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen
Kombinationen bzw. Möglichkeiten die Tochterbäume an den Mutte...
7 Experimente und Ergebnisse
7.1 Evaluierungsmetriken
7.1.1 Problem der Evaluierung von Konstituentenstrukturen
Durch Anga...
7 Experimente und Ergebnisse
Abb. 7.1: Hypothesenbaum und Goldstandard
7.1.2 Leaf-Ancestor-Evaluierung (LA)
Die Leaf-Ances...
7 Experimente und Ergebnisse
Terminale Pfad in Hypothesenbaum (a) Pfad in Goldstandard (b) Ähnlichkeit
the DT NP-SBJ [ S D...
7 Experimente und Ergebnisse
spätere Evaluierungsexperimente im Bereich der Transformation zwischen DS und
KS attraktiv.
•...
7 Experimente und Ergebnisse
7.2 Daten und Vorverarbeitung
Der LFG-Korpus (Kapitel 5) wurde als Trainings- und Evaluierung...
7 Experimente und Ergebnisse
Abb. 7.2: Penn-Treebank-Baum für den Satz The demon seems to have gone
F-Struktur kann einen ...
7 Experimente und Ergebnisse
7.3 Experimente
Im Kapitel 6 wurden zwei Schritte der Generierung von KSen aus DSen erläutert...
7 Experimente und Ergebnisse
4. Die grammatische Funktion der F-Struktur selbst wird als [GFfs gffs] dargestellt,
wobei gf...
7 Experimente und Ergebnisse
Als drittes Modell wurde ein Modell definiert, dem die Idee zu Grunde liegt, die Wahr-
scheinl...
7 Experimente und Ergebnisse
Modell Initial-Bäume POS λ-Werte
baseline 35.2 47.4 λ1=1
simple 45.4 58.7 λ1=0.6; λ2=0.4
sing...
7 Experimente und Ergebnisse
Pm
(it|fs) =
n
i=1
(λ1P(it|gffs
, gfch
i , morphfs
) + λ2P(it|gffs
, gfch
i ) + λ3P(it|gffs
)...
7 Experimente und Ergebnisse
– 4 mal wurden die falschen funktionalen Tags eingesetzt: z.B. statt ( SBAR-ADV
( IN as ) ) i...
7 Experimente und Ergebnisse
P(Tree|FS) ≈
n
i=1
(P(iti|fsφ(iti)) ∗
k
j=1
P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))))
1 2...
7 Experimente und Ergebnisse
Proot
(relcs) = P(anode, dir, rootln
, rootrn
|it, rootch
) (7.10)
wobei rootln die syntaktis...
7 Experimente und Ergebnisse
wobei λi = 1 ist.
Die Ergebnisse der Evaluierung sind in der Tabelle 7.6 zusammengefasst.DR u...
7 Experimente und Ergebnisse
7.3.3 Gesamtsystem
Nachdem die beiden Module des Systems getestet worden sind, wurden die Mod...
7 Experimente und Ergebnisse
der 1-beste Initial-Baum ist falsch der 2-beste Initial-Baum ist richtig Erfolg
falsche NP-Pr...
7 Experimente und Ergebnisse
Abb. 7.3: F-Struktur für den Satz The demon seems to have gone
56
7 Experimente und Ergebnisse
Abb. 7.4: F-Struktur für den Satz The demon seems to have gone nach der Verarbeitung
von Dopp...
7 Experimente und Ergebnisse
Abb. 7.5: Verteilte Dependenzstruktur
Abb. 7.6: Falsche Ermittlung von Dominanz- und Präzeden...
7 Experimente und Ergebnisse
0
10
20
30
40
50
60
70
80
90
100
0 5000 10000 15000 20000 25000 30000 35000 40000 45000
DR PR...
8 Zusammenfassung und Ausblick
Im Rahmen dieser Arbeit wurde ein statistisches Verfahren entwickelt, das aus DSen KSen
gen...
8 Zusammenfassung und Ausblick
Es kann eine Reihe von anderen Verbesserungen und Weiterentwicklungen vorgenommen
werden:
•...
thesis
thesis
thesis
thesis
thesis
thesis
thesis
Nächste SlideShare
Wird geladen in …5
×

thesis

261 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
261
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

thesis

  1. 1. UNIVERSITÄT HEIDELBERG Neuphilologische Fakultät Seminar für Computerlinguistik MAGISTERARBEIT Von Dependenzstrukturen zu Konstituentenstrukturen: Automatische Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen Vorgelegt von: Artjom Klein 1. Gutachter: Prof. Dr. Anette Frank (Universität Heidelberg) 2. Gutachter: Dr. Stefan Riezler (Google Research) Heidelberg, den 5. August 2009 © Copyright by Artjom Klein
  2. 2. ii
  3. 3. Selbständigkeitserklärung Hiermit erkläre ich, dass ich die Magisterarbeit zum Thema Von Dependenzstrukturen zu Konstituentenstrukturen: Automatische Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen vollkommen selbständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt sowie Zitate kenntlich gemacht habe. Heidelberg, den 05.08.2009 Unterschrift iii
  4. 4. Danksagung Ich danke Frau Prof. Dr. Anette Frank für ihre kompetente Betreuung und hilfreiche Anregungen. Mein besonderer Dank gilt Aoife Cahill für den Korpus, den sie mir zur Verfügung gestellt hat. Dank auch an Sascha Fendrich und Christian Simon, die mir Rückmeldung über meine Arbeit gegeben haben. Herzlichen Dank an meine Frau Xenia für ihr Dasein. iv
  5. 5. Inhaltsverzeichnis 1 Einleitung 4 2 Theoretischer Hintergrund 7 2.1 Konstituenz und Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Lexikalisch-Funktionale Grammatik (LFG) . . . . . . . . . . . . . . . . . 9 3 Bisherige Ansätze 14 3.1 Xia und Palmer (2001) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2 Xia et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4 Statistischer Ansatz 24 4.1 Statistische Verfahren in der Sprachverarbeitung . . . . . . . . . . . . . . 24 4.2 Modell für Abbildung von DS in KS . . . . . . . . . . . . . . . . . . . . . 25 5 Daten: LFG-Korpus 28 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen 33 6.1 Modell für Abbildung von LFG-F-Strukturen in Penn-Treebank-Bäume . 33 6.2 Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 7 Experimente und Ergebnisse 39 7.1 Evaluierungsmetriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 7.1.1 Problem der Evaluierung von Konstituentenstrukturen . . . . . . 39 7.1.2 Leaf-Ancestor-Evaluierung (LA) . . . . . . . . . . . . . . . . . . . 40 7.1.3 Dominanz-Präzendenz-Relationen-Evaluierung (DPR) . . . . . . . 42 7.2 Daten und Vorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.3 Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.3.1 Ermittlung der Initial-Bäume für F-Strukturen . . . . . . . . . . . 45 7.3.2 Generierung von Konstituentenbäumen . . . . . . . . . . . . . . . 50 v
  6. 6. Inhaltsverzeichnis 7.3.3 Gesamtsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 7.3.4 Training auf den Trainingskorpora verschiedener Größe . . . . . . 55 8 Zusammenfassung und Ausblick 60 A Anhang 62 A.1 Penn Treebank: POS Tags . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 A.2 Penn Treebank: Syntaktische Tags . . . . . . . . . . . . . . . . . . . . . . 63 A.3 Penn Treebank: Funktionale Tags . . . . . . . . . . . . . . . . . . . . . . 64 Literaturverzeichnis 65 vi
  7. 7. Abbildungsverzeichnis 2.1 Konstituentenstruktur und Dependenzstruktur . . . . . . . . . . . . . . . 8 2.2 C- und F-Strukturen für den Satz The equity market was illiquid . . . . . 10 2.3 F-Struktur vs. Dependenzstruktur . . . . . . . . . . . . . . . . . . . . . . 11 2.4 Lange Dependenz in F-Struktur und in Dependenzbaum . . . . . . . . . . 12 2.5 Abbildung von C-Struktur-Knoten auf F-Strukturen . . . . . . . . . . . . 13 3.1 Penn-Treebank-Baum und Dependenzbaum . . . . . . . . . . . . . . . . . 15 3.2 Regeln der X-Bar-Theorie (a) und Algorithmus 1: DS (b) und KS (c) (aus Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.3 Die von Algorithmus 1 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4 Das Schema für Algorithmus 2: DS (a) und KS (b) (aus Xia et al., 2009) . 18 3.5 Die von Algorithmus 2 erzeugte KS für DS in der Abbildung 2.1b (vgl. Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.6 Die von Algorithmus 3 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.7 Konvertierungsregeln (aus Xia et al., 2009) . . . . . . . . . . . . . . . . . 21 3.8 Input-DS und Teilbäume, die von Zeilen (3)-(4) des Algorithmus erzeugt wurden (aus Xia et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.9 Schrittweise Verknüpfen von Dependenten von join (aus Xia et al., 2009) 23 4.1 Abbildung von DS in KS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5.1 Ein Beispielbaum aus der Penn Treebank . . . . . . . . . . . . . . . . . . 29 5.2 Partielle Bäume des Satzes The equity market was illiquid . . . . . . . . . 30 5.3 Referenzen (Links) im LFG-Korpus . . . . . . . . . . . . . . . . . . . . . . 31 6.1 Verknüpfungsoperation (formal) . . . . . . . . . . . . . . . . . . . . . . . 35 7.1 Hypothesenbaum und Goldstandard . . . . . . . . . . . . . . . . . . . . . 40 1
  8. 8. Abbildungsverzeichnis 7.2 Penn-Treebank-Baum für den Satz The demon seems to have gone . . . . 44 7.3 F-Struktur für den Satz The demon seems to have gone . . . . . . . . . . 56 7.4 F-Struktur für den Satz The demon seems to have gone nach der Verar- beitung von Doppeleinträgen . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.5 Verteilte Dependenzstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . 58 7.6 Falsche Ermittlung von Dominanz- und Präzedenzrelationen bei Konstruk- tion einer KS aus Initial-Bäumen (Mit ’...’ ist korrekte Position markiert) . 58 7.7 Training auf den Trainingskorpora verschiedener Größe . . . . . . . . . . . 59 2
  9. 9. Tabellenverzeichnis 3.1 Ergebnisse der Evaluierung von drei Algorithmen auf Sektion 0 der Penn Treebank (unlabeled) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2 Ergebnisse der Evaluierung von Algorithmus von Xia et al. (2009) (labeled und unlabeled) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 6.1 Anzahl der Ableitungsbäume, die von einem Initial-Baum der Höhe n und zwei Tochterbäumen abgeleitet werden können . . . . . . . . . . . . . . . 38 7.1 Ergebnisse der LA-Evaluierung für den Baum aus der Abbildung 7.1b . . 41 7.2 Anzahl der Sätze in Trainings- und Testkorpus hinsichtlich ihrer Länge . . 43 7.3 Ergebnisse der Ermittlung von Initial-Bäumen (durch grammatische Funk- tionen parametrisiert) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.4 Ergebnisse der Ermittlung von Initial-Bäumen (parametrisiert durch gram- matische Funktionen, morphosyntaktische und lexikalische Information) . 49 7.5 Fehler bei der Ermittlung der Initial-Bäume . . . . . . . . . . . . . . . . . 50 7.6 Ergebnisse der Generierung von Ableitungsbäumen . . . . . . . . . . . . . 53 7.7 Ergebnisse des Gesamtsystems . . . . . . . . . . . . . . . . . . . . . . . . 54 7.8 Anzahl der Fälle, wann der zweitbeste Initial-Baum korrekt ist . . . . . . 55 7.9 Ergebnisse des Systems, wobei 2 beste Initial-Bäume in weitere Verarbei- tung übernommen werden . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 7.10 Training auf den Trainingskorpora verschiedener Größe . . . . . . . . . . . 55 3
  10. 10. 1 Einleitung Grammatiktheorien verwenden Formalismen, um die syntaktischen Satzstrukturen zu re- präsentieren. Die Formalismen können grob klassifiziert werden hinsichtlich dessen, welche syntaktische Relation als Grundrelation zwischen den Satzelementen angenommen wird. Man unterscheidet zwei grundlegende Relationen: eine Relation der Konstituenz, die auf einer Teil-Ganzes-Beziehung beruht, und eine Relation der Dependenz, die Abhängigkeits- oder Kontrollbeziehungen zwischen Einheiten im Satz als Grundlage hat. Strukturen, die diese Relationen darstellen, bezeichnet man entsprechend als Konstituentenstrukturen (KS) und Dependenzstrukturen (DS). Da diese Strukturen in der Regel baumartig sind, werden sie auch Konstituentenbäume (oder Phrasenstrukturbäume) und Dependenzbäume genannt. Dementsprechend werden Grammatiken, die auf diesen Strukturen basieren, als Phrasenstruktur- bzw. Dependenzgrammatiken bezeichnet. In der Literatur gab es viele Diskussionen über Unterschiede und Gemeinsamkeiten der beiden Strukturen (Baumgärtner, 1970; Engel, 1993; Covington, 1994; Jung, 1995; Kaplan und Bresnan, 1995). Es wurde darauf hingewiesen, dass die Strukturen sich ineinander konvertieren lassen. Eine Reihe von Ansätzen von automatischer Konvertierung entstand im Rahmen von Entwicklungen der Baumbanken.1 Die Baumbanken werden hinsichtlich ihres Annotationsschemas in zwei Arten unterteilt: Baumbanken mit Konstituentenbäu- men wie zum Beispiel die Penn Treebank fürs Englische (Marcus et al., 1993, 1994), sowie Baumbanken mit Dependenzstrukturen wie The Prague Dependency Treebank (Hajic, 1998). Nach Xia et al. (2009) sollen Baumbanken der nächsten Generation ”multi-representational” sein. Das heißt, die Baumbanken sollen sowohl über Konstituenten- als auch über Depen- denzrepräsentationen verfügen. Das parallele Verwenden von beiden Strukturen wurde beispielsweise in Statistical Machine Translation (Hearne et al., 2008) eingesetzt, wobei Alignment von Konstituenz- und Dependenzstrukturen kombiniert wurde. 1 Unter einer Baumbank wird eine Sammlung von Einheiten - meist Sätzen - verstanden, deren syntakti- sche Satzstruktur annotiert ist. Der Begriff Baumbank verweist zudem darauf, dass die Satzstruktur meist in Form einer Baumstruktur kodiert wird. 4
  11. 11. 1 Einleitung Die Erstellung einer Baumbank, besonders einer Baumbank mit parallelen Strukturen, ist aber eine aufwändige Aufgabe. In der Praxis ist es leichter, ein automatisches Konvertie- rungsverfahren zu realisieren. Bis jetzt wurde schon eine Menge von Ansätzen entwickelt, die die Konvertierung von KSen in DSen mit einer hohen Akkuratheit durchführen (Collins, 1997; Zabokrtsky und Kucerova, 2002; Gelbukh et al., 2005; Johansson und Nugues, 2007). Es gibt aber nur einige Ansätze, die der umgekehrten Konvertierung - DS in KS - gewidmet sind (Xia und Palmer, 2001; Xia et al., 2009).2 Sie basieren auf der Entwicklung von Konvertierungsregeln zwischen den Struktursegmenten. Die DS-Segmente werden in KS-Segmente konvertiert und aus den KS-Segmenten wird eine gesamte KS generiert. Da im Laufe der Konvertierung der DS-Segmente in KS-Segemente oft mehrere Konvertie- rungsregeln angewendet werden können, entsteht somit das Problem der Regelambiguität. Die Auswahl der passenden Regel sowie auch die Generierung der gesamten KS aus KS- Segmenten werden durch die manuell entwickelten Heuristiken gesteuert. Die Entwicklung von heuristischen Regeln setzt eine tiefe gründliche Analyse von Konstituentenstrukturen des gegebenen Annotationsschemas voraus. Wegen der Abhängigkeit vom Annotationsschema läßt sich das Konvertierungsverfahren direkt auf die anderen Annotationsschemata nicht übertragen. Diese Beschränkung kann mit Hilfe von statistischen Methoden überwunden werden. Auf welche Art und Weise? 1. Die notwendigen Konvertierungsregeln können anhand einer Datenmenge bzw. eines Korpus gelernt werden. 2. Die Ambiguität der Regeln kann durch das Anwenden von probabilistischen Model- len gelöst werden. 3. Es kann ein allgemeiner übergenerierender, annotationsschema-neutraler Generie- rungsalgorithmus entwickelt werden, der aus KS-Segmenten eine Menge von KSen baut. Die Auswahl der optimalen KS wird einem probabilistisch-basierten Ranker überlassen. 2 Es gibt eine Reihe von baumbasierten Sprachgenerierungsansätzen, die als Eingabe Dependenzsturk- turen annehmen und Strings/Sätze generieren (u.a. Bangalore und Rambow, 2000; Cahill und van Genabith, 2006). Die Konstituentenstrukturen werden als Nebenprodukt ermittelt. Das Ziel von diesen Ansätzen ist, korrekte Sätze, nicht aber korrekte Konstituentenbäume zu produzieren. Im Gegensatz zu Sätzen, die als eindimensionale Strukturen vorgestellt werden können, sind Konstituentenbäume zweidimensional. Die Generierung von korrekten Konstituentenbäumen erfordert die Spezifizierung nicht nur einer richtigen linearen Ordnung, sondern auch einer hierarchischen. Außerdem können Konstituentenbäume spezifische Elemente und Informationen enthalten (z.B. Nullelemente), die für die Baumrepräsentation relevant sind und sollen somit bei der Generierung ermittelt werden. 5
  12. 12. 1 Einleitung Das Ziel dieser Arbeit ist, ein Generierungsverfahren KS-aus-DS zu entwickeln, das auf statistischen Methoden basiert. Die obengenannten Punkte werden Teilaufgaben der Arbeit sein. Die Anwendung von statistischen Methoden setzt aber eine Datenmenge bzw. einen Korpus voraus. Anhand des Korpus müssen die Konvertierungsregeln gelernt (Punkt 1), sowie die probabilistischen Modelle für Regeldisambiguierung (Punkt 2) und Auswahl der besten KS (Punkt 3) trainiert werden. Außerdem werden anhand des Korpus die Ergebnis- se evaluiert. Da es sich um die Konvertierung von zwei verschiedenen Strukturen handelt, braucht man einen Korpus, der beide Strukturen sowie auch die Korrespondenzbeziehun- gen zwischen den Strukturen enthält. Der Korpus, der diese Anforderungen erfüllt, ist ein LFG-Korpus (Cahill et al., 2002), der aus Penn-Treebank-Bäumen und LFG-F-Strukturen besteht. Penn-Treebank-Bäume gelten als KSen und LFG-F-Strukturen gelten als DSen. Dieser Korpus wurde als Training- und Evaluierungskorpus für diese Arbeit verwendet. Die Arbeit ist in diese weiteren Kapitel gegliedert: Der theoretische Hintergrund wird in Kapitel 2 ausgeführt. Es werden Grundlagen von Konstituenz und Dependenz erläutert (2.1). Die Darstellung der beiden Relationen im Rahmen der LFG-Theorie wird in 2.2 diskutiert. In Kapitel 3 werden die bisherigen Ansätze für Konvertierung DS-in-KS referiert (3.1) und es wird auf die Beschränkungen der angewendeten Algorithmen hingewiesen (3.2). Das 4. Kapitel macht eine Einführung in die statistische Sprachverarbeitung (4.1), und es wird ein allgemeines statistisches Modell definiert, das als Ausgangspunkt für die Entwicklung von Generierungsverfahren KS-aus-DS dienen wird (4.2). In Kapitel 5 wird der LFG-Korpus vorgestellt. Es werden seine Details und Besonderheiten beschrieben. Das 6. Kapitel stellt den Kern dieser Arbeit dar. Es wird das gesamte Verfahren im Detail erläutert. Eine detailierte Beschreibung von Experimenten und ihren Ergebnissen ist der Gegenstand des 7. Kapitels. Zuerst wird auf die Problematik der Evaluierung von KSen eingegangen (7.1.1). Es werden Evaluierungsmetriken vorgestellt (7.1.2 und 7.1.3), mit deren Hilfe die Ergebnisse ausgewertet werden. Eine genaue Spezifikation der statistischen Modelle sowie ihre Evaluierungsergebnisse werden in 7.3 präsentiert. Das Kapitel 8 fasst die gewonnenen Erkenntnisse zusammen und gibt einen Ausblick für weiterführende Arbeiten zur Generierung von KS aus DS. 6
  13. 13. 2 Theoretischer Hintergrund 2.1 Konstituenz und Dependenz In diesem Abschnitt werden die zwei syntaktischen Relationen repräsentiert, die es zwischen grammatischen Einheiten überhaupt gibt: Konstituenz und Dependenz. Die Hauptannahme der Konstituenz besteht darin, dass die Struktur von Sätzen nicht bloß linear, sondern auch hierarchisch ist. Ein Satz gliedert sich auf in verschiedene Teile, die sich wiederum in verschiedene Teile aufgliedern, usw. Diese Teile heissen Konstituenten oder Phrasen. Die hierarchische Organisation von Konstituenten - Sequenzen von Wörtern - ist die erste grundlegende Eigenschaft von KSen. Die zweite grundlegende Eigenschaft der Konstituenz ist Linearisierung (von Wörtern und Konstituenten). Die hierarchische Organisation von Konstituenten lässt sich als Baum darstellen. Ein Strukturbaum besteht zunächst einmal aus einer Menge von Knoten und Kanten. Die Abbildung 2.1a zeigt einen Konstituentenbaum aus der Penn Treebank für den Satz The equity market was illiquid. Die Wörter sind Terminalknoten. Die inneren Knoten sind mit syntaktischen Kategorien (z.B. S steht für den Satz, NP für Nominalphrase) etikettiert. Die Repräsentation von Konstituenten durch Bäume lässt deutlich erkennen, dass die Relation der Konstituenten genaugenommen eine komplexe Relation ist, die sich aus zwei elementaren Relationen zusammensetzt: 1. der Dominanzrelation - in jedem lokalen Baum (der Höhe 1) dominiert die Mutter ihre Töchter direkt oder unmittelbar (und die von ihren Töchtern dominierten Knoten mittelbar) 2. der Präzedenzrelation - jede Konstituente legt fest, in welcher Reihenfolge die sie konstituierenden Konstituenten stehen. Durch Angabe aller direkten Dominanz- und Präzedenzbeziehungen lassen sich Konstitu- entenbäume vollständig spezifizieren. 7
  14. 14. 2 Theoretischer Hintergrund Abb. 2.1: Konstituentenstruktur und Dependenzstruktur Eine weitere Notationsform für die Darstellung der Konstituenz sind verschachtelte Klammern. Die Konstituentenstruktur in der Abbildung 2.1a kann durch einen Klam- merausdruck folgendermaßen repräsentiert werden: (S (NP-SBJ (DT the) (NN equity) (NN market)) (VP (VBD was) (ADJP-PRD (JJ illiquid)))) Dabei repräsentiert jedes Paar einer sich öffnender und einer sich schließender Klammer einen Knoten. Die Einbettung der Klammer spiegelt die Einbettung von Konstituenten wieder. Die syntaktischen Kategorien werden an der linken Klammer eines jeden Paares angezeigt. Diese Notationsweise wird in dieser Arbeit im folgenden auch verwendet. Als zweite syntaktische Grundrelation wird Dependenz angeführt. Dependenz ist eine zweistellige Relation zwischen zwei sprachlichen Elementen, genauer gesagt, zwei Wörtern, wobei eines das regierende und das andere das regierte Element ist. Das regierende Wort wird auch oft Kopf oder Regens genannt, das regierte Wort - Dependens (vgl. Jung, 1995:20). DS eines Satzes ist durch die Menge der zwischen seinen Wörtern bestehenden Dependenzrelationen bestimmt und kann durch einen Dependenzbaum repräsentiert werden, in dem alle Knoten mit Wörtern etikettiert sind. Die Dependenzrelationen werden durch Knoten und Kanten repräsentiert. Die regierenden Knoten stehen oberhalb der regierten Knoten. In der Abbildung 2.1b wird eine DS für den Satz The equity market was illiquid dargestellt. Die DS besteht aus vier Dependenzrelationen. Dependenz repräsentiert die innere funktionale Struktur des Satzes. Die Dependenzrela- tionen werden nach ihrer syntaktischen Funktion unterteilt: Subjekt, Objekt, Adjunkt usw. In der Abbildung 2.1b sind Kanten mit grammatischen Funktionen gelabelt. Die beiden Konzepte – Konstituenz und Dependenz – werden in der Literatur oft als 8
  15. 15. 2 Theoretischer Hintergrund komplementär betrachtet: ”Mit Hilfe von Dependenzgrammatik kann zwar die innere Organisation eines Satzes explizit dargestellt werden, aber eine adäquate Erklärung der linearen Abfolge ist nicht möglich. Die Phrasenstruktur ihrerseits liefert zwar die lineare Abfolge, kann aber die anderen syntaktischen Relationen nicht hinreichend explizieren.” (Jung, 1995: 26) ”Das Prinzip der Dependenz liegt vielmehr der Theorie der ‘Funktionalität’, in älterer Redeweise: der ‘Beziehungsbedeutungen’ des Satzes zugrunde, womit nun klar wird, dass dies Prinzip nicht bloss von Position und Morpho- logie absehen kann, sondern nicht einmal die lexematischen Verhältnisse des Satzes im ganzen zu umfassen braucht. Eine Dependenzgrammatik kann diese verschiedenen grammatischen Eigenschaften überhaupt nicht adäquat erklären. Umgekehrt vermag das Prinzip der Konstituenz solche funktionalen Beziehungen nicht zu erklären, weder in einzelnen Zügen noch gar in ihrer Gesamtheit. Dies ist auch unabhängig davon, wie abstrakt eine Konstituentenstruktur angelegt ist. Damit lässt sich [...] deutlich machen, dass sich die beiden Prinzipien komplementär verhalten.” (Baumgärtner, 1970:66). Die Idee, dass die beiden Strukturen komplementär sind und dass zwischen beiden Strukturen Korrespondenzbeziehungen bestehen, wurde in der Lexikalisch-Funktionalen Grammatik durch Repräsentation von zwei parallelen grammatischen Ebenen realisiert. 2.2 Lexikalisch-Funktionale Grammatik (LFG) Lexikalisch-Funktionale Grammatik (Kaplan und Bresnan (1982, 1995)) ist eine Gram- matiktheorie, in der beide grundlegenden Strukturaspekte, nämlich Konstituenz und Dependenz (bzw. Funktion), durch zwei parallele Repräsentationen dargestellt werden: C-Strukturen und F-Strukturen. C-Strukturen (constituent structure) sind Konstituentenbäume, die hierarchische Organi- sation von Konstituenten, Abfolgebeziehungen und kategoriale Bestimmungen repräsen- tieren. F-Strukturen (functional structure) sind funktionale Strukturen, die durch funktionale Beziehungen gekennzeichnet sind. Funktionale Beziehungen werden durch grammatische 9
  16. 16. 2 Theoretischer Hintergrund bzw. funktionale Rollen (Subjekt, Objekt, Adjunkt etc.) benannt. In der Abbildung (2.2) werden die C- und F-Strukturen für den Satz The equity market was illiquid repräsentiert. Abb. 2.2: C- und F-Strukturen für den Satz The equity market was illiquid Formal werden F-Strukturen als Attribut-Wert-Matrix dargestellt und enthalten Infor- mation bspw. über Prädikat-Argument-Struktur und morphosyntaktische Kategorien (Tempus, Agreement etc.). Zum Beispiel die F-Struktur f1 (Abbildung 2.2b) besteht aus den Attribut-Wert-Paaren: [PRED ’be’], [TENSE past], [SUBJ f2] und [XCOMP f3]. Wenn man auf die morphosyntaktische Information verzichtet, können F-Strukturen auf Dependenzstrukturen abgebildet werden. Dabei werden die F-Strukturen zu Knoten und funktionale Beziehungen zu Kanten. In der Abbildung 2.3 werden die F-Struktur und die aus der F-Struktur ”rekonstruierte” Dependenzstruktur dargestellt. Es ist auch zu betonen, dass im Prinzip jeder Kopf ein oder mehrere Wörter regieren kann. Jedes Dependens kann hingegen nur einen Kopf haben (vgl. Jung, 1995:21). In LFG werden aber Multi-Dominanzrelationen akzeptiert, um bestimmte Konstruktionen zu behandeln, wie bspw. Konstruktionen mit Raising-Verben (seem, happen etc). Im Fall der Multi-Dominanz werden Dependenzen durch Doppeleintrag (reentrances) repräsentiert (vgl. Kaplan und Bresnan, 1995:73-74). In der Abbildung 2.4a wird F-Struktur für den Satz The demon seems to have gone repräsentiert. Die F-Struktur für the demon erscheint drei mal in der Struktur (als Subjekt ). Die Multi-Dominanz kann im Dependenzbaum durch Einführen des Nullelements repräsentiert werden (Abbildung 2.4b), wobei das Nullelement mit dem entsprechenden Wort koindiziert wird (vgl. Xia et al., 2009:163). C- und F-Strukturen stehen in einer Korrespondenzbeziehung zueinander. Die Korrespon- denzbeziehung wird durch eine Funktion φ etabliert, die jeden C-Struktur-Knoten auf eine (Teil-)F-Struktur abbildet. φ angewendet auf jeden Knoten der C-Struktur ergibt die 10
  17. 17. 2 Theoretischer Hintergrund Abb. 2.3: F-Struktur vs. Dependenzstruktur Zuordnung von C-Struktur zu F-Struktur. Die Korrespondenzbezieungen (die Funktion φ) zwischen diesen beiden Strukturen sind in der Abbildung 2.5 durch punktierte Linien dargestellt. Wie man sieht, ist diese Funktion nicht unbedingt eins-zu-eins. Sie ordnet auch mehrere Knoten derselben F-Struktur zu (vgl. Kaplan, 1995:16-17). Die explizite Instruktion, aus der sich diese Zuordnung ergibt, stellt die funktionale Annotation (functional annotation) dar. Das sind Gleichungen, mit denen die C-Struktur-Knoten annotiert sind (Abbildung 2.5). Zum Beispiel, die Annotation (↑ SUBJ= ↓) bedeutet, dass die zum Knoten NP-SBJ zugehörige F-Struktur in der F-Struktur seiner Mutter dem Attribut SUBJ als Wert zugeordnet wird. (↑ = ↓) bedeutet dagegen, dass die F-Struktur der Tochter und die der Mutter dieselbe sind, d.h. dass die F-Struktur des ganzen Satzes die F-Struktur der Verbalphrase und des Verbes ist. Anhand der funktionalen Annotation werden F-Strukturen aufgebaut. Bei der Konstruk- tion der F-Struktur wird jedem Knoten in der C-Struktur eine eigene F-Struktur durch die Funktion φ zugewiesen. Die einzelnen, den jeweiligen C-Struktur-Knoten entsprechen- den F-Strukturen bilden ohne inneren Zusammenhang vollkommen separate Objekte. Die Integration der einzelnen F-Strukturen geschieht entweder durch Unifikation oder Einbettung: 1. Unifikation: Falls ein Knoten im Baum die Gleichung (↑ = ↓) hat, wird seine korre- spondierende F-Struktur mit der F-Struktur des dominierenden Knoten unifiziert. Der Effekt der Unifikation besteht darin, dass zwei verschiedene C-Struktur-Knoten 11
  18. 18. 2 Theoretischer Hintergrund Abb. 2.4: Lange Dependenz in F-Struktur und in Dependenzbaum auf eine F-Struktur abgebildet werden. In diesem Sinne ist die Abbildung von C-Struktur auf F-Struktur viele-zu-eins. 2. Einbettung: Eine Anweisung für die Einbettung ist eine Gleichung der Art (↑ <Attribute> = ↓). Dabei wird die Dominanzrelation ausgenutzt, indem die F- Struktur des dominierten Knotens, die durch ↓ bezeichnet wird, in einem Attribut- Wert-Paar, welches selbst eine F-Struktur bildet, als Wert eingeführt wird. Somit wird eine F-Struktur in die andere eingebettet. Funktionale Beschreibungen der Terminalsymbole ergänzen bestehende F-Strukturen durch die Attribut-Wert-Paare, die lexikalische (PRED) und morphosyntaktische Infor- mation (TENSE, NUM, PERS, u.a.) ausdrücken. Die Konstruktion von F-Struktur anhand der C-Struktur wird durch funktionale Annota- tion ermöglicht. Auch die Algorithmen, die DSen in KSen konvertieren (bspw. Magerman (1995); Collins (1997); Xia und Palmer (2001)), setzen eine bestimmte Annotation von Konstituenten voraus. Da es sich in dieser Arbeit um Generierung von KSen aus DSen handelt, ergibt sich die Frage, welche Hilfsinformation DSen aufweisen sollen, um ihre Konvertierung in KSen zu ermöglichen. Im nächsten Kapitel werden Ansätze vorgestellt, die DSen in KSen konvertieren. Dabei setzen sie die Linearisierung und POS-Annotation der Wörter in DSen voraus. 12
  19. 19. 2 Theoretischer Hintergrund Abb. 2.5: Abbildung von C-Struktur-Knoten auf F-Strukturen 13
  20. 20. 3 Bisherige Ansätze 3.1 Xia und Palmer (2001) Xia und Palmer (2001) entwickelten einen Algorithmus, der DSen in KSen konvertiert. Input-DSen weisen Linearisierung und POS-Tags auf (Abbildung 3.1b).1 Die Evaluierung ihres Konvertierungsalgorithmus haben sie anhand der vorhandenen Baumbank (nämlich Penn Treebank) durchgeführt. Nach Xia und Palmer (2001) soll jeder Transformationsalgorithmus DS-in-KS neben dem Wiederherstellen von syntaktischen Kategorien (z.B. NP, VP, S) noch die drei folgenden Fragen beantworten können:2 • Projektion für jede syntaktische Kategorie: welche Projektion kann jede syntaktische Kategorie haben? • Projektionsebene für Dependentien: Wenn eine Kategorie Y von einer Kategorie X in der DS abhängig ist, in wie weit soll Y projeziert werden, bevor Y an die Projektion von X angehängt werden wird? • Verknüpfungsstelle: Wenn eine Kategorie Y von einer Kategorie X in der DS abhängig ist, an welche Stelle in der Projektion von X soll die Projektion von Y angeknüpft werden? Xia und Palmer (2001) haben ihr Algorithmus mit zwei anderen Algorithmen vergleichen, die im folgenden auch vorgestellt werden. Algorithmus 1 Dieser Algorithmus basiert auf der X-Bar-Theorie. Xia und Palmer haben ihn von Covington (Covington, 1994) übernommen. In der X-Bar-Theorie projeziert eine Kategorie X zu X’, die dann zu XP projeziert wird. Es gibt drei Arten von Regeln (Abbildung 3.2a). 1 Die Dependenzstruktur in der Abbbildung (3.1b) implziert die lineare Ordnung der Wörter. Die schräge Kante the-board weist bspw. darauf hin, dass the vor board im Satz steht. Das ist aber eine optionale Eigenschaft der Dependenzrepräsentation und muss nicht immer in DS vorhanden sein. 2 aus (Xia und Palmer, 2001) ins Deutsche übertragen 14
  21. 21. 3 Bisherige Ansätze Abb. 3.1: Penn-Treebank-Baum und Dependenzbaum Der Algorithmus verwendet folgende heuristische Regeln:3 • Jede Kategorie X hat zwei Ebenenen der Projektion: X’ und XP. • Jedes Dependens X projeziert zu X’, dann zu XP, und XP wird an die Projektion des Kopfes angehängt. • Dependentien werden in drei Typen unterteilt: Spezifikator, Modifikator und Argument. Jeder Typ wird an eine bestimmte Stelle angehängt, wie es in der Abbildung (3.2c) gezeigt ist. Der Algorithmus transformiert die DS in der Abbildung 3.1b in die KS in (3.3). Algorithmus 2 Dieser Algorithmus wurde in (Collins et al., 1999) erläutert. Er wurde im Rahmen der Transformation von Czech Dependenz Baumbank zu einer KS-Baumbank entwickelt. Es liegen drei heuristische Regeln zugrunde:4 • Jede Kategorie X hat nur eine Ebene der Projektion: XP • Jedes Dependens Y projeziert zu einer YP nur dann, wenn er eigene Dependentien hat. • In der KS ist jedes Dependens Y die Schwester von seinem Kopf X. Falls Y eigene Dependentien hat, wird er zu YP projeziert und die YP wird zu Schwester von X. 3 aus (Xia und Palmer, 2001) ins Deutsche übertragen 4 aus (Xia und Palmer, 2001) ins Deutsche übertragen 15
  22. 22. 3 Bisherige Ansätze Abb. 3.2: Regeln der X-Bar-Theorie (a) und Algorithmus 1: DS (b) und KS (c) (aus Xia et al., 2009) Der Algorithmus konvertiert die DS in der Abbildung 3.4a in die KS in (3.4b). Y projeziert nicht zu YP, weil er keine Dependentien hat. Im Gegensatz zu Y haben Z und W Dependentien. Sie projezieren deswegen zu ZP und WP und werden in KS zu Schwester vom Kopf X. Die DS in der Abbildung 2.1b wird dem Algorithmus folgend in die KS in (3.5) transfor- miert. Algorithmus 3 Die beiden Algorithmen - 1 und 2 - verwenden keine sprachspezifische Information. Das Ziel von Xia und Palmer (2001) war jedoch, einen Transformationsvorgang zu entwickeln, der KSen produziert, die möglichst ähnlich einer bereits vorhandenen Baumbank sind. Der Algorithmus sollte somit die Baumbank-spezifischen Informationen in Betracht ziehen. Die sprachspezifischen Information werden in Form von drei Tabellen zusammengefasst: Projektionstabelle, Argumenten- und Modifikatortabellen. Die Projektionstabelle spezifi- ziert die Projektionen für jede Kategorie. Argumenten- und Modifikatortabellen fassen Argumente bzw. Modifikatoren, die an den Kopf angeknüpft werden können, sowie ihre Position bezüglich des Kopfes zusammen. Es werden drei heuristische Regeln definiert:5 • Jede Kategorie hat nur eine einzige Projektion bzw. Projektionskette, wie es in der Projektionstabelle festgelegt ist. • Die Kategorie projeziert zu einer höheren Ebene nur, falls es nötig ist. 5 aus (Xia und Palmer, 2001) ins Deutsche übertragen 16
  23. 23. 3 Bisherige Ansätze Abb. 3.3: Die von Algorithmus 1 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia et al., 2009) • Die Projektion des Dependens wird an die möglichst tiefste Stelle der Projektion seines Kopfes angeknüpft. Die minimale Projektion für Dependentien (Regel 2) und die tiefste Verknüpfungsstelle in der Projektion des Kopfes (Regel 3) bestimmt der Algorithmus anhand von Argumenten- und Modifikatortabellen. Der Aufbau von einer ganzen KS aus KS-Segmenten wird in der Abbildung 3.6 gezeigt. (a)-(d) sind die Dependenten vom Kopf join; (e) ist die Projektion des Kopfes. Die Pfeile weisen auf die Verknüpfungsstellen hin. Damit (a) an (f) angehängt wird, soll NNP Vinken zur NP projeziert werden (anhand der Argumententabelle); VP kann NP als Argument nehmen, nicht aber eine NNP. 17
  24. 24. 3 Bisherige Ansätze Abb. 3.4: Das Schema für Algorithmus 2: DS (a) und KS (b) (aus Xia et al., 2009) Ergebnisse Die Ergebnisse der Evaluierung von drei Algorithmen kann man der Tabelle 3.1 entneh- men. Recall Presicion F-Measure No-cross Ave cross Test/Gold Alg1 81.34 32.81 46.76 50.81 0.90 2.48 Alg2 54.24 91.50 68.11 94.90 0.10 0.59 Alg3 86.24 88.72 87.46 84.33 0.27 0.98 Tab. 3.1: Ergebnisse der Evaluierung von drei Algorithmen auf Sektion 0 der Penn Treebank (unlabeled) No crossing stellt den Anteil von Sätzen dar, die keine überkreuzte Brackets haben. Average crossing ist Durchschnittszahl von überkreuzten Brackets pro Satz. Die letzte Spalte bezeichnet das Verhältnis zwischen der Anzahl von Brackets, die vom Algorithmus erzeugt werden, und deren Anzahl im Goldstandard. Der Algorithmus 1 erzeugt viel mehr Brackets als im Goldstandard, der Algorithmus 2 erzeugt weniger, und Algorithmus 3 fast die gleiche Anzahl von Brackets. Die Unterschiede zwischen erzeugten Bäumen und Goldstandard wurden anhand der ersten 20 Sätze analysiert. Es wurden 31 Fehler erfasst, die aus folgenden Gründen verursacht wurden: • 3 Fehler durch Fehler in den Projektion-, Argumenten- und Modifikatortabellen • 14 Fehler (fast die Hälfte) durch Unterschiede zwischen den heuristischen Regeln des Algorithmus und dem Annotationschema der Penn Treebank 18
  25. 25. 3 Bisherige Ansätze Abb. 3.5: Die von Algorithmus 2 erzeugte KS für DS in der Abbildung 2.1b (vgl. Xia et al., 2009) • 7 Fehler durch Inkonsistenz (inconsistency) im Annotationsschema der Penn Tree- bank • 7 Fehler durch Fehler in den Input-DSen 3.2 Xia et al. (2009) Xia et al. (2009) stellen einen Algorithmus für Konvertierung von DS in KS vor. Der Algorithmus zerlegt die Input-DS in DS-Segmente, ersetzt jedes DS-Segement bzw. DS- Pattern mit einem KS-Segement und fasst die KS-Segmente zusammen. DS-Segemente sind Dependenzrelationen mit assoziierter Information: Typ der Dependenzrelation, POS- Tags des Kopfes und des Dependens, die Position des Dependens bezüglich des Kopfes (links oder rechts), die Information, ob das Dependens ein Blattknoten ist, und die Information, ob andere Dependentien vorhanden sind. Im Gegensatz zum Ansanz von Xia und Palmer (2001), in dem die Dependenzrelationen in drei Typen - Spezifikatoren, Modifikatoren und Argumente - unterteilt werden, berücksichtigen Xia et al. (2009) alle Typen der Dependenzrelationen: Subjekt, Objekt, etc. KS-Segmente bzw. KS-Pattern sind KS-Bäume der Höhe 1 mit einem Kopf und zwei Tochterknoten. Die Korrespondez- beziehungen zwischen den Segementen bzw. Pattern werden als Konvertierungsregeln (conversion rules) definiert. Diese Regeln werden anhand des Trainingskorpus gelernt. In der Abbildung 3.7 werden die Konvertierungsregeln dargestellt, die für die Erzeugung 19
  26. 26. 3 Bisherige Ansätze Abb. 3.6: Die von Algorithmus 3 erzeugte KS für DS in der Abbildung 3.1b (vgl. Xia et al., 2009) des Baums in der Abbildung 2.1b verwendet werden. Der Algorithmus (Xia et al., 2009:165), der einen gesamten Baum erzeugt, ist wie folgt: (1) wenn X, die Wurzel von DS, keine Dependentien hat (2) die Output-KS enthält nur X; Ende (3) für jedes Kind Y von X (4) erzeuge (partielle) KS-Bäume TY für jeden untergeordneten DS-Baum, für den Y die Wurzel ist (5) initialisiere eine Projektionskette, PROJ_CHAIN, für X (6) für jedes linke Kind Y von X in der DS, verarbeite von rechts nach links (7) (a) wähle eine Konvertierungsregel r für Relation (X,Y) anhand der PROJ_CHAIN (8) (b) wende die Regel r an durch Updating von PROJ_CHAIN und Anhängen von TY an PROJ_CHAIN (9) Dasselbe wie in (6)-(8), aber für jedes rechte Kind Y von X, verarbeite von rechts nach links (10) verschmelze die Dominanzverbindungen in PROJ_CHAIN 20
  27. 27. 3 Bisherige Ansätze Abb. 3.7: Konvertierungsregeln (aus Xia et al., 2009) Es sei die DS in der Abbildung 3.1a und die Konvertierungsregeln in (3.7) gegeben. Zeilen (3)-(4) erzeugen die KS-Bäume für Dependenten von join (Abbildung 3.8( b1)-(b4)). Die Zeile (5) erzeugt eine Anfangsprojektionskette (initial projection chain) wie in Abbildung 3.9a. Jede Iteration der Zeilen (6)-(8) (und (9) für rechte Töchter) hängt einen Teilbaum an den Initial-Baum an. Die Schritte werden in der Abbildung 3.9 dargestellt. Die Kreise markieren die tiefste Position an der Projektionskette, wo die nächste Verknüpfung vorkommen darf. Zum Beispiel, nach der Verknüpfung von will an join (3.9b) ist das nächststehende Wort Vinken. Der umkreiste VP-Knoten in (3.9b) weist darauf hin, dass das Wort Vinken bzw. seine Projektionskette an diesen VP-Knoten angehägt werden darf. Es gibt auch Fälle, wenn ein DS-Segment in der DS mehrere Konvertierungsregeln matcht: Regeln, die dasselbe DS-Pattern aufweist, werden als ambig bezeichnet (vgl. Xia et al., 2009:166). Für Disambiguierung wurden zwei einfache Strategien (Xia et al., 2009:167) realisiert: • (S1) Es wird die meist vorkommende Regel ausgewählt, wobei die Häufigkeiten anhand der Trainingsdaten ermittelt wurden. • (S2) Es wird die Regel anhand der aktuellen Projektionskette ausgewählt. Der Algorithmus zieht die Regeln vor, die eine kleinere Anzahl an Knoten einfügen, und bindet den untergeordneten Baum an die tiefste Position der Projektionskette an. Die Ergebnisse können der Tabelle 3.2 entnommen werden. 21
  28. 28. 3 Bisherige Ansätze Abb. 3.8: Input-DS und Teilbäume, die von Zeilen (3)-(4) des Algorithmus erzeugt wurden (aus Xia et al., 2009) Recall Precision F-Measure Sektion 22, labled S1 90.7 88.1 89.4 S2 92.8 80.8 86.4 Sektion 0, unlabled S2 91.76 89.19 90.46 Tab. 3.2: Ergebnisse der Evaluierung von Algorithmus von Xia et al. (2009) (labeled und unlabeled) Es gibt zwei Hauptursachen der Fehler: das Fehlen von nötigen Konvertierungsregeln und falsche Auswahl von Konvertierungsregeln, falls ein DS-Pattern mehrere Regeln matcht. Die Disambiguierung erfolgt im zweiten Schritt. Bei der Strategie S2, die bessere Ergebnisse liefert als S1, ist die Fehlerrate der Regelauswahl 7.98%, d.h. für jede 100 DS-Segemente wird etwa 8 mal das falsche KS-Segement ausgewählt. 3.3 Resume Algorithmen, die DSen in KSen konvertieren, bestehen aus zwei Schritten: • den DS-Segmenten werden die KS-Segmente zugewiesen • aus den KS-Segmenten wird eine gesamte KS erzeugt 22
  29. 29. 3 Bisherige Ansätze Abb. 3.9: Schrittweise Verknüpfen von Dependenten von join (aus Xia et al., 2009) Bei Xia und Palmer (2001) ist der erste Schritt deterministisch mittels der Projektionsta- belle realisiert. Jeder POS-Tag hat nur eine Projektion. Diese ”one-projection-chain-per- category”(Xia und Palmer, 2001) Annahme ist zu streng (vgl. Xia et al., 2009:163) und verursachte den größten Fehleranteil. Diese Beschränkung wurde von Xia et al. (2009) in gewisser Maße bewältigt: die Konvertierungsregeln wurden anhand des Korpus gelernt (3513 Regeln wurden induziert), wodurch das System auch robuster wurde. Außerdem wurde eine Menge von Informationen (POS, Typ der Dependenzrelation, u.a.) verwendet, um die Konvertierungsregeln möglichst spezifisch zu machen. Die Erzeugung des gesamten Konstituentenbaums ist in beiden Algorithmen determinis- tisch. Die Verschmelzung von KS-Segmenten wird durch heuristische Regeln gesteuert. Diese Regeln sind spezifisch bezüglich des Annotationsschemas. Ihre Entwicklung setzt eine tiefe gründliche Analyse von Konstituentenstrukturen des gegebenen Annotations- schemas voraus. In (Xia und Palmer, 2001) verursacht der Unterschied zwischen den heuristischen Regeln im Baumerzeugungsalgorithmus und dem Annotationsschema von Penn Treebank fast die Hälfte der Fehler. Xia et al. (2009) weisen darauf hin, dass ihr KS-Generierungsmechanismus beinahe perfekt ist. Es wird aber vorausgesetzt, dass Kon- vertierungsregeln richtig ausgewählt werden müssen. Das setzt aber ein fortgeschrittenes Verfahren (im Vergleich zu S1 und S2 Disambiguierungsstrategien) voraus. 23
  30. 30. 4 Statistischer Ansatz 4.1 Statistische Verfahren in der Sprachverarbeitung Die Konvertierung von DSen in KSen kann als ein Prozess angesehen werden, bei dem in jedem Schritt eine Entscheidung getroffen wird: (1) welches Konstituentenstruktur- Segment dem gegebenen Dependenzstruktur-Segment zugeordnet wird, (2) wie die Konstituentenstruktur-Segmente verknüpft werden. In den bisherigen Ansätzen (Xia und Palmer, 2001; Xia et al., 2009) wird das Ent- scheidungsverfahren durch heuristische Generierungsregeln realisiert. Die Regeln werden auf der Basis einer Datenmengenanalyse bzw. einer Korpusanalyse sowie mithilfe von Expertenkenntnissen ermittelt. Die Anwendung von Regeln wird durch die jeweiligen Bedingungen beschränkt und als prozedurales Programm realisiert. Sprachverarbeitungssysteme, die auf Regeln basieren, werden regelbasierte Systeme ge- nannt. Sie werden auch als Systeme bezeichnet, die regelbasierte Methoden verwenden. Eine Alternative zu den regelbasierten Systemen in der Sprachverarbeitung sind statis- tische Systeme. Dabei wird oft die Einbettung von probabilistischen Modellen in die Verarbeitung gemeint (vgl. Nivre, 2002). Solche Systeme werden durch eine Zwei-Ebenen- Architektur gekennzeichnet. Diese Zwei-Ebenen-Architektur ist charakterisiert durch die Unterscheidung zwischen Generierung und Selektion. Dabei generiert das regelbasierte Verfahren den Raum von möglichen Ausgaben/Hypothesen (space of possible outputs) und das probabilistische Verfahren wählt die wahrscheinlichste Hypothese aus diesem Raum aus (vgl. Humphreys et al., 2001; Belz, 2005). Ein statistisches Verfahren kann man allgemein wie folgt beschreiben: 1. Es wird ein Algorithmus bzw. ein Verfahren entwickelt, das nicht-deterministisch ist und nicht eine einzige Ausgabe, sondern mehrere Ausgaben/Hypothesen liefert. Es werden vereinfachte Generierungsmodelle1 verwendet, die zu einer Übergenerierung 1 Die Generierung ist hier in einem breiten Sinne zu verstehen. Jeder Algorithmus generiert einen Output aus einem Input. 24
  31. 31. 4 Statistischer Ansatz führen – d.h. zu einer großen Anzahl an Alternativen. 2. Jeder Hypothese wird ein Wahrscheinlichkeitswert zugewiesen. Die Wahrscheinlich- keit wird mit Hilfe eines probabilistischen Modells berechnet. Ein probabilistisches Modell berechnet Wahrscheinlichkeiten P(Output|Input), wobei Input eine Eingabe und Output eine Ausgabe ist. 3. Die Vorhersage mit einem probabilistischen Modell verlangt Schätzungen für die Wahrscheinlichkeiten P(Output|Input) basierend auf den Trainingsdaten. Die Schät- zung erfolgt durch eine Schätzungsmethode (z.B. Maximum-Likelihood-Estimierung). 4. Es wird die wahrscheinlichste Hypothese ausgewählt und als Ergebnis zurückgege- ben: Outputbest = argmaxOutputP(Output|Input) (4.1) Die Zwei-Ebenen-Architektur hat folgende Vorteile: • Beide Verfahren - Generierung und Selektion - können unabhängig von einander definiert werden. Somit kann der Generator bzw. der probabilistische Selektor komplett ersetzt oder verändert werden. • Bei der Übergenerierung werden neben den ”wohlgeformten” Ausgaben auch zahl- reiche suboptimale Konstruktionen produziert. Ein solches Verfahren sichert somit eine breite Abdeckung und steigert die Robustheit des Systems. 4.2 Modell für Abbildung von DS in KS In diesem Abschnitt wird die Generierung von KS aus DS aus Sicht der probabilistischen Modellierung veranschaulicht. Im Allgemeinen kann die Generierung folgendermaßen dargestellt werden: Es wird jedem DS-Segment dsi ein KS-Segment csi zugewiesen. Jede Relation in der DS – relds(dsi, dsj), wobei dsi der Kopf ist – wird in Beziehung gesetzt zu einer Dominanzrelation in der KS – relcs(csi, csj), wobei csi csj direkt dominiert (Abbildung 4.1). Da eine DS als Input gilt und eine KS als Output, wird das probabilistische Modell dann wie folgt definiert: P(CS|DS) (4.2) Die Wahrscheinlichkeiten (CS|DS) werden mit Hilfe der Maximum-Likelihood-Estimierung (MLE) auf dem Trainingskorpus geschätzt. Die Wahrscheinlichkeit einer KS, gegebenen 25
  32. 32. 4 Statistischer Ansatz Abb. 4.1: Abbildung von DS in KS eine DS, ist gleich dem Verhältnis von der Anzahl der Vorkommen (Count) von KS, die in Korrespondenzbeziehung mit der gegebenen DS steht, und der Anzahl aller Vorkommen der DS im Trainingskorpus: P(CS|DS) = Count(CS, DS)/Count(DS) (4.3) Es ist leicht vorzustellen, dass die meisten (KS, DS) Paare im Korpus unikal sind. Wird dieses Modell, so wie es ist, verwendet, kann es zur Folge haben, dass die meisten Wahr- scheinlichkeiten gleich 0 sind. Um dieses sogenannte Sparse-Data-Problem zu vermeiden, kann eine Reihe von Unabhängigkeitsannahmen gemacht werden. Nehmen wir an, dass die Wahrscheinlichkeit der gesamten KS sich aus den Wahr- scheinlichkeiten der KS-Segmente und den Verbindungen zwischen ihnen ergibt. Die Wahrscheinlichkeit jedes KS-Segments csi ist bedingt durch das DS-Segment dsi, mit dem csi in einer Abbildungsbeziehung steht: P(csi|dsi) (4.4) Die Wahrscheinlichkeit einer Verbindung ist abhängig von der Verbindung zwischen den 26
  33. 33. 4 Statistischer Ansatz DS-Segmenten, auf die die KS-Segmente abgebildet werden: P(relcs(csi, csj)|relds(dsi, dsj)) (4.5) Die Bedeutung von rel(cs, csj) und rel(dsi, dsj) wird später genauer spezifiziert. Die Wahrscheinlichkeit einer KS, die aus KS-Segmenten und den Verbindungen zwischen ihnen besteht, kann als Produkt der Wahrscheinlichkeiten der KS-Segmente und deren Verbin- dungen angenommen werden. Da DS und KS baumartig sind, kann die Wahrscheinlichkeit einer KS, die aus n KS-Segmenten besteht, wie folgt definiert werden: P(CS|DS) ≈ n i=1 (P(csi|dsi) ∗ k j=1 P(relcs(csi, csj)|relds(dsi, dsj))) (4.6) wobei • k die Anzahl der Kinder-KS-Segmente von csi ist • n die Anzahl der KS-Segmente csi von CS ist, und • csi und dsi bzw. csj und dsj in einer Abbildungsbeziehung zueinander stehen. Obwohl diese Formel eine erste Generalisierung ist, ist sie ein guter Startpunkt für die Entwicklung eines statistischen Generierungsverfahrens von KSen aus DSen. 27
  34. 34. 5 Daten: LFG-Korpus Das Lernen von Konvertierungsregeln und das Training von probabilistischen Modellen setzen einen Korpus voraus, der als Trainingsdaten verwendet werden kann. Im Rahmen dieser Arbeit wurde ein LFG-Korpus verwendet, der automatisch erstellt wurde (Cahill et al., 2002, 2004). Der Korpus besteht aus zwei Teilen: LFG-C-Strukturen, die als Penn-Treebank-Bäume dargestellt sind, und LFG-F-Strukturen, die beim automatisierten Verfahren anhand der Penn Treebank ermittelt wurden. Die C-Strukturen im LFG-Korpus sind Konstituentenbäume aus der Penn Treebank (Marcus et al., 1993, 1994). Die Penn Treebank verfügt über mehrere Annotationsebenen: • POS-Annotation: Alle Präterminalen werden mit POS-Tags gekennzeichnet (siehe das POS-Tagset im Anhang A.1). • Annotation von Konstituenten und ihren syntaktischen Kategorien: Mit Hilfe von Klammern werden die Grenzen der Konstituenten markiert. Jede Konstituente wird mit einer syntaktischen Kategorie versehen (siehe das syntaktische Tagset im Anhang A.2). • Außerdem verfügt die Penn Treebank über Annotationen für syntaktische Funktio- nen (siehe Anhang A.3), Nullelemente, Spuren und Koreferenz.1 In der Abbildung 5.1 ist ein Baum aus der Penn Treebank dargestellt. Das Beispiel zeigt, wie funktionale Tags (angehängt an syntaktische Kategorien) verwendet werden, um syntaktische Funktionen auszudrücken (z.B. NP-SBJ für das Subjekt they). Die Bewegung des Fragewortes what wird durch eine Spur gekennzeichnet, die eine Index-Nummer (1) koindiziert. 1 Eine Auflistung aller kodierten Phänomene findet sich in Marcus et al. (1993, 1994). 28
  35. 35. 5 Daten: LFG-Korpus Abb. 5.1: Ein Beispielbaum aus der Penn Treebank Die Penn Treebank wurde mit LFG-F-Strukturen automatisch annotiert. Der F-Struktur- Annotationsalgorithmus ist in Cahill et al. (2002), Cahill (2004), Cahill et al. (2008) im Detail beschrieben. Der Algorithmus annotiert zuerst die Penn-Treebank-Bäume mit funk- tionalen Gleichungen. Dabei werden verschiedene linguistische Phänomene berücksichtigt: Prädikat-Argument-Strukturen, Koordination, Wh-Verschiebung, Passivkonstruktionen, Kontroll- und Raising-Verben u.a. Danach generiert ein Constraint Solver aus diesen Annotationen F-Strukturen, die Referenzen auf die Knoten der KS-Bäume enthalten. Die F-Strukturen wurden hinsichtlich Abdeckung und Qualität evaluiert. Die Abdeckung ist beinahe vollständig: für 99.83% der Sätze wurden F-Strukturen ermittelt. Die Qualität der F-Strukturen wurde gegen manuell ermittelte F-Strukturen (Goldstandard) für 105 zufällig ausgewählte Bäume aus der 23. Sektion von Penn Treebank evaluiert. Der Algorithmus erreicht F-Measure von 96.3%.2 Im vorherigen Kapitel wurde darauf hingewiesen, dass die Generierung von KSen aus DSen die Aufteilung von Strukturen in Segmente voraussetzt. Die Teile der jeweiligen 2 In (Burke et al., 2004) können detailierte Ergebnisse der Qualität von F-Strukturen nachgeschaut werden. 29
  36. 36. 5 Daten: LFG-Korpus Strukturen müssen in einer Korrespondenzbeziehung stehen. Es stellt sich damit die Frage, was KS- und DS-Segemente im LFG-Korpus sind. Da es sich um C- und F-Strukturen handelt, wird die Beziehung zwischen Strukturteilen durch die Funktion φ repräsentiert. Wenn mehrere Knoten auf eine F-Struktur abgebildet werden, können diese Knoten als partielle Bäume konzeptualisiert werden. Zum Beispiel kann der gesamte Baum in der Abbildung 5.2 (links) als aus vier elementaren Bäumen bestehend angesehen werden.3 Die Beziehung zwischen solchen Bäumen und F-Strukturen kann als Funktion Φ erfasst werden, die jedem partiellen Baum eine F-Struktur zuweist. (In der Abbildung 5.2 wird dies durch punktierte Linien dargestellt). Die Funktion Φ ist als aufeinanderfolgende Anwendung der Funktion φ an jeden Knoten des elementaren Baums zu verstehen (vgl. Cahill und van Genabith, 2006:1034). Abb. 5.2: Partielle Bäume des Satzes The equity market was illiquid Die Bäume sind aneinander angehängt. Jeder solcher Baum besteht aus Knoten, die mit der Gleichung (↑=↓) markiert sind, einem Terminalsymbol, welches für das lexikalische Element steht (das Terminalsymbol kann aber mit einem leeren String belegt werden) und einem Wurzelknoten, der mit einer Gleichung der Art (↑< Attribut >=↓) markiert ist. Die grammatische Funktion, die durch das Attribut repräsentiert ist, beschreibt in gewissem Maße die Relation zwischen dem dominierenden und dem dominierten 3 Vgl. Kaplan (1995): ”When several nodes map onto the same f-structure, that f-structure can be loosely interpreted as the equivalence class or quotient of nodes induced by the correspondence. Conceptually, it represents the folding together or normalisation of information carried jointly by the individual nodes that map onto it.” 30
  37. 37. 5 Daten: LFG-Korpus Abb. 5.3: Referenzen (Links) im LFG-Korpus Baum. In der F-Struktur wird diese grammatische Funktion als Relation zwischen den Teil-F-Strukturen dargestellt. Im LFG-Korpus werden die Korrespondenzbeziehungen durch Referenzen (Links) re- präsentiert. Die Knoten der C-Strukturen sind mit Indizes versehen. Die F-Strukturen enthalten diese Indizes als Attribut-Wert-Paare: [LINK index] (Abbildung 5.3). Die partiellen Bäume werden bei der Generierung als KS-Segmente fungieren. Diese elementaren, meistens nur aus einer Kette von Knoten bestehenden Bäume werden in der Arbeit als Initial-Bäume bezeichnet, da aus diesen Bäumen andere komplexere Bäume abgeleitet werden. (In der Abbildung 5.3 sind die Initial-Bäume mit fetten Kanten markiert.) Die Bäume, an die andere Bäume angehängt werden, werden als Mutterbäume und die angehängten Bäume als Tochterbäume bezeichnet. Die LFG-F-Strukturen werden als DSen fungieren. F-Strukturen können als Dependenzbäume dargestellt werden, wobei lange Dependenzen durch Doppeleintrag von F-Strukturen oder durch Einfügen von 31
  38. 38. 5 Daten: LFG-Korpus Nullelementen wiedergegeben werden können (s. Kapitel 2.2). Die Punktuationszeichen sind in F-Strukturen nicht kodiert. Es gibt somit keine expliziten Referenzen von F-Strukturen auf die Punktuationszeichen in C-Strukturen. Es gibt F-Strukturen, die keine Referenz auf C-Strukturen haben. Das sind die SPEC- markierten F-Strukturen. Diese Strukturen haben immer eine eingebettete F-Struktur, die mit einer spezifizierten grammatischen Funktion markiert ist: entweder DET (Deter- minant), oder QUANT (Quantifikator). 32
  39. 39. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen 6.1 Modell für Abbildung von LFG-F-Strukturen in Penn-Treebank-Bäume Das Ziel der Arbeit ist es, einen statistischen Ansatz zu entwickeln, mit dem KSen aus DSen generiert werden können. Wie in den bisherigen Ansätzen von Xia und Palmer (2001) und Xia et al. (2009) läuft die Generierung von KS aus DS in dieser Arbeit in zwei Schritten ab: • den DS-Segmenten werden KS-Segmente zugewiesen • aus den KS-Segmenten wird eine gesamte KS erzeugt Im Gegensatz zu den bisherigen Ansätzen wird in dieser Arbeit davon ausgegangen, dass: • DSen (F-Strukturen) keine Linearisierung aufweisen, • DSen (F-Strukturen) keine POS-Annotation enthalten, • KSen (Penn-Treebank-Bäume) Nullelemente haben, die auch in F-Strukturen re- präsentiert sind, • die lexikalische und die morphosyntaktische Informationen (wie Tempus, Numerus, Person, etc.) für Parametrisierung des probabilistischen Modells verwenden werden. Wie bei Xia et al. (2009) werden die Korrespondenzbeziehungen zwischen Strukturseg- menten anhand des Korpus gelernt. Statt eines regelbasierten Generierungsverfahrens einer gesamten KS aus KS-Segmenten, wird ein naives Ableitungsverfahren entwickelt. Es werden alle möglichen Penn-Treebank-Bäume aus Initial-Bäumen erzeugt und dann wird der wahrscheinlichste Baum ausgewählt (Übergenerieren und Selektion). Die Ambiguität bei der Auswahl der Initial-Bäume sowie die Auswahl der Verbindungen bei der Erzeugung der Baumstruktur wird dem probabilistischen Modell überlassen. 33
  40. 40. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen Im Kapitel 4 wurde ein allgemeines probabilistisches Modell definiert, das die beiden Schritte zusammenfasst: P(CS|DS) ≈ n i=1 (P(csi|dsi) ∗ k j=1 P(relcs(csi, csj)|relds(dsi, dsj))) Hinsichtlich dessen, dass Initial-Bäume als KS-Segmente und (Teil-)F-Strukturen als DS-Segmete fungieren, kann diese Formel neugeschrieben werden: P(Tree|FS) ≈ n i=1 (P(iti|fsφ(iti)) ∗ k j=1 P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj)))) (6.1) wobei Tree ein Penn-Treebank-Baum ist, der aus F-Struktur FS generiert wurde, it ein Initial-Baum, ein Segment vom gesamten Tree, und fs eine (Teil-)F-Struktur in der gesamten FS. fsφ(iti) repräsentiert die F-Struktur, auf die iti durch die Funktion φ abgebildet wird. P(iti|fsφ(iti)) ist die Wahrscheinlichkeit eines Initial-Baums bedingt durch die F-Struktur, mit der er in Korrespondenzbeziehung steht. Die Wahrscheinlichkeit eines Initial-Baums, bei der gegebenen F-Struktur, wird mit Hilfe der Maximum-Likelihood-Estimierung folgenderweise berechnet: sie ist gleich dem Verhältnis von der Anzahl der Vorkommen (Count) von Korrespondenzbeziehungen zwischen dem Initial-Baum und der F-Struktur und der Anzahl aller Vorkommen der F-Struktur im Trainingskorpus. P(iti|fsφ(iti)) = Count(iti, fsφ(iti)) Count(fsφ(iti)) (6.2) P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) repräsentiert die Wahrscheinlichkeit einer Verbin- dung zwischen Initial-Bäumen bezüglich einer gegebenen Relation zwischen F-Strukturen, auf die die Initial-Bäume abgebildet werden. relcs(iti, itj) drückt aus, dass itj an iti angehängt ist (die Wurzel von itj ist an einen Nichtterminalen-Knoten in iti angeknüpft). Mit anderen Worten ausgedrückt ist itj der Tochterbaum von iti. rel(iti, itj) spiegelt die Dependenzrelation (bzw. Einbettung) relds(fsφ(iti), fsφ(itj)) wieder. fsφ(iti) subordiniert fsφ(itj) in FS. 34
  41. 41. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen Bei der Spezifizierung der jeweiligen Verbindung sind drei Punkte relevant: Auswahl des Anknüpfungsknotens, Position des Tochterbaums bezüglich des Mutterbaums - links oder rechts -, und die Position des Tochterbaums bezüglich der anderen Tochterbäume (falls mehrere Tochterbäume an der selben Seite angehängt sind). In der Abbildung (6.1a) sind ein Initial-Baum B0 dargestellt und die Positionen, an denen der Tochter-Baum B1 oder B2 angehängt werden kann. In (6.1b) werden alle möglichen Positionen für Anknüpfung des Baums B2 an den Baum B0 gezeigt, nachdem B1 angebunden wurde. Dabei soll folgendes entschieden werden: • An welchem Knoten – NT0 oder NT1 – soll der Baum B2 angeknüpft werden? • Wie ist die Position bezüglich des Mutterbaums B0 – links oder rechts ? • Wie ist die Position bezüglich des Baums B1? Abb. 6.1: Verknüpfungsoperation (formal) 35
  42. 42. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen Es wird ein spezifiziertes Modell definiert, das diese Faktoren berücksichtigt. Formal sieht es wie folgt aus: P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) = P(anode, dir, LN, RN|relds(fsφ(iti), fsφ(itj))) (6.3) iti ist ein Initial-Baum, an den ein Tochterbaum itj angehängt ist. anode (attachment node) ist ein Verknüpfunsknoten im iti. dir (direction) bedeutet die Position des Tochter- baums relativ zum iti - links oder rechts. LN und RN sind linke oder rechte Nachbarbäume. Es wird immer nur der nächststehende Baum berücksichtigt, nicht die ganze Liste von Schwesterbäumen. Für den vom Initial-Baum entfernten Tochterbaum wird ein spezieller Knoten NULL eingeführt (Abbildung 6.1d). Im weiteren wird ein Algorithmus vorgestellt, der die beiden Schritte zusammenfasst. 6.2 Algorithmus Die Umwandlung von F-Struturen in Penn-Treebank-Bäume läuft in zwei Schritten ab: 1) Ermittlung von Initial-Bäumen und 2) Erzeugung eines gesamten Baums aus den Initial-Bäumen. Im ersten Schritt werden zunächst die Initial-Bäume jeder Teil-F-Struktur zugeordnet. Die Zuordnung hängt von den Eigenschaften der F-Struktur ab. Es werden die n besten Initial-Bäume in die weitere Verarbeitung übernommen. Die Wahrscheinlichkeit eines Initial-Baums ist P(iti|fsφ(iti)) und wird nach der Formel 6.2 berechnet. Aus den im ersten Schritt ermittelten Initial-Bäumen wird der wahrscheinlichste Baum schrittweise durch Ableitung von partiellen Bäumen erzeugt. Die Bäume werden mit Hilfe einer Verknüpfungsoperation abgeleitet. Die Verknüpfungs- operation wird folgendermaßen definiert: Ein Initial-Baum oder eine Ableitung davon kann an jeden Nicht-Terminalen-Knoten des anderen Initial-Baums angehängt werden. Dabei kann er (der Tochterbaum) von jeder Seite des Mutterbaums (von links oder von rechts) angeknüpft werden. Falls es dort noch andere Tochterbäume gibt, kann der Tochterbaum an jeder Seite eines anderen Tochterbaums angehängt werden. In der Abbildung 6.1 wird das Verknüpfungsverfahren formal dargestellt. Mit ’...’ werden die Stellen markiert, an denen die nächste Verknüpfung durchgeführt werden kann. In (6.1c) 36
  43. 43. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen ist eine mögliche Konfiguration repräsentiert, die nach dem Anhängen von B1 und B2 an B0 entsteht. Die Verarbeitung der F-Struktur läuft ”von innen nach außen” ab. Dabei beginnt sie mit den am tiefsten eingebetteten F-Strukturen, die untergeordnete F-Strukturen haben, und läuft bis die gesamte F-Struktur erreicht ist. Bei jedem Schritt wird jeder Initial-Baum der aktuellen F-Struktur durch Initial-Bäume (oder Ableitungen davon) der untergeord- neten Teil-F-Strukturen erweitert – je Teil-F-Struktur ein Baum. Somit ergeben sich Ableitungsbäume. Jeder Ableitungsbaum besteht aus einem Initial-Baum – Baumstamm – und an ihn angehängten Bäumen. Falls mehrere Ableitungen möglich sind, wird nur der wahrscheinlichste Ableitungsbaum (oder die n besten Ableitungsbäume) für jeden Initial-Baum der F-Struktur beibehalten. Die Wahrscheinlichkeit des Ableitungsbaums wird wie folgt berechnet:1 P(iti) =    P(iti|fsφ(iti)) ∗ k j=1(P(itj) ∗ P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj)))) falls k > 0 P(iti|fsφ(iti)) falls k = 0 (6.4) Hierbei ist iti der Ableitungsbaum, der entsteht, indem die partiellen Tochterbäume itj an den Initial-Baum iti angehängt sind. k ist die Anzahl von Tochterbäumen. Fall es keine Tochterbäume gibt, ist k gleich null. itj ist der Baumstamm des Tochterbaums itj. (In der Abbildung 6.1c ist der Baum B0 ein Ableitungsbaum vom Baum B0 durch Anhängen von B1 und B2. B0 ist der Baumstamm von B0.) Wenn die gesamte F-Struktur erreicht worden ist, wird der wahrscheinlichste Baum als Ergebnisbaum ausgegeben. Komplexität des Verfahrens Durch die Verknüpfungsoperation werden alle möglichen Konfigurationen bzw. Baumstruk- turen kombinatorisch generiert. Die Komplexität des Verfahrens ist wie die Komplexität aller kombinatorischen Aufgaben sehr hoch. Die Komplexität der Ableitung ist von zwei Parametern abhängig: Anzahl der Tochterbäume und Höhe des Initial-Baums, die gleich der Anzahl der Nichtterminal-Knoten im Initial-Baum ist (in der Abbildung 6.1 werden zwei Tochterbäume an einen Mutterbaum B0 der Höhe 2 angehängt). Sei n die Anzahl von Tochterbäumen und sei die Höhe des Mutterbaums gleich 1, dann gibt es (n+1)! 1 Das ist eine rekursive Variante der Formel 6.1. Die Formel gibt den rekursiven Ablauf des Algorithmus wieder. 37
  44. 44. 6 Generierung von Penn-Treebank-Bäumen aus LFG-F-Strukturen Kombinationen bzw. Möglichkeiten die Tochterbäume an den Mutterbaum anzuhängen. Bei höheren Initial-Bäumen vergrößert sich entsprechend die Anzahl der Kombinationen. Das hier repräsentierte Generierungsverfahren wäre bei einer großen Anzahl von Toch- terbäumen und hohen Initial-Bäumen wegen der hohen Komplexität nicht anwendbar. Deswegen wurde vorher eine durchschnittliche Anzahl von Tochterbäumen per Initial- Baum und eine durchschnittliche Höhe der Initialbäume im LFG-Korpus untersucht. Es wurde folgendes erfaßt: • Die durchschnittliche Anzahl der an einen Initial-Baum anzuhängenden Bäume ist ca. 1.76. • 61.3% der Initial-Bäume haben die Höhe 1; 34.1% der Initial-Bäume sind von der Höhe 2; 4.4% sind von der Höhe 3, und weniger als 1% der Initial-Bäume haben eine größere Höhe als 4. In Tabelle 6.1 wurde die Anzahl der Kombinationen hinsichtlich der Höhe des Initial- Baums repräsentiert. Z.B. gibt es 6 Möglichkeiten zwei Tochterbäume an einen Initial- Baum der Höhe 1 anzuknüpfen. n (Höhe von Initial-Baum) Anteil der Bäume der Höhe n im Korpus Anzahl der Kombinationen (Ableitungsbäume) 1 61.3 6 2 34.1 20 3 4.4 42 4 > 1 72 Tab. 6.1: Anzahl der Ableitungsbäume, die von einem Initial-Baum der Höhe n und zwei Tochterbäumen abgeleitet werden können Die Untersuchungen auf dem Korpus zeigen, dass dieses naive Generierungsverfahren im Prinzip angewendet werden kann. An dieser Stelle ist zu betonen, dass das Ziel dieser Arbeit nicht die Entwicklung eines effizienten Generierungsverfahrens ist, sondern die Entwicklung eines effizienten probabilistischen Modells, welches den optimalen Ableitun- gen einen höheren Wahrscheinlichkeitswert zuweist. Der Generator kann immer durch einen fortgeschrittenen Generator ersetzt werden. 38
  45. 45. 7 Experimente und Ergebnisse 7.1 Evaluierungsmetriken 7.1.1 Problem der Evaluierung von Konstituentenstrukturen Durch Angabe aller direkten Dominanz- und Präzedenzbeziehungen lassen sich Konsti- tuentenbäume vollständig spezifizieren. Die Generierung von KSen aus DSen ist nichts anderes als die Ermittlung dieser Relationen. Somit soll die Evaluierung von erzeugten KSen gegen KSen aus dem Goldstandard hinsichtlich dieser Relationen durchgeführt werden. Die Parseval-Metrik (Black et al., 1991), die für die Evaluierung von CFG-Parser verwen- det wird, ist hier nicht anwendbar, da sie die Übereinstimmung der Wortreihenfolgen in der Hypothese und im Goldstandard voraussetzt. Die lineare Ordnung der Wörter in der erzeugten KS aus einer DS kann sich natürlich vom Goldstandard unterscheiden. Zum Beispiel entsteht der Unterschied zwischen dem Hypothesenbaum (a) und dem Goldstandard (b) in der Abbildung 7.1 durch die falsche Ordnung von VBD und ADJP- PRD in der Verbalphrase. Der Evaluierungsalgorithmus soll diesen Fehler erkennen und den Hypothesenbaum dafür bestrafen. Im weiteren wird auf die Leaf-Ancestor-Metrik (Sampson und Babarczy, 2003) eingegan- gen, anhand derer Bäume verglichen werden können, selbst wenn die Wortreihenfolge im Hypothesenbaum und im Goldstandard unterschiedlich ist. Dabei wird ein Evaluierungs- wert für den gesamten Baum zurückgegeben. Um die Dominanz- und Präzedenzrelationen separat zu evaluieren, wurde eine Evaluierungsmetrik im Rahmen dieser Arbeit entwickelt. Die neue Metrik wird in 7.1.3 vorgestellt. Die Ergebnisse der Experimente wurden mit diesen beiden Metriken evaluiert. 39
  46. 46. 7 Experimente und Ergebnisse Abb. 7.1: Hypothesenbaum und Goldstandard 7.1.2 Leaf-Ancestor-Evaluierung (LA) Die Leaf-Ancestor-Evaluierung (Sampson und Babarczy, 2003) basiert auf dem Vergleich jedes Pfades von dem Terminal zu der Wurzel im Hypothesenbaum mit dem entspre- chenden Pfad im Goldstandard. Der Pfad besteht aus der Sequenz von inneren Knoten zwischen dem Terminalknoten und dem Wurzelknoten des Baums und wird als String dargestellt. Die Grenzen von Konstituenten werden auch berücksichtigt. Es werden Mar- ker für Grenzen von Konstituenten in den Pfad eingefügt. Das Prinzip der Einsetzung von Grenzmarkern ist wie folgt: • Finde für jeden Terminal, der am Anfang der Phrase steht, den höchsten domi- nierenden Phrasenknoten. Dabei soll die Phrase, die von diesem Knoten regiert wird, mit diesem Terminal anfangen. Setzte den Links-Grenzmarker ”[” vor dem Phrasenknoten-Label im Pfadstring ein. Zum Beispiel ist VP für das Wort was im Baum (7.1a) die höchste Konstituente, die mit diesem Wort beginnt. Der Links- Grenzmarker wird vor dem VP-Symbol im Pfadstring ”VBD [ VP S” eingeführt. • Finde für jeden Terminal, der die Phrase schließt, den höchsten dominierenden Phrasenknoten, der die Phrase regiert, die mit diesem Terminal endet. Füge den Rechts-Grenzmarker ”]” nach dem Knoten-Label im Pfadstring hinzu. Für das Wort illiquid im Baum (7.1a) ist S die höchste Konstituente, die mit diesem Wort endet. Der Recht-Grenzmarker wird nach dem S-Symbol im Pfadstring ”JJ ADJP-PRD VP S ]” eingeführt. Die falsche Anordnung von VBD und ADJP-PRD in (7.1b) spiegelt sich in den unter- schiedlichen Pfaden für Wörter was und illiquid wieder (siehe Tablle 7.6). 40
  47. 47. 7 Experimente und Ergebnisse Terminale Pfad in Hypothesenbaum (a) Pfad in Goldstandard (b) Ähnlichkeit the DT NP-SBJ [ S DT NP-SBJ [ S 1 equity NN NP-SBJ S NN NP-SBJ S 1 market NN NP-SBJ ] S NN NP-SBJ ] S 1 was VBD [ VP S VBD VP S ] 0.75 illiquid JJ ADJP-PRD [ VP S JJ ADJP-PRD VP S ] 0.8 LA-Wert für den ganzen Hypothesenbaum (b): Mittelwert 0.91 Tab. 7.1: Ergebnisse der LA-Evaluierung für den Baum aus der Abbildung 7.1b Die Ähnlichkeit der zwei Pfadstrings c und g wird nach dieser Formel berechnet: similarity = 1 − Lv(c, g) len(c) + len(g) wobei Lv(c, g) die Levenshtein-Distanz zwischen c und g und len(c) und len(g) entspre- chend die Länge von Strings c und g ist. Die Levenshtein-Distanz (auch Edit-Distanz) bezeichnet einen Maß für den Unterschied zwischen zwei Zeichenketten. Die minimale Anzahl der Operationen (Einfügen, Löschen und Ersetzen) für die Konvertierung einer Zeichenkette in die andere stellt die Levenshtein-Distanz dar.1 Zum Beispiel wird die Levenshtein-Distanz zwischen ”VBD [ VP S” und ”VBD VP S ]” folgendermaßen berech- net: der zweite String kann sich aus dem ersten ergeben, wenn der Links-Grenzmarker entfernt und ein Rechts-Grenzmarker eingeführt wird. Die Levenshtein-Distanz Lv(was) ist gleich 2. Die Ähnlichkeit von was im Beispiel (b) ist 1 − 2/(4 + 4) = 0.75. Das Evalu- ierungsergebnis für den ganzen Baum ist der Mittelwert aus den Ähnlichkeitswerten der Pfade. In der Tabelle 7.1 sind Änlichkeitswerte sowie der gesamte LA-Wert repräsentiert. Neben der Tatsache, dass die LA-Metrik die Evaluierung von Bäumen mit unterschiedli- chen Wortreihenfolgen ermöglicht, weist sie noch weitere Vorteile auf: • Die LA-Metrik ist nicht empfindlich bezüglich der unterschiedlichen Baumbankan- notierungsschemata. Sampson und Babarczy (2003) sowie auch Rehbein und Genabith (2007) weisen darauf hin, dass die LA-Metrik besser und angemessener als Parseval-Metrik ist, um Unterschiede zwischen der Parsing-Ausgabe und dem Goldstandard an unterschiedlichen Korpora wiederzuspiegeln. • Die LA-Metrik ist im Prinzip für Evaluierung von Konstituentenstrukturen sowie auch für die Evaluierung von Dependenzstrukturen ansetzbar. Dies macht sie für 1 Das Kosten jeder Operation ist normalerweise gleich 1. 41
  48. 48. 7 Experimente und Ergebnisse spätere Evaluierungsexperimente im Bereich der Transformation zwischen DS und KS attraktiv. • Außerdem vermeidet die LA-Metrik einige Evaluierungsfehler, die für Parseval- Metrik charakteristisch sind.2 7.1.3 Dominanz-Präzendenz-Relationen-Evaluierung (DPR) Um die Dominanz- und Präzedenzrelationen separat zu testen, wurde eine neue Me- trik entwickelt. Zugrunde liegt die Idee, dass der Baum als Menge von Dependenz- und Präzedenzrelationen angesehen wird. Zum Beispiel kann der Baum in (7.1a) als Set von Relationen repräsentiert werden.3: {S_NP-SBJ, S_VP, NP-SBJ_DT, NP- SBJ_NN[equity], NP-SBJ_NN[market], VP_VBD, VP_ADJP-PRD, ADJP-PRD_JJ, NP-SBJ>VP, DT>NN[equity], NN[equity]>NN[market], VBD>ADJP-PRD} Es werden drei Maße berechnet: Recall, Precision und F-Measure als zusammenfassendes Maß von Precision und Recall: Recall = Anzahl der erkannten Relationen des Hypothesenbaums Anzahl der Relationen im Goldstandard Precision = Anzahl der erkannten Relationen des Hypothesenbaums Anzahl der Relationen im Hypothesenbaum F − Measure = 2 ∗ Recall∗Precision Recall+Precision Die Maße können für jeden Typ der Relationen separat berechnet werden. Zum Beispiel unterscheiden sich die Bäume (7.1a) und (7.1b) durch eine Präzedenzrelationen (fett markiert): Precedence-Relationen in (a) aind { NP-SBJ>VP, DT>NN[equity], NN[equity]>NN[market], VBD>ADJP-PRD } Precedence-Relationen in (b) sind { NP-SBJ>VP, DT>NN[equity], NN[equity]>NN[market], ADJP-PRD>VBD } Recall (Präzedenzrelationen) = 4/5 = 0.8, Precision (Präzedenzrelationen) = 4/5 = 0.8 und F-Measure (Präzedenzrelationen) = 2*0,8*0,8 / (0,8 + 0,8) = 0,8 In Experimenten in dieser Arbeit wird F-Measure für jeden Typ der Relationen berechnet und mit Hilfe von LA-Metrik werden Bäume als Ganzes evaluiert. 2 Für detailierte Erläuterung der Kritikpunkte über Parseval-Metrik siehe Sampson und Babarczy (2003). 3 Die Dependenzrelation wird als ein Paar von Knotensymbolen und einem dazwischen eingefügten Unterstrich dargestellt. Das links stehende Knotensymbol steht für den dominierenden Knoten. Zum Beispiel bedeutet die Relation A_B, dass A den Knoten B dominiert. In der Präzedenzrelation ist die Ordnung durch ”>” repräsentiert. Die Relation A>B bedeutet, dass A und B die Schwesterknoten sind und dass A vor dem B steht. 42
  49. 49. 7 Experimente und Ergebnisse 7.2 Daten und Vorverarbeitung Der LFG-Korpus (Kapitel 5) wurde als Trainings- und Evaluierungskorpus in dieser Arbeit benutzt. Der Korpus basiert auf dem Penn-Treebank-Korpus und besteht somit aus 24 Sektionen. Alle Modelle wurden auf Sektionen 02-22 des Korpus trainiert. Die Sektion 23 wurde als Developmentkorpus verwendet. Die Ergebinisse wurden gegen Sektion 24 evaluiert. In der Tabelle 7.2 wird die Anzahl der Sätze einer bestimmter Länge im Korpus zusam- mengefasst. Satzlänge ≤40 all Training 37417 39966 Test 1175 1275 Tab. 7.2: Anzahl der Sätze in Trainings- und Testkorpus hinsichtlich ihrer Länge Die langen Dependenzen wurden vorverarbeitet. In der Abbildung 7.2 sind Korrespon- denzbeziehungen zwischen den Baum und F-Struktur für den Satz the demon seems to have gone dargestellt. Es gibt drei Einträge der F-Struktur f2: f2a, f2b und f2c. Jeder Eintrag steht in Beziehung mit zwei Initial-Bäumen. Es wurden einige heuristischen Regeln entwickelt, mit Hilfe von denen Doppeleinträge beim Training und beim Testen vorverarbeitet werden (siehe Abbildung 7.4): • Beim Training: Beim ersten Eintrag f2a wurden die Links mit dem Initial-Baum beibehalten, der einen lexikalischen Element hat (demon). Die Links mit dem Initial-Baum, der das Nullelement enthält, werden entfernt. Im zweiten Eintrag f2b werden die Links mit dem Initial-Baum mit lexikalischem Element entfernt. Es werden die Referenzen auf den Initial-Baum mit Nullelement beibehalten. Als Wert von PRED-Attribut wird der String ’NULL’ gesetzt und alle untergeordneten F-Strukturen werden entfernt. Der dritte Eintrag wird f2c entfernt. • Beim Testen: Der erste Eintrag f2a bleibt unverändert. Im zweiten Eintrag f2b wird der Wert von PRED-Attributs ’demon’ mit ’NULL’ ersetzt und alle untergeordneten F-Strukturen werden entfernt. Der dritte Eintrag f2c wird entfernt. Als Eingabe wurden die F-Strukturen der Sektion 24 verwendet. Diese automatisch generierten F-Strukturen sind nicht ”perfekt”. Das bedeutet, dass sie keine Garantie hinsichtlich ihrer Komplettheit und Kohärenz liefern (Kaplan und Bresnan, 1995): Die 43
  50. 50. 7 Experimente und Ergebnisse Abb. 7.2: Penn-Treebank-Baum für den Satz The demon seems to have gone F-Struktur kann einen ungewünschten Inhalt haben, dann ist sie nicht kohärent, und/oder aber der vorausgesetzte Inhalt kann fehlen, dann ist sie nicht komplett. In den F-Strukturen werden nur die Grundformen der Wörter kodiert. Die KSen setzen aber volle (flektierte) Wortformen voraus. Auf die Entwicklung eines morphologischen Generators wurde im Rahmen dieser Arbeit verzichtet. Die flektierten Wortformen wurden aus den KSen des Goldstandards übernommen. Punktuation zu bewältigen ist immer schwer. Es wurden einige Experimente mit Punktua- tionszeichen durchgeführt. Die Punktuationszeichen erschienen an unerwünschten Stellen. Das betrifft besonders die Kommata und Anführungszeichen. Das einzige, was relativ gut lokalisiert wurde, sind die Endsatzzeichen: Punkt, Fragezeichen und Ausrufezeichen. Da für die Bewältigung der Punktuation ein fortgeschrittenes Verfahren nötig ist, wurden alle Punktuationzeichen aus dem Trainings- sowie auch aus dem Testkorpus entfernt. 44
  51. 51. 7 Experimente und Ergebnisse 7.3 Experimente Im Kapitel 6 wurden zwei Schritte der Generierung von KSen aus DSen erläutert. Die Effizienz des gesamten Vorgangs hängt von der Effizienz jedes einzelnen Schrittes ab. Es wurde eine Reihe von Experimenten für jeden Schritt unabhängig von einander durchgeführt. Die Modelle, die die besten Ergebnisse geliefert haben, wurden für die Evaluierung des Gesamtsystems übernommen. 7.3.1 Ermittlung der Initial-Bäume für F-Strukturen Spezifizierung von Modellen Einer F-Struktur werden mehrere Initial-Bäume zugeordnet. Es kann immer entweder der beste oder die n besten Bäume für weitere Verarbeitung übernommen werden. Die Wahr- scheinlichkeiten der Initial-Bäume werden anhand des Modells P(iti|fsφ(iti)) berechnet. Die Wahrscheinlichkeiten werden mit Hilfe von MLE auf dem Korpus trainiert (siehe Formel 6.2). Eine F-Struktur ist eine komplexe Struktur, die über verschiedene Informa- tionen verfügt: lexikalische, morphosyntaktische und die Information über grammatische Funktionen. Eine F-Struktur kann als Set – F-Set – der eigenen Eigenschaften dargestellt wer- den. Die Eigenschaften werden als Attribut-Wert-Paare repräsentiert. Das Format für Eigenschaften-Repräsentation ist wie folgt definiert: 1. Die Attribut-Wert-Paare [PRED lemma], [PRON_FORM lemma] und [COORD_FORM lemma] werden zu [LEX lemma], da alle drei Attribute zum Speichern von Grund- formen der Wörter dienen. 2. Die morphosyntaktische Information wie TENSE, NUM, PERS usw. wird zum Attribut MORPH zusammengefasst. Das Set der Werte der morphosyntaktischen Attribute wird als Wert des MORPH-Attributs gesetzt. Z.B. werden [NUM sg] und [PERS 3] zu [MORPH numSG_pers3]. 3. Jede grammatische Funktion führt in das Set ein Paar ein: das Attribut GFch i und der Namen der grammatischen Funktion als Wert dieses Attributs: [GFch i gfch i ], wobei ch für ”child” steht und gfch i der Name der grammatischen Funktion der untergeordneten F-Struktur i ist. Die Anzahl von untergeordneten F-Strukturen ist gleich dem maximalen i. 45
  52. 52. 7 Experimente und Ergebnisse 4. Die grammatische Funktion der F-Struktur selbst wird als [GFfs gffs] dargestellt, wobei gffs der Name der grammatischen Funktion ist. Zum Beispiel wird die F-Struktur f1 in der Abbildung 7.3 als folgendes Set dargestellt: {[PRED seem], [MORPH tensePRES_numSG_pers3], [GFfs root], [GFch 1 subj], [GFch 2 xcomp]}. Als Baseline wurde ein Modell definiert, welches als Parameter nur die grammatische Funktion der F-Struktur annimmt: Pbase (it|fs) = P(it|gffs ) (7.1) Dabei ist it ein Initial-Baum, der zu fs zugeordnet wurde. Die Anzahl der untergeordneten Teil-F-Strukturen bei einer F-Struktur kann beliebig groß sein4. Deswegen wurden drei Modelle definiert, die diese Information auf unterschiedliche Weise berücksichtigen. Im Modell (7.2) werden alle grammatischen Funktionen einfach als Set dargestellt, wie sie in der F-Struktur vorkommen.5 Psimple (it|fs) = P(it|gffs , gfch 1 , ..., gfch n ) (7.2) Es gibt sehr viele Fälle, wenn ein F-Set die COORD-Funktion, ADJUNCT-Funktion oder APP-Funktion mehrfach enthält. Es wurde ein Modell (7.3) definiert, in dem die Mengen von COORD-, ADJUNCT- und APP-Funktionen auf die Anzahl 1 reduziert worden sind. Das entspricht dem Prinzip im LFG-Formalismus: wenn eine F-Struktur mehrere untergeordnete (Teil-)F-Strukturen mit der gleichen Funktion einbettet, werden die eingebetten F-Strukturen als Set zusammengefasst. Das Set wird dann zum Wert des Attributs, das diese Funktion repräsentiert (vgl. Kaplan und Bresnan, 1995:68). PsingletonGF (it|fs) = P(it|gffs , gfch 1 , ..., gfch n ) (7.3) wobei die Mengen von COORD-, ADJUNCT- und APP-Funktionen auf die Anzahl 1 reduziert werden. 4 Im Korpus kommen F-Strukturen vor, die bis zu 26 untergeordnete F-Strukturen haben. 5 Die Reihenfolge der grammatischen Funktionen bzw. der F-Strukturen ist irrelevant, da die (Teil-)F- Strukturen nicht linearisert sind. Von Bedeutung sind nur die Anzahl und die Typen der grammatischen Funktionen. 46
  53. 53. 7 Experimente und Ergebnisse Als drittes Modell wurde ein Modell definiert, dem die Idee zu Grunde liegt, die Wahr- scheinlichkeit des Ganzen als Produkt der Wahrscheinlichkeiten von Teilen zu berechnen. Diese Idee verfolgte Collins (1999) beim Parsing mit einer aus der Penn Treebank induzier- ten PCFG-Grammatik, indem die Phrasenstrukturregeln in mehrere Abschnitte zerlegt wurden und die Wahrscheinlichkeit der Regeln als Produkt der Wahrscheinlichkeiten von Regelteilen berechnet wurde. Somit hat Collins das Sparse-Data-Problem beim Estimieren der Regelwahrscheinlichkeiten vermieden. Auf ähnliche Weise kann eine F-Struktur als Menge der Teilstrukturen dargestellt werden. In der Abbildung 7.5 ist eine F-Struktur (a), die als zwei Teilstrukturen (b) erfasst werden kann. Die Wahrscheinlichkeit eines Initial-Baums, bedingt durch die F-Struktur fs, wird als Produkt der Wahrscheinlichkeiten des Initial-Baums, bedingt durch Teilstrukturen von fs, berechnet. Formal sieht das Model wie folgt aus: Pgeneral (it|fs) = n i=1 P(it|gffs , gfch i ) (7.4) Dabei ist n die Anzahl der Teilstrukturen. Um das Sparse-Data-Problem zu vermeiden, werden die 3 Modelle mit dem Baseline- Modell 7.1 interpoliert. Psimple(it|fs) = λPsimple(it|fs) + (1 − λ)Pbase(it|fs) PsingletonGF (it|fs) = λPsingletonGF (it|fs) + (1 − λ)Pbase(it|fs) Pgeneral(it|fs) = λPgeneral(it|fs) + (1 − λ)Pbase(it|fs) Die Modelle wurden evaluiert hinsichtlich 1. der Anzahl von Initial-Bäumen, die den F-Strukturen korrekt (exact match) zuge- wiesen worden sind, und 2. der Korrektheit der Präterminalsymbole. Da Präterminale einen erheblichen Anteil an Knoten im Baum darstellen, ist die Korrektheit von Präterminal-Labels (POS- Tags) bei der Evaluierung der Bäume besonders relevant. Die Ergebnisse der Ermittlung von Initial-Bäumen, wenn nur die grammatischen Funk- tionen als Parameter fungieren, sind in der Tabelle 7.3 dargestellt. Die besten Ergebnisse liefert das general-Modell. Da F-Strukturen über lexikalische ([PRED lexem]) und morphosyntaktische (TENSE, NUM, PERS, usw.) Information verfügen, können die auf grammatischen Funktionen 47
  54. 54. 7 Experimente und Ergebnisse Modell Initial-Bäume POS λ-Werte baseline 35.2 47.4 λ1=1 simple 45.4 58.7 λ1=0.6; λ2=0.4 singletonGF 45.0 58.5 λ1=0.6; λ2=0.4 general 47.1 59.8 λ1=0.6; λ2=0.4 Tab. 7.3: Ergebnisse der Ermittlung von Initial-Bäumen (durch grammatische Funktionen parametrisiert) basierten Modelle durch diese Information erweitert werden. Die Intuition basiert hier darauf, dass Lexem und morphosyntaktische Information für die Bestimmung von POS (und somit die Ermittlung der Initial-Bäume) relevant sind. Zum Beispiel ist das Lexem call mit der Eigenschaft [TENSE past] höchstwahrscheinlich ein Verb, und das Lexem call mit den Eigenschaften [NUM sg] und [PERS 3] und ohne TENSE-Egenschaft höchstwahrscheinlich ein Nomen. Das general-Modell, das die besten Ergebnisse geliefert hat, wird für weitere Experimente übernommen und durch lexikalische und morphosyntaktische Information erweitert. Es wurden drei Modelle definiert, wobei das Modell (7.7) die beiden Informationen als Parameter annimmt. Pl (it|fs) = n i=1 P(it|gffs , gfch i , lexfs ) (7.5) Pm (it|fs) = n i=1 P(it|gffs , gfch i , morphfs ) (7.6) Pml (it|fs) = n i=1 P(it|gffs , gfch i , morphfs , lexfs ) (7.7) lexfs ist das Lemma der F-Struktur fs. morphfs ist die morphosyntaktische Information (im F-Set ist sie als Wert des Attributs MORPH repräsentiert). Um das Sparse-Data-Problem zu vermeiden, werden die 3 Modelle durch Backoff mit Interpolation folgenderweise geglättet. Pl (it|fs) = n i=1 (λ1P(it|gffs , gfch i , lexfs ) + λ2P(it|gffs , gfch i ) + λ3P(it|gffs )) 48
  55. 55. 7 Experimente und Ergebnisse Pm (it|fs) = n i=1 (λ1P(it|gffs , gfch i , morphfs ) + λ2P(it|gffs , gfch i ) + λ3P(it|gffs )) Pml (it|fs) = n i=1 (λ1P(it|gffs , gfch i , morphfs , lexfs ) + λ2P(it|gffs , gfch i , morphfs ) + λ3P(it|gffs , gfch i ) + λ4P(it|gffs )) wobei λi = 1 ist. Die Ergebnisse der Ermittlung von Initial-Bäumen, wenn die morphosyntaktische und lexikalische Information berücksichtigt wird, sind in der Tabelle 7.4 dargestellt.6 Modell Initial-Bäume POS λ-Werte l 67.4 81.1 λ1=0.5; λ2=0.4; λ3=0.1 m 65.6 80.4 λ1=0.5; λ2=0.4; λ3=0.1 ml 77.8 92.2 λ1=0.4; λ2=0.3; λ3=0.2; λ4=0.1 Tab. 7.4: Ergebnisse der Ermittlung von Initial-Bäumen (parametrisiert durch grammati- sche Funktionen, morphosyntaktische und lexikalische Information) Ergebnisanalyse Es wurden die ersten 20 Sätze aus den Ergebnissen analysiert. Es gab dabei vier Fehler- typen: • Projektion (Zeilen 1-3 in der Tabelle 7.5): Das sind die Fälle, bei denen eine Kategorie auf eine ungewünschte phrasale Kategorie projeziert wird. Die meisten Fehler betreffen die NP-Projektion. Zum Beispiel wird statt eines Initial-Baum ( NN word ) ein Initial-Baum ( NP ( NN word ) ) ermittelt und umgekehrt ( NP ( NN word ) ) statt ( NN word ). • Funktionale Tags (4-6): Es gab 20 Fehler bezüglich der funktionalen Tags: – 3 mal wurde ein funtionaler Tag der syntaktischen Kategorie hinzugefügt, wobei die Kategorie keinen funktionalen Tag brauchte: z.B. ( PP-TMP ( IN over ) ) statt ( PP ( IN over) ). – 13 mal wurde kein Tag eingesetzt, wo einer sein sollte: z.B. statt ( PP-LOC ( IN at ) ) ist ( PP ( IN at ) ). 6 Lambda-Werte wurden manuell stichprobenweise anhand des Development-Korpus ermittelt. 49
  56. 56. 7 Experimente und Ergebnisse – 4 mal wurden die falschen funktionalen Tags eingesetzt: z.B. statt ( SBAR-ADV ( IN as ) ) ist ( SBAR-TMP ( IN as ) ). • POS Tags (7): Falsche Wortklasse kam 20 mal vor. Die Fehler betreffen meis- tens die Differenzierung zwischen NNP(Eigennamen) und NN(normales Nomen), RBR(Adverb im Komparativ) und JJR(Adjektiv im Komparativ), RB(Adverb) und IN(Präposition oder subordinierte Konjunktion). • Null-Elemente (8): Oft kommt es vor, dass ein Nullelement im Initial-Baum fehlt: z.B. statt eines Initial-Baums ( ADJP ( QP ( CD million ) )( -NONE- ) ) wird ein Initial-Baum ( ADJP ( QP ( CD million ) ) ) ermittelt, wobei ( -NONE- ) fehlt. • Andere Fälle weisen mehr als eins der oben erwähnten Fehler auf: z.B. es wird ein überflüssiger Knoten in der Projektionskette eingesetzt und ein falscher POS-Tag dem Präterminal zugewiesen: Typ des Fehlers Anzahl der Fehler 1 Knoten in der Projektion überflüssig 7 2 Knoten fehlt in der Projektion 12 3 einer Knoten in der Projektion falsch 5 4 Funktionaler Tag überflüssig 3 5 Funktionaler Tag fehlt 13 6 Funktionaler Tag falsch 4 7 POS falsch 20 8 Nullelement fehlt 9 9 Anderes 14 Tab. 7.5: Fehler bei der Ermittlung der Initial-Bäume 7.3.2 Generierung von Konstituentenbäumen Spezifizierung von Modellen Die Generierung von Bäumen aus Initial-Bäumen hängt von der Qualität der Ermittlung von Initial-Bäumen im ersten Schritt ab. Um die Generierung von Bäumen aus Initial- Bäumen unabhängig von der Ermittlung der Initial-Bäume zu evaluieren, wurden die Initial-Bäume aus dem Penn-Treebank-Teil des Testkorpus genommen. Das Modell (6.1) im Kapitel 6 beschreibt, wie die Wahrscheinlichkeit eines Ableitungs- baums als Produkt der Wahrscheinlichkeiten seiner Initial-Bäume und der Verbindungen zwischen ihnen berechnet wird: 50
  57. 57. 7 Experimente und Ergebnisse P(Tree|FS) ≈ n i=1 (P(iti|fsφ(iti)) ∗ k j=1 P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj)))) 1 2 Der erste Teil der Formel gibt die Wahrscheinlichkeiten von Initial-Bäumen wieder. Die Spezifizierung dieses Teils wurde im vorherigen Abschnitt 7.3.1 beschrieben. Der zweite Teil – die Wahrscheinlichkeit der Verbindungen zwischen den Initial-Bäumen – wurde schon in 6.1 teilweise spezifiziert: P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) = P anode, dir, LN, RN|relds(fsφ(iti), fsφ(itj)) Es wurden verschiedene Modelle getestet, die sich unterscheiden: • durch welche Information die Auswahl von anode, dir, LN und RN parametrisiert wird, und • wie LN und RN spezifiziert werden. Im weiteren wird die Wahrscheinlichkeit einer Verbindung statt P(relcs(iti, itj)|relds(fsφ(iti), fsφ(itj))) als P(relcs) notiert. Als Baseline wurde das Modell 7.8 definiert: Pbase (relcs) = P(anode, dir|it, child) (7.8) wobei child ein Initial-Baum ist, der an dem Initial-Baum it angehängt ist. Das Modell bedeutet nichts anderes, als dass die relative Reihenfolge von Nachbarbäumen (links und rechts des Kindes) unspezifiziert ist und nicht berücksichtigt wird. Für das Parametrisieren des Modells wurden verschiedene Informationen verwendet und die vier folgenden Modelle wurden definiert: Ptree (relcs) = P(anode, dir, itln , itrn |it, child) (7.9) wobei child der an den Initial-Baum it angehängte Baum ist. itln ist der Initial-Baum (oder eine Ableitung davon) links vom child. itrn befindet sich dementsprechend rechts vom child. 51
  58. 58. 7 Experimente und Ergebnisse Proot (relcs) = P(anode, dir, rootln , rootrn |it, rootch ) (7.10) wobei rootln die syntaktische Kategorie der Wurzel von itln ist. rootrn und rootch sind syntaktische Kategorien der Wurzeln von itrn und child. Pgf (relcs) = P(anode, dir, gfln , gfrn |it, gfch ) (7.11) wobei gfln die grammatische Funktion der F-Struktur ist, mit der der linke Nachbar- Initial-Baum itln in Abbildungsbeziehung steht. Kurz gesagt ist gfln = gf fsφ(itln) . gfrn ist entsprechend die grammatische Funktion der F-Struktur, mit der der rechte Nachbar- Initial-Baum itrn in Abbildungsbeziehung steht. gfch ist die grammatische Funktion der F-Struktur, auf die der Initial-Baum child abgebildet ist. Plex (relcs) = P(anode, dir, lexln , lexrn |it, lexch ) (7.12) wobei lexln das Lemma der F-Struktur ist, mit der der linke Nachbar-Initial-Baum itln in Abbildungsbeziehung steht. lexrn und lexch sind entsprechend die Lemmas von fsφ(itrn) und fsφ(child). Alle vier Modelle wurden mit Baseline-Model P(anode, dir|it, child) und seinem Backoff- Modell P(anode, dir|it) durch lineare Interpolation gesmootht: Pbase(relcs) = λP(anode, dir|it, child) + (1 − λ)P(anode, dir|it) Ptree(relcs) = λ1P(anode, dir, itln, itrn|it, child)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it) Proot(relcs) = λ1P(anode, dir, rootln, rootrn|it, rootch)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it) Pgf (relcs) = λ1P(anode, dir, gfln, gfrn|it, gfch)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it) Plex(relcs) = λ1P(anode, dir, lexln, lexrn|it, lexch)+λ2P(anode, dir|it, child)+λ3P(anode, dir|it) Dann werden alle Modelle in einem Modell (7.13) durch Interpolierung zusammengefasst. Das Backoff-Modell von Baseline-Modell ist für Smoothing eingeführt. Pgf+lex+tree+root (relcs) = λ1Pgf + λ2Plex + λ3Ptree + λ4Proot + λ5Pbase + λ6P(anode, dir|it) (7.13) 52
  59. 59. 7 Experimente und Ergebnisse wobei λi = 1 ist. Die Ergebnisse der Evaluierung sind in der Tabelle 7.6 zusammengefasst.DR und PR sind Dominanz- und Präzedenzrelationen. Sätze der Länge ≤40 Wörter alle Sätze Modell DR/PR (F-Measure) LA DR/PR (F-Measure) LA λ − Werte baseline 95.0/73.7 92.73 94.6/73.1 92.24 λ1=0.9; λ2=0.1 tree 95.0/79.4 93.03 94.5/78.7 92.50 λ1=0.6; λ2=0.3; λ3=0.1 root 95.4/80.6 93.56 95.0/79.9 93.03 λ1=0.6; λ2=0.3; λ3=0.1 gf 95.2/82.3 93.39 94.6/81.8 92.85 λ1=0.6; λ2=0.3; λ3=0.1 lex 94.9/76.7 92.94 94.5/76.1 92.41 λ1=0.6; λ2=0.3; λ3=0.1 gf+lex+tree+root 95.6/82.7 93.95 96.9/89.9 97.62 λ1=0.3; λ2=0.1995; λ3=0.1995; λ4=0.3; λ5=0.99; λ6=0.01 Tab. 7.6: Ergebnisse der Generierung von Ableitungsbäumen Ergebnisanalyse Die Ergebnisse in der Tabelle 7.6 zeigen, dass die erzeugten KSen sich vom Goldstandard besonders in den Präzedenzrelationen unterscheiden. Das kann dadurch erklärt werden, dass mehrere Dominanzrelationen in den Initial-Bäumen impliziert sind. Es wurden die ersten 20 KSen aus den Ergebnissen analysiert. Folgende Fehler bezüglich der Dominanzrelationen wurden erfasst (Abbildung 7.6(a)-(c)): • 8 mal falsches Anhängen von Adverbialphrasen (PP, ADVP, ADJP, NP-TMP etc). Statt an die Verbalphrase anzuknüpfen wird eine Adverbialphrase an die Satzkategorie (S) angehängt (Abbildung 7.6a: mit dem Pfeil wird die richtige Stelle der Konstituente gezeigt). • 2 mal falsche Auswahl des NP-Knoten als Verknüpfungsknoten (7.6b). Falls im Mutter-Initial-Baum mehrere NP-Knoten vorhanden sind, wird nicht immer der richtige NP-Knoten als Verknüpfungsknoten gewählt. • 1 mal sonstige Fälle (7.6c). Folgende Fehler bezüglich der Präzedenzrelationen wurden erfasst (Abbildung 7.6(d)-(g)): • 8 mal falsche Reihenfolge von Konjunkten in einer Koordinationsphrase (7.6d). • 12 mal falsche Reihenfolge von Adjunkten (7.6e). • 1 mal falsche Position von einer Adverbphrase (7.6f). • 3 mal sonstige Fälle falscher Reihenfolge von Konstituenten (7.6g). 53
  60. 60. 7 Experimente und Ergebnisse 7.3.3 Gesamtsystem Nachdem die beiden Module des Systems getestet worden sind, wurden die Modelle, die die besten Ergebnisse geliefert haben, für das Testen des Gesamtsystems übernommen. Bei jedem Schritt – die Ermittlung von Initial-Bäumen und die Generierung von Ablei- tungsbäumen – führt es zum Qualitätsverlust. Die Qualität des Gesamtsystems kann man der Tabelle 7.7 entnehmen. Sätze der Länge ≤40 Wörter alle Sätze Modell DR/ PR (F-Measure) LA DR/ PR (F-Measure) LA gf+lex+tree+root 77.4/68.6 88.79 77.4/68.4 88.63 Tab. 7.7: Ergebnisse des Gesamtsystems Es gibt große Unterschiede zwischen diesen Ergebnissen und den Ergebnissen, wenn korrekte Initial-Bäume für Konstruktion von gesamten Bäumen genommen wurden (vgl. Tabellen 7.6 und 7.7). Daraus kann man schliessen, dass die Ermittlung von korrekten Initial-Bäumen von großer Bedeutung ist. Da das Verfahren aufwändig ist, wurde nur der beste Initial-Baum für jede F-Struktur genommen. Wie im Kapitel 6.2 beschrieben wurde, läßt das System mehr als nur einen Inital-Baum in die weitere Verarbeitung übernehmen. Im zweiten Schritt werden die Wahrscheinlichkeiten von Initial-Bäumen beim Ranking von erzeugten Bäumen berück- sichtigt. Somit können Initial-Bäume mit kleineren Wahrscheinlichkeiten im Ergebnis- baum vorkommen, wenn die Verbindungen zwischen ihnen hohe Wahrscheinlichkeitswerte aufweisen. Es gibt sehr viele Fälle, wenn der erstbeste Initial-Baum falsch ist, aber der zweitbeste Initial-Baum korrekt ist. Das bedeutet, dass der korrekte Initial-Baum im zweiten Schritt bei der Erzeugung des gesamten Baums ausgewält werden kann. Im Abschnitt 7.3.1 wurden anhand der 20 Sätze (bzw. KSen) die Fehler bei der Ermittlung von Initial- Bäumen für F-Strukturen beschrieben (siehe Tabelle 7.5). Es wurde immer der erstbeste Baum mit Goldstandard vergliechen. 19 mal gab es Fehler in der NP-Projektion. In 16 Fällen davon hatte der zweitbeste Initial-Baum die korrekte Projektion. In der Tabelle 7.8 ist die Anzahl der Fälle dargestellt, wenn der zweitbeste Initial-Baum korrekt ist (Spalte 2). Es wurde ein Experiment auf einem kleinen Korpus7 (100 Sätze der Sektion 24) durchge- 7 Wegen dem hohen Zeitaufwand bei der Generierung, wenn mehrere Initial-Bäume einer F-Struktur zugeordnet werden, war das Testen nur auf einem kleinen Korpus möglich. 54
  61. 61. 7 Experimente und Ergebnisse der 1-beste Initial-Baum ist falsch der 2-beste Initial-Baum ist richtig Erfolg falsche NP-Projektion 19 16 3 falscher POS-Tag 20 9 2 falscher funktionaler Tag 20 14 7 Tab. 7.8: Anzahl der Fälle, wann der zweitbeste Initial-Baum korrekt ist nur der 1-beste Initial-Baum 2 beste Initial-Bäume Modell DR/ PR (F-Measure) LA DR/ PR (F-Measure) LA gf+lex+tree+root 71.1/63.0 85.59 74.7/66.8 87.25 Tab. 7.9: Ergebnisse des Systems, wobei 2 beste Initial-Bäume in weitere Verarbeitung übernommen werden führt, wobei zwei beste Initial-Bäume in die weitere Verarbeitung übernommen wurden. Die Verbesserung der Akkuratheit von Bäumen kann man der Tabelle 7.9 entnehmen. In der Spalte ”Erfolg” der Tabelle 7.8 kann man sehen, wieviel mal der zweitbeste Initial-Baum im zweiten Schritt präferiert wurde. 7.3.4 Training auf den Trainingskorpora verschiedener Größe Es wurde eine Reihe von Experimenten durchgeführt, um Abhängigkeit der Qualität der KS-Generierung von der Größe des Trainingskorpus zu bestimmen. Der Traningskorpus wurde auf kleinere Korpora geteilt. Es wurde das Modell 7.13 verwendet. Die Ergebnisse kann man der Tabelle 7.10 bzw. der Abbildung 7.7 entnehmen. Wie man sieht, kann man keine Verbesserungen in der Qualität ab dem Trainingskorpus von 5000 Sätzen beobachten. Anzahl der Sätze im Trainingskopus 100 200 300 500 1000 2000 3000 5000 10000 20000 39966(alle) DR 62.5 65.5 67.7 69.7 72.6 73.3 74.0 74.8 75.9 77.0 77.4 PR 42.1 47.4 49.2 53.0 57.5 60.2 61.5 63.1 65.5 67.2 68.4 LA 77.77 80.09 81.06 83.49 85.25 86.18 86.58 87.11 87.69 88.20 88.62 Tab. 7.10: Training auf den Trainingskorpora verschiedener Größe 55
  62. 62. 7 Experimente und Ergebnisse Abb. 7.3: F-Struktur für den Satz The demon seems to have gone 56
  63. 63. 7 Experimente und Ergebnisse Abb. 7.4: F-Struktur für den Satz The demon seems to have gone nach der Verarbeitung von Doppeleinträgen 57
  64. 64. 7 Experimente und Ergebnisse Abb. 7.5: Verteilte Dependenzstruktur Abb. 7.6: Falsche Ermittlung von Dominanz- und Präzedenzrelationen bei Konstruktion einer KS aus Initial-Bäumen (Mit ’...’ ist korrekte Position markiert) 58
  65. 65. 7 Experimente und Ergebnisse 0 10 20 30 40 50 60 70 80 90 100 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 DR PR LA Abb. 7.7: Training auf den Trainingskorpora verschiedener Größe 59
  66. 66. 8 Zusammenfassung und Ausblick Im Rahmen dieser Arbeit wurde ein statistisches Verfahren entwickelt, das aus DSen KSen generiert. Wie auch in den anderen Ansätzen werden jedem DS-Segment ein KS-Segement zugeordnet (Schritt 1), und danach wird eine gesamte KS erzeugt (Schritt 2). Die Auswahl eines optimalen KS-Segments und der Aufbau der gesamten KS läuft probabilistisch ab: bei jedem Schritt werden immer die höchstwahrscheinlichen Ausgaben für die weitere Verarbeitung übernommen. Anhand der Experimente wurde erfasst, dass die Auswahl eines korrekten KS-Segments (bzw. Initial-Baums) für die Effizienz des Gesamtsystems von großer Bedeutung ist. Die Ergebnisse der Ermittlung von KS-Segmenten im ersten Schritt sind in dieser Arbeit weit von perfekt. Die Systemarchitektur lässt aber die n besten KS-Segmente (bzw. Initial-Bäume) für die weitere Verarbeitung zu. Die Auswahl des optimalen KS-Segments wird somit bei der Konstruktion der gesamten KS durchgeführt. Das Ziel der Arbeit war ein statistisches Verfahren der Generierung von KSen aus DSen als Alternative zu den bisherigen regelbasierten Systemen vorzuschlagen, welches dabei an neue Annotationsschemata angepasst werden kann. Im Kapitel 4 wurde ein generelles Modell für die Abbildung von DSen in KSen vorgestellt. In den Kapiteln 6 und 7 wurde dieses Modell hinsichtlich der vorhandenen Information aus dem Korpus weiter spezifiziert. In 7.3.4 wurden die Experimente beschrieben, die gezeigt haben, dass man beim Trainieren sogar auf kleinen Trainingskorpora gute Ergebnisse bekommen kann. Die Ansätze von Xia und Palmer (2001) und Xia et al. (2009) setzen Linearisierung von DS-Segmenten oder ihre POS-Annotation voraus. Im Gegensatz zu ihnen basiert das in dieser Arbeit vorgestellte Verfahren nur auf grammatischen Funktionen und lexikalischer sowie morphsyntaktischer Informationen, die als Parameter für probabilistische Modelle dienen. Wenn F-Strukturen eine lineare Ordnung von (Teil-)F-Strukturen aufweisen würden, könnte sich die lineare Ordnung von KS-Segmenten aus der linearen Ordnung von DS-Segmenten ergeben. Dann beschränkte sich die Aufgabe bei der Erzeugung einer KS aus KS-Segmenten auf die Ermittlung von Dominanzrelationen – der Auswahl des Verknüpfungsknotens im KS-Segment. 60
  67. 67. 8 Zusammenfassung und Ausblick Es kann eine Reihe von anderen Verbesserungen und Weiterentwicklungen vorgenommen werden: • In dieser Arbeit wurde die Auswahl der KS-Segmente nur durch die DS-Segmente (bzw. F-Strukturen) bedingt, mit denen die KS-Segmente in einer Abbildungs- relation stehen. Die Auswahl eines KS-Segments kann aber durch die anderen schon ermittelten KS-Segmente bedingt sein. Wenn mehrere KS-Segmente jedem DS-Segment in der DS zugewiesen werden, kann eine Viterbi-Suche durch DS verwendet werden, um die besten KS-Segmente zu ermitteln. • Im Fokus dieser Arbeit stand die Entwicklung von effizienten probabilistischen Modellen, welche die Auswahl der optimalen Entscheidung durch Berechnung der Wahrscheinlichkeiten von Ausgaben ermöglichen. Deswegen wurde auf die Entwicklung eines effizienten Generierungsalgorithmus (KSen aus KS-Segmenten) verzichtet. Der hier realisierte Generator hat eine hohe Komplexität. Bei einer großen Anzahl von Tochterbäumen, die an einen Mutterbaum anzuhängen sind, ist eine Generierung aller möglichen Ableitungen praktisch unmöglich. Es wurde deswegen auf 10.000 Varianten je Ableitung beschränkt. Der Einsatz eines fortgeschrittenen Generators kann den Hypothesenraum stark reduzieren, wodurch die Verarbeitung effizienter sein könnte. • Die F-Strukturen des gegebenen LFG-Korpus weisen eine Kodierung der langen Dependenzen durch Doppeleinträge von (Teil-)F-Strukturen auf. Das ermöglicht die Ermittlung der Koindizierung von Nullelementen mit lexikalischen Elementen in den Penn-Treebank-Bäumen. Dieses Verfahren kann leicht implementiert werden. 61

×