This document outlines the workflow of a web service. It shows how a workflow designer and role builder are used to design workflows in HTML/PDF format. The workflows are then sent to a workflow server API which distributes them to various application servers. The application servers then interface with databases, a mail server, and other applications as needed to complete the defined workflows.
Im Vortrag werden zunächst die Grundlagen der Metadatenverarbeitung vorgestellt. Mit Anleihen aus dem Kontext der Linguistik werden Syntax und Semantik von Metadaten in der räumlichen Datenverarbeitung erläutert. Es folgt eine kurze Übersicht zur Bedeutung von Ontologien und es wird auf die Pragmatik als dritte Disziplin der Semiotik verwiesen. Aus dem Mangel an Pragmatik können die aktuellen Schwächen von Metadaten-Formaten und Katalogen abgeleitet werden. Im Ausblick wird erläutert, wie der grundlegenden Mangel an semiotischer Pragmatik überwunden werden kann. Einfache Beispielen sollen helfen, den linguistischen Fachjargon in einen räumlichen Kontext zu setzen.
This document outlines the workflow of a web service. It shows how a workflow designer and role builder are used to design workflows in HTML/PDF format. The workflows are then sent to a workflow server API which distributes them to various application servers. The application servers then interface with databases, a mail server, and other applications as needed to complete the defined workflows.
Im Vortrag werden zunächst die Grundlagen der Metadatenverarbeitung vorgestellt. Mit Anleihen aus dem Kontext der Linguistik werden Syntax und Semantik von Metadaten in der räumlichen Datenverarbeitung erläutert. Es folgt eine kurze Übersicht zur Bedeutung von Ontologien und es wird auf die Pragmatik als dritte Disziplin der Semiotik verwiesen. Aus dem Mangel an Pragmatik können die aktuellen Schwächen von Metadaten-Formaten und Katalogen abgeleitet werden. Im Ausblick wird erläutert, wie der grundlegenden Mangel an semiotischer Pragmatik überwunden werden kann. Einfache Beispielen sollen helfen, den linguistischen Fachjargon in einen räumlichen Kontext zu setzen.
Diese Vorlesung behandelt das Thema RDFS und damit die Möglichkeit zur Definition von terminologischem Wissen mit RDF. Durch RDFS werden erste einfache Schlussfolgerungen möglich.
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
Georg Rehm. QURATOR: Developing a Flexible AI Platform for Digital Content Curation. QURATOR 2020 – Conference on Digital Curation Technologies., 1 2020. Fraunhofer FOKUS, January 20/21, 2020. Invited keynote talk.
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
Georg Rehm. Observations on Annotations – From Computational Linguistics and the World Wide Web to Artificial Intelligence and back again. Annotation in Scholarly Editions and Research: Function – Differentiation – Systematization, University of Wuppertal, Germany. February 20-22, 2019. Invited keynote talk.
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
Georg Rehm. The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”. Sanskrit and Other Indian Languages Technology (SOIL-Tech), Jawaharlal Nehru University, New Delhi, India, February 2019. February 15, 2019. Invited keynote talk.
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
Georg Rehm. AI and Conference Interpretation - From Smart Assistants for the Human Interpreter to Automatic Solutions. DG Interpretation Lunchtime Session on Digital Transformation. European Commission, Brussels, November 2018. November 12, 2018. Invited talk.
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
Georg Rehm. Künstliche Intelligenz beim Dolmetschen und Übersetzen. Institut für Angewandte Linguistik und Translatologie, Universität Leipzig, November 2018. November 1, 2018. Invited presentation.
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
Georg Rehm. Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung. Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, Berlin, Germany, October 2018. October 30, 2018. Presentation on the occasion of being awarded the appointment as a DFKI Research Fellow.
European Language Technologies – Past, Present and FutureGeorg Rehm
Georg Rehm. European Language Technologies – Past, Present and Future. Language Equality in the Digital Age. Conference on language technologies and digital equality in a multilingual Europe, European Parliament, Brussels, Belgium, September 2018. September 27, 2018. Invited talk
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
Georg Rehm. Towards a Human Language Project for Multilingual Europe: AI and Interpretation. DG Interpretation Conference - Interpretation: Sharing Knowledge & Fostering Communities. European Commission, Brussels, April 2018. April 19/20, 2018. Invited talk.
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
Georg Rehm. KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick. Interdisziplinärer Forschungsverbund Digital Humanities in Berlin (ifDHb), 23. Berliner DH-Rundgang im Deutschen Forschungszentrum für Künstliche Intelligenz, Berlin, Germany, February 05, 2018.
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
META-NET has received funding from the EU for several projects related to language technologies, most recently the CRACKER project. The document outlines the history and development of META-NET's Strategic Research and Innovation Agenda (SRIA), including versions 0.5, 0.9, and the current version 1.0 beta, which endorses the establishment of a Human Language Project to help overcome language barriers in Europe. A recent survey of over 600 language technology experts found strong support for a large-scale Human Language Project to achieve deep natural language understanding by 2030.
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
Georg Rehm. AI for Translation Technologies and Multilingual Europe. DG TRAD Conference - Translation Services in the Digital World: A Sneak Peek into the (near) Future. Luxembourg. October 16/17, 2017.
Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.
Diese Vorlesung behandelt das Thema RDFS und damit die Möglichkeit zur Definition von terminologischem Wissen mit RDF. Durch RDFS werden erste einfache Schlussfolgerungen möglich.
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
Georg Rehm. QURATOR: Developing a Flexible AI Platform for Digital Content Curation. QURATOR 2020 – Conference on Digital Curation Technologies., 1 2020. Fraunhofer FOKUS, January 20/21, 2020. Invited keynote talk.
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
Georg Rehm. Observations on Annotations – From Computational Linguistics and the World Wide Web to Artificial Intelligence and back again. Annotation in Scholarly Editions and Research: Function – Differentiation – Systematization, University of Wuppertal, Germany. February 20-22, 2019. Invited keynote talk.
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
Georg Rehm. The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”. Sanskrit and Other Indian Languages Technology (SOIL-Tech), Jawaharlal Nehru University, New Delhi, India, February 2019. February 15, 2019. Invited keynote talk.
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
Georg Rehm. AI and Conference Interpretation - From Smart Assistants for the Human Interpreter to Automatic Solutions. DG Interpretation Lunchtime Session on Digital Transformation. European Commission, Brussels, November 2018. November 12, 2018. Invited talk.
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
Georg Rehm. Künstliche Intelligenz beim Dolmetschen und Übersetzen. Institut für Angewandte Linguistik und Translatologie, Universität Leipzig, November 2018. November 1, 2018. Invited presentation.
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
Georg Rehm. Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung. Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, Berlin, Germany, October 2018. October 30, 2018. Presentation on the occasion of being awarded the appointment as a DFKI Research Fellow.
European Language Technologies – Past, Present and FutureGeorg Rehm
Georg Rehm. European Language Technologies – Past, Present and Future. Language Equality in the Digital Age. Conference on language technologies and digital equality in a multilingual Europe, European Parliament, Brussels, Belgium, September 2018. September 27, 2018. Invited talk
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
Georg Rehm. Towards a Human Language Project for Multilingual Europe: AI and Interpretation. DG Interpretation Conference - Interpretation: Sharing Knowledge & Fostering Communities. European Commission, Brussels, April 2018. April 19/20, 2018. Invited talk.
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
Georg Rehm. KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick. Interdisziplinärer Forschungsverbund Digital Humanities in Berlin (ifDHb), 23. Berliner DH-Rundgang im Deutschen Forschungszentrum für Künstliche Intelligenz, Berlin, Germany, February 05, 2018.
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
META-NET has received funding from the EU for several projects related to language technologies, most recently the CRACKER project. The document outlines the history and development of META-NET's Strategic Research and Innovation Agenda (SRIA), including versions 0.5, 0.9, and the current version 1.0 beta, which endorses the establishment of a Human Language Project to help overcome language barriers in Europe. A recent survey of over 600 language technology experts found strong support for a large-scale Human Language Project to achieve deep natural language understanding by 2030.
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
Georg Rehm. AI for Translation Technologies and Multilingual Europe. DG TRAD Conference - Translation Services in the Digital World: A Sneak Peek into the (near) Future. Luxembourg. October 16/17, 2017.
Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
Georg Rehm. Transformieren, Manipulieren, Kuratieren? Technologien für die Wissensarbeit im Netz. KOOP-LITERA International. Konferenz 2017, Berlin, Germany, June 2017. June 20, 2017. Invited talk.
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
Georg Rehm and Clemens Neudecker. Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken . Berliner Bibliothekswissenschaftliches Kolloqium (BBK), Humboldt-Universität zu Berlin, Berlin, Germany, June 2017. June 06, 2017. Invited talk.
Georg Rehm. EPUB, quo vadis? ePublishing im W3C. Jahrestagung der IG Digital. Im Rahmen der Buchtage, Jahreskongress des Börsenvereins, Berlin, Germany, June 2017. June 14, 2017. Invited talk.
Human Language Technologies in a Multilingual EuropeGeorg Rehm
The document summarizes a presentation on human language technologies in a multilingual Europe. Some key points:
- There are 24 official EU languages and many regional/minority languages that have equal status but most are under-supported by language technologies and face digital extinction.
- The META-NET alliance coordinates language technology research across Europe but the field remains fragmented. There is a need for high-quality, deployable language technologies to support applications like translation, conversational interfaces, and a multilingual digital single market.
- A proposed "Multilingual Value Programme" would help enable the multilingual digital single market through technologies for translating, analyzing, processing and curating natural language content.
- A long-term
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
Georg Rehm. Language Technologies for Big Data – A Strategic Agenda for the Multilingual Digital Single Market. BDVA Summit (Big Data Value Association), Valencia, Spain, December 2016. December 1, 2016.
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
Georg Rehm. Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda for the Multilingual Digital Single Market. Future and Emerging Trends in Language Technologies, Machine Learning and Big Data (FETLT 2016), Seville, Spain, November 2016. November 30, 2016.
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Zur texttechnologischen Modellierung linguistischer Korpora
1. Zur texttechnologischen Modellierung
linguistischer Korpora
Georg Rehm
georg.rehm@gmail.com
http://georg-re.hm
Georg Rehm: Zur texttechnologischen Modellierung linguistischerBochum, 9. Juli 2007
Ruhr-Universität Korpora
1/35
2. Gliederung
•
•
SGML und XML: Metasprachen für
Auszeichnungssprachen
Auszeichnungssprachen für die Annotation von Korpora
-
-
Anwendungen
-
Probleme
-
•
Überblick
Lösungsansatz
Schlussfolgerungen und Ausblick
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
2/35
3. Markup-Sprachen – Auszeichnungssprachen
•
Erlauben die Verknüpfung von Text (Primärdaten) und Metadaten.
•
Beispiele: HTML, LaTeX, SGML, XML, troff, TexMecs, LMNL.
•
SGML und XML sind Metasprachen zur Definition von
Auszeichnungssprachen wie z.B. XHTML oder DocBook.
- SGML (1987): Standard Generalized Markup Language (ISO)
- XML (1998): Extensible Markup Language (W3C)
- Dokumentgrammatiken (z.B. DTDs) spezifizieren Regeln für gültige
Kombinationen von Elementen und Attributen.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
3/35
4. Von SGML und XML zur Texttechnologie
•
Traditionell das primäre Anwendungsgebiet von SGML/XML: Electronic
Publishing; seit 1990er Jahren: das Web.
DTD-Fragment:
!ELEMENT article (date, body)
!ELEMENT date
(month, day, year, time)
!ELEMENT body
(headline, paragraph+)
...
article
body
date
month
•
Texttechnologie:
day
year
time
headline
paragraph
08
08
2003
12:00
Der ...
Die ...
Die linguistisch motivierte Informationsanreicherung und Verarbei-tung
digitaler Texte mit standardisierten Auszeichnungssprachen.
(Rehm, 2004)
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
4/35
5. Gliederung
•
SGML und XML: Metasprachen für Auszeichnungssprachen
•
Auszeichnungssprachen für die Annotation von Korpora
- Überblick
- Anwendungen
- Probleme
- Lösungsansatz
•
Schlussfolgerungen und Ausblick
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
5/35
6. Auszeichnungssprachen für die Korpusannotation
•
•
“The nice thing about standards is that you have so many to chose from;
furthermore, if you do not like any of them, you can just wait for next
year’s model.” (Andrew Tanenbaum, 1981)
Es existieren zahlreiche Werkzeuge, Formate und Standards zur
Auszeichnung von Korpora, z.B.:
AGTK, Alembic Workbench, annotate, ATLAS, CES/XCES, CHILDES/
CHAT, CLaRK, CLinkA, CWB/CQP, ELAN, Exmaralda, GATE, HCRC
Map Task, ISLE, LACITO, LAF/DCR, LDC, MATE/NITE, MMAX, MUC,
NIST, NITE XML Toolkit, PALinkA, Partitur, Paula, Praat, SUSANNE/
CHRISTINE, Switchboard, Systemic Coder, TASX, TEI, TIMIT,
Treebank, TreeBanker, Tusnelda, WordFreak.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
6/35
7. Auszeichnungssprachen für die Korpusannotation
•
1. Generation
- Einfache ASCII-Formate (z.B. csv oder tsv)
- Lisp-ähnliche Klammerformate (z.B. Penn Treebank)
- Linguistische Beschreibung: Wortarten, Syntax
•
2. Generation
- SGML-, später auch XML-Anwendungen (z.B. TEI, CES, XCES)
- Zwei Paradigmen: Zeitachsen vs. Hierarchien
- Linguistische Beschreibung: Wortarten, Syntax, Semantik
•
3. Generation
- Strikt Unicode- und XML-basiert
- Stand-off Annotation: Multiple linguistische Annotationsebenen beziehen sich auf ein
Set von Primärdaten (z.B. NITE, Paula)
- Einsatz weiterer Standards der XML-Familie (XPointer, XPath)
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
7/35
8. Zwei Paradigmen: Zeitachse vs. Hierarchie
•
Annotationsparadigma I: Zeitachse
- Die primäre Relation zwischen zwei Elementen ist definiert durch
ihre Positionen auf einer Zeitachse.
- Entspricht Annotationsgraphen (Bird und Liberman, 2001).
- Primär verwendet für Transkription gesprochener Sprache.
•
Annotationsparadigma II: Hierarchie
- Die primäre Relation zwischen zwei Elementen ist definiert durch
ihre Positionen in einer geordneten Hierarchie.
- Text als OHCO (“ordered hierarchy of content objects”).
- Primär verwendet für geschriebene Sprache.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
8/35
9. W3C Semantic Web: Stack of Standards
Von der Bandbreite der zahlreichen W3CStandards wird derzeit im text- und
korpustechnologischen Bereich
noch kein Gebrauch gemacht.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
9/35
10. Anwendungen linguistischer Korpora
•
Was Linguisten, Computerlinguisten, Informatiker etc. heutzutage gerne
mit linguistischen Korpora anstellen würden:
- Finden – um es z.B. zu vermeiden, unter Umständen extrem viel
Arbeit in den Aufbau eines Korpus zu investieren, wenn bereits ein
vergleichbares Korpus existiert.
- Recherche in Metadaten einer großen Korpuskollektion.
- Browsing und Visualisierung – Exploration eines Korpus bzw.
einer Gruppe von Korpora.
- Querying – Komplexe Anfragen stellen, und zwar an mehrere,
heterogen annotierte Korpora gleichzeitig.
- Ausdrucken bzw. in Publikationen übernehmen –
Multiple Ausgabeformate sollten unterstützt werden (auch Print und
gängige Textverarbeitungsformate).
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
10/35
11. Anwendungen linguistischer Korpora
Status Quo
Korpus1
Korpus2
Korpus3
Korpus4
Korpusn
Suche
Suche
Suche
Suche
Suche
TEI
Exmaralda
Tusnelda
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
XCES
…
11/35
12. Anwendungen linguistischer Korpora
best case scenario
Korpus1
TEI
Korpus2
Exmaralda
Korpus3
Tusnelda
Korpus4
XCES
Korpusn
…
Erzeugung von Interoperabilität durch eine Korpus-Datenbank
Visualisieren (SVG)
Browsing
Suche etc.
Transformieren (ODF)
…
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
12/35
13. Formate zur Korpusannotation – Probleme
•
Heterogenität: Es existieren sehr viele Formate.
•
Formate nehmen immer Bezug auf eine linguistische Theorie:
- Theorie hat Einfluss auf Namen von Elementen und Attributen.
- Viele Formate sind daher konzeptionell nicht vereinbar
(z.B. Konstituenz vs. Dependenz).
•
•
•
Mangelnde Interoperabilität: Ein gemeinsames Format, das alle Formate
subsumiert, kann nicht geschaffen werden
(z.B. zeitachsensbasierte vs. hierarchische Annotation).
Meist parallele Annotation mehrerer linguistischer Beschreibungs-ebenen
(Kompromisse gerade bei 2G-Ansätzen).
Schlechte Anwendung von XML, z.B. PCDATA-Inhalt, der für
Primärdaten und für Annotationen gleichzeitig benutzt wird.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
13/35
14. Formate zur Korpusannotation – Lösungsansatz
•
Homogenisierung für die Interoperabilität:
- Konzeptionelle Angleichung der jeweiligen Notationsarten.
§ XML-Ebene:
Elemente, Attribute, Text (PCDATA)
§ Datenebene:
Primärdaten, Metadaten (d.h. Annotationen)
- Separierung der Annotationsebenen von single-file Korpora.
§ Wesentliches Problem: Überlappende Annotationen.
•
Standard-konforme Datenhaltung (W3C, ISO TC37 SC4).
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
14/35
15. Formate zur Korpusannotation – Szenario
•
Ziel ist die Zusammenführung und Homogenisierung der Formate
- Tusnelda
SFB 441 „Linguistische Datenstrukturen“
- Exmaralda
SFB 538 „Mehrsprachigkeit“
- Paula
•
SFB 632 „Informationsstruktur“
Generalisierung über diese Formate, d.h. insbesondere über
- Hierarchische Annotation (Tusnelda) und
- Graphen-basierte Annotation (Exmaralda).
•
Konzeptionelle Anlehnung an Nite Object Model (Carletta, Kilgour,
O‘Donnell, Evert, Heid und Voormann, 2003) als Datenmodell.
- NOM erlaubt es, mehrere Bäume über Blätter zu spannen.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
15/35
16. Ziel: Annotationen mit mehrwurzligen Bäumen
cat:
tobi:
frame
buy
syntax
S
syntax
VP
buy
prosody
H*
felement
agt
felement
pat
felement
ben
syntax
PP
for
child
antecedent
:hlem
word
man
NN
0.0
word
bought
VBD
word
these
DT
1.0
phase:
word
toys
NNS
word
for
IN
2.0
gphase
prep
gphase
stroke
hand:
target:
type:
gphase
hold
gesture
right
toys
deictic
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
tobi:
prosody
H*L
syntax
NP
child
syntax
NP
toy
syntax
NP
man
word
orth: the
pos: DT
:cat
:prep
word
his
PP$
word
children
NNS
3.0
t [s]
gphase
retract
gesture
hand:
left
type: discursive
16/35
17. Verarbeitung der Korpusdaten: Phase 1 (von 2)
semiautomatische Verarbeitung der Ebene
der physikalischen XML-Annotationsschichten
Korpusn
Korpus2
Korpus1
Beispiel: Tusnelda
Format x
(tag set)
Format y
(tag set)
Format z
(tag set)
Beispiel: Leveler
Tool1
Tool2
Tool3
mehrwurzliger
Baum
mehrwurzliger
Baum
mehrwurzliger
Baum
XML Datenbank
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
17/35
18. Leveler: Separierung von Annotationsschichten
•
•
•
PHP und diverse
XSLT-Stylesheets
Verarbeitet beliebige
XML-Dateien
Ablauf (vereinfacht):
1. Korpus-Upload
2. Benennung der
Annotationsschichten
3. Zuordnung der
XML-Elemente
zu den Schichten
(nächste Folie)
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
18/35
19. Leveler: Separierung von Annotationsschichten
•
•
•
Separierung eines Korpus in
einzelne Schichten
Von einem single-rooted tree zu
einem multi-rooted tree
Im Folgenden:
- Beispiel aus dem SFB 441,
Projekt A3 „Suboptimale
syntaktische Strukturen“
(Wolfgang Sternefeld)
- Annotationsformat: Tusnelda
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
19/35
21. Leveler: Anwendung – orth Elemente
Die Primärdaten (der eigentliche Textinhalt)
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
21/35
22. Leveler: Anwendung – #PCDATA Inhalt
Primärdaten ≠ PCDATA-Inhalt
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
22/35
23. Leveler: Ergebnis der Anwendung
Tokenweise Abbildung der Primärdaten auf Annotationsschichten
Die Schwester t habe ich gestern von Sarah t kennengelernt
... Orth
.............................. Orth
... token
.............................. token
... POS: noun .............................. POS: verb
... Desc.
.............................. Desc.
... Morph:acc .............................. Morph:participle
... ---
.............................. ntNode
... ---
.............................. ntNodeCat
... ---
.............................. funct=head
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
23/35
24. Der Lösungsansatz im Detail
•
XML-basierte Korpora werden in einzelne XML-Dateien separiert.
- Diese Dateien entsprechen Annotationsschichten.
- Sie sind – einzeln – mit XML-Standardverfahren anfragbar.
•
•
Problem: Die Menge von n XML-Dateien, die n Ebenen beschreiben, ist
nicht mit XML-Standardverfahren anfragbar.
Zusätzliche Schwierigkeit:
- Die Korpora besitzen unterschiedliche Annotationsformate, d.h.
- Bezeichnungen von XML-Elementen und XML-Attributen sind nicht
einheitlich.
- Macht effizientes Querying nahezu unmöglich.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
24/35
25. Verarbeitung der Korpusdaten: Phase 2 (von 2)
Manuelle Analyse der konzeptuellen Annotationsebenen
und ihre Formalisierung als OWL-Ontologien
semiautomatische Verarbeitung der Ebene
der physikalischen XML-Annotationsschichten
Korpus3
Korpus2
Korpus1
Format x
(tag set)
Format y
(tag set)
Format z
(tag set)
Formales Mo-
dell z (OWL)
Formales Mo-
dell y (OWL)
Formales Mo-
dell x (OWL)
Tool1
Tool2
Tool3
mehrwurzliger
Baum
mehrwurzliger
Baum
mehrwurzliger
Baum
Verknüpfung
Annotations-
schema x
Verknüpfung
Annotations-
schema y
Verknüpfung
Annotations-
schema z
OWL-basierte Referenz-Ontologie
linguistischer Termini und Konzepte
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
XML Datenbank
25/35
26. OWL-Ontologie zur Integration von Terminologien
•
Die Ontologie setzt die Elemente und Attribute von
Auszeichnungssprachen zueinander in Beziehung.
•
Initiale Exemplifizierung an part-of-speech tags.
•
Terminologische Referenz: EAGLES.
•
Status Quo: Integration von neun tag sets.
•
GOLD und DOLCE können als upper models
eingesetzt werden.
eagles.owl
stts.owl
susanne.owl
menota.owl
stts-link.rdf
...
susanne-link.rdf
menota-link.rdf
importiert
verwendetes Modell
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
model.rdf
26/35
27. Szenario: Querying schematisch
Drei Korpora, die aus je vier Annotationsebenen bestehen, somit in drei mal
vier separate XML-Dateien aufgeteilt wurden und nun angefragt werden sollen.
XML-11
XML-12
XML-13
XML-14
XML-21
XML-22
XML-23
XML-24
XML-31
XML-32
XML-33
XML-34
Anfrage
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
27/35
28. Konzeption der Query-Schnittstelle
XML-11
XML-12
XML-13
Querying mehrwurzliger Bäume mit XQuery-Anfragen erfordert zusätzlichen
Aufwand, der z.B. durch eine Erweiterung von eXist realisiert werden kann.
XML-1n
XML-21
XML-22
XML-23
XML-2n
XML-n1
XML-n2
XML-n3
XML-nm
XQuery-Engine
Ontologie
Input (XQuery)
Output (XML)
XML-Output kann wieder
als Input dienen.
eXist
Die Ontologie erzeugt einschrän-
kende Klauseln für die XQuery-Formel.
Visualisierung-1
Dateinamen der beteiligten
Annotationsebenen etc.
Kompilierung einer
Zwischenrepräsentation
Visualisierung-2
Visualisierung-n
XML-Repräsentation der
Abfrage-Templates
Grafischer Baukasten
(Abfrage-Templates)
Freie XQuery-Eingabe
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
28/35
29. Querying mehrwurzliger Bäume
•
Technologische Basis: XQuery; native XML-Datenbank eXist
•
Erweiterung von eXist: Drei Funktionen, implementiert in Java
- ds:layer()
- seq:overlapping()
- txt:get-text()
•
Liefert das Wurzelelement eines Layers
Liefert überlappende Elemente
Liefert die Primärdaten für Elemente
Prinzip der Formulierung von Querys:
- Spezifizierung der Annotationsebenen mittels XPath
- Ergebnisse der XPath-Anfragen werden durch Referenzen auf ein
gemeinsames Signal kombiniert (mittels seq:overlapping)
- Retrieval eines Teils der Primärdaten zur Generierung eines
Resultats (mittels txt:get-text)
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
29/35
30. Beispiel I: Grammatik/Intonation
Primary Data
signal id=A
Okay well you turn right and you go along the corridor and you turn left into the second little
corridor and as soon as you do that the office will be straight on your right
/signal
Clause Layer
layer id=text_into.clause
clauses
clause comp=cont rel=init
Finde alle Intonationseinheiten, die eine Phrasengrenze beinhalten:
seg s=0 e=23 sig=AOkay well you turn right/seg/clause
clause comp=cont rel=para
seg s=25 e=53 sig=Aand you go along the corridor/seg/clause
let
$c := ds:layer('text_into.clause')//clause
clause comp=cont rel=para
$i in ds:layer('text_into.inton')//inton-unit/t
seg s=55 e=103for
sig=Aand you turn left into the second little corridor/seg/clause
clause comp=cont rel=hypo
where count(seq:overlapping($i, $c)) gt 1
seg s=105 e=130 sig=Aand as soon as you do that/seg/clause
clause comp=fin return iunit{txt:get-text($i)}/iunit
seg s=132 e=172 sig=Athe office will be straight on your right/seg/clause
iunitridor and/iunit
clauses
/layer
layer id=text_into.inton
inton-units
inton-unit tone=t3
tseg s=0 e=17 sig=AOkay well you turn/seg/t
emphseg s=19 e=23 sig=Aright/seg/emph
/inton-unit
inton-unit tone=t3
tseg s=25 e=44 sig=Aand you go along the/seg/t
...
/inton-unit
/inton-units
/layer
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
Intonation Layer
30/35
31. Beispiel II: Parallele Texte
signal id=C.1Er schloss das Tor ab/signal
signal id=C.2He locked the gate/signal
Zwei Signale bzw. Primärdaten
layer id=test_en_de.align
Alignment Layer
alignment
align
i role=deseg s=0 alle englischen Verbformen (sowie ihre jeweiligen deutschen Über-setzungen),
Finde e=1 sig=C.1Er/seg/i
Part-of-speech Layer
i role=enseg s=0 e=1 sig=C.2He/seg/i
die sich ein oder zwei Tokens links von einem Artikel befinden:
(nicht dargestellt)
/align
align
for
$eng in ds:layer('test_en.pos.tnt')//token,
i role=de
$aln in ds:layer('test_en_de.align')//align
seg s=3 e=9 sig=C.1schloss/seg
seg s=19 e=20 sig=C.1ab/seg
let
$next := $eng/following::token[position()2]
/i
where seq:overlapping($eng, $aln//i[@role='en'])
i role=enseg s=3 e=8 sig=C.2locked/seg/i
and starts-with($eng/@pos, 'V')
/align
and starts-with($next/@feature, 'DT')
align
return
i role=deseg s=11 e=13 sig=C.1das/seg/i
t
i role=enseg s=10 e=12 sig=C.2the/seg/i
eng{txt:get-text($eng)}/eng
/align
align
ger{txt:get-text($aln//i[@role='de'])}/ger
i role=deseg s=15 e=17 sig=C.1Tor/seg/i
/t
i role=enseg s=14 e=17 sig=C.2gate/seg/i
/align
t
/alignment
englocked/eng
/layer
gerschloss ab/ger
/t
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
31/35
32. Beispiel III: Querying mit der Ontologie
•
Der OntoClient expandiert abstrakte Bezeichnungen linguistischer
Konzepte und erzeugt auf diese Weise Query-Constraints:
for
$eng in ds:layer('test_en.pos.tnt')//token,
$aln in ds:layer('test_en_de.align')//align
let
$next := $eng/following::token[position()2]
where seq:overlapping($eng, $aln//i[@role='en'])
and starts-with($eng/@pos, 'V')
and starts-with($next/@feature, 'DT')
return […]
$eng in ds:layer('test_en.pos.tnt')//token,
$aln in ds:layer('test_en_de.align')//align
let
$next := $eng/following::token[position()2]
where seq:overlapping($eng, $aln//i[@role='en'])
and {$eng in Verb}
and {$next in Determiner}
return […]
Ursprüngliche Query
for
•
Modifizierte Query
Vorverarbeitung durch OntoClient
erzeugt XQuery-Formel
Homogenisierung heterogener Auszeichnungssprachen durch
Abstraktion über die tatsächlichen Elementnamen.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
32/35
33. Gliederung
•
SGML und XML: Metasprachen für Auszeichnungssprachen
•
Auszeichnungssprachen für die Annotation von Korpora
- Überblick
- Anwendungen
- Probleme
- Lösungsansatz
•
Schlussfolgerungen und Ausblick
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
33/35
34. Zusammenfassung
•
•
Es existieren hunderte von Korpusannotationsformaten.
Lösungsansatz zur nachhaltigen Interoperabilität XML-annotierter
linguistischer Korpora:
- Separierung der eigentlichen Annotations-
schichten mit Werkzeugen (Leveler;
Splitter für Zeitachsen-Daten).
- OWL-Ontologie gewährleistet
Interoperabilität.
- Querying mehrwurzliger Bäume
erfordert Mehraufwand gegen-
über dem traditionellen
XML-Paradigma.
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
34/35
35. Aktuelle Arbeiten und Ausblick
•
Implementierung einer nutzerfreundlichen Query-Schnittstelle
•
Implementierung der Web-basierten Korpus-Plattform
•
•
•
Vollständige Aufbereitung der existierenden XML-basierten Korpora
und Import in die Korpus-Plattform
Verarbeitung von legacy data – Korpora, die in anderen Formaten
vorliegen (z.B. MS Access, ASCII, IBM DB/2, MySQL etc.)
Verarbeitung anderer Datentypen (semantische Lexika und mittels
Umfragen und Fragebögen erhobene Sprecherurteile)
Georg Rehm: Zur texttechnologischen Modellierung linguistischer Korpora
35/35
36. Q/A
Zur texttechnologischen Modellierung
linguistischer Korpora
Georg Rehm
georg.rehm@gmail.com
http://georg-re.hm
Georg Rehm: Zur texttechnologischen Modellierung linguistischerBochum, 9. Juli 2007
Ruhr-Universität Korpora
36/35