Georg Rehm. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen. Universität Zürich, Switzerland, November 2006. November 9, 2006. Invited talk.
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen
1. Zur Integration von Wissen über Text- und
Hypertextsorten in computerlinguistische und
sprachtechnologische Anwendungen
!
Georg Rehm
!
!
!
georg.rehm@gmail.com
!
http://georg-re.hm
!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische !
Universität Zürich, 27. November 2006
und sprachtechnologische Anwendungen! 1/26!
2. Ausgangssituation!
•
•
Menschen beherrschen den Umgang mit Dutzenden von Textsorten"
(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!
In der Sprachtechnologie spielen Textsorten bislang praktisch keine
Rolle:!
- Aspekte einer Textsorte werden implizit in den Algorithmus oder die
Prozesslogik einer Anwendung integriert, z.B. in!
! CiteSeer (Giles et al. 1998):
!
! DataRover (Davulcu et al. 2003):
!Publikationsliste!
!Produktkatalog/Produktinformationen!
- Explizites Wissen über Textsorten wird nicht zur Parametrisierung
sprachtechnologischer Anwendungen eingesetzt.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!
3. Profitierende Anwendungen!
•
Tagging und Parsing!
•
Maschinelles Textzusammenfassen!
•
Informations-/Metadatenextraktion!
•
Information Retrieval!
•
Textkategorisierung!
•
Question Answering !
•
Textsorte X
!
Input (Texte)
!
Textsorte Y
!
Textsorte Z
!
Vorverarbeitung
!
Wissen über!
Textsorte X!
Mobile Device Adaptation!
•
Korpuslinguistische Analysen!
•
Lernen von Ontologien!
•
Visualisierung
!
Wissen über!
Textsorte Y!
Wissen über!
Textsorte Z!
E-Learning-Tools (Essay Grading)!
•
Algorithmen
!
...!
Output
!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!
4. Textsorten und Texttechnologie!
•
•
Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative
Funktion, thematische Markierung, spezifische Kommunikationspartner"
(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!
Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!
!Linguistisch motivierte Informationsanreicherung und Verarbeitung
digitaler Texte mit standardisierten Auszeichnungssprachen.!
•
Repräsentation z.B. mittels XML Schema oder DTD:!
<!ELEMENT article (date, body)>
<!ELEMENT date
(month, day, year, time)>
<!ELEMENT body
(headline, paragraph+)>
...
month!
08!
•
article!
body!
date!
day!
year!
time!
headline!
paragraph!
08!
2003!
12:00!
Der ...!
Die ...!
Es existieren viele flankierende W3C XML-Standards, aber auch Lücken
(z.B. Verfahren zur Repräsentation von Texttypologien).!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!
5. Gliederung!
•
•
Ausgangssituation und konzeptionelle Ausrichtung!
Ein Hypertextsortenmodell und die
Hypertextsortenontologie!
•
Exemplarische Anwendung!
•
Schlussfolgerungen – Ausblick – Perspektiven!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!
6. Ein Hypertextsortenmodell!
•
Kontext: Anwendung zur Informationsrecherche und Web as Corpus!
- Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!
- Diskrepanz: Web as Corpus Community vs. Hypertextsorten!
•
Hypertextsorten: Stand der Forschung!
!Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika
(z.B. ihre Granularität; kanonisches Inventar).!
•
Das Hypertextsortenmodell ist Grundlage für!
- (text)linguistische Analysen von Hypertextexemplaren,!
- eine Systemarchitektur, die die Integration von Wissen über Textund Hypertextsorten in sprachtechnologische Anwendungen
ermöglicht.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!
7. Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!
Hypertextsorte:!
Webauftritt"
einer Universität!
Eingebettete Hypertextsorten:!
Webauftritt einer Fakultät!
Eingebettete Hypertextsorte:!
Webauftritt eines Instituts bzw. Seminars!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!
8. Ebene der Konstituenz II: Hypertextsortenmodul!
!Publikationsliste!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!
9. Ebene der Konstituenz III: Hypertextknotensorte!
!Berufliche Homepage eines Wissenschaftlers!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!
10. Generischer Aufbau einer Hypertextsorte!
Merkmale:!
•
Kommunikative Funktion!
•
Kontextuelle Faktoren!
•
Inhalt/Thema!
•
Interaktion!
•
Strukturierung!
•
Kommunikation!
•
Dekoration!
besitzt!
Hypertextsorte i!
kann fungieren als!
besteht aus!
besitzt identischen Aufbau!
Hypertextsortenmodul 1...n!
Hypertextknotensorte 1...n! Hypertextsorte 0...n!
wird eingebettet in oder!
kann fungieren als!
kann fungieren als!
Optionale Hyper-!
textsortenmodule 0...n!
Obligatorische Hyper-!
textsortenmodule 1...n!
prägen aus!
Typen:!
•
Inhalt/Thema!
•
Interaktion!
•
Kommunikation!
•
Navigation!
•
Metainformation!
•
Dekoration!
•
Textstrukturmuster!
umfasst konventiona-!
lisierte Vorbelegung!
Optionale Hyper-!
textsorten 0...n!
Obligatorische Hyper-!
textsorten 0...n!
besitzt!
Merkmale:!
•
Positionierung!
•
Kommunikative Funktion!
•
Dekoration!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!
11. Tool chain zur Sammlung eines Korpus!
!
*.unizh.ch!
HTTP Header
!
(Perl)
!
Web-Crawler (Pavuk)!
Sprachenidentifizierer (Perl)!
DB!
(MySQL)!
Korpus:!
UNIX-!
Filesystem!
PHP!
Webserver (Apache)!
Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!
12. Repräsentation von Hypertextsorten durch Ontologien!
•
Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und
Hypertextsorten als Ressource für sprachtechnologische
Anwendungen.!
!Alternative Vorschläge (nicht implementiert):!
-
-
•
Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!
Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!
Web as Corpus-Vorgehensweise:!
-
Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von
100 universitären Webauftritten (ca. 41 GB).!
-
Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!
-
Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.!
-
Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!
13. Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!
das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!
14. Die Hypertextsortenontologie (Ausschnitt)!
Hypertexttyp Software-Dokumentation:!
•
•
•
Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!
Definitionen als Subklassen der Klasse Hypertexttyp.
Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!
15. Die Hypertextsortenontologie (Ausschnitt)!
Typologie des Hypertexttyps!
Homepage einer Person!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!
16. Gliederung!
•
Ausgangssituation und konzeptionelle Ausrichtung!
•
Ein Hypertextsortenmodell und die Hypertextsortenontologie!
•
Exemplarische Anwendung!
•
Schlussfolgerungen – Ausblick – Perspektiven!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!
17. Maschinelle Identifizierung von Hypertextsorten!
•
Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich
(vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!
•
Es existieren mehrere ungelöste Probleme, z.B.:!
1. Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist
weder textlinguistisch reflektiert noch empirisch motiviert.!
2. Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 WebGenres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!
3. Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert
(einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!
4. Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der
Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!
•
Entwurf einer Architektur, um diesen Problemen zu begegnen.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!
19. Textparsing zur Erkennung der Textstruktur!
•
Funktionen des Textparsers:!
- Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse),"
d.h. Identifizierung der Bausteine der Textoberfläche.!
- Reduktion des HTML-Markups auf ein überschaubares Inventar von
Makrostrukturbausteinen.!
- Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!
•
Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur:
Analyse der struktur- und layoutorientierten Elemente und Attribute.!
•
Multi-Ebenen-Annotation.!
•
Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code
(vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!
20. Textparser mit interaktiver Analyseoberfläche: Beispiel!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!
21. Textparser mit interaktiver Analyseoberfläche: Beispiel!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!
22. Exemplarische Anwendung: Informationsextraktion!
<Identifikation>
<Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/>
<Name>
<Vorname>Claudia</Vorname>
WrapperI!
<Nachname>Kinitz</Nachname>
</Name>
<Affiliation>Institut für ...</Affiliation>
</Identifikation>
WrapperL!
Lebenslauf, biografische Angaben!
<Lebenslauf>
<Eintrag>geboren am 20. Juni ...</Eintrag>
<Eintrag>WS 1994 – SS 1999 ...</Eintrag>
<Eintrag>November 1999 – ...</Eintrag>
<Eintrag>Lebensmittelchemikerin</Eintrag>
<Eintrag>seit Januar 2001 ...</Eintrag>
</Lebenslauf>
Identifikation!
Foto!
<Kontaktinformationen>
<Strassenadresse>
Name!
<Strasse>Endenicher ...</Strasse> Affiliation!
<Hausnummer>11-13</Hausnummer>
<PLZ>53115</PLZ>
<Stadt>Bonn</Stadt>
<Land>Deutschland</Land>
WrapperK!
</Strassenadresse>
<Telefon>+49 (0)228 ...</Telefon>
<Fax>+49 (0)228 ...</Fax>
<E-Mail>c.kinitz@...</E-Mail>
Kontaktinformationen!
</Kontaktinformationen>
<DatumDerLetztenAenderung>
<Tag no="29"/>
<Monat no="8" name="August"/>
<Jahr>2001</Jahr>
</DatumDerLetztenAenderung>
Straßenadresse!
Telefon!
Fax!
E-Mail!
Datum der letzten Änderung!
WrapperD!
<WissenschaftlichesProfil>
<Forschungsinteressen>
<Eintrag>Identifizierung und ...</Eintrag>
<Eintrag>Betreuung von ...</Eintrag>
</Forschungsinteressen>
<Publikationsliste>
<LitEintrag>A Mellen ...</LitEintrag>
<LitEintrag>A Mellen ...</LitEintrag>
</Publikationsliste>
</WissenschaftlichesProfil>
Wissenschaftliches Profil!
Publikationsliste!
Forschungsinteressen!
WrapperP!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!
23. Gliederung!
•
Ausgangssituation und konzeptionelle Ausrichtung!
•
Ein Hypertextsortenmodell und die Hypertextsortenontologie!
•
Exemplarische Anwendung!
•
Schlussfolgerungen – Ausblick – Perspektiven!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!
24. Zusammenfassung und Schlussfolgerungen!
•
•
•
Wissen über Text- und Hypertextsorten kann gewinnbringend in
sprachtechnologischen Systemen eingesetzt werden.!
Es existiert kein Standard zur Repräsentation von Textsortenwissen.!
Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und
Hypertextsorten kann diese Aufgabe übernehmen.!
- Konstituenten von und Relationen zwischen Hypertextsorten.!
- Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!
•
Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste
Implementierung der Architektur scheint derzeit nicht realistisch.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!
25. Ausblick und Perspektiven!
•
Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!
•
Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!
•
Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!
•
•
Vereinfachung der Systemarchitektur und Reduktion der Komplexität
der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h.
Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!
26. Ausblick und Perspektiven!
•
Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!
•
Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!
•
Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!
•
•
Vereinfachung der Systemarchitektur und Reduktion der Komplexität
der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h.
Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!
- „Zimt und Koriander“ in Kochrezept!
- „Zimt und Koriander“ in Rezension!
- „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!