Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und
Hypertextsorten in computerlinguistische und
sprachtechnologische Anwendungen
!
Georg Rehm
!
!
!
georg.rehm@gmail.com
!
http://georg-re.hm
!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische !
Universität Zürich, 27. November 2006
und sprachtechnologische Anwendungen! 1/26!

Ausgangssituation!
• 

• 

Menschen beherrschen den Umgang mit Dutzenden von Textsorten"
(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!
In der Sprachtechnologie spielen Textsorten bislang praktisch keine
Rolle:!
-  Aspekte einer Textsorte werden implizit in den Algorithmus oder die
Prozesslogik einer Anwendung integriert, z.B. in!
!  CiteSeer (Giles et al. 1998):

!

!  DataRover (Davulcu et al. 2003):

!Publikationsliste!
!Produktkatalog/Produktinformationen!

-  Explizites Wissen über Textsorten wird nicht zur Parametrisierung
sprachtechnologischer Anwendungen eingesetzt.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!

Proﬁtierende Anwendungen!
• 

Tagging und Parsing!

• 

Maschinelles Textzusammenfassen!

• 

Informations-/Metadatenextraktion!

• 

Information Retrieval!

• 

Textkategorisierung!

• 

Question Answering !

• 

Textsorte X
!
Input (Texte)
!

Textsorte Y
!
Textsorte Z
!

Vorverarbeitung
!

Wissen über!
Textsorte X!

Mobile Device Adaptation!

• 

Korpuslinguistische Analysen!

• 

Lernen von Ontologien!

• 

Visualisierung
!

Wissen über!
Textsorte Y!

Wissen über!
Textsorte Z!

E-Learning-Tools (Essay Grading)!

• 

Algorithmen
!

...!

Output
!


Textsorten und Texttechnologie!
• 

• 

Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative
Funktion, thematische Markierung, speziﬁsche Kommunikationspartner"
(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!
Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!
!Linguistisch motivierte Informationsanreicherung und Verarbeitung
digitaler Texte mit standardisierten Auszeichnungssprachen.!

• 

Repräsentation z.B. mittels XML Schema oder DTD:!
<!ELEMENT article (date, body)>
<!ELEMENT date
(month, day, year, time)>
<!ELEMENT body
(headline, paragraph+)>
...
month!
08!

• 

article!
body!

date!
day!

year!

time!

headline!

paragraph!

08!

2003!

12:00!

Der ...!

Die ...!

Es existieren viele ﬂankierende W3C XML-Standards, aber auch Lücken
(z.B. Verfahren zur Repräsentation von Texttypologien).!


Gliederung!
• 
• 

Ausgangssituation und konzeptionelle Ausrichtung!
Ein Hypertextsortenmodell und die
Hypertextsortenontologie!

• 

Exemplarische Anwendung!

• 

Schlussfolgerungen – Ausblick – Perspektiven!


Ein Hypertextsortenmodell!
• 

Kontext: Anwendung zur Informationsrecherche und Web as Corpus!
-  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!
-  Diskrepanz: Web as Corpus Community vs. Hypertextsorten!

• 

Hypertextsorten: Stand der Forschung!
!Weder Theoriekonsens noch präzise Erkenntnisse über die Speziﬁka
(z.B. ihre Granularität; kanonisches Inventar).!

• 

Das Hypertextsortenmodell ist Grundlage für!
-  (text)linguistische Analysen von Hypertextexemplaren,!
-  eine Systemarchitektur, die die Integration von Wissen über Textund Hypertextsorten in sprachtechnologische Anwendungen
ermöglicht.!


Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!
Hypertextsorte:!
Webauftritt"
einer Universität!

Eingebettete Hypertextsorten:!
Webauftritt einer Fakultät!

Eingebettete Hypertextsorte:!
Webauftritt eines Instituts bzw. Seminars!


Ebene der Konstituenz II: Hypertextsortenmodul!
!Publikationsliste!


Ebene der Konstituenz III: Hypertextknotensorte!
!Beruﬂiche Homepage eines Wissenschaftlers!


Generischer Aufbau einer Hypertextsorte!
Merkmale:!
• 
Kommunikative Funktion!
• 
Kontextuelle Faktoren!
• 
Inhalt/Thema!
• 
Interaktion!
• 
Strukturierung!
• 
Kommunikation!
• 
Dekoration!

besitzt!

Hypertextsorte i!
kann fungieren als!

besteht aus!

besitzt identischen Aufbau!

Hypertextsortenmodul 1...n!
Hypertextknotensorte 1...n! Hypertextsorte 0...n!
wird eingebettet in oder!
kann fungieren als!

kann fungieren als!

Optionale Hyper-!
textsortenmodule 0...n!

Obligatorische Hyper-!
textsortenmodule 1...n!

prägen aus!
Typen:!
• 
Inhalt/Thema!
• 
Interaktion!
• 
Kommunikation!
• 
Navigation!
• 
Metainformation!
• 
Dekoration!
• 
Textstrukturmuster!

umfasst konventiona-!
lisierte Vorbelegung!

Optionale Hyper-!
textsorten 0...n!

Obligatorische Hyper-!
textsorten 0...n!

besitzt!

Merkmale:!
• 
Positionierung!
• 
Kommunikative Funktion!
• 
Dekoration!


Tool chain zur Sammlung eines Korpus!
!

*.unizh.ch!

HTTP Header
!
(Perl)
!

Web-Crawler (Pavuk)!
Sprachenidentiﬁzierer (Perl)!

DB!
(MySQL)!

Korpus:!
UNIX-!
Filesystem!

PHP!

Webserver (Apache)!

Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!


Repräsentation von Hypertextsorten durch Ontologien!
• 

Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und
Hypertextsorten als Ressource für sprachtechnologische
Anwendungen.!
!Alternative Vorschläge (nicht implementiert):!
- 
- 

• 

Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!
Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!

Web as Corpus-Vorgehensweise:!
- 

Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von
100 universitären Webauftritten (ca. 41 GB).!

- 

Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!

- 

Basis der Ontologie: Empirisch erstellte Hypertextsortenproﬁle.!

- 

Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!


Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!

das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!


Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!
• 
• 
• 

Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!
Deﬁnitionen als Subklassen der Klasse Hypertexttyp.
Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!


Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!
Homepage einer Person!


Gliederung!
• 


• 

Ein Hypertextsortenmodell und die Hypertextsortenontologie!

• 


• 



Maschinelle Identifizierung von Hypertextsorten!
• 

Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich

(vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!
• 

Es existieren mehrere ungelöste Probleme, z.B.:!
1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist
weder textlinguistisch reflektiert noch empirisch motiviert.!
2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 WebGenres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!
3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert
(einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!
4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der
Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!

• 

Entwurf einer Architektur, um diesen Problemen zu begegnen.!


Systemarchitektur (partiell implementiert)!
externe!
Ressource!

Hypertextsortenontologie!
externe!
Ressource!

annotiertes!
Trainings-!
korpus!

Erkennung von!
Hypertextknotensorten!

externe!
Ressource!

externe!
Ressource!

Erkennung von!
Hypertextsorten!

POS-Tagger!
Tokenisierer!

externe!
Ressource!

Textparser!

Korpusdatenbank!

Erkennung der Grenzen!
eines Hypertextes!

XML-!
Dateien!

Visualisierung!
mittels XSLT!

Korpus:"
HTML-!
Dateien!


Textparsing zur Erkennung der Textstruktur!
• 

Funktionen des Textparsers:!
-  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse),"
d.h. Identifizierung der Bausteine der Textoberfläche.!
-  Reduktion des HTML-Markups auf ein überschaubares Inventar von
Makrostrukturbausteinen.!
-  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!

• 

Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur:
Analyse der struktur- und layoutorientierten Elemente und Attribute.!

• 

Multi-Ebenen-Annotation.!

• 

Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code
(vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!


Textparser mit interaktiver Analyseoberﬂäche: Beispiel!


Exemplarische Anwendung: Informationsextraktion!

<Identifikation>
<Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/>
<Name>
<Vorname>Claudia</Vorname>
WrapperI!
<Nachname>Kinitz</Nachname>
</Name>
<Affiliation>Institut für ...</Affiliation>
</Identifikation>

WrapperL!
Lebenslauf, biografische Angaben!
<Lebenslauf>
<Eintrag>geboren am 20. Juni ...</Eintrag>
<Eintrag>WS 1994 – SS 1999 ...</Eintrag>
<Eintrag>November 1999 – ...</Eintrag>
<Eintrag>Lebensmittelchemikerin</Eintrag>
<Eintrag>seit Januar 2001 ...</Eintrag>
</Lebenslauf>

Identifikation!
Foto!
<Kontaktinformationen>
<Strassenadresse>
Name!
<Strasse>Endenicher ...</Strasse> Affiliation!
<Hausnummer>11-13</Hausnummer>
<PLZ>53115</PLZ>
<Stadt>Bonn</Stadt>
<Land>Deutschland</Land>
WrapperK!
</Strassenadresse>
<Telefon>+49 (0)228 ...</Telefon>
<Fax>+49 (0)228 ...</Fax>
<E-Mail>c.kinitz@...</E-Mail>
Kontaktinformationen!
</Kontaktinformationen>
<DatumDerLetztenAenderung>
<Tag no="29"/>
<Monat no="8" name="August"/>
<Jahr>2001</Jahr>
</DatumDerLetztenAenderung>

Straßenadresse!
Telefon!
Fax!
E-Mail!
Datum der letzten Änderung!
WrapperD!

<WissenschaftlichesProfil>
<Forschungsinteressen>
<Eintrag>Identifizierung und ...</Eintrag>
<Eintrag>Betreuung von ...</Eintrag>
</Forschungsinteressen>
<Publikationsliste>
<LitEintrag>A Mellen ...</LitEintrag>
<LitEintrag>A Mellen ...</LitEintrag>
</Publikationsliste>
</WissenschaftlichesProfil>

Wissenschaftliches Profil!
Publikationsliste!
Forschungsinteressen!

WrapperP!


Gliederung!
• 


• 

Ein Hypertextsortenmodell und die Hypertextsortenontologie!

• 


• 



Zusammenfassung und Schlussfolgerungen!
• 

• 
• 

Wissen über Text- und Hypertextsorten kann gewinnbringend in
sprachtechnologischen Systemen eingesetzt werden.!
Es existiert kein Standard zur Repräsentation von Textsortenwissen.!
Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und
Hypertextsorten kann diese Aufgabe übernehmen.!
-  Konstituenten von und Relationen zwischen Hypertextsorten.!
-  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!

• 

Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste
Implementierung der Architektur scheint derzeit nicht realistisch.!


Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

• 

Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

• 

• 

Vereinfachung der Systemarchitektur und Reduktion der Komplexität
der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h.
Suche nach Dokumenten in nutzerspeziﬁzierten Hypertextsorten.!


Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

• 

Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

• 

• 

Vereinfachung der Systemarchitektur und Reduktion der Komplexität
der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h.
Suche nach Dokumenten in nutzerspeziﬁzierten Hypertextsorten.!
-  „Zimt und Koriander“ in Kochrezept!
-  „Zimt und Koriander“ in Rezension!
-  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!


Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Ähnlich wie Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen (17)

Mehr von Georg Rehm

Mehr von Georg Rehm (20)

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen