SlideShare ist ein Scribd-Unternehmen logo
Zur Integration von Wissen über Text- und
Hypertextsorten in computerlinguistische und
sprachtechnologische Anwendungen
!
Georg Rehm
!
!
!
georg.rehm@gmail.com
!
http://georg-re.hm
!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische !
Universität Zürich, 27. November 2006
und sprachtechnologische Anwendungen! 1/26!
Ausgangssituation!
• 

• 

Menschen beherrschen den Umgang mit Dutzenden von Textsorten"
(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!
In der Sprachtechnologie spielen Textsorten bislang praktisch keine
Rolle:!
-  Aspekte einer Textsorte werden implizit in den Algorithmus oder die
Prozesslogik einer Anwendung integriert, z.B. in!
!  CiteSeer (Giles et al. 1998):

!

!  DataRover (Davulcu et al. 2003):

!Publikationsliste!
!Produktkatalog/Produktinformationen!

-  Explizites Wissen über Textsorten wird nicht zur Parametrisierung
sprachtechnologischer Anwendungen eingesetzt.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!
Profitierende Anwendungen!
• 

Tagging und Parsing!

• 

Maschinelles Textzusammenfassen!

• 

Informations-/Metadatenextraktion!

• 

Information Retrieval!

• 

Textkategorisierung!

• 

Question Answering !

• 

Textsorte X
!
Input (Texte)
!

Textsorte Y
!
Textsorte Z
!

Vorverarbeitung
!

Wissen über!
Textsorte X!

Mobile Device Adaptation!

• 

Korpuslinguistische Analysen!

• 

Lernen von Ontologien!

• 

Visualisierung
!

Wissen über!
Textsorte Y!

Wissen über!
Textsorte Z!

E-Learning-Tools (Essay Grading)!

• 

Algorithmen
!

...!

Output
!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!
Textsorten und Texttechnologie!
• 

• 

Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative
Funktion, thematische Markierung, spezifische Kommunikationspartner"
(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!
Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!
!Linguistisch motivierte Informationsanreicherung und Verarbeitung
digitaler Texte mit standardisierten Auszeichnungssprachen.!

• 

Repräsentation z.B. mittels XML Schema oder DTD:!
<!ELEMENT article (date, body)>
<!ELEMENT date
(month, day, year, time)>
<!ELEMENT body
(headline, paragraph+)>
...
month!
08!

• 

article!
body!

date!
day!

year!

time!

headline!

paragraph!

08!

2003!

12:00!

Der ...!

Die ...!

Es existieren viele flankierende W3C XML-Standards, aber auch Lücken
(z.B. Verfahren zur Repräsentation von Texttypologien).!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!
Gliederung!
• 
• 

Ausgangssituation und konzeptionelle Ausrichtung!
Ein Hypertextsortenmodell und die
Hypertextsortenontologie!

• 

Exemplarische Anwendung!

• 

Schlussfolgerungen – Ausblick – Perspektiven!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!
Ein Hypertextsortenmodell!
• 

Kontext: Anwendung zur Informationsrecherche und Web as Corpus!
-  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!
-  Diskrepanz: Web as Corpus Community vs. Hypertextsorten!

• 

Hypertextsorten: Stand der Forschung!
!Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika
(z.B. ihre Granularität; kanonisches Inventar).!

• 

Das Hypertextsortenmodell ist Grundlage für!
-  (text)linguistische Analysen von Hypertextexemplaren,!
-  eine Systemarchitektur, die die Integration von Wissen über Textund Hypertextsorten in sprachtechnologische Anwendungen
ermöglicht.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!
Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!
Hypertextsorte:!
Webauftritt"
einer Universität!

Eingebettete Hypertextsorten:!
Webauftritt einer Fakultät!

Eingebettete Hypertextsorte:!
Webauftritt eines Instituts bzw. Seminars!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!
Ebene der Konstituenz II: Hypertextsortenmodul!
!Publikationsliste!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!
Ebene der Konstituenz III: Hypertextknotensorte!
!Berufliche Homepage eines Wissenschaftlers!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!
Generischer Aufbau einer Hypertextsorte!
Merkmale:!
• 
Kommunikative Funktion!
• 
Kontextuelle Faktoren!
• 
Inhalt/Thema!
• 
Interaktion!
• 
Strukturierung!
• 
Kommunikation!
• 
Dekoration!

besitzt!

Hypertextsorte i!
kann fungieren als!

besteht aus!

besitzt identischen Aufbau!

Hypertextsortenmodul 1...n!
Hypertextknotensorte 1...n! Hypertextsorte 0...n!
wird eingebettet in oder!
kann fungieren als!

kann fungieren als!

Optionale Hyper-!
textsortenmodule 0...n!

Obligatorische Hyper-!
textsortenmodule 1...n!

prägen aus!
Typen:!
• 
Inhalt/Thema!
• 
Interaktion!
• 
Kommunikation!
• 
Navigation!
• 
Metainformation!
• 
Dekoration!
• 
Textstrukturmuster!

umfasst konventiona-!
lisierte Vorbelegung!

Optionale Hyper-!
textsorten 0...n!

Obligatorische Hyper-!
textsorten 0...n!

besitzt!

Merkmale:!
• 
Positionierung!
• 
Kommunikative Funktion!
• 
Dekoration!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!
Tool chain zur Sammlung eines Korpus!
!

*.unizh.ch!

HTTP Header
!
(Perl)
!

Web-Crawler (Pavuk)!
Sprachenidentifizierer (Perl)!

DB!
(MySQL)!

Korpus:!
UNIX-!
Filesystem!

PHP!

Webserver (Apache)!

Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!
Repräsentation von Hypertextsorten durch Ontologien!
• 

Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und
Hypertextsorten als Ressource für sprachtechnologische
Anwendungen.!
!Alternative Vorschläge (nicht implementiert):!
- 
- 

• 

Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!
Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!

Web as Corpus-Vorgehensweise:!
- 

Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von
100 universitären Webauftritten (ca. 41 GB).!

- 

Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!

- 

Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.!

- 

Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!
Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!

das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!
Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!
• 
• 
• 

Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!
Definitionen als Subklassen der Klasse Hypertexttyp.
Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!
Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!
Homepage einer Person!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!
Gliederung!
• 

Ausgangssituation und konzeptionelle Ausrichtung!

• 

Ein Hypertextsortenmodell und die Hypertextsortenontologie!

• 

Exemplarische Anwendung!

• 

Schlussfolgerungen – Ausblick – Perspektiven!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!
Maschinelle Identifizierung von Hypertextsorten!
• 

Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich

(vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!
• 

Es existieren mehrere ungelöste Probleme, z.B.:!
1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist
weder textlinguistisch reflektiert noch empirisch motiviert.!
2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 WebGenres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!
3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert
(einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!
4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der
Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!

• 

Entwurf einer Architektur, um diesen Problemen zu begegnen.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!
Systemarchitektur (partiell implementiert)!
externe!
Ressource!

Hypertextsortenontologie!
externe!
Ressource!

annotiertes!
Trainings-!
korpus!

Erkennung von!
Hypertextknotensorten!

externe!
Ressource!

externe!
Ressource!

Erkennung von!
Hypertextsorten!

POS-Tagger!
Tokenisierer!

externe!
Ressource!

Textparser!

Korpusdatenbank!

Erkennung der Grenzen!
eines Hypertextes!

XML-!
Dateien!

Visualisierung!
mittels XSLT!

Korpus:"
HTML-!
Dateien!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 18/26!
Textparsing zur Erkennung der Textstruktur!
• 

Funktionen des Textparsers:!
-  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse),"
d.h. Identifizierung der Bausteine der Textoberfläche.!
-  Reduktion des HTML-Markups auf ein überschaubares Inventar von
Makrostrukturbausteinen.!
-  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!

• 

Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur:
Analyse der struktur- und layoutorientierten Elemente und Attribute.!

• 

Multi-Ebenen-Annotation.!

• 

Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code
(vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!
Textparser mit interaktiver Analyseoberfläche: Beispiel!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!
Textparser mit interaktiver Analyseoberfläche: Beispiel!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!
Exemplarische Anwendung: Informationsextraktion!

<Identifikation>
<Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/>
<Name>
<Vorname>Claudia</Vorname>
WrapperI!
<Nachname>Kinitz</Nachname>
</Name>
<Affiliation>Institut für ...</Affiliation>
</Identifikation>

WrapperL!
Lebenslauf, biografische Angaben!
<Lebenslauf>
<Eintrag>geboren am 20. Juni ...</Eintrag>
<Eintrag>WS 1994 – SS 1999 ...</Eintrag>
<Eintrag>November 1999 – ...</Eintrag>
<Eintrag>Lebensmittelchemikerin</Eintrag>
<Eintrag>seit Januar 2001 ...</Eintrag>
</Lebenslauf>

Identifikation!
Foto!
<Kontaktinformationen>
<Strassenadresse>
Name!
<Strasse>Endenicher ...</Strasse> Affiliation!
<Hausnummer>11-13</Hausnummer>
<PLZ>53115</PLZ>
<Stadt>Bonn</Stadt>
<Land>Deutschland</Land>
WrapperK!
</Strassenadresse>
<Telefon>+49 (0)228 ...</Telefon>
<Fax>+49 (0)228 ...</Fax>
<E-Mail>c.kinitz@...</E-Mail>
Kontaktinformationen!
</Kontaktinformationen>
<DatumDerLetztenAenderung>
<Tag no="29"/>
<Monat no="8" name="August"/>
<Jahr>2001</Jahr>
</DatumDerLetztenAenderung>

Straßenadresse!
Telefon!
Fax!
E-Mail!
Datum der letzten Änderung!
WrapperD!

<WissenschaftlichesProfil>
<Forschungsinteressen>
<Eintrag>Identifizierung und ...</Eintrag>
<Eintrag>Betreuung von ...</Eintrag>
</Forschungsinteressen>
<Publikationsliste>
<LitEintrag>A Mellen ...</LitEintrag>
<LitEintrag>A Mellen ...</LitEintrag>
</Publikationsliste>
</WissenschaftlichesProfil>

Wissenschaftliches Profil!
Publikationsliste!
Forschungsinteressen!

WrapperP!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!
Gliederung!
• 

Ausgangssituation und konzeptionelle Ausrichtung!

• 

Ein Hypertextsortenmodell und die Hypertextsortenontologie!

• 

Exemplarische Anwendung!

• 

Schlussfolgerungen – Ausblick – Perspektiven!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!
Zusammenfassung und Schlussfolgerungen!
• 

• 
• 

Wissen über Text- und Hypertextsorten kann gewinnbringend in
sprachtechnologischen Systemen eingesetzt werden.!
Es existiert kein Standard zur Repräsentation von Textsortenwissen.!
Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und
Hypertextsorten kann diese Aufgabe übernehmen.!
-  Konstituenten von und Relationen zwischen Hypertextsorten.!
-  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!

• 

Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste
Implementierung der Architektur scheint derzeit nicht realistisch.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!
Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

• 

Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

• 

• 

Vereinfachung der Systemarchitektur und Reduktion der Komplexität
der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h.
Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!
Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

• 

Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

• 

• 

Vereinfachung der Systemarchitektur und Reduktion der Komplexität
der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!
Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h.
Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!
-  „Zimt und Koriander“ in Kochrezept!
-  „Zimt und Koriander“ in Rezension!
-  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!

Weitere ähnliche Inhalte

Ähnlich wie Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Georg Rehm
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
Christian Hauschke
 
Hypertextsorten: Definition – Struktur – Klassifikation
Hypertextsorten: Definition – Struktur – KlassifikationHypertextsorten: Definition – Struktur – Klassifikation
Hypertextsorten: Definition – Struktur – Klassifikation
Georg Rehm
 
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und WerkzeugeHypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
L3T - Lehrbuch für Lehren und Lernen mit Technologie
 
Semantic Web für Menschen wie du und ich
Semantic Web für Menschen wie du und ichSemantic Web für Menschen wie du und ich
Semantic Web für Menschen wie du und ich
Tobias Kuhn
 
[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...
[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...
[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...
PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH
 
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH
 
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
Georg Rehm
 
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Georg Rehm
 
Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...
Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...
Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...
Andreas Oskar Kempf
 
L3T - Die Einleitung zum Buch
L3T - Die Einleitung zum BuchL3T - Die Einleitung zum Buch
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Georg Rehm
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Georg Rehm
 
Terminologie für Dolmetscher
Terminologie für DolmetscherTerminologie für Dolmetscher
Terminologie für Dolmetscher
Ignacio Hermo
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Matthias Arnold
 

Ähnlich wie Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen (17)

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
Hypertextsorten: Definition – Struktur – Klassifikation
Hypertextsorten: Definition – Struktur – KlassifikationHypertextsorten: Definition – Struktur – Klassifikation
Hypertextsorten: Definition – Struktur – Klassifikation
 
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und WerkzeugeHypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
 
Semantic Web für Menschen wie du und ich
Semantic Web für Menschen wie du und ichSemantic Web für Menschen wie du und ich
Semantic Web für Menschen wie du und ich
 
[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...
[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...
[DE] Multilinguale Informations- und Retrievalsysteme Technik und Anwendungsb...
 
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
 
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
[DE] Multilinguale Informations- und Retrievalsysteme: Technik und Anwendungs...
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
 
Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...
Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...
Informationsaufbereitung mit Thesauri Vorlesung Bibliotheks- und Informations...
 
L3T - Die Einleitung zum Buch
L3T - Die Einleitung zum BuchL3T - Die Einleitung zum Buch
L3T - Die Einleitung zum Buch
 
[3] Nu P 01 4
[3] Nu P 01 4[3] Nu P 01 4
[3] Nu P 01 4
 
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
 
Terminologie für Dolmetscher
Terminologie für DolmetscherTerminologie für Dolmetscher
Terminologie für Dolmetscher
 
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
Videoannotationsdatenbank Pan.do/ra in der HRA ("Loosing my religion" - Kunst...
 

Mehr von Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Georg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
Georg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Georg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
Georg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
Georg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
Georg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
Georg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
Georg Rehm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Georg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
Georg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
Georg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Georg Rehm
 

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

  • 1. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen ! Georg Rehm ! ! ! georg.rehm@gmail.com ! http://georg-re.hm ! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische ! Universität Zürich, 27. November 2006 und sprachtechnologische Anwendungen! 1/26!
  • 2. Ausgangssituation! •  •  Menschen beherrschen den Umgang mit Dutzenden von Textsorten" (z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).! In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:! -  Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in! !  CiteSeer (Giles et al. 1998): ! !  DataRover (Davulcu et al. 2003): !Publikationsliste! !Produktkatalog/Produktinformationen! -  Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!
  • 3. Profitierende Anwendungen! •  Tagging und Parsing! •  Maschinelles Textzusammenfassen! •  Informations-/Metadatenextraktion! •  Information Retrieval! •  Textkategorisierung! •  Question Answering ! •  Textsorte X ! Input (Texte) ! Textsorte Y ! Textsorte Z ! Vorverarbeitung ! Wissen über! Textsorte X! Mobile Device Adaptation! •  Korpuslinguistische Analysen! •  Lernen von Ontologien! •  Visualisierung ! Wissen über! Textsorte Y! Wissen über! Textsorte Z! E-Learning-Tools (Essay Grading)! •  Algorithmen ! ...! Output ! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!
  • 4. Textsorten und Texttechnologie! •  •  Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner" (siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).! Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:! !Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.! •  Repräsentation z.B. mittels XML Schema oder DTD:! <!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ... month! 08! •  article! body! date! day! year! time! headline! paragraph! 08! 2003! 12:00! Der ...! Die ...! Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!
  • 5. Gliederung! •  •  Ausgangssituation und konzeptionelle Ausrichtung! Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!
  • 6. Ein Hypertextsortenmodell! •  Kontext: Anwendung zur Informationsrecherche und Web as Corpus! -  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.! -  Diskrepanz: Web as Corpus Community vs. Hypertextsorten! •  Hypertextsorten: Stand der Forschung! !Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).! •  Das Hypertextsortenmodell ist Grundlage für! -  (text)linguistische Analysen von Hypertextexemplaren,! -  eine Systemarchitektur, die die Integration von Wissen über Textund Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!
  • 7. Ebene der Konstituenz I: (Eingebettete) Hypertextsorten! Hypertextsorte:! Webauftritt" einer Universität! Eingebettete Hypertextsorten:! Webauftritt einer Fakultät! Eingebettete Hypertextsorte:! Webauftritt eines Instituts bzw. Seminars! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!
  • 8. Ebene der Konstituenz II: Hypertextsortenmodul! !Publikationsliste! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!
  • 9. Ebene der Konstituenz III: Hypertextknotensorte! !Berufliche Homepage eines Wissenschaftlers! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!
  • 10. Generischer Aufbau einer Hypertextsorte! Merkmale:! •  Kommunikative Funktion! •  Kontextuelle Faktoren! •  Inhalt/Thema! •  Interaktion! •  Strukturierung! •  Kommunikation! •  Dekoration! besitzt! Hypertextsorte i! kann fungieren als! besteht aus! besitzt identischen Aufbau! Hypertextsortenmodul 1...n! Hypertextknotensorte 1...n! Hypertextsorte 0...n! wird eingebettet in oder! kann fungieren als! kann fungieren als! Optionale Hyper-! textsortenmodule 0...n! Obligatorische Hyper-! textsortenmodule 1...n! prägen aus! Typen:! •  Inhalt/Thema! •  Interaktion! •  Kommunikation! •  Navigation! •  Metainformation! •  Dekoration! •  Textstrukturmuster! umfasst konventiona-! lisierte Vorbelegung! Optionale Hyper-! textsorten 0...n! Obligatorische Hyper-! textsorten 0...n! besitzt! Merkmale:! •  Positionierung! •  Kommunikative Funktion! •  Dekoration! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!
  • 11. Tool chain zur Sammlung eines Korpus! ! *.unizh.ch! HTTP Header ! (Perl) ! Web-Crawler (Pavuk)! Sprachenidentifizierer (Perl)! DB! (MySQL)! Korpus:! UNIX-! Filesystem! PHP! Webserver (Apache)! Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!
  • 12. Repräsentation von Hypertextsorten durch Ontologien! •  Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.! !Alternative Vorschläge (nicht implementiert):! -  -  •  Repräsentation durch „facets“ (Crowston und Kwasnik 2004).! Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).! Web as Corpus-Vorgehensweise:! -  Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).! -  Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.! -  Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.! -  Zusätzlich: Domänen-Ontologie und Themen-Ontologie.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!
  • 13. Die Hypertextsortenontologie! das Hypertext-! sortenmodell! in abstrakter Form! das Hypertext-! sortenmodell! als OWL-Ontologie! (Ausschnitt)! Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!
  • 14. Die Hypertextsortenontologie (Ausschnitt)! Hypertexttyp Software-Dokumentation:! •  •  •  Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).! Definitionen als Subklassen der Klasse Hypertexttyp. Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!
  • 15. Die Hypertextsortenontologie (Ausschnitt)! Typologie des Hypertexttyps! Homepage einer Person! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!
  • 16. Gliederung! •  Ausgangssituation und konzeptionelle Ausrichtung! •  Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!
  • 17. Maschinelle Identifizierung von Hypertextsorten! •  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).! •  Es existieren mehrere ungelöste Probleme, z.B.:! 1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.! 2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 WebGenres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?! 3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).! 4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).! •  Entwurf einer Architektur, um diesen Problemen zu begegnen.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!
  • 18. Systemarchitektur (partiell implementiert)! externe! Ressource! Hypertextsortenontologie! externe! Ressource! annotiertes! Trainings-! korpus! Erkennung von! Hypertextknotensorten! externe! Ressource! externe! Ressource! Erkennung von! Hypertextsorten! POS-Tagger! Tokenisierer! externe! Ressource! Textparser! Korpusdatenbank! Erkennung der Grenzen! eines Hypertextes! XML-! Dateien! Visualisierung! mittels XSLT! Korpus:" HTML-! Dateien! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 18/26!
  • 19. Textparsing zur Erkennung der Textstruktur! •  Funktionen des Textparsers:! -  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse)," d.h. Identifizierung der Bausteine der Textoberfläche.! -  Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.! -  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).! •  Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.! •  Multi-Ebenen-Annotation.! •  Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!
  • 20. Textparser mit interaktiver Analyseoberfläche: Beispiel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!
  • 21. Textparser mit interaktiver Analyseoberfläche: Beispiel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!
  • 22. Exemplarische Anwendung: Informationsextraktion! <Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> WrapperI! <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation> WrapperL! Lebenslauf, biografische Angaben! <Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf> Identifikation! Foto! <Kontaktinformationen> <Strassenadresse> Name! <Strasse>Endenicher ...</Strasse> Affiliation! <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> WrapperK! </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> Kontaktinformationen! </Kontaktinformationen> <DatumDerLetztenAenderung> <Tag no="29"/> <Monat no="8" name="August"/> <Jahr>2001</Jahr> </DatumDerLetztenAenderung> Straßenadresse! Telefon! Fax! E-Mail! Datum der letzten Änderung! WrapperD! <WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil> Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen! WrapperP! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!
  • 23. Gliederung! •  Ausgangssituation und konzeptionelle Ausrichtung! •  Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!
  • 24. Zusammenfassung und Schlussfolgerungen! •  •  •  Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.! Es existiert kein Standard zur Repräsentation von Textsortenwissen.! Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.! -  Konstituenten von und Relationen zwischen Hypertextsorten.! -  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.! •  Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!
  • 25. Ausblick und Perspektiven! •  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs). ! •  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.! •  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).! •  •  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).! Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!
  • 26. Ausblick und Perspektiven! •  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs). ! •  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.! •  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).! •  •  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).! Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.! -  „Zimt und Koriander“ in Kochrezept! -  „Zimt und Koriander“ in Rezension! -  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!