Zur Integration von Wissen über Text- und
Hypertextsorten in computerlinguistische und
sprachtechnologische Anwendungen
!
...
Ausgangssituation!
• 

• 

Menschen beherrschen den Umgang mit Dutzenden von Textsorten"
(z.B. Liebesbrief, Einkaufszettel...
Profitierende Anwendungen!
• 

Tagging und Parsing!

• 

Maschinelles Textzusammenfassen!

• 

Informations-/Metadatenextra...
Textsorten und Texttechnologie!
• 

• 

Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative
Funktion, th...
Gliederung!
• 
• 

Ausgangssituation und konzeptionelle Ausrichtung!
Ein Hypertextsortenmodell und die
Hypertextsortenonto...
Ein Hypertextsortenmodell!
• 

Kontext: Anwendung zur Informationsrecherche und Web as Corpus!
-  Hypertext macht Erweiter...
Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!
Hypertextsorte:!
Webauftritt"
einer Universität!

Eingebettete Hy...
Ebene der Konstituenz II: Hypertextsortenmodul!
!Publikationsliste!

Zur Integration von Wissen über Text- und Hypertextso...
Ebene der Konstituenz III: Hypertextknotensorte!
!Berufliche Homepage eines Wissenschaftlers!

Zur Integration von Wissen ü...
Generischer Aufbau einer Hypertextsorte!
Merkmale:!
• 
Kommunikative Funktion!
• 
Kontextuelle Faktoren!
• 
Inhalt/Thema!
...
Tool chain zur Sammlung eines Korpus!
!

*.unizh.ch!

HTTP Header
!
(Perl)
!

Web-Crawler (Pavuk)!
Sprachenidentifizierer (...
Repräsentation von Hypertextsorten durch Ontologien!
• 

Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und
...
Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!

das Hypertext-!
sortenmodell!
als OWL-Ont...
Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!
• 
• 
• 

Umfasst vier Hypertextsorten (...
Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!
Homepage einer Person!

Zur Integration von Wisse...
Gliederung!
• 

Ausgangssituation und konzeptionelle Ausrichtung!

• 

Ein Hypertextsortenmodell und die Hypertextsortenon...
Maschinelle Identifizierung von Hypertextsorten!
• 

Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich
...
Systemarchitektur (partiell implementiert)!
externe!
Ressource!

Hypertextsortenontologie!
externe!
Ressource!

annotierte...
Textparsing zur Erkennung der Textstruktur!
• 

Funktionen des Textparsers:!
-  Ermittlung der tatsächlichen Textstruktur ...
Textparser mit interaktiver Analyseoberfläche: Beispiel!

Zur Integration von Wissen über Text- und Hypertextsorten in comp...
Textparser mit interaktiver Analyseoberfläche: Beispiel!

Zur Integration von Wissen über Text- und Hypertextsorten in comp...
Exemplarische Anwendung: Informationsextraktion!

<Identifikation>
<Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"...
Gliederung!
• 

Ausgangssituation und konzeptionelle Ausrichtung!

• 

Ein Hypertextsortenmodell und die Hypertextsortenon...
Zusammenfassung und Schlussfolgerungen!
• 

• 
• 

Wissen über Text- und Hypertextsorten kann gewinnbringend in
sprachtech...
Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautom...
Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautom...
Nächste SlideShare
Wird geladen in …5
×

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

570 Aufrufe

Veröffentlicht am

Georg Rehm. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen. Universität Zürich, Switzerland, November 2006. November 9, 2006. Invited talk.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
570
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
2
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

  1. 1. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen ! Georg Rehm ! ! ! georg.rehm@gmail.com ! http://georg-re.hm ! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische ! Universität Zürich, 27. November 2006 und sprachtechnologische Anwendungen! 1/26!
  2. 2. Ausgangssituation! •  •  Menschen beherrschen den Umgang mit Dutzenden von Textsorten" (z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).! In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:! -  Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in! !  CiteSeer (Giles et al. 1998): ! !  DataRover (Davulcu et al. 2003): !Publikationsliste! !Produktkatalog/Produktinformationen! -  Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!
  3. 3. Profitierende Anwendungen! •  Tagging und Parsing! •  Maschinelles Textzusammenfassen! •  Informations-/Metadatenextraktion! •  Information Retrieval! •  Textkategorisierung! •  Question Answering ! •  Textsorte X ! Input (Texte) ! Textsorte Y ! Textsorte Z ! Vorverarbeitung ! Wissen über! Textsorte X! Mobile Device Adaptation! •  Korpuslinguistische Analysen! •  Lernen von Ontologien! •  Visualisierung ! Wissen über! Textsorte Y! Wissen über! Textsorte Z! E-Learning-Tools (Essay Grading)! •  Algorithmen ! ...! Output ! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!
  4. 4. Textsorten und Texttechnologie! •  •  Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner" (siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).! Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:! !Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.! •  Repräsentation z.B. mittels XML Schema oder DTD:! <!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ... month! 08! •  article! body! date! day! year! time! headline! paragraph! 08! 2003! 12:00! Der ...! Die ...! Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!
  5. 5. Gliederung! •  •  Ausgangssituation und konzeptionelle Ausrichtung! Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!
  6. 6. Ein Hypertextsortenmodell! •  Kontext: Anwendung zur Informationsrecherche und Web as Corpus! -  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.! -  Diskrepanz: Web as Corpus Community vs. Hypertextsorten! •  Hypertextsorten: Stand der Forschung! !Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).! •  Das Hypertextsortenmodell ist Grundlage für! -  (text)linguistische Analysen von Hypertextexemplaren,! -  eine Systemarchitektur, die die Integration von Wissen über Textund Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!
  7. 7. Ebene der Konstituenz I: (Eingebettete) Hypertextsorten! Hypertextsorte:! Webauftritt" einer Universität! Eingebettete Hypertextsorten:! Webauftritt einer Fakultät! Eingebettete Hypertextsorte:! Webauftritt eines Instituts bzw. Seminars! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!
  8. 8. Ebene der Konstituenz II: Hypertextsortenmodul! !Publikationsliste! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!
  9. 9. Ebene der Konstituenz III: Hypertextknotensorte! !Berufliche Homepage eines Wissenschaftlers! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!
  10. 10. Generischer Aufbau einer Hypertextsorte! Merkmale:! •  Kommunikative Funktion! •  Kontextuelle Faktoren! •  Inhalt/Thema! •  Interaktion! •  Strukturierung! •  Kommunikation! •  Dekoration! besitzt! Hypertextsorte i! kann fungieren als! besteht aus! besitzt identischen Aufbau! Hypertextsortenmodul 1...n! Hypertextknotensorte 1...n! Hypertextsorte 0...n! wird eingebettet in oder! kann fungieren als! kann fungieren als! Optionale Hyper-! textsortenmodule 0...n! Obligatorische Hyper-! textsortenmodule 1...n! prägen aus! Typen:! •  Inhalt/Thema! •  Interaktion! •  Kommunikation! •  Navigation! •  Metainformation! •  Dekoration! •  Textstrukturmuster! umfasst konventiona-! lisierte Vorbelegung! Optionale Hyper-! textsorten 0...n! Obligatorische Hyper-! textsorten 0...n! besitzt! Merkmale:! •  Positionierung! •  Kommunikative Funktion! •  Dekoration! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!
  11. 11. Tool chain zur Sammlung eines Korpus! ! *.unizh.ch! HTTP Header ! (Perl) ! Web-Crawler (Pavuk)! Sprachenidentifizierer (Perl)! DB! (MySQL)! Korpus:! UNIX-! Filesystem! PHP! Webserver (Apache)! Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!
  12. 12. Repräsentation von Hypertextsorten durch Ontologien! •  Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.! !Alternative Vorschläge (nicht implementiert):! -  -  •  Repräsentation durch „facets“ (Crowston und Kwasnik 2004).! Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).! Web as Corpus-Vorgehensweise:! -  Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).! -  Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.! -  Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.! -  Zusätzlich: Domänen-Ontologie und Themen-Ontologie.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!
  13. 13. Die Hypertextsortenontologie! das Hypertext-! sortenmodell! in abstrakter Form! das Hypertext-! sortenmodell! als OWL-Ontologie! (Ausschnitt)! Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!
  14. 14. Die Hypertextsortenontologie (Ausschnitt)! Hypertexttyp Software-Dokumentation:! •  •  •  Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).! Definitionen als Subklassen der Klasse Hypertexttyp. Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!
  15. 15. Die Hypertextsortenontologie (Ausschnitt)! Typologie des Hypertexttyps! Homepage einer Person! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!
  16. 16. Gliederung! •  Ausgangssituation und konzeptionelle Ausrichtung! •  Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!
  17. 17. Maschinelle Identifizierung von Hypertextsorten! •  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).! •  Es existieren mehrere ungelöste Probleme, z.B.:! 1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.! 2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 WebGenres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?! 3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).! 4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).! •  Entwurf einer Architektur, um diesen Problemen zu begegnen.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!
  18. 18. Systemarchitektur (partiell implementiert)! externe! Ressource! Hypertextsortenontologie! externe! Ressource! annotiertes! Trainings-! korpus! Erkennung von! Hypertextknotensorten! externe! Ressource! externe! Ressource! Erkennung von! Hypertextsorten! POS-Tagger! Tokenisierer! externe! Ressource! Textparser! Korpusdatenbank! Erkennung der Grenzen! eines Hypertextes! XML-! Dateien! Visualisierung! mittels XSLT! Korpus:" HTML-! Dateien! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 18/26!
  19. 19. Textparsing zur Erkennung der Textstruktur! •  Funktionen des Textparsers:! -  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse)," d.h. Identifizierung der Bausteine der Textoberfläche.! -  Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.! -  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).! •  Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.! •  Multi-Ebenen-Annotation.! •  Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!
  20. 20. Textparser mit interaktiver Analyseoberfläche: Beispiel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!
  21. 21. Textparser mit interaktiver Analyseoberfläche: Beispiel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!
  22. 22. Exemplarische Anwendung: Informationsextraktion! <Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> WrapperI! <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation> WrapperL! Lebenslauf, biografische Angaben! <Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf> Identifikation! Foto! <Kontaktinformationen> <Strassenadresse> Name! <Strasse>Endenicher ...</Strasse> Affiliation! <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> WrapperK! </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> Kontaktinformationen! </Kontaktinformationen> <DatumDerLetztenAenderung> <Tag no="29"/> <Monat no="8" name="August"/> <Jahr>2001</Jahr> </DatumDerLetztenAenderung> Straßenadresse! Telefon! Fax! E-Mail! Datum der letzten Änderung! WrapperD! <WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil> Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen! WrapperP! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!
  23. 23. Gliederung! •  Ausgangssituation und konzeptionelle Ausrichtung! •  Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!
  24. 24. Zusammenfassung und Schlussfolgerungen! •  •  •  Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.! Es existiert kein Standard zur Repräsentation von Textsortenwissen.! Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.! -  Konstituenten von und Relationen zwischen Hypertextsorten.! -  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.! •  Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!
  25. 25. Ausblick und Perspektiven! •  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs). ! •  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.! •  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).! •  •  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).! Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!
  26. 26. Ausblick und Perspektiven! •  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs). ! •  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.! •  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).! •  •  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).! Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.! -  „Zimt und Koriander“ in Kochrezept! -  „Zimt und Koriander“ in Rezension! -  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!

×