Hypertextsorten
Neuartige Möglichkeiten der
Informationsrecherche im World Wide Web
Georg Rehm, M.A.
Angewandte Sprachwiss...
Zielsetzung
Status Quo

Aus Sicht des (unerfahrenen) Benutzers:
•  DWIM-Prinzip („Do what I mean! )
•  Spezifizierung einer Suchanfrag...
Das Ziel
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation

!
Einführung
Textsorten
!  Textlinguistik: Textsorten (Brief, Rezept, ...),
d.h. unterschiedliche Typen von Texten
Zentrale Hypothese:
...
Textsorten

Hypertextsorten
Universitäre Einstiegsseite

Suchmaschine

Buch
Tageszeitung
FAQ

eCommerce

Sammelband

Lexik...
Textsorten-Klassifikation
Fazit
Korpus

Methoden

•  Einfache Methoden liefern für wenige Textsorten sehr
Karlgren &
gute ...
Hypertextsorten-Klassifikation
Genres
Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Document Type
...
Hypertextsorten: Beispiele
!  Eine sehr interessante Hypertextsorte:
Persönliche Homepage
!  Mittlerweile: empirisch nachw...
Hypertextsorten: Beispiele
Projektverlauf – Roadmap
I. 

Empirischer, Korpus-basierter Ansatz:
" 
" 

Auswahl einer geeigneten Untersuchungsdomäne
Ko...
I. 

Empirischer, Korpus-basierter Ansatz
Untersuchungsdomäne
Korpus-Datenbank-System:

" 
" 

• 
• 
• 
• 

Datensammlung
...
Untersuchungsdomäne
!  Arbeiten aus dem „digital genre -Bereich:
" 
" 

Analyse weltweiter Stichproben ohne jegliche Einsc...
beschränken

Ausnahmen

*.uni-giessen.de

Datei-Suffixe:
Ausnahmen

Hostnames:

MIME-Typen:

Crawler (rekursiver Transfer)...
Universitäten

100

Allgemeine Universitäten (vollständig)

62

Technische Hochschulen (vollständig)

12

Musik- und Kunst...
Die durchschnittliche Webseite ...
!  ... ist 594,11 (!) Tage alt.
" 
" 

96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage
...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten...
Hypertextsorten und Ontologien
!  Viele Textsorten können hierarchisch angeordnet werden.
!  Dies trifft auch auf Hypertex...
Hypertextsorten-Module
!  Hypertextsorten werden aus Modulen gebildet.
" 

Hypertextsorten sind nicht monolithisch.

!  Di...
Hypertextsorten-Module: Beispiele
XML Schema-Repräsentationen

HypertextsortenOntologie

definieren

Default-Eigenschaften:
<Inhalt, Form, Funktion>

Hypert...
Modellierung von Hypertextsorten
!  Modellierung durch Stichproben-Analysen
" 

Semiautomatische Durchführung mit Hilfe de...
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Atomares Modul

Explizite Begrüßung

gene...
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Atomares Modul

Explizite Begrüßung

gene...
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Komplexes Modul

Kontakt-Informationen

g...
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Komplexes Modul

Universitäres Profil

sp...
Hypertextsorten-Definition
!  Modul-Reihenfolge entspricht kanonischer Sequenz
!  In dieser Stichprobe Bestimmung obligato...
Hypertextsorten: NL-Definition
!  Persönliche Homepage eines Wissenschaftlers:
" 

gekürzt

Präsentation einer Person in d...
Zwischenstand
!  Bislang wurden thematisiert:
" 

" 
" 
" 

Erzeugung eines Web-Schnappschusses einer
bestimmten Domäne, K...
Hypertextsorten-Ontologie
!  Stichproben-Analysen:
1.  Erste Stichprobe (200 Dokumente) ergab:

initiale Liste von Hyperte...
Hypnotic-Hypertextsorten-Ontologie
Version 0.4

Nur einige der noch offenen Fragen:
•  Welche unterschiedlichen Knoten-Typ...
Grobe Verteilung im 200er Sample
! 

Administrative Informationen (14)
" 
Studienordnung (2)
" 
Lehrveranstaltungsbezogene...
Detektionsmerkmale
! 

Werden eingesetzt zur
! 
! 

! 

Ansätze zur Textsorten-Klassifikation:
! 
! 

! 

Klassifikation v...
Sprachliche und strukturelle Merkmale

Titel Vorname Nachname
Universität ... → Institut ...
→ Arbeitsbereich ...
Straße H...
Merkmal: Sprachliche Konzeption
!  Koch & Oesterreicher (1994):
" 
" 

mediale
Mündlichkeit/Schriftlichkeit
konzeptionelle...
Merkmal: Sprachliche Konzeption
!  CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit
!  Berichtete Merkmale:
!  Umga...
Merkmal: Sprachliche Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des...
Merkmal: Sprachliche Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des...
Merkmal: Sprachliche Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des...
Merkmal: Sprachliche Konzeption

Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebücher, C...
Das eigentliche Ziel
!  XML Schema als Repräsentationsformat der
Hypertextsorten-Ontologie
!  Resultate des Analyse-System...
Zuweisung von Hypertextsorten-Modulen

HTSModule

HTS-Klassifikation
HTSOntologie

StrukturOntologie

AnalyseDTD

Struktur...
Konvertierung HTML → XHTML
!  HTML-Dokumente im Web enthalten sehr viel
fehlerhaftes Markup
" 

Erschwert maschinelle Vera...
Strukturanalyse
!  Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath
" 

Georg Reh...
DOM-Struktur einer XML-Instanz
erheblich gekürzt und abstrahiert
Strukturanalyse
!  Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath
" 

DOM: Docu...
Strukturanalyse
!  Die Analyse-Heuristiken legen ihre Resultate unmittelbar
in dem XHTML-Dokument ab:
" 

Deklaration eine...
Informationsextraktion
!  Wrapping: Mittlerweile triviale Anwendung
" 

Informationsextraktion aus genau einem HTMLDokumen...
Informationsextraktion
!  Definition ist unmittelbar in XPath-Ausdruck überführbar:
//* [@hypnotic:TagGroup="list"]
[@hypn...
Informationsextraktion

!
Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinfo...
Ausblick
!  Stichprobenauswertung (bottom-up) zur
Komplettierung der Hypertextsorten-Ontologie
!  Entwicklung des XML-Repr...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web
Nächste SlideShare
Wird geladen in …5
×

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

2.481 Aufrufe

Veröffentlicht am

Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Tagung der Computerlinguistik-Studierenden (TaCoS 2003), Universität Gießen, Germany, June 2003. June, 2003. Invited talk.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.481
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
3
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

  1. 1. Hypertextsorten Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Georg Rehm, M.A. Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen Georg.Rehm@uni-giessen.de http://www.uni-giessen.de/~g91063/
  2. 2. Zielsetzung
  3. 3. Status Quo Aus Sicht des (unerfahrenen) Benutzers: •  DWIM-Prinzip („Do what I mean! ) •  Spezifizierung einer Suchanfrage ist schwierig •  Es ist unklar, nach welchen Kriterien die Maschine sucht
  4. 4. Das Ziel Abstraktion über Inhalt bzw. Thema: Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation !
  5. 5. Einführung
  6. 6. Textsorten !  Textlinguistik: Textsorten (Brief, Rezept, ...), d.h. unterschiedliche Typen von Texten Zentrale Hypothese: !  Klassifikationskriterien (u.a.): Inhalt – Thema Im World Wide Web existieren Hypertextsorten "  Form – Aufbau, Struktur, Gliederung #  Nach nur wenigen Jahren (!) kanonisierte, "  Funktion – Zweck funktionsgebundene, hypertextuelle Strukturen "  kkkkkkkkkkkkkkkkkkkkk „[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind. Brinker (1985) Georg Rehm TaCoS 2003
  7. 7. Textsorten Hypertextsorten Universitäre Einstiegsseite Suchmaschine Buch Tageszeitung FAQ eCommerce Sammelband Lexikon Memo Wörterbuch Brief Instituts-Portal Mitarbeiterliste Lehrveranstaltungen Geschäftsbrief Liebesbrief Mahnung Pers. Homepage Pers. Homepage – Sekretärin – – Lehrender – Pers. Homepage – Student –
  8. 8. Textsorten-Klassifikation Fazit Korpus Methoden •  Einfache Methoden liefern für wenige Textsorten sehr Karlgren & gute Resultate Cutting (1994), DiskriminantenJeweils 500 Texte •  In diesen Ansätzen ausschließlich: ASCII-Texte (!) Analyse – 20 Recognizing Text •  Wie kann man sehr aus dem Brown viele Hypertextsorten möglichst Parameter (noun, Genres with Corpus präzise detektieren? it, adv., word etc. Simple Metrics (tagged) counts) Using Discriminant Functions Kessler, Nunberg & Schütze (1997), Automatic Detection of Text Genre Stamatatos et al. (2000), Text Genre Detection Using Common Word Frequencies ca. 500 Texte aus dem Brown Corpus (tagged) Statististik/KNNs, 55 Merkmale (Interpunktion, Affixe, Passiv, etc.) Wall Street Journal Corpus (untagged) DiskriminantenAnalyse – Worthäufigkeiten und Interpunktionsz. Genres 2.  4.  Informative, Imaginative Press, Fiction, Misc., Non-Fiction Präzision 2.  4.  ca. 96% ca. 73% 6.  Reportage, Editorial, SciTech, Legal, Non-Fiction, Fiction ca. 90% (für „reportage und „fiction ) 4.  Editorial, Letter to the Editor, Reportage, Spot news ca. 97%
  9. 9. Hypertextsorten-Klassifikation Genres Matsuda & Fukushima (1999), Task-Oriented World Wide Web Retrieval by Document Type Classification Karlgren et al. (1998), Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres Methoden 9: prod. catalogue, online shop, advertisement for help, CfP, links, FAQ, glossary, home page, bulletin board Gewichtetes PatternMatching in HTMLElementen Merkmale ! keyword, link, URL, structure, image, OCR, plugin 11: Informal/Private, Public/Com., Clustering der insgesamt 40 Indices, Journ. Merkmale; Merkmale, z.B. Material, Reports, Fazit Konstruktion Vorkommen von Text, FAQ, Link von if-thenWörtern und •  Einfache Methoden liefern für wenige HypertextColl., Listings/Regeln HTML-Elementen sorten sehr gute Tables, Discussio- Resultate •  Sind Messages ns, Error diese Ergebnisse auf sehr viele, tw. recht ähnliche Hypertextsorten übertragbar? •  Auswahl und Granularität der gewählten Hypertextsorten ad hoc, nicht textlinguistisch motiviert! Präzision avg. precision of document-type search: 88,9% [avg. precision of keyword-based search: 31,2%] Zwischen 30% und 90%, je nach Genre
  10. 10. Hypertextsorten: Beispiele !  Eine sehr interessante Hypertextsorte: Persönliche Homepage !  Mittlerweile: empirisch nachweisbare, subgenerische Varianten, u.a.: "  "  "  Persönliche Homepage eines Studierenden Persönliche Homepage eines administrativen oder technischen Mitarbeiters Persönliche Homepage eines Wissenschaftlers Beispiele aus: •  vier verschiedenen Universitäten und •  vier unterschiedlichen Disziplinen Georg Rehm TaCoS 2003
  11. 11. Hypertextsorten: Beispiele
  12. 12. Projektverlauf – Roadmap I.  Empirischer, Korpus-basierter Ansatz: "  "  Auswahl einer geeigneten Untersuchungsdomäne Korpus-Datenbank-System: 1.  2.  3.  4.  Datensammlung Implementation eines Web-basierten Front-Ends (semi-automatische) Analyse von Stichproben Erstellung einer Taxonomie von Hypertextsorten II.  Maschinelle Erkennung von Hypertextsorten: "  "  "  "  "  Georg Rehm Sammlung von Detektionsmerkmalen Generischer Aufbau von Hypertextsorten Klassifikations-Methoden und -Ansätze Generische Informationsextraktion Design und Implementierung der System-Architektur TaCoS 2003
  13. 13. I.  Empirischer, Korpus-basierter Ansatz Untersuchungsdomäne Korpus-Datenbank-System: "  "  •  •  •  •  Datensammlung Das Web-basierte Korpus-Front-End Stichprobenanalyse Eine Taxonomie von Hypertextsorten II.  Maschinelle Erkennung von Hypertextsorten "  "  "  "  Detektionsmerkmale Generischer Aufbau von Hypertextsorten Klassifikations-Methoden und -Ansätze Design der System-Architektur
  14. 14. Untersuchungsdomäne !  Arbeiten aus dem „digital genre -Bereich: "  "  Analyse weltweiter Stichproben ohne jegliche Einschränkungen Extrem grobe und wenig hilfreiche Ergebnisse !  Empirischer Ansatz erfordert: "  "  Korpus von HTML-Dokumenten als sicheren und großen Vorrat HTML-Dokumente sind „flüchtig !  Untersuchungsdomäne – Datensammlung: "  "  Deutschsprachige Dokumente der Webserver deutscher Hochschulen: •  •  •  Georg Rehm Dokumente sind stark strukturiert Kaum binäre Dateitypen als Vermittler von Text Bzgl. Inhalt und Form überschaubar (vs. kommerziellen, künstlerischen, Hobby-Angeboten) TaCoS 2003
  15. 15. beschränken Ausnahmen *.uni-giessen.de Datei-Suffixe: Ausnahmen Hostnames: MIME-Typen: Crawler (rekursiver Transfer) HTML, XML etc. Datei < 500kB? HTTP-Port = 80? Verknüpfungen Alle HTTP-Header HTML-Dokument deutschsprachig? fung knüp Ver generiert Statistik ja, speichern UNIXDateisystem liefert Daten SQLDatenbank Tilgung von Duplikaten
  16. 16. Universitäten 100 Allgemeine Universitäten (vollständig) 62 Technische Hochschulen (vollständig) 12 Musik- und Kunsthochschulen (partiell) 5 Wirtschaftshochschulen (partiell) 5 Sonstige Hochschulen (partiell) 16 Traversierte Webserver insgesamt / auf Port 80 operierend Anzahl per HTTP erreichbarer Dateien Anzahl HTML-Dokumente gesamt 14.968 / 13.885 16.196.511 8.465.105 Gesamtumfang aller entfernten Webserver 701.464,29 MB Gesamtumfang der Hypnotic-Korpusdatenbank 40.914,99 MB Laufende Wortformen (gesamt; nur text/html) 1.138.794.715 Laufende Wortformen (eindeutig; nur text/html) Gesamtanzahl Dateien im Korpus 12.120.162 4.294.417 Dateien vom Medientyp text/html 3.956.692 Dateien vom Medientyp text/plain 270.400 Dateien vom Medientyp text/css 35.651 Dateien vom Medientyp text/xml 25.871 Dateien vom Medientyp text/sgml 956 Dateien vom Medientyp message/news 490 Dateien vom Medientyp message/rfc822 436 Georg Rehm TaCoS 2003
  17. 17. Die durchschnittliche Webseite ... !  ... ist 594,11 (!) Tage alt. "  "  96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt !  ... ist 7.024 Bytes groß. "  Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte !  ... enthält 120,57 Elemente und 236,04 Attribute. "  body (98%), html (97%), head (97%), title (96%), a (87%), p (81%), br (73%), img (67%), meta (66%), table (64%). !  ... enthält 13,53 Hyperlinks. "  "  "  Etwa 56% aller Dokumente enthalten bis zu 10 Links. 90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5% zeigen auf JavaScript-Dateien. Top-Level-Domänen in entfernten Links: .de (86,7%), .com (5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%) !  Nur 46% aller HTML-Dokumente der Domäne deutschsprachig! Georg Rehm TaCoS 2003
  18. 18. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten Georg Rehm TaCoS 2003
  19. 19. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auswahl einer Universität Georg Rehm TaCoS 2003
  20. 20. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Server einer Universität Georg Rehm TaCoS 2003
  21. 21. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Dokumente eines Servers Georg Rehm TaCoS 2003
  22. 22. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Ansicht eines Dokuments Georg Rehm TaCoS 2003
  23. 23. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Generierung einer Stichprobe Georg Rehm TaCoS 2003
  24. 24. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Die Dokumente einer Stichprobe Georg Rehm TaCoS 2003
  25. 25. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse DB-gestützte Dokumentanalyse Georg Rehm TaCoS 2003
  26. 26. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse !  Einsatz von Open SourceWerkzeugen !  Spätere Veröffentlichung des Systems als Open Source Georg Rehm TaCoS 2003 Analyseergebnisse
  27. 27. Hypertextsorten und Ontologien !  Viele Textsorten können hierarchisch angeordnet werden. !  Dies trifft auch auf Hypertextsorten zu – in mehrfacher Hinsicht: "  "  "  Hypertextsorten-Ebene Hyperlink-Ebene Thematische Ebene → → → Hypertextsorten-Ontologie Struktur-Ontologie Themen-Ontologie !  Hypertextsorten-Ebene ist zentral für dieses Projekt: "  "  "  Wie sind Hypertextsorten generisch strukturiert? Wie werden diese Strukturinformationen repräsentiert? Wie kann man korrespondierende Detektionsmerkmale in diese Repräsentation integrieren? Georg Rehm TaCoS 2003
  28. 28. Hypertextsorten-Module !  Hypertextsorten werden aus Modulen gebildet. "  Hypertextsorten sind nicht monolithisch. !  Diese Module sind: "  "  obligatorisch vs. optional optisch und/oder strukturell voneinander separiert !  Persönliche Homepage eines Wissenschaftlers: "  Beispiel-Module: -  -  -  -  -  -  Georg Rehm Name (der beschriebenen Person bzw. des Autors) Kontaktinformationen Publikationen Projekte Lehrveranstaltungen ... TaCoS 2003
  29. 29. Hypertextsorten-Module: Beispiele
  30. 30. XML Schema-Repräsentationen HypertextsortenOntologie definieren Default-Eigenschaften: <Inhalt, Form, Funktion> Hypertextsorte referenzieren können fungieren als bestehen aus Obligatorische Hypertextsorten-Module kann modifizieren Optionale Hypertextsorten-Module Spezifische Eigenschaften: <Inhalt, Form, Funktion> werden je HTS gruppiert in Hypertextsortenmodule Atomare Module bzw. Merkmale spezifizieren Komplexe Module RDF-Beschreibungen von Merkmalen und Modulen HypertextsortenModul-Ontologie
  31. 31. Modellierung von Hypertextsorten !  Modellierung durch Stichproben-Analysen "  Semiautomatische Durchführung mit Hilfe des FrontEnds der Korpusdatenbank: •  Automatische Generierung von Samples •  Semiautomatische Analyse von Samples •  Sukzessive Rekonfiguration modularer Einheiten !  Beispiel: "  "  Georg Rehm Persönliche Homepage eines Wissenschaftlers Stichprobe von 100 Dokumenten TaCoS 2003
  32. 32. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Atomares Modul Explizite Begrüßung generell optional Komplexes Modul Identifikation generell obligatorisch – Komplexes Modul Eigenständige Affiliation generell obligatorisch – Atomares Modul Alternative Sprachversion generell optional Komplexes Modul Kontakt-Informationen generell obligatorisch – Komplexes Modul Kontakt-Informationen (Sekretariat) spezifisch optional – Komplexes Modul Kontakt-Informationen (Mitarbeiter) spezifisch optional – Komplexes Modul Universitäres Profil spezifisch obligatorisch – Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch – Atomares Modul Lebenslauf, C.V., biographische Angaben generell obligatorisch 60 Atomares Modul Interessante Links generell optional 12 Komplexes Modul Relevante Links generell optional – Atomares Modul Angabe der letzten Änderung / Stand universal obligatorisch 42 Atomares Modul Counter, Zugriffszähler universal optional 11 Atomares Modul Gästebuch universal optional 1 Georg Rehm TaCoS 2003 14 75
  33. 33. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Atomares Modul Explizite Begrüßung generell optional Komplexes Modul Identifikation generell obligatorisch – Merkmal Name des Homepage-Besitzers generell obligatorisch 100 Merkmal ... begleitet von Titelangabe spezifisch obligatorisch 69 Merkmal ... begleitet von Tätigkeitsangabe generell optional 27 Merkmal ... begleitet von Affiliation generell obligatorisch 34 Merkmal ... begleitet von Photos des Autors generell obligatorisch 54 Komplexes Modul Eigenständige Affiliation generell obligatorisch – Merkmal Name der Universität im Klartext generell obligatorisch 75 Merkmal Logo der Universität generell optional 16 Georg Rehm TaCoS 2003 14
  34. 34. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Komplexes Modul Kontakt-Informationen generell obligatorisch – Merkmal Straßenadresse (Univ., Straße, PLZ, ...) generell obligatorisch 90 Merkmal Explizite Postadresse generell optional Merkmal Telefonnummer generell obligatorisch Merkmal Telefonnummer (Sekretariat) generell optional Merkmal Faxnummer generell obligatorisch 66 Merkmal Email-Adresse generell obligatorisch 98 Merkmal Angabe der URL dieser Homepage generell optional Merkmal Zimmernummer generell obligatorisch Merkmal SMS senden generell optional 1 Merkmal PGP Public Key bzw. PGP Fingerprint generell optional 2 Merkmal X.500 Eintrag generell optional 2 Merkmal Informationen zur Anreise generell optional 2 Merkmal Sprechstunden spezifisch optional 2 ... ... ... ... ... Georg Rehm TaCoS 2003 8 86 7 4 30
  35. 35. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Komplexes Modul Universitäres Profil spezifisch obligatorisch – Merkmal Angaben zu Lehrveranstaltungen spezifisch obligatorisch 49 Merkmal Universitäre Funktionen (z.B. Gremien) spezifisch optional 7 Merkmal Allgemeine Studienhinweise spezifisch optional 3 Merkmal Angebotene Abschlussarbeiten spezifisch optional 2 Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch – Merkmal Publikationsliste spezifisch obligatorisch 71 Merkmal Forschungsinteressen spezifisch obligatorisch 50 Merkmal Forschungsprojekte spezifisch optional 22 Merkmal Prominent platzierte Bücher/Zeitschriften spezifisch optional 6 Merkmal Liste von Vorträgen und Präsentationen spezifisch optional 5 Merkmal Mitgliedschaften in Fachverbänden spezifisch optional 4 Merkmal Technologietransfer spezifisch optional 1 Georg Rehm TaCoS 2003
  36. 36. Hypertextsorten-Definition !  Modul-Reihenfolge entspricht kanonischer Sequenz !  In dieser Stichprobe Bestimmung obligatorisch vs. optional ab 30 Vorkommen !  Status von Modulen und Merkmalen: "  "  Kennzeichnet mögliche Vorkommen eben diesen Merkmals in höher angeordneten Hypertextsorten Beispiel: Das Modul „Kontakt-Informationen •  In persönliche Homepage eines Wissenschaftlers generell –  Auch in z.B. persönliche Homepage eines Studierenden •  Das hierin enthaltene Merkmal „Sprechstunden ist spezifisch •  Module wie „Zugriffszähler oder „Gästebuch sind universal "  Zweck: Modellierung der persönlichen Homepage eines Wissenschaftlers als subgenerische Varietät der persönlichen Homepage Georg Rehm TaCoS 2003
  37. 37. Hypertextsorten: NL-Definition !  Persönliche Homepage eines Wissenschaftlers: "  gekürzt Präsentation einer Person in digitaler, hypertextueller Form, verfasst von einem Autor, der an einer Universität oder einer vergleichbaren Institution arbeitet. Die Präsentation •  stellt die Person heraus (durch einen Namen und ein Photo) und macht eindeutige Angaben zur Affiliation, •  stellt vergangene und aktuelle Forschungsaktivitäten und •  die Berufserfahrung dar, indem das –  Universitäre Profil (Angaben zu Lehrveranstaltungen) und das –  Wissenschaftliche Profil (Publikationsliste und Forschungsinteressen) der Person aufgeführt werden. "  •  enthält Kontakt-Informationen (mindestens Straßenadresse, Telefonnummer, Email-Adresse und die Raumnummer), evtl. auch dezidiert für das Sekretariat und Mitarbeiter. Funktion dieser Hypertextsorte: (i) Etablierung eines eigenständigen wissenschaftlichen Profils; Distribution von (ii) Materialien für Lehrveranstaltungen sowie (iii) Publikationen, aktuellen Forschungsinteressen und Kontakt-Informationen. Georg Rehm TaCoS 2003
  38. 38. Zwischenstand !  Bislang wurden thematisiert: "  "  "  "  Erzeugung eines Web-Schnappschusses einer bestimmten Domäne, Korpus und Zugriffswerkzeuge Hypertextsorten Ihre Konstituierung aus Hypertextsorten-Modulen Module können sich aus einzelnen Merkmalen zusammensetzen, die auf zwei Ebenen typisiert sind !  Es stehen noch aus: "  "  "  Georg Rehm Aufbau von Hypertextsorten-Ontologien Maschinelle Klassifikation von Hypertextsorten Der zentrale Vorteil dieses Ansatzes TaCoS 2003
  39. 39. Hypertextsorten-Ontologie !  Stichproben-Analysen: 1.  Erste Stichprobe (200 Dokumente) ergab: initiale Liste von Hypertextsorten, •  extremen Bedarf für eine hierarchische Anordnung! 2.  Zwei weitere Stichproben: a.  top-down: •  •  727 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus b.  bottom-up: •  •  Georg Rehm 2000 zufällig ausgewählte „tiefe Dokumente Diese Analyse steht noch aus TaCoS 2003
  40. 40. Hypnotic-Hypertextsorten-Ontologie Version 0.4 Nur einige der noch offenen Fragen: •  Welche unterschiedlichen Knoten-Typen existieren? •  Welche dieser Typen treten in der Realität auf („Text )? •  Wie können isolierte Knoten („Linkliste ) sinnvoller in die Ontologie integriert werden? •  Welche unterschiedlichen Kanten-Typen existieren? •  Ist eine Hyperlink-Typologie sinnvoll integrierbar? •  XML als vereinheitlichendes Repräsentationsformat? Georg Rehm TaCoS 2003
  41. 41. Grobe Verteilung im 200er Sample !  Administrative Informationen (14) "  Studienordnung (2) "  Lehrveranstaltungsbezogene Informationen (2) •  Grundlegende Informationen zu einem Kurs (9) •  Kommentar (7) "  "  !  •  Übungsaufgabe (5) •  Lösungen von Aufgaben (1) •  Liste von Veranstaltungen (2) •  LV-Materialien (2) Informationen zu Stipendium (1) Stellenangebot (1) !  Institut/Lehrstuhl/Arbeitsbereich (15) "  Einstiegsseite (4) •  Konferenz (5) "  "  Universitäre Informationen (5) "  Wegbeschreibung/Lageplan (3) "  Beschreibung eines universitären Informationsangebots (1) •  84 Hypertextsorten sind enthalten. •  11 Dokumenten konnte aus technischen Gründen keine Hypertextsorte zugeordnet werden. •  4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden. "  "  •  Beschreibung einer Arbeitsgruppe (2) •  Programmüberblick (1) •  Anmeldeformular (1) Liste der Mitarbeiter (4) •  Persönliche Homepage (14) •  Wissenschaftler (4) •  Hilfskraft (3) •  Virtuelle Visitenkarte (1) Beschreibung eines Forschungsschwerpunkts (3) •  Bibliographie (9) •  eines Autors (3) •  eines Instituts (3) •  thematisch sortiert (2) •  Forschungsprojekt (9) •  Beschreibung (7) •  Arbeitsplan (19) Kurze Darstellung der Institution (1) Organisationsplan (1)
  42. 42. Detektionsmerkmale !  Werden eingesetzt zur !  !  !  Ansätze zur Textsorten-Klassifikation: !  !  !  Klassifikation von Dokumentinstanzen in Hypertextsorten Genauer gesagt: Zur Zuweisung von HypertextsortenModulen an Dokumentfragmente Analyse von „flat ASCII -Text Fast ausschließlich sprachliche Merkmale HTML bietet „mehr : !  !  Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit! Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen: 1.  2.  3.  4.  5.  Georg Rehm Dokumentübergreifende Merkmale Metadaten Sprachliche und strukturelle Cues Sprachliche Konzeption HTML-Struktur TaCoS 2003
  43. 43. Sprachliche und strukturelle Merkmale Titel Vorname Nachname Universität ... → Institut ... → Arbeitsbereich ... Straße Hausnr. PLZ Stadt Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr. Sprechstunde Tag Uhrzeit Automatische Erkennung mittels: •  regulärer Ausdrücke (für Telefonnummern etc.) Erkennung dieser Cues schränkt Suche ein auf: •  named entity-Tagger (für Personen- und Stadtnamen) •  Persönliche Homepage eines Wissenschaftlers •  hochfrequenter Schlüsselwörter einer Hypertextsorte •  Virtuelle Visitenkarte •  ... Georg Rehm TaCoS 2003
  44. 44. Merkmal: Sprachliche Konzeption !  Koch & Oesterreicher (1994): "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich TaCoS 2003 dichotomisch: entweder – oder Kontinuum: von ... bis
  45. 45. Merkmal: Sprachliche Konzeption !  CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit !  Berichtete Merkmale: !  Umgangssprachliche Formen !  Einfache Syntax und Lexik (z.B. bei Begrüßungen und !  Freie, assoziative ThemenVerabschiedungen) entwicklung Diese Merkmale sind mit Hilfe von !  Spontane Äußerungen !  Hochfrequent: ich, man, du, ein- regulären Ausdrücken und fach, mal, ziemlich, irgendwie verschiedenen Listen (von Smileys, speziellen Akronymen etc.) !  ... automatisch detektierbar! !  Regionalismen, Dialektismen !  Ausgeprägte Dialogizität !  Emphasen: ist _eingeschränkt_ !  Slangausdrücke: IMHO ... !  Bigraphen (gruen), Assimilationen (gibt s), Auslassungspunkte (...), reduplizierte Interpunktionszeichen (!!!!!!) etc. Georg Rehm TaCoS 2003 !  Smileys: :-) !  Isolierte Verbstämme: *lach*, *grins*, ... !  Spezifische Abkürzungen: *rotfl* !  Iterationen: Tschüßiiiii
  46. 46. Merkmal: Sprachliche Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  47. 47. Merkmal: Sprachliche Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  48. 48. Merkmal: Sprachliche Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  49. 49. Merkmal: Sprachliche Konzeption Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc. Kommentiertes Vorlesungsverzeichnis Persönliche Homepage von Prof. Dr. Henning Lobin des Fachgebiets Germanistik der JLU ! Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  50. 50. Das eigentliche Ziel !  XML Schema als Repräsentationsformat der Hypertextsorten-Ontologie !  Resultate des Analyse-Systems sollen sein: "  "  Klassifikation eines HTML-Dokuments in eine Hypertextsorte Basierend auf dieser Information: •  Konvertierung der Webseite in eine XML-Instanz •  Explizite Annotation der HTS-Module !  Anders gesagt: "  Georg Rehm Hypertextsorten-getriebene Konvertierung arbiträrer HTML-Dokumente der Untersuchungsdomäne in korrespondierende XML-Formate TaCoS 2003
  51. 51. Zuweisung von Hypertextsorten-Modulen HTSModule HTS-Klassifikation HTSOntologie StrukturOntologie AnalyseDTD Strukturanalyse Konvertierung: HTML → XHTML Hypnotic-Korpusdatenbank ThemenOntologie XMLDateien UserDaten Metadaten HTTPHeader HTMLDateien Stichproben Analyse Features ServerDaten PHP, Perl, verschiedene Tools RDF, DTD, XML Schema Dokumentansicht Apache Webserver SampleSampleGenerierung Analyse StrukturVisualisierung
  52. 52. Konvertierung HTML → XHTML !  HTML-Dokumente im Web enthalten sehr viel fehlerhaftes Markup "  Erschwert maschinelle Verarbeitung erheblich !  XHTML: Neuformlierung von HTML mit XML "  XHTML-Dokumente sind auch XML-Dokumente !  Wohlgeformte XHTML-Dokumente können mit XMLWerkzeugen verarbeitet werden: "  XML Parser, XPath, DOM, XSLT etc. !  Konvertierung erfolgt mit gepatchtem Tidy und dem Perl-Modul HTML::TreeBuilder !  Test mit 10.000 Dokumenten: "  Konvertierung in 98,7% aller Fälle erfolgreich •  Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente sind alle von einem (nicht validierenden) XML-Parser ohne Fehlermeldung prozessierbar Georg Rehm TaCoS 2003
  53. 53. Strukturanalyse !  Perl-Skript (work in progress), benutzt das Modul XML::LibXML, also DOM Level 2 und XPath "  Georg Rehm DOM: Document Object Model, ermöglicht baum-basierte Verarbeitung von XML-Instanzen TaCoS 2003
  54. 54. DOM-Struktur einer XML-Instanz erheblich gekürzt und abstrahiert
  55. 55. Strukturanalyse !  Perl-Skript (work in progress), benutzt das Modul XML::LibXML, also DOM Level 2 und XPath "  DOM: Document Object Model, ermöglicht baum-basierte Verarbeitung von XML-Instanzen !  Verschachtelte rekursive Funktionen beginnen beim Wurzelelement des Dokumens (<html>): "  Berechnung verschiedener Merkmale einzelner Teilbäume, der in ihnen enthaltenen Teilbäume etc.: •  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter •  Hyperlink-Analyse (external, samedomain, internal) •  Analyse von eingebetteten Graphiken –  Ermittlung der Abmessungen der Graphiken –  Erkennung von Werbebannern –  Erkennung horizontaler Separatoren •  Analyse von Listen-Strukturen •  ... Georg Rehm TaCoS 2003
  56. 56. Strukturanalyse !  Die Analyse-Heuristiken legen ihre Resultate unmittelbar in dem XHTML-Dokument ab: "  Deklaration eines eigenen Namespace (hypnotic:) im Wurzelelement (Default bleibt jedoch XHTML 1.0) •  Namespace → Analyse-DTD der Systemarchitektur "  "  "  "  Elemente: Makrostrukturelle Analyseresultate Attribute: Teilbaum- und Element-bezogene Analyseresultate Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung Beispiel: •  Horizontale Linien sind eigentlich durch <hr> zu realisieren •  Häufig werden hierfür auch Graphiken benutzt •  Strukturanalyse markiert: <img src="..." hypnotic:TagGroup="separator"> "  Vergrößert ein Dokument derzeit um den Faktor 20 !  Bislang erst Spitze des Eisberges implementiert – sehr viele Funktionen stehen noch aus Georg Rehm TaCoS 2003
  57. 57. Informationsextraktion !  Wrapping: Mittlerweile triviale Anwendung "  Informationsextraktion aus genau einem HTMLDokument-Typ !  Hypnotic verfolgt: "  "  Hypertextsorten-getriebene Informationsextraktion Kann für einige HTS-Module auf der bloßen Strukturanalyse basieren: •  Definition des Moduls: „Interessante Links –  Listenartige Präsentation von mindestens zwei externen Hyperlinks –  Evtl. flankiert von kurzer Erläuterung des Link-Ziels –  Mindestens ein Hyperlink pro logischem Abschnitt der Liste Georg Rehm TaCoS 2003
  58. 58. Informationsextraktion !  Definition ist unmittelbar in XPath-Ausdruck überführbar: //* [@hypnotic:TagGroup="list"] [@hypnotic:NumberOfListItems > 1] [@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)] [//* [@hypnotic:LinkType]] [(not(.//*[ @hypnotic:LinkType and @hypnotic:LinkType != "external"]))] !  Finde alle Knoten: Aber: Die vom Typ „Liste sind, "  mehr als ein bezieht sich nun Dieses Element List-Item enthalten, nicht mehr auf die Analyse-DTD, "  ausschließlich externe Hyperlinks beinhalten und sondern auf die XML Schema-Formalisierung einer Hypertextsorte! "  mindestens so viele externe Hyperlinks wie List-Items umfassen. "  !  Falls alle Prädikate wahr sind, kann der Kontext-Knoten als hypnotic:WebGenreModule="Interesting Links" analysiert werden Georg Rehm TaCoS 2003
  59. 59. Informationsextraktion ! Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation
  60. 60. Ausblick !  Stichprobenauswertung (bottom-up) zur Komplettierung der Hypertextsorten-Ontologie !  Entwicklung des XML-Repräsentationsformats für die Hypertextsorten-Ontologie !  Entwicklung des RDF-Repräsentationsformats für die Hypertextsorten-Modul-Ontologie !  Implementation des Klassifikationssystems !  Evaluation des Systems mit realen SuchFragestellungen Georg Rehm TaCoS 2003

×