Hypertextsorten
Neuartige Möglichkeiten der
Informationsrecherche im World Wide Web
Georg Rehm, M.A.
Angewandte Sprachwiss...
Zielsetzung
Status Quo I

Aus Sicht des (unerfahrenen) Benutzers:
•  DWIM-Prinzip („do what I mean! )
•  Spezifizierung einer Suchanfr...
Status Quo II

•  ... lediglich Spezifizierung der
Sprache der Treffer-Dokumente
•  nur in wenigen Fällen hilfreich
Status Quo III

•  Kapselung der Query-Syntax
•  Filterung nach Dateiformaten
•  Filterung nach Sprache, Datum
und Domain
Folie von Monika Henzinger, Director of Research, Google Inc.
Tutorial: Web Information Retrieval
16th International Confe...
Das Ziel

!
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Textsorten
! 

„... komplexe Muster sprachlicher Kommunikation
Textlinguistik: Textsorten (Brief, Rezept, ...),
[...], die...
Hypnotic
!  Zentrale Hypothese:
# 

Im World Wide Web existieren Hypertextsorten:
Nach nur wenigen Jahren kanonisierte,
fu...
Hypertextsorten – Beispiele
!  Eine sehr interessante, neue Hypertextsorte:
Persönliche Homepage
!  Mittlerweile: empirisc...
Hypertextsorten – Beispiele
Hypnotic: Einführung
!  Zwangsläufig: Empirischer Ansatz
!  Daher ein Teilziel:
" 
" 

Aufbau eines großen Korpus von HTML...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Warum Beschränkung auf den
akademischen Bereich?
!  Enthält bzgl. der zugrundeliegenden Hypertextsorten
relativ stabile Do...
Implementation
!  Linux-basierte Open Source-Lösung:
" 

Datensammlung:
•  Spider: Pavuk
•  Tools zur Sprachidentifikation...
Ausnahmen
beschränkt

x-500
x-500-1
x-500-2

*.uni-giessen.de

(ca.120 versch. HTTP-Server)

MIME-Typen:
Suffixe: .tgz
.ta...
Language Identification I
! 
! 
! 
! 

Erwünscht: deutschsprachige Dokumente
Nicht notwendig: Multiple Sprachidentifikatio...
Language Identification II
! 
! 

! 
! 

In Perl realisierter, Lexikonbasierter Ansatz
Aufgrund der extrem geringen
Vorkom...
Umfang des Korpus
Stand: 28.11.2001

Universitäten in der Hypnotic-Datenbank
40
HTTP-Server und -Port-Kombinationen
6.703
...
Zugriff auf das Korpus-System
!  Aktiv – Zugriff mittels Browserinterface:
Benutzerabhängiger Zugriff
Internet-weite, vert...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten

Georg Rehm

CL Kolloquium, Universität ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten ...
Passiver Zugriff auf Dokumente
!  Einsatz eines DBI APIs (Perl, C) ermöglicht
vollautomatische Analyse:
" 

" 

" 

Analys...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Erstellung der Taxonomie
!  Stichproben-Analysen:
1.  Erste Stichprobe (200 tiefe Dokumente) ergab:

initiale Liste von Hy...
Grobe Verteilung im 200er Sample
! 

Administrative Informationen (14)
" 
Studienordnung (2)
" 
Lehrveranstaltungsbezogene...
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Die oberen Ebenen der
Taxonomie werden mit Hilfe des
zweiten Samples top d...
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Die unteren Ebenen der Taxonomie
werden daraufhin mit Hilfe des dritten
Sa...
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Einige der offenen Fragen:
•  Welche unterschiedlichen Knoten-Typen existi...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Merkmale für die maschinelle
Identifikation von Hypertextsorten
1. 
2. 
3. 
4. 
5. 

Georg Rehm

Dokumentübergreifende Mer...
Dokumentübergreifende Merkmale
Dokumentübergreifende Merkmale
•  Identische Kopfzeile
•  Identische Logo-Grafik
•  Identische Fußzeile
•  Identischer Far...
Dokumentübergreifende Merkmale
Einstiegsseite
Angewandte Sprachwissenschaft
und Computerlinguistik
JLU Gießen
http://www.u...
Position im Hypertextnetzwerk
http://www.uni-giessen.de/fb09/ascl/

.../ascl/proj/

.../ascl/contact/

.../ascl/lectures/
...
Position im Hypertextnetzwerk
http://www.uni-giessen.de/fb09/ascl/

http://www.uni-giessen.de/fb09/

http://www.uni-giesse...
Die URL als grober HTS-Hinweis
Fachbereiche, Zentren, ...

Persönliche Homepage

Zahlreiche weitere wichtige Detektionsmer...
Sprachliche und strukturelle Cues für
bestimmte Hypertextsorten

Titel Vorname Nachname
Universität ... → Institut ...
→ A...
Sprachliche Konzeption
!  Koch & Oesterreicher (1994) unterscheiden
" 
" 

mediale Mündlichkeit/Schriftlichkeit
konzeption...
Sprachliche Konzeption
!  Koch & Oesterreicher (1994) unterscheiden
" 
" 

mediale Mündlichkeit/Schriftlichkeit
konzeption...
Computer-Mediated Communication
!  Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet
sind geprägt von konzeptione...
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeich...
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeich...
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeich...
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeich...
Berechnung der sprachlichen Konzeption

Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebü...
HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

Protokoll, Hypertextsorte ...
HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

" 

Protokoll, Hypertextso...
HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

" 

" 

Protokoll, Hyperte...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Hypertextsorten-Module
!  Hypertextsorten können aus unterschiedlichen Modulen
bestehen, d.h. sie sind nicht monolithisch....
Hypertextsorten-Module: Beispiele

Modul: Kontaktinformationen

Muß vorhanden sein, kann jedoch in ein per Hyperlink refer...
Hypertextsorten-Module: Beispiele

Modul: Name

Das einzige Modul, das auf der Einstiegsseite
zwingend (physikalisch) vorh...
Hypertextsorten-Module: Beispiele

Modul: Aktuelle Informationen

Sehr untypisch für die Hypertextsorte Persönliche Homepa...
Hypertextsorten-Module: Beispiele
Modul: Affiliation
Obligatorischer Status.
Hypertextsorten-Module: Weitere Beispiele
Hypertextsorten und –Module
XML Schema-Repräsentation
definiert
•  Stellt ein abstraktes Framework dar.
•  Massiv generali...
Definition einer Hypertextsorte
!  Beispiel:
Persönliche Homepage eines Wissenschaftlers
!  Analyse anhand eines kleinen S...
Die Dokumente des Samples
! 

! 

! 

! 
! 

Affiliation (obligatorisch) – Logo Graphik der Universität, des
Fachbereichs oder Instituts; wird evtl....
Hypertextsorten-Module und Information Extraction
Hypertextsorten-Module und Information Extraction
!  Prämisse für das Folgende:
Relativ genaue Detektion von
" 
Hypertexts...
Etwa 120 Detektionsmerkmale
1.  Dokumentübergreifende Merkmale: Wiederholt
auftauchende Hypertextsorten-Module, Position e...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Text-Klassifikation – Clustering
!  Ursprung: Data Mining
!  Grundlage: Extraktion
sprachlicher Merkmale
!  Merkmalsvektor...
Text-Klassifikation – Categorization
Trainingsdaten

unbekannte Dokumente

...

Probleme
•  Sehr viele manuell kategorisie...
Text-Klassifikation – Rule-Based
unbekannte Dokumente

Induzieren von decision trees (?)

...
Kategorie „Straßenverkehr
Ru...
Textsorten-Klassifikation
Korpus
Karlgren &
Cutting (1994),
Recognizing Text
Genres with
Simple Metrics
Using Discriminant...
Hypertextsorten-Klassifikation
Genres

Methoden

Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Doc...
Fünf Merkmalsgruppen

Architektur des Analysesystems I
Analyse I
Analyse II

Dispatcher

Analyse III

Metadaten

(Perl, HT...
Fünf Merkmalsgruppen

Architektur des Analysesystems II
Analyse I
Analyse II

Dispatcher

Analyse III

Metadaten

(Perl, H...
Fünf Merkmalsgruppen

Architektur des Analysesystems II
Analyse I
Analyse II
Analyse III

Dispatcher

Metadaten

(Perl, HT...
Fünf Merkmalsgruppen

Architektur des Analysesystems II
Analyse I
Analyse II

Dispatcher

$

Analyse III

$

Metadaten

(P...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Ar...
Ausblick
!  Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse
!  Stichprobenauswertung (top-down/b...
Nächste SlideShare
Wird geladen in …5
×

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

2.336 Aufrufe

Veröffentlicht am

Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Universität Potsdam, Germany, December 2001. December 4, 2001. Invited talk.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.336
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
3
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

  1. 1. Hypertextsorten Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Georg Rehm, M.A. Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen Georg.Rehm@uni-giessen.de http://www.uni-giessen.de/~g91063/
  2. 2. Zielsetzung
  3. 3. Status Quo I Aus Sicht des (unerfahrenen) Benutzers: •  DWIM-Prinzip („do what I mean! ) •  Spezifizierung einer Suchanfrage ist schwierig •  Es ist unklar, nach welchen Kriterien die Maschine sucht
  4. 4. Status Quo II •  ... lediglich Spezifizierung der Sprache der Treffer-Dokumente •  nur in wenigen Fällen hilfreich
  5. 5. Status Quo III •  Kapselung der Query-Syntax •  Filterung nach Dateiformaten •  Filterung nach Sprache, Datum und Domain
  6. 6. Folie von Monika Henzinger, Director of Research, Google Inc. Tutorial: Web Information Retrieval 16th International Conference on Data Engineering (ICDE 2000) ? Meint in diesem Kontext exclusiv: Inhaltliche Kategorisierung! Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  7. 7. Das Ziel ! Abstraktion über Inhalt bzw. Thema: Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
  8. 8. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  9. 9. Textsorten !  „... komplexe Muster sprachlicher Kommunikation Textlinguistik: Textsorten (Brief, Rezept, ...), [...], die innerhalb der Sprachgemeinschaft im Laufe unterschiedliche Typen Entwicklung aufd.h. der historisch-gesellschaftlichenvon Texten grund kommunikativer Bedürfnisse entstanden sind. !  Klassifikationskriterien (u.a.): "  "  "  Inhalt – Thema Form – Aufbau, Struktur, Gliederung Funktion – Zweck Brinker (1985) !  Oftmals Taxonomie: "  Viele Probleme ... Leitartikel Georg Rehm Zeitungstexte „Liebes Texte (?) Gedichte Brief Leserbrief Liebesbrief CL Kolloquium, Universität Potsdam, 04.12.2001 Liebesgedicht
  10. 10. Hypnotic !  Zentrale Hypothese: #  Im World Wide Web existieren Hypertextsorten: Nach nur wenigen Jahren kanonisierte, funktionsgebundene, hypertextuelle Strukturen !  Ziele: 1.  2.  3.  4.  Georg Rehm Definition des Konzeptes „Hypertextsorte Aufstellung einer Hypertextsorten-Taxonomie für eine eingeschränkte Domäne Automatische Klassifikation von Hypertextsorten (→ Intelligentere Suchmaschinen) Informationsextraktion (→ semi strukturierte Daten) CL Kolloquium, Universität Potsdam, 04.12.2001
  11. 11. Hypertextsorten – Beispiele !  Eine sehr interessante, neue Hypertextsorte: Persönliche Homepage !  Mittlerweile: empirisch nachweisbare, subgenerische Varianten, u.a.: "  "  "  Persönliche Homepage von Studierenden Persönliche Homepage admin./techn. Personals Persönliche Homepage von Wissenschaftlern Beispiele: •  aus vier verschiedenen Städten und •  aus vier unterschiedlichen Disziplinen Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  12. 12. Hypertextsorten – Beispiele
  13. 13. Hypnotic: Einführung !  Zwangsläufig: Empirischer Ansatz !  Daher ein Teilziel: "  "  Aufbau eines großen Korpus von HTML-Dokumenten Grund: HTML-Dokumente sind sehr „flüchtig , sie werden gelöscht, verändert, verschoben; man benötigt also einen sicheren und großen Vorrat !  Einschränkungen bei Datensammlung: "  "  Georg Rehm Nur Webserver deutscher Hochschulen Nur deutschsprachige Dokumente CL Kolloquium, Universität Potsdam, 04.12.2001
  14. 14. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  15. 15. Warum Beschränkung auf den akademischen Bereich? !  Enthält bzgl. der zugrundeliegenden Hypertextsorten relativ stabile Dokumente !  Dokumente sind stark strukturiert !  Wenige binäre/proprietäre Dateien bzw. Dateitypen als Vermittler von Text !  Bzgl. Inhalt und Form (einigermaßen) überschaubar (vs. z.B. kommerziellen, künstlerischen oder HobbyAngeboten) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  16. 16. Implementation !  Linux-basierte Open Source-Lösung: "  Datensammlung: •  Spider: Pavuk •  Tools zur Sprachidentifikation und zur Aufbereitung der Metadaten zum Datenbankimport: Perl •  UNIX Shell-Scripting zur Modulverbindung "  Benutzerschnittstelle: •  Webserver: Apache •  HTML-DBI und Benutzeroberfläche: PHP •  Datenbank zum Zugriff auf Metadaten: MySQL "  Visualisierung: •  Graphviz (stand-alone und als Perl-Modul) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  17. 17. Ausnahmen beschränkt x-500 x-500-1 x-500-2 *.uni-giessen.de (ca.120 versch. HTTP-Server) MIME-Typen: Suffixe: .tgz .tar.gz .zip .arj .pk .gz .js .java ... text/html,xml, sgml,plain,css message/news, partial,rfc822 Rekursiver Transfer per HTTP Datei kleiner als 500kB und HTTP-Port = 80? Speichern: HTTP-Header von jedem File Verknüpfungen HTML-Dokument deutschsprachig? fung knüp Ver generiert Statistik: Anzahl Server, Dokumente etc. ja, speichern UNIXDateisystem liefert Daten SQLDatenbank Tilgung von Dokumentduplikaten
  18. 18. Language Identification I !  !  !  !  Erwünscht: deutschsprachige Dokumente Nicht notwendig: Multiple Sprachidentifikation Stattdessen: deutsch vs. unbekannt Potentielle Probleme: "  "  "  "  Performanz: für jedes besuchte HTML-Dokument muß die Sprache überprüft werden Multilinguale Dokumente Nicht-sprachliche Elemente (Formeln etc.) Anderssprachige Navigationselemente Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  19. 19. Language Identification II !  !  !  !  In Perl realisierter, Lexikonbasierter Ansatz Aufgrund der extrem geringen Vorkommen keine Beachtung entsprechender <meta> Tags bzw. lang=... Attribute Präzision: ~97% Probleme: "  Multilingualer Text Namenlexikon "  extrem kurze, (ca. 60.000) fachsprachliche Dokumente Lexikon (ca. 156.000) Georg Rehm HTML-Dokument Entfernen aller HTML-Tags Tilgung von Personennamen, URLs, Email-Adressen, Abkürzungen etc. Zählen aller deutschsprachigen und aller unbekannten Wörter Verrechnung der (nicht) erkannten Wörter und Zeichen mit Dateilänge nein unbekannt Schwellwert erreicht? CL Kolloquium, Universität Potsdam, 04.12.2001 ja deutsch
  20. 20. Umfang des Korpus Stand: 28.11.2001 Universitäten in der Hypnotic-Datenbank 40 HTTP-Server und -Port-Kombinationen 6.703 6.152 Auf Port 80 arbeitende HTTP-Server Unterschiedliche Webserver-Software 940 HTTP-Header in der Datenbank 7.631.048 2.041.087 Dokumente im Korpus HTML-Dokumente plain ASCII-Dateien XML-Dateien # CSS-Dateien # SGML-Dateien # News-Artikel # E-Mails # # Georg Rehm Wir erwarten: Etwa 3.000.000 Dokumente von ca. 60 Universitäten !text/html #text/plain #text/xml #text/css #text/sgml #message/news #message/rfc822 CL Kolloquium, Universität Potsdam, 04.12.2001 1.881.842
 .237 18.487 13.584
 863 263 # 151
  21. 21. Zugriff auf das Korpus-System !  Aktiv – Zugriff mittels Browserinterface: Benutzerabhängiger Zugriff Internet-weite, verteilte Analysen Stichproben: "  "  "  •  Komfortable Generierung •  Speicherung in Datenbank •  DB-gestützte Analyse von Stichproben Kapselung tw. sehr komplexer SQL-Queries "  !  Passiv – Zugriff mittels DBI API: "  Sinnvoll für die maschinelle Auswertung sehr großer Stichproben (→ Perl) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  22. 22. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  23. 23. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auswahl einer Universität Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  24. 24. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Server einer Universität Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  25. 25. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Dokumente eines Servers Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  26. 26. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Ansicht eines Dokuments Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  27. 27. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Generierung einer Stichprobe Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  28. 28. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Die Dokumente einer Stichprobe Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  29. 29. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse DB-gestützte Dokumentanalyse Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  30. 30. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Analyseergebnisse Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  31. 31. Passiver Zugriff auf Dokumente !  Einsatz eines DBI APIs (Perl, C) ermöglicht vollautomatische Analyse: "  "  "  Analysesystem kommuniziert direkt mit der KorpusDatenbank Diese liefert zurück: •  Metadaten, •  Dokumentinhalte Analyseprogramm speichert Ergebnisse in Datenbank !  Realisiert für Untersuchung der sprachlichen Phänomene in persönlichen Homepages Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  32. 32. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  33. 33. Erstellung der Taxonomie !  Stichproben-Analysen: 1.  Erste Stichprobe (200 tiefe Dokumente) ergab: initiale Liste von Hypertextsorten, •  extremen Bedarf für eine Taxonomie! 2.  Zwei weitere Stichproben: a.  top-down: 676 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus b.  bottom-up: 2000 „tiefe Dokumente •  Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  34. 34. Grobe Verteilung im 200er Sample !  Administrative Informationen (14) "  Studienordnung (2) "  Lehrveranstaltungsbezogene Informationen (2) •  Grundlegende Informationen zu einem Kurs (9) •  Kommentar (7) !  Institut/Lehrstuhl/Arbeitsbereich (15) "  Einstiegsseite (4) •  Konferenz (5) •  Beschreibung einer Arbeitsgruppe (2) •  Programmüberblick (1) •  Anmeldeformular (1) Liste der Mitarbeiter (4) •  Persönliche Homepage (14) •  Wissenschaftler (4) •  Hilfskraft (3) •  Übungsaufgabe (5) "  •  Lösungen von Aufgaben (1) •  Liste von Veranstaltungen (2) •  LV-Materialien (2) "  Informationen zu Stipendium (1) •  Virtuelle Visitenkarte (1) "  Stellenangebot (1) "  Beschreibung eines •  Chronik eines Vereins Forschungsschwerpunkts (3) !  Universitäre Informationen (5) •  Paragraph einer Verordnung •  Rangliste eines Sportereignisses "  Wegbeschreibung/Lageplan (3) •  Bibliographie (9) •  Reisebericht "  Beschreibung eines universitären •  eines Autors (3) Informationsangebots (1) •  eines Instituts (3) •  thematisch sortiert (2) •  84 Hypertextsorten sind enthalten. •  Forschungsprojekt (9) •  11 Dokumenten konnte aus technischen •  Beschreibung (7) Gründen keine Hypertextsorte zugeordnet werden. •  4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden. "  "  •  Arbeitsplan (19) Kurze Darstellung der Institution (1) Organisationsplan (1)
  35. 35. Hypnotic-Hypertextsorten-Taxonomie Version 0.1
  36. 36. Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Die oberen Ebenen der Taxonomie werden mit Hilfe des zweiten Samples top down systematisch verfeinert.
  37. 37. Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Die unteren Ebenen der Taxonomie werden daraufhin mit Hilfe des dritten Samples (N = 2000) bottom up verfeinert.
  38. 38. Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Einige der offenen Fragen: •  Welche unterschiedlichen Knoten-Typen existieren? •  Welche dieser Typen treten in der Realität auf („Text )? •  Welche unterschiedlichen Kanten-Typen existieren? •  Ist eine Hyperlink-Typologie sinnvoll integrierbar? •  Welche Erkennungshinweise müssen in die Taxonomie integriert werden? •  XML als einheitliches Repräsentationsformat ...
  39. 39. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  40. 40. Merkmale für die maschinelle Identifikation von Hypertextsorten 1.  2.  3.  4.  5.  Georg Rehm Dokumentübergreifende Merkmale Metadaten Sprachliche und strukturelle Cues Sprachliche Konzeption HTML-Struktur CL Kolloquium, Universität Potsdam, 04.12.2001
  41. 41. Dokumentübergreifende Merkmale
  42. 42. Dokumentübergreifende Merkmale •  Identische Kopfzeile •  Identische Logo-Grafik •  Identische Fußzeile •  Identischer Farbraum Projekte Mitarbeiter Einstiegsseite Angewandte Sprachwissenschaft und Computerlinguistik JLU Gießen http://www.uni-giessen.de/fb09/ascl/ Lehrveranstaltungen Aktuelles
  43. 43. Dokumentübergreifende Merkmale Einstiegsseite Angewandte Sprachwissenschaft und Computerlinguistik JLU Gießen http://www.uni-giessen.de/fb09/ascl/ Einstiegsseite des Fachgebiets Germanistik Persönliche Homepage von Henning Lobin Zentrum für Medien und Interaktivität
  44. 44. Position im Hypertextnetzwerk http://www.uni-giessen.de/fb09/ascl/ .../ascl/proj/ .../ascl/contact/ .../ascl/lectures/ .../ascl/news/ •  Position/Funktion im Hypertextnetzwerk automatisch bestimmbar •  Vorherrschend in dieser Domäne: Hierarchischer top-down „Hypertext ! •  Beteiligte URLs geben wichtige Hinweise (Anzahl, Einbettung, ...)
  45. 45. Position im Hypertextnetzwerk http://www.uni-giessen.de/fb09/ascl/ http://www.uni-giessen.de/fb09/ http://www.uni-giessen.de/~g91062/ http://www.zmi.uni-giessen.de
  46. 46. Die URL als grober HTS-Hinweis Fachbereiche, Zentren, ... Persönliche Homepage Zahlreiche weitere wichtige Detektionsmerkmale: •  Länge eines Dokuments in Wörtern •  Stichwörter im <title> Tag •  Datum der letzten Änderung •  Art des eingesetzten HTML-Editors/-Erzeugers •  ... http://www.uni-giessen.de/fb09/ http://www.uni-giessen.de/~g91062/ http://www.zmi.uni-giessen.de
  47. 47. Sprachliche und strukturelle Cues für bestimmte Hypertextsorten Titel Vorname Nachname Universität ... → Institut ... → Arbeitsbereich ... Straße Hausnr. PLZ Stadt Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr. Sprechstunde Tag Uhrzeit Automatische Erkennung mittels: •  regulären Ausdrücken (für Telefonnummern etc.) schränkt die Suche ein auf: •  named entity-Tagger (für Personen- und Stadtnamen) •  Persönliche Homepage eines Wissenschaftlers •  hochfrequenten Schlüsselwörtern einer Hypertextsorte •  Virtuelle Visitenkarte •  ...
  48. 48. Sprachliche Konzeption !  Koch & Oesterreicher (1994) unterscheiden "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich dichotomisch: entweder – oder CL Kolloquium, Universität Potsdam, 04.12.2001
  49. 49. Sprachliche Konzeption !  Koch & Oesterreicher (1994) unterscheiden "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich Kontinuum: von ... bis CL Kolloquium, Universität Potsdam, 04.12.2001
  50. 50. Computer-Mediated Communication !  Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet sind geprägt von konzeptioneller Mündlichkeit. !  Berichtete Merkmale: !  Umgangssprachliche Formen !  Einfache Syntax (Para(z.B. bei Begrüßungen und taxe), einfache Lexik Verabschiedungen) !  Freie, assoziative Themen!  Hochfrequent: ich, man, du, einentwicklung Diese Merkmale sind mit Hilfe fach, mal, ziemlich, irgendwie von regulären Ausdrücken und !  Spontan gebildete Äußerungen !  verschiedenen Listen (von Smileys, speziellen Akronymen etc.) Regionalismen, Dialektismen automatisch detektierbar! !  Ausgeprägte Dialogizität !  ... !  Emphasen: ist _eingeschränkt_ !  Slangausdrücke: IMHO ... !  Bigraphen (gruen), Assimilationen (gibt s), Auslassungspunkte (...), reduplizierte Interpunktionszeichen (!!!!!!) etc. Georg Rehm !  Smileys: :-) !  Isolierte Verbstämme: *lach*, *grins*, ... !  Spezifische Abkürzungen: *rotfl* !  Iterationen: Tschüßiiiii CL Kolloquium, Universität Potsdam, 04.12.2001
  51. 51. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  52. 52. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  53. 53. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  54. 54. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU ! Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  55. 55. Berechnung der sprachlichen Konzeption Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc. Kommentiertes Vorlesungsverzeichnis Persönliche Homepage von Prof. Dr. Henning Lobin des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  56. 56. HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... CL Kolloquium, Universität Potsdam, 04.12.2001
  57. 57. HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Eingebettete Graphiken und Bilder Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... •  Einige kleinere (bzgl. Größe und Abmessungen) Graphiken in einem ansonsten stark textlastigen Dokument ... •  Nur wenige Wörter, jedoch viele JPEG-Dateien mit identischen Abmessungen (z. B. 1280x1024) ... CL Kolloquium, Universität Potsdam, 04.12.2001
  58. 58. HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  "  "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Eingebettete Graphiken und Bilder Formulare •  Kleines Textfeld und Submit-Button auf stark strukturierter Seite ... •  Viele kleine, strukturierte Dokumente mit Radio-Buttons „unterhalb von Materialien zu Lehrveranstaltungen ... Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... •  Einige kleinere (bzgl. Größe und Abmessungen) Graphiken in einem ansonsten stark textlastigen Dokument ... •  Nur wenige Wörter, jedoch viele JPEG-Dateien mit identischen Abmessungen (z. B. 1280x1024) ... CL Kolloquium, Universität Potsdam, 04.12.2001
  59. 59. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  60. 60. Hypertextsorten-Module !  Hypertextsorten können aus unterschiedlichen Modulen bestehen, d.h. sie sind nicht monolithisch. !  Module sind entweder "  "  obligatorisch oder optional !  Module sind optisch/strukturell voneinander abgetrennt. !  Persönliche Homepage eines Wissenschaftlers: "  "  "  "  "  "  Georg Rehm Name der Person Kontaktinformationen Publikationen Projekte Lehrveranstaltungen ... CL Kolloquium, Universität Potsdam, 04.12.2001
  61. 61. Hypertextsorten-Module: Beispiele Modul: Kontaktinformationen Muß vorhanden sein, kann jedoch in ein per Hyperlink referenziertes Dokument ausgelagert werden.
  62. 62. Hypertextsorten-Module: Beispiele Modul: Name Das einzige Modul, das auf der Einstiegsseite zwingend (physikalisch) vorhanden sein muß.
  63. 63. Hypertextsorten-Module: Beispiele Modul: Aktuelle Informationen Sehr untypisch für die Hypertextsorte Persönliche Homepage eines Wissenschaftlers; optionales Modul.
  64. 64. Hypertextsorten-Module: Beispiele Modul: Affiliation Obligatorischer Status.
  65. 65. Hypertextsorten-Module: Weitere Beispiele
  66. 66. Hypertextsorten und –Module XML Schema-Repräsentation definiert •  Stellt ein abstraktes Framework dar. •  Massiv generalisiert! Default Belegung: <content,form,function> Hypertextsorte Beispielinstanz: Persönliche Homepage eines Wissenschaftlers können fungieren als Enthält die vorgeschriebenen Module ... besteht aus Erhöht das function-Attribut modifiziert Interaction! Optionales Hypertextsorten-Modul: Lokale Suchfunktion (mittels CGI-Skript) Obligatorische Hypertextsorten-Module Optionale Hypertextsorten-Module Auflistung von Lehrveranstaltungen: Mitarbeiterliste: •  Vorgeschriebenes Modul für HTS: •  Optionales Modul für HTS: Instituts-Einstiegsseite Instituts-Einstiegsseite •  Ebenfalls eine eigenständige •  Ebenfalls eine eigenständige HyperHypertextsorte textsorte Spezifische Belegung: <content,form,function >
  67. 67. Definition einer Hypertextsorte !  Beispiel: Persönliche Homepage eines Wissenschaftlers !  Analyse anhand eines kleinen Samples !  Bedingungen bei der Auswahl: "  "  "  "  Georg Rehm Unterschiedliche Universitäten und Städte Unterschiedliche Fächer Kein Einsatz von Framesets Dokumente sollen in englischer und deutscher Version vorliegen CL Kolloquium, Universität Potsdam, 04.12.2001
  68. 68. Die Dokumente des Samples
  69. 69. !  !  !  !  !  Affiliation (obligatorisch) – Logo Graphik der Universität, des Fachbereichs oder Instituts; wird evtl. begleitet/ersetzt durch textuelle Version; kann auch im Schlußteil eines Dokuments vorhanden sein Alternative Version eines Dokuments in einer anderen Sprache, hier: Englisch; wird evtl. von einer entsprechender Flagge begleitet (optional) Name des Homepage-Besitzers (obligatorisch) – wird evtl. begleitet von einem akademischen Titel („Dr. , „Prof. Dr. , etc.) und einer entsprechenden Phrase („Homepage von Vorname Nachname ) "  Eigene Person vorstellen (Name, Portrait Photo des Autors; räumlich relativ nah bei dem Namen platziert, üblicherweise im oberen Drittel des Dokuments (optional) Photo) Kontaktinformationen (obligatorisch) "  Ein individuelles, wissenschaftliches "  Postadresse (optional) – Name des Autors, Institut, Universität, Profil Straße, Hausnummer, Postfach, Postleitzahl, Stadt, Land etablieren "  Telefonnummer (optional) "  Veröffentlichungen in digitaler Form "  Telefonnummer des Sekretariats (optional) anbieten "  Faxnummer (optional) "  E-Mail-Adresse (obligatorisch) "  Lehrbezogene Materialien (Skripte, Persönliche Homepage eines Wissenschaftlers !  Funktionen: Raumnummer (optional) Folien, Übungsblätter, Lösungen, "  Sprechstunde (optional) interaktives Quiz etc.) anbieten C.V. oder generelle bibliographische Informationen (obligatorisch) (→ „digitaler Handapparat ) Informationen über Lehrveranstaltungen (obligatorisch) Forschungsinteressen und/oder Forschungsprojekte (obligatorisch) "  Kontaktinformationen offerieren Auflistung von eigenen Publikationen (obligatorisch) Auflistung von Vorträgen/Präsentationen (optional) Verwandte Links (optional) "  In hohem Maße strukturiert "  Link zur Homepage der eigenen Universität (obligatorisch) "  Link zur Homepage des eigenen Fachbereichs "  Optische Trennung einzelner Module (obligatorisch) "  Link zur Homepage des eigenen Instituts/der eigenen Arbeitsgruppe (oftmals <HR> oder Ersatz) (obligatorisch) Datum der letzten Änderung (optional) "  !  !  !  !  !  !  !  !  Form:
  70. 70. Hypertextsorten-Module und Information Extraction
  71. 71. Hypertextsorten-Module und Information Extraction !  Prämisse für das Folgende: Relativ genaue Detektion von "  Hypertextsorten und "  Hypertextsorten-Modulen !  Dies ermöglichte: "  Eine neue Ebene für Information Extraction-Systeme: "  Anwendung spezialisierter Wrapper auf die Inhalte von Hypertextsorten-Modulen (vs. vollständigen HTML-Dokumenten) •  Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation •  Aufbruch von physikalischen Dokumentgrenzen! !
  72. 72. Etwa 120 Detektionsmerkmale 1.  Dokumentübergreifende Merkmale: Wiederholt auftauchende Hypertextsorten-Module, Position eines Dokuments in der Hypertextstruktur einer Gruppe 2.  Metadaten: URL, HTTP Response Header, Größe, Titel, <meta>, HTML-DTD 3.  Sprachliche und strukturelle Cues (an bestimmten Hypertextsorten-spezifischen Positionen) 4.  Sprachliche Konzeption (Kontinuum von mündlich nach schriftlich) 5.  HTML-Struktur (von Elementen aufgespannter Baum): "  "  "  Georg Rehm Hyperlinks: Anzahl, intern vs. extern, Hypertext-Struktur, Dateityp des Ziels, Hypertextsorte des Ziels, Ankertext, LinkFunktion, Link-Position Inline-Graphiken: Abmessungen, Anzahl, Datei- und Verzeichnisnamen, Inhalt, ALT=...-Text, Dateityp Interaktive Elemente: Formulare, JavaScript, PlugIns, JavaApplets CL Kolloquium, Universität Potsdam, 04.12.2001
  73. 73. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  74. 74. Text-Klassifikation – Clustering !  Ursprung: Data Mining !  Grundlage: Extraktion sprachlicher Merkmale !  Merkmalsvektor eines Textes als Distanzmaß !  Ziele: "  "  ... Distanz zwischen Texten in einem Cluster soll möglichst minimal sein Distanz zwischen Clustern soll möglichst maximal sein Clusterer !  Problem: "  Cluster werden dynamisch erzeugt Cluster 1 Cluster 2 Cluster 3 Cluster 4
  75. 75. Text-Klassifikation – Categorization Trainingsdaten unbekannte Dokumente ... Probleme •  Sehr viele manuell kategorisierte und repräsentative Trainingsdaten sind notwendig. •  Overfitting im Kategorisierungsschema. •  Wie kann man hier die HTML-Struktur und andere, nichtsprachliche Merkmale berücksichtigen? Trainer Klassifikator Sport Politik Spaß Kategorisierungsschema Kunst Thomas Brückner, „Textklassifikation (2001): „Die Merkmale basieren meist auf Wörtern oder Buchstaben-N-Grammen. Cluster 1 Cluster 2 Cluster 3 Cluster 4
  76. 76. Text-Klassifikation – Rule-Based unbekannte Dokumente Induzieren von decision trees (?) ... Kategorie „Straßenverkehr Rule-Based-System ( „auto ∨ „motorrad ∨ „autobahn ∨ „verkehr ∨ „straße ) ∧ ¬ ( „zug ∨ „bahn ∨ „eisenbahn ) ... Cluster 1 Cluster 2 Cluster 3 Cluster 4
  77. 77. Textsorten-Klassifikation Korpus Karlgren & Cutting (1994), Recognizing Text Genres with Simple Metrics Using Discriminant Functions Kessler, Nunberg & Schütze (1997), Automatic Detection of Text Genre Stamatatos et al. (2000), Text Genre Detection Using Common Word Frequencies Methoden Genres Informative, Imaginative 4.  Press, Fiction, Misc., Non-Fiction •  Einfache Methoden liefern für wenige Textsorten sehr gute Resultate •  500 Texte aus Statististik/KNNs, 6.  Reportage, ca.In diesen Ansätzen ausschließlich: ASCII-Texte (!) •  Wie kann man sehr 55 Merkmale viele HypertextsortenEditorial, Scimöglichst dem Brown (Interpunktion, Tech, Legal, präzise detektieren? Corpus Affixe, Passiv, Non-Fiction, (getaggt) etc.) Fiction Jeweils 500 Texte aus dem Brown Corpus (getaggt) Wall Street Journal Corpus (ungetaggt) DiskriminantenAnalyse – 20 Parameter (noun, Fazit it, adv., word etc. counts) DiskriminantenAnalyse – Worthäufigkeiten und Interpunktionsz. Präzision 2.  4.  Editorial, Letter to the Editor, Reportage, Spot news 2.  4.  ca. 96% ca. 73% ca. 90% (für „reportage und „fiction ) ca. 97%
  78. 78. Hypertextsorten-Klassifikation Genres Methoden Matsuda & Fukushima (1999), Task-Oriented World Wide Web Retrieval by Document Type Classification 9: prod. catalogue, online shop, advertisement for help, CfP, links, FAQ, glossary, home page, bulletin board Gewichtetes PatternMatching in HTMLFazit Elementen Karlgren et al. (1998), Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres •  Informal/Pri11: Einfache Methoden liefern für wenige Hypertextsorten sehr gute Resultate vate, Public/Com., •  Sind Journ. Indices,diese Ergebnisse auf sehr viele, tw. recht if-then-Regeln, Vorkommen von ähnliche Hypertextsorten übertragbar? Material, Reports, kombiniert mit Wörtern und Text, FAQ, Link Clustering HTML-Elementen Coll., Listings/Tables, Discussions, Error Messages Rauber & MüllerKögler (2001), Integrating Automatic Genre Analysis into Digital Libraries Cluster: Sport-Artikel, Interviews, Berichte, juristische Texte etc. Clustering (Self Organizing Map) zum nicht überwachten Erlernen von Ähnlichkeiten Merkmale Präzision keyword, link, URL, structure, image, OCR, plugin avg. precision of document-type search: 88,9% (avg. precision of keyword-based search: 31,2%) Text-Komplexität, Sonder- und Interpunktionszeichen, Stoppund Schlüsselwörter, Markup Zwischen 30% und 90%, je nach Genre n.a., Cluster werden erlernt zur Visualisierung von Such-Ergebnissen einer neuen GUI-Metapher
  79. 79. Fünf Merkmalsgruppen Architektur des Analysesystems I Analyse I Analyse II Dispatcher Analyse III Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V extrahiert Tool 1 DB1 Modul-Konfiguration Tool 2 DB2 Tool 3 HTML -Date i(en) Hybride Merkmals-Matrix Trainings- bzw. Input-Daten ML- und Regelbasierter Klassifikator DB2 XML-Repräsentation der Taxonomie HypnoticDatenbank
  80. 80. Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Dispatcher Analyse III Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V HypnoticDatenbank HTML -Date i(en) Klassifikator Tool 1 DB1 0.96 Tool 2 DB2 Tool 3 0.82 Spezialisierte Judges: •  berechnen Konfidenzwerte 0.48 DB2 Taxonomie
  81. 81. Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Analyse III Dispatcher Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V HypnoticDatenbank HTML -Date i(en) Klassifikator Tool 1 DB1 0.96 Tool 2 DB2 Spezialisierte Judges: Tool 3 •  berechnen Konfidenzwerte •  schränken Suchraum ein DB2 Taxonomie
  82. 82. Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Dispatcher $ Analyse III $ Metadaten (Perl, HTML::PARSER) Analyse IV Analyse V liest extrahiert Tool 1 DB1 $ DB2 Tool 2 Tool 3 Modul-Konfiguration ? DB2 XML-Repräsentation der Taxonomie HypnoticDatenbank HTML -Date i(en) $ Hybride Merkmals-Matrix $ Trainings- bzw. Input-Daten ML- und Regelbasierter Klassifikator $ $
  83. 83. Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  84. 84. Ausblick !  Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse !  Stichprobenauswertung (top-down/bottom-up) !  Entwicklung eines XML-Repräsentationsformats für die Hypertextsorten-Taxonomie !  Validierung der ca. 120 Detektions-Merkmale !  Implementation des Klassifikationssystems (evtl. als Multiagenten-System) !  Evaluation des Systems mit realen SuchFragestellungen Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001

×