SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
Hypertextsorten
Neuartige Möglichkeiten der
Informationsrecherche im World Wide Web
Georg Rehm, M.A.
Angewandte Sprachwissenschaft und Computerlinguistik
Justus-Liebig-Universität Gießen
Georg.Rehm@uni-giessen.de
http://www.uni-giessen.de/~g91063/
Zielsetzung
Status Quo

Aus Sicht des (unerfahrenen) Benutzers:
•  DWIM-Prinzip („Do what I mean! )
•  Spezifizierung einer Suchanfrage ist schwierig
•  Es ist unklar, nach welchen Kriterien die Maschine sucht
Das Ziel
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation

!
Einführung
Textsorten
!  Textlinguistik: Textsorten (Brief, Rezept, ...),
d.h. unterschiedliche Typen von Texten
Zentrale Hypothese:
!  Klassifikationskriterien (u.a.):
Inhalt – Thema
Im World Wide Web existieren Hypertextsorten
" 
Form – Aufbau, Struktur, Gliederung
#  Nach nur wenigen Jahren (!) kanonisierte,
" 
Funktion – Zweck
funktionsgebundene, hypertextuelle Strukturen
" 

kkkkkkkkkkkkkkkkkkkkk

„[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft
im Laufe der historisch-gesellschaftlichen Entwicklung
aufgrund kommunikativer Bedürfnisse entstanden sind.
Brinker (1985)

Georg Rehm

TaCoS 2003
Textsorten

Hypertextsorten
Universitäre Einstiegsseite

Suchmaschine

Buch
Tageszeitung
FAQ

eCommerce

Sammelband

Lexikon

Memo

Wörterbuch
Brief

Instituts-Portal
Mitarbeiterliste

Lehrveranstaltungen

Geschäftsbrief
Liebesbrief
Mahnung

Pers. Homepage
Pers. Homepage
– Sekretärin –

– Lehrender –

Pers. Homepage
– Student –
Textsorten-Klassifikation
Fazit
Korpus

Methoden

•  Einfache Methoden liefern für wenige Textsorten sehr
Karlgren &
gute Resultate
Cutting (1994),
DiskriminantenJeweils 500 Texte
•  In diesen Ansätzen ausschließlich: ASCII-Texte (!)
Analyse – 20
Recognizing Text
•  Wie kann man sehr aus dem Brown
viele Hypertextsorten möglichst
Parameter (noun,
Genres with
Corpus
präzise detektieren?
it, adv., word etc.
Simple Metrics
(tagged)
counts)
Using Discriminant Functions
Kessler, Nunberg
& Schütze
(1997),
Automatic
Detection of Text
Genre
Stamatatos et al.
(2000), Text
Genre Detection
Using Common
Word Frequencies

ca. 500 Texte aus
dem Brown
Corpus
(tagged)

Statististik/KNNs,
55 Merkmale
(Interpunktion,
Affixe, Passiv,
etc.)

Wall Street
Journal Corpus
(untagged)

DiskriminantenAnalyse – Worthäufigkeiten und
Interpunktionsz.

Genres
2. 
4. 

Informative,
Imaginative
Press,
Fiction, Misc.,
Non-Fiction

Präzision

2. 
4. 

ca. 96%
ca. 73%

6. 

Reportage,
Editorial, SciTech, Legal,
Non-Fiction,
Fiction

ca. 90%
(für „reportage
und „fiction )

4. 

Editorial, Letter to the
Editor,
Reportage,
Spot news

ca. 97%
Hypertextsorten-Klassifikation
Genres
Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Document Type
Classification
Karlgren et al.
(1998), Iterative
Information Retrieval Using Fast
Clustering and
Usage-Specific
Genres

Methoden

9: prod.
catalogue, online
shop, advertisement for help, CfP,
links, FAQ, glossary, home page,
bulletin board

Gewichtetes
PatternMatching in
HTMLElementen

Merkmale

!

keyword, link,
URL, structure,
image, OCR,
plugin

11: Informal/Private, Public/Com.,
Clustering der
insgesamt 40
Indices, Journ.
Merkmale;
Merkmale, z.B.
Material, Reports,
Fazit
Konstruktion
Vorkommen von
Text, FAQ, Link
von if-thenWörtern und
•  Einfache Methoden liefern für wenige HypertextColl., Listings/Regeln
HTML-Elementen
sorten sehr gute
Tables, Discussio- Resultate
•  Sind Messages
ns, Error diese Ergebnisse auf sehr viele, tw. recht
ähnliche Hypertextsorten übertragbar?
•  Auswahl und Granularität der gewählten Hypertextsorten ad hoc, nicht textlinguistisch motiviert!

Präzision
avg. precision of
document-type
search: 88,9%
[avg. precision of
keyword-based
search: 31,2%]

Zwischen 30%
und 90%, je
nach Genre
Hypertextsorten: Beispiele
!  Eine sehr interessante Hypertextsorte:
Persönliche Homepage
!  Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.:
" 
" 

" 

Persönliche Homepage eines Studierenden
Persönliche Homepage eines administrativen
oder technischen Mitarbeiters
Persönliche Homepage eines Wissenschaftlers
Beispiele aus:
•  vier verschiedenen Universitäten und
•  vier unterschiedlichen Disziplinen

Georg Rehm

TaCoS 2003
Hypertextsorten: Beispiele
Projektverlauf – Roadmap
I. 

Empirischer, Korpus-basierter Ansatz:
" 
" 

Auswahl einer geeigneten Untersuchungsdomäne
Korpus-Datenbank-System:
1. 
2. 
3. 
4. 

Datensammlung
Implementation eines Web-basierten Front-Ends
(semi-automatische) Analyse von Stichproben
Erstellung einer Taxonomie von Hypertextsorten

II.  Maschinelle Erkennung von Hypertextsorten:
" 
" 
" 
" 
" 

Georg Rehm

Sammlung von Detektionsmerkmalen
Generischer Aufbau von Hypertextsorten
Klassifikations-Methoden und -Ansätze
Generische Informationsextraktion
Design und Implementierung der System-Architektur

TaCoS 2003
I. 

Empirischer, Korpus-basierter Ansatz
Untersuchungsdomäne
Korpus-Datenbank-System:

" 
" 

• 
• 
• 
• 

Datensammlung
Das Web-basierte Korpus-Front-End
Stichprobenanalyse
Eine Taxonomie von Hypertextsorten

II.  Maschinelle Erkennung von Hypertextsorten
" 
" 
" 
" 

Detektionsmerkmale
Generischer Aufbau von Hypertextsorten
Klassifikations-Methoden und -Ansätze
Design der System-Architektur
Untersuchungsdomäne
!  Arbeiten aus dem „digital genre -Bereich:
" 
" 

Analyse weltweiter Stichproben ohne jegliche Einschränkungen
Extrem grobe und wenig hilfreiche Ergebnisse

!  Empirischer Ansatz erfordert:
" 
" 

Korpus von HTML-Dokumenten als sicheren und großen Vorrat
HTML-Dokumente sind „flüchtig

!  Untersuchungsdomäne – Datensammlung:
" 
" 

Deutschsprachige Dokumente der
Webserver deutscher Hochschulen:
• 
• 
• 

Georg Rehm

Dokumente sind stark strukturiert
Kaum binäre Dateitypen als Vermittler von Text
Bzgl. Inhalt und Form überschaubar
(vs. kommerziellen, künstlerischen, Hobby-Angeboten)
TaCoS 2003
beschränken

Ausnahmen

*.uni-giessen.de

Datei-Suffixe:
Ausnahmen

Hostnames:

MIME-Typen:

Crawler (rekursiver Transfer)

HTML, XML etc.

Datei < 500kB?
HTTP-Port = 80?
Verknüpfungen

Alle
HTTP-Header

HTML-Dokument deutschsprachig?

fung
knüp
Ver

generiert

Statistik

ja, speichern

UNIXDateisystem

liefert Daten

SQLDatenbank

Tilgung von
Duplikaten
Universitäten

100

Allgemeine Universitäten (vollständig)

62

Technische Hochschulen (vollständig)

12

Musik- und Kunsthochschulen (partiell)

5

Wirtschaftshochschulen (partiell)

5

Sonstige Hochschulen (partiell)

16

Traversierte Webserver insgesamt / auf Port 80 operierend
Anzahl per HTTP erreichbarer Dateien
Anzahl HTML-Dokumente gesamt

14.968 / 13.885
16.196.511
8.465.105

Gesamtumfang aller entfernten Webserver

701.464,29 MB

Gesamtumfang der Hypnotic-Korpusdatenbank

40.914,99 MB

Laufende Wortformen (gesamt; nur text/html)

1.138.794.715

Laufende Wortformen (eindeutig; nur text/html)
Gesamtanzahl Dateien im Korpus

12.120.162
4.294.417

Dateien vom Medientyp text/html

3.956.692

Dateien vom Medientyp text/plain

270.400

Dateien vom Medientyp text/css

35.651

Dateien vom Medientyp text/xml

25.871

Dateien vom Medientyp text/sgml

956

Dateien vom Medientyp message/news

490

Dateien vom Medientyp message/rfc822

436

Georg Rehm

TaCoS 2003
Die durchschnittliche Webseite ...
!  ... ist 594,11 (!) Tage alt.
" 
" 

96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage
JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt

!  ... ist 7.024 Bytes groß.
" 

Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte

!  ... enthält 120,57 Elemente und 236,04 Attribute.
" 

body (98%), html (97%), head (97%), title (96%), a (87%),
p (81%), br (73%), img (67%), meta (66%), table (64%).

!  ... enthält 13,53 Hyperlinks.
" 
" 

" 

Etwa 56% aller Dokumente enthalten bis zu 10 Links.
90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5%
zeigen auf JavaScript-Dateien.
Top-Level-Domänen in entfernten Links: .de (86,7%), .com
(5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%)

!  Nur 46% aller HTML-Dokumente der Domäne deutschsprachig!
Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auswahl einer Universität

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auflistung der Server einer Universität

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auflistung der Dokumente eines Servers

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Ansicht eines Dokuments

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben

Generierung einer Stichprobe

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Die Dokumente einer Stichprobe

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
DB-gestützte Dokumentanalyse

Georg Rehm

TaCoS 2003
Hypnotic-Korpus-Front-End
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
" 

" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse

!  Einsatz von Open SourceWerkzeugen
!  Spätere Veröffentlichung des
Systems als Open Source
Georg Rehm

TaCoS 2003

Analyseergebnisse
Hypertextsorten und Ontologien
!  Viele Textsorten können hierarchisch angeordnet werden.
!  Dies trifft auch auf Hypertextsorten zu – in mehrfacher
Hinsicht:
" 
" 
" 

Hypertextsorten-Ebene
Hyperlink-Ebene
Thematische Ebene

→
→
→

Hypertextsorten-Ontologie
Struktur-Ontologie
Themen-Ontologie

!  Hypertextsorten-Ebene ist zentral für dieses Projekt:
" 
" 
" 

Wie sind Hypertextsorten generisch strukturiert?
Wie werden diese Strukturinformationen repräsentiert?
Wie kann man korrespondierende Detektionsmerkmale in diese
Repräsentation integrieren?

Georg Rehm

TaCoS 2003
Hypertextsorten-Module
!  Hypertextsorten werden aus Modulen gebildet.
" 

Hypertextsorten sind nicht monolithisch.

!  Diese Module sind:
" 
" 

obligatorisch vs. optional
optisch und/oder strukturell voneinander separiert

!  Persönliche Homepage eines Wissenschaftlers:
" 

Beispiel-Module:
- 
- 
- 
- 
- 
- 

Georg Rehm

Name (der beschriebenen Person bzw. des Autors)
Kontaktinformationen
Publikationen
Projekte
Lehrveranstaltungen
...

TaCoS 2003
Hypertextsorten-Module: Beispiele
XML Schema-Repräsentationen

HypertextsortenOntologie

definieren

Default-Eigenschaften:
<Inhalt, Form, Funktion>

Hypertextsorte

referenzieren

können fungieren als

bestehen aus

Obligatorische
Hypertextsorten-Module

kann
modifizieren

Optionale
Hypertextsorten-Module

Spezifische Eigenschaften:
<Inhalt, Form, Funktion>

werden je HTS
gruppiert in

Hypertextsortenmodule

Atomare Module
bzw. Merkmale

spezifizieren

Komplexe
Module

RDF-Beschreibungen von
Merkmalen und Modulen

HypertextsortenModul-Ontologie
Modellierung von Hypertextsorten
!  Modellierung durch Stichproben-Analysen
" 

Semiautomatische Durchführung mit Hilfe des FrontEnds der Korpusdatenbank:
•  Automatische Generierung von Samples
•  Semiautomatische Analyse von Samples
•  Sukzessive Rekonfiguration modularer Einheiten

!  Beispiel:
" 
" 

Georg Rehm

Persönliche Homepage eines Wissenschaftlers
Stichprobe von 100 Dokumenten

TaCoS 2003
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Atomares Modul

Explizite Begrüßung

generell

optional

Komplexes Modul

Identifikation

generell

obligatorisch

–

Komplexes Modul

Eigenständige Affiliation

generell

obligatorisch

–

Atomares Modul

Alternative Sprachversion

generell

optional

Komplexes Modul

Kontakt-Informationen

generell

obligatorisch

–

Komplexes Modul

Kontakt-Informationen (Sekretariat)

spezifisch

optional

–

Komplexes Modul

Kontakt-Informationen (Mitarbeiter)

spezifisch

optional

–

Komplexes Modul

Universitäres Profil

spezifisch

obligatorisch

–

Komplexes Modul

Wissenschaftliches Profil

spezifisch

obligatorisch

–

Atomares Modul

Lebenslauf, C.V., biographische Angaben

generell

obligatorisch

60

Atomares Modul

Interessante Links

generell

optional

12

Komplexes Modul

Relevante Links

generell

optional

–

Atomares Modul

Angabe der letzten Änderung / Stand

universal

obligatorisch

42

Atomares Modul

Counter, Zugriffszähler

universal

optional

11

Atomares Modul

Gästebuch

universal

optional

1

Georg Rehm

TaCoS 2003

14

75
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Atomares Modul

Explizite Begrüßung

generell

optional

Komplexes Modul

Identifikation

generell

obligatorisch

–

Merkmal

Name des Homepage-Besitzers

generell

obligatorisch

100

Merkmal

... begleitet von Titelangabe

spezifisch

obligatorisch

69

Merkmal

... begleitet von Tätigkeitsangabe

generell

optional

27

Merkmal

... begleitet von Affiliation

generell

obligatorisch

34

Merkmal

... begleitet von Photos des Autors

generell

obligatorisch

54

Komplexes Modul

Eigenständige Affiliation

generell

obligatorisch

–

Merkmal

Name der Universität im Klartext

generell

obligatorisch

75

Merkmal

Logo der Universität

generell

optional

16

Georg Rehm

TaCoS 2003

14
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Komplexes Modul

Kontakt-Informationen

generell

obligatorisch

–

Merkmal

Straßenadresse (Univ., Straße, PLZ, ...)

generell

obligatorisch

90

Merkmal

Explizite Postadresse

generell

optional

Merkmal

Telefonnummer

generell

obligatorisch

Merkmal

Telefonnummer (Sekretariat)

generell

optional

Merkmal

Faxnummer

generell

obligatorisch

66

Merkmal

Email-Adresse

generell

obligatorisch

98

Merkmal

Angabe der URL dieser Homepage

generell

optional

Merkmal

Zimmernummer

generell

obligatorisch

Merkmal

SMS senden

generell

optional

1

Merkmal

PGP Public Key bzw. PGP Fingerprint

generell

optional

2

Merkmal

X.500 Eintrag

generell

optional

2

Merkmal

Informationen zur Anreise

generell

optional

2

Merkmal

Sprechstunden

spezifisch

optional

2

...

...

...

...

...

Georg Rehm

TaCoS 2003

8
86
7

4
30
Hypertextsorten-Spezifikation
Ebene

Bezeichnung

Status

Vorkommen

Häufigkeit

Komplexes Modul

Universitäres Profil

spezifisch

obligatorisch

–

Merkmal

Angaben zu Lehrveranstaltungen

spezifisch

obligatorisch

49

Merkmal

Universitäre Funktionen (z.B. Gremien)

spezifisch

optional

7

Merkmal

Allgemeine Studienhinweise

spezifisch

optional

3

Merkmal

Angebotene Abschlussarbeiten

spezifisch

optional

2

Komplexes Modul

Wissenschaftliches Profil

spezifisch

obligatorisch

–

Merkmal

Publikationsliste

spezifisch

obligatorisch

71

Merkmal

Forschungsinteressen

spezifisch

obligatorisch

50

Merkmal

Forschungsprojekte

spezifisch

optional

22

Merkmal

Prominent platzierte Bücher/Zeitschriften

spezifisch

optional

6

Merkmal

Liste von Vorträgen und Präsentationen

spezifisch

optional

5

Merkmal

Mitgliedschaften in Fachverbänden

spezifisch

optional

4

Merkmal

Technologietransfer

spezifisch

optional

1

Georg Rehm

TaCoS 2003
Hypertextsorten-Definition
!  Modul-Reihenfolge entspricht kanonischer Sequenz
!  In dieser Stichprobe Bestimmung obligatorisch vs.
optional ab 30 Vorkommen
!  Status von Modulen und Merkmalen:
" 

" 

Kennzeichnet mögliche Vorkommen eben diesen Merkmals
in höher angeordneten Hypertextsorten
Beispiel: Das Modul „Kontakt-Informationen
•  In persönliche Homepage eines Wissenschaftlers generell
–  Auch in z.B. persönliche Homepage eines Studierenden

•  Das hierin enthaltene Merkmal „Sprechstunden ist spezifisch
•  Module wie „Zugriffszähler oder „Gästebuch sind universal
" 

Zweck: Modellierung der persönlichen Homepage eines
Wissenschaftlers als subgenerische Varietät der
persönlichen Homepage

Georg Rehm

TaCoS 2003
Hypertextsorten: NL-Definition
!  Persönliche Homepage eines Wissenschaftlers:
" 

gekürzt

Präsentation einer Person in digitaler, hypertextueller Form,
verfasst von einem Autor, der an einer Universität oder einer
vergleichbaren Institution arbeitet. Die Präsentation
•  stellt die Person heraus (durch einen Namen und ein Photo)
und macht eindeutige Angaben zur Affiliation,
•  stellt vergangene und aktuelle Forschungsaktivitäten und
•  die Berufserfahrung dar, indem das
–  Universitäre Profil (Angaben zu Lehrveranstaltungen) und das
–  Wissenschaftliche Profil (Publikationsliste und
Forschungsinteressen) der Person aufgeführt werden.

" 

•  enthält Kontakt-Informationen (mindestens Straßenadresse,
Telefonnummer, Email-Adresse und die Raumnummer),
evtl. auch dezidiert für das Sekretariat und Mitarbeiter.
Funktion dieser Hypertextsorte: (i) Etablierung eines
eigenständigen wissenschaftlichen Profils; Distribution von (ii)
Materialien für Lehrveranstaltungen sowie (iii) Publikationen,
aktuellen Forschungsinteressen und Kontakt-Informationen.

Georg Rehm

TaCoS 2003
Zwischenstand
!  Bislang wurden thematisiert:
" 

" 
" 
" 

Erzeugung eines Web-Schnappschusses einer
bestimmten Domäne, Korpus und Zugriffswerkzeuge
Hypertextsorten
Ihre Konstituierung aus Hypertextsorten-Modulen
Module können sich aus einzelnen Merkmalen
zusammensetzen, die auf zwei Ebenen typisiert sind

!  Es stehen noch aus:
" 
" 
" 

Georg Rehm

Aufbau von Hypertextsorten-Ontologien
Maschinelle Klassifikation von Hypertextsorten
Der zentrale Vorteil dieses Ansatzes

TaCoS 2003
Hypertextsorten-Ontologie
!  Stichproben-Analysen:
1.  Erste Stichprobe (200 Dokumente) ergab:

initiale Liste von Hypertextsorten,
•  extremen Bedarf für eine hierarchische Anordnung!
2.  Zwei weitere Stichproben:
a.  top-down:
• 

• 

727 Dokumente der obersten Verlinkungsebene der
Einstiegsseiten der ersten 35 Universitäten im Korpus

b.  bottom-up:
• 
• 

Georg Rehm

2000 zufällig ausgewählte „tiefe Dokumente
Diese Analyse steht noch aus

TaCoS 2003
Hypnotic-Hypertextsorten-Ontologie
Version 0.4

Nur einige der noch offenen Fragen:
•  Welche unterschiedlichen Knoten-Typen existieren?
•  Welche dieser Typen treten in der Realität auf („Text )?
•  Wie können isolierte Knoten („Linkliste ) sinnvoller in
die Ontologie integriert werden?
•  Welche unterschiedlichen Kanten-Typen existieren?
•  Ist eine Hyperlink-Typologie sinnvoll integrierbar?
•  XML als vereinheitlichendes Repräsentationsformat?

Georg Rehm

TaCoS 2003
Grobe Verteilung im 200er Sample
! 

Administrative Informationen (14)
" 
Studienordnung (2)
" 
Lehrveranstaltungsbezogene
Informationen (2)
•  Grundlegende Informationen zu
einem Kurs (9)
•  Kommentar (7)

" 
" 

! 

•  Übungsaufgabe (5)
•  Lösungen von Aufgaben (1)
•  Liste von Veranstaltungen (2)
•  LV-Materialien (2)
Informationen zu Stipendium (1)
Stellenangebot (1)

! 

Institut/Lehrstuhl/Arbeitsbereich (15)
" 
Einstiegsseite (4)
•  Konferenz (5)

" 

" 

Universitäre Informationen (5)
" 
Wegbeschreibung/Lageplan (3)
" 
Beschreibung eines universitären
Informationsangebots (1)

•  84 Hypertextsorten sind enthalten.
•  11 Dokumenten konnte aus technischen
Gründen keine Hypertextsorte zugeordnet
werden.
•  4 Hypertextsorten konnten nicht sinnvoll in
die Taxonomie integriert werden.

" 
" 

•  Beschreibung einer
Arbeitsgruppe (2)
•  Programmüberblick (1)
•  Anmeldeformular (1)
Liste der Mitarbeiter (4)
•  Persönliche Homepage (14)
•  Wissenschaftler (4)
•  Hilfskraft (3)
•  Virtuelle Visitenkarte (1)
Beschreibung eines
Forschungsschwerpunkts (3)
•  Bibliographie (9)
•  eines Autors (3)
•  eines Instituts (3)
•  thematisch sortiert (2)
•  Forschungsprojekt (9)
•  Beschreibung (7)
•  Arbeitsplan (19)
Kurze Darstellung der Institution (1)
Organisationsplan (1)
Detektionsmerkmale
! 

Werden eingesetzt zur
! 
! 

! 

Ansätze zur Textsorten-Klassifikation:
! 
! 

! 

Klassifikation von Dokumentinstanzen in Hypertextsorten
Genauer gesagt: Zur Zuweisung von HypertextsortenModulen an Dokumentfragmente
Analyse von „flat ASCII -Text
Fast ausschließlich sprachliche Merkmale

HTML bietet „mehr :
! 
! 

Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute
und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit!
Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen:
1. 
2. 
3. 
4. 
5. 

Georg Rehm

Dokumentübergreifende Merkmale
Metadaten
Sprachliche und strukturelle Cues
Sprachliche Konzeption
HTML-Struktur
TaCoS 2003
Sprachliche und strukturelle Merkmale

Titel Vorname Nachname
Universität ... → Institut ...
→ Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen:
Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit

Automatische Erkennung mittels:
•  regulärer Ausdrücke (für Telefonnummern etc.)
Erkennung dieser Cues schränkt Suche ein auf:
•  named entity-Tagger (für Personen- und Stadtnamen)
•  Persönliche Homepage eines Wissenschaftlers
•  hochfrequenter Schlüsselwörter einer Hypertextsorte
•  Virtuelle Visitenkarte
•  ...
Georg Rehm

TaCoS 2003
Merkmal: Sprachliche Konzeption
!  Koch & Oesterreicher (1994):
" 
" 

mediale
Mündlichkeit/Schriftlichkeit
konzeptionelle Mündlichkeit/Schriftlichkeit

!  Beispiele:
" 

" 

" 

Georg Rehm

Wissenschaftlicher Vortrag:
•  medial mündlich
•  konzeptionell schriftlich
Wissenschaftlicher Artikel:
•  medial schriftlich
•  konzeptionell schriftlich
Gespräch unter Freunden:
•  medial mündlich
•  konzeptionell mündlich
TaCoS 2003

dichotomisch:
entweder – oder
Kontinuum:
von ... bis
Merkmal: Sprachliche Konzeption
!  CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit
!  Berichtete Merkmale:
!  Umgangssprachliche Formen
!  Einfache Syntax und Lexik
(z.B. bei Begrüßungen und
!  Freie, assoziative ThemenVerabschiedungen)
entwicklung
Diese Merkmale sind mit Hilfe von !  Spontane Äußerungen
!  Hochfrequent: ich, man, du, ein- regulären Ausdrücken und
fach, mal, ziemlich, irgendwie
verschiedenen Listen (von Smileys, speziellen Akronymen etc.)
!  ...
automatisch detektierbar!
!  Regionalismen, Dialektismen
!  Ausgeprägte Dialogizität
!  Emphasen: ist _eingeschränkt_
!  Slangausdrücke: IMHO ...
!  Bigraphen (gruen), Assimilationen
(gibt s), Auslassungspunkte
(...), reduplizierte Interpunktionszeichen (!!!!!!) etc.

Georg Rehm

TaCoS 2003

!  Smileys: :-)
!  Isolierte Verbstämme:
*lach*, *grins*, ...
!  Spezifische Abkürzungen:
*rotfl*
!  Iterationen: Tschüßiiiii
Merkmal: Sprachliche Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Merkmal: Sprachliche Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Merkmal: Sprachliche Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Merkmal: Sprachliche Konzeption

Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebücher, Chat-Protokolle,
Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.
Kommentiertes Vorlesungsverzeichnis
Persönliche Homepage von
Prof. Dr. Henning Lobin

des Fachgebiets Germanistik der JLU

!

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Das eigentliche Ziel
!  XML Schema als Repräsentationsformat der
Hypertextsorten-Ontologie
!  Resultate des Analyse-Systems sollen sein:
" 

" 

Klassifikation eines HTML-Dokuments in eine
Hypertextsorte
Basierend auf dieser Information:
•  Konvertierung der Webseite in eine XML-Instanz
•  Explizite Annotation der HTS-Module

!  Anders gesagt:
" 

Georg Rehm

Hypertextsorten-getriebene Konvertierung arbiträrer
HTML-Dokumente der Untersuchungsdomäne in
korrespondierende XML-Formate

TaCoS 2003
Zuweisung von Hypertextsorten-Modulen

HTSModule

HTS-Klassifikation
HTSOntologie

StrukturOntologie

AnalyseDTD

Strukturanalyse

Konvertierung: HTML → XHTML
Hypnotic-Korpusdatenbank

ThemenOntologie

XMLDateien

UserDaten

Metadaten

HTTPHeader

HTMLDateien
Stichproben

Analyse
Features

ServerDaten

PHP, Perl, verschiedene Tools
RDF, DTD,
XML Schema

Dokumentansicht

Apache Webserver
SampleSampleGenerierung
Analyse

StrukturVisualisierung
Konvertierung HTML → XHTML
!  HTML-Dokumente im Web enthalten sehr viel
fehlerhaftes Markup
" 

Erschwert maschinelle Verarbeitung erheblich

!  XHTML: Neuformlierung von HTML mit XML
" 

XHTML-Dokumente sind auch XML-Dokumente

!  Wohlgeformte XHTML-Dokumente können mit XMLWerkzeugen verarbeitet werden:
" 

XML Parser, XPath, DOM, XSLT etc.

!  Konvertierung erfolgt mit gepatchtem Tidy und dem
Perl-Modul HTML::TreeBuilder
!  Test mit 10.000 Dokumenten:
" 

Konvertierung in 98,7% aller Fälle erfolgreich
•  Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente
sind alle von einem (nicht validierenden) XML-Parser ohne
Fehlermeldung prozessierbar

Georg Rehm

TaCoS 2003
Strukturanalyse
!  Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath
" 

Georg Rehm

DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen

TaCoS 2003
DOM-Struktur einer XML-Instanz
erheblich gekürzt und abstrahiert
Strukturanalyse
!  Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath
" 

DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen

!  Verschachtelte rekursive Funktionen beginnen beim
Wurzelelement des Dokumens (<html>):
" 

Berechnung verschiedener Merkmale einzelner Teilbäume,
der in ihnen enthaltenen Teilbäume etc.:
•  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter
•  Hyperlink-Analyse (external, samedomain, internal)
•  Analyse von eingebetteten Graphiken
–  Ermittlung der Abmessungen der Graphiken
–  Erkennung von Werbebannern
–  Erkennung horizontaler Separatoren

•  Analyse von Listen-Strukturen
•  ...
Georg Rehm

TaCoS 2003
Strukturanalyse
!  Die Analyse-Heuristiken legen ihre Resultate unmittelbar
in dem XHTML-Dokument ab:
" 

Deklaration eines eigenen Namespace (hypnotic:) im
Wurzelelement (Default bleibt jedoch XHTML 1.0)
•  Namespace → Analyse-DTD der Systemarchitektur

" 
" 
" 
" 

Elemente: Makrostrukturelle Analyseresultate
Attribute: Teilbaum- und Element-bezogene Analyseresultate
Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung
Beispiel:
•  Horizontale Linien sind eigentlich durch <hr> zu realisieren
•  Häufig werden hierfür auch Graphiken benutzt
•  Strukturanalyse markiert:
<img src="..." hypnotic:TagGroup="separator">

" 

Vergrößert ein Dokument derzeit um den Faktor 20

!  Bislang erst Spitze des Eisberges implementiert – sehr
viele Funktionen stehen noch aus
Georg Rehm

TaCoS 2003
Informationsextraktion
!  Wrapping: Mittlerweile triviale Anwendung
" 

Informationsextraktion aus genau einem HTMLDokument-Typ

!  Hypnotic verfolgt:
" 
" 

Hypertextsorten-getriebene Informationsextraktion
Kann für einige HTS-Module auf der bloßen
Strukturanalyse basieren:
•  Definition des Moduls: „Interessante Links
–  Listenartige Präsentation von mindestens zwei
externen Hyperlinks
–  Evtl. flankiert von kurzer Erläuterung des Link-Ziels
–  Mindestens ein Hyperlink pro logischem Abschnitt
der Liste

Georg Rehm

TaCoS 2003
Informationsextraktion
!  Definition ist unmittelbar in XPath-Ausdruck überführbar:
//* [@hypnotic:TagGroup="list"]
[@hypnotic:NumberOfListItems > 1]
[@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)]
[//* [@hypnotic:LinkType]]
[(not(.//*[ @hypnotic:LinkType and
@hypnotic:LinkType != "external"]))]

!  Finde alle Knoten:

Aber:
Die vom Typ „Liste sind,
" 
mehr als ein bezieht sich nun
Dieses Element List-Item enthalten, nicht mehr auf die Analyse-DTD,
" 
ausschließlich externe Hyperlinks beinhalten und
sondern auf die XML Schema-Formalisierung einer Hypertextsorte!
" 
mindestens so viele externe Hyperlinks wie List-Items umfassen.
" 

!  Falls alle Prädikate wahr sind, kann der Kontext-Knoten als
hypnotic:WebGenreModule="Interesting Links" analysiert werden
Georg Rehm

TaCoS 2003
Informationsextraktion

!
Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation
Ausblick
!  Stichprobenauswertung (bottom-up) zur
Komplettierung der Hypertextsorten-Ontologie
!  Entwicklung des XML-Repräsentationsformats
für die Hypertextsorten-Ontologie
!  Entwicklung des RDF-Repräsentationsformats
für die Hypertextsorten-Modul-Ontologie
!  Implementation des Klassifikationssystems
!  Evaluation des Systems mit realen SuchFragestellungen

Georg Rehm

TaCoS 2003

Weitere ähnliche Inhalte

Andere mochten auch

Suites numériques exercices corrigés
Suites numériques exercices corrigésSuites numériques exercices corrigés
Suites numériques exercices corrigés
Lamia Lazrak
 
Apostila de atividades crianças 1 a 2 anos
Apostila de atividades  crianças 1 a 2 anosApostila de atividades  crianças 1 a 2 anos
Apostila de atividades crianças 1 a 2 anos
Mara Rocha
 
Dicionário de acordes para teclado
Dicionário de acordes para tecladoDicionário de acordes para teclado
Dicionário de acordes para teclado
altairhg
 
Fichas de Trabalho Carochinha 1º ano
Fichas de Trabalho Carochinha 1º anoFichas de Trabalho Carochinha 1º ano
Fichas de Trabalho Carochinha 1º ano
Ana Picão
 
Ch7460PP
Ch7460PPCh7460PP
Ch7460PP
fiegent
 

Andere mochten auch (17)

Suites numériques exercices corrigés
Suites numériques exercices corrigésSuites numériques exercices corrigés
Suites numériques exercices corrigés
 
Apostila de atividades crianças 1 a 2 anos
Apostila de atividades  crianças 1 a 2 anosApostila de atividades  crianças 1 a 2 anos
Apostila de atividades crianças 1 a 2 anos
 
Projetos elétricos residenciais - Completo
Projetos elétricos residenciais  - CompletoProjetos elétricos residenciais  - Completo
Projetos elétricos residenciais - Completo
 
Dicionário de acordes para teclado
Dicionário de acordes para tecladoDicionário de acordes para teclado
Dicionário de acordes para teclado
 
Fichas de Trabalho Carochinha 1º ano
Fichas de Trabalho Carochinha 1º anoFichas de Trabalho Carochinha 1º ano
Fichas de Trabalho Carochinha 1º ano
 
Seo Basics: Google Rankingfaktoren 2016
Seo Basics: Google Rankingfaktoren 2016Seo Basics: Google Rankingfaktoren 2016
Seo Basics: Google Rankingfaktoren 2016
 
apostila-de-receitas-completo-culinaria-senac
 apostila-de-receitas-completo-culinaria-senac apostila-de-receitas-completo-culinaria-senac
apostila-de-receitas-completo-culinaria-senac
 
DIE MULTICHANNELFALLE
DIE MULTICHANNELFALLEDIE MULTICHANNELFALLE
DIE MULTICHANNELFALLE
 
FMK2016 - Christoph Kluss - Auftragsprogrammierung oder Scheinselbstständigke...
FMK2016 - Christoph Kluss - Auftragsprogrammierung oder Scheinselbstständigke...FMK2016 - Christoph Kluss - Auftragsprogrammierung oder Scheinselbstständigke...
FMK2016 - Christoph Kluss - Auftragsprogrammierung oder Scheinselbstständigke...
 
Marketing stratégique : l'analyse des objectifs
Marketing stratégique : l'analyse des objectifsMarketing stratégique : l'analyse des objectifs
Marketing stratégique : l'analyse des objectifs
 
How to Make Awesome SlideShares: Tips & Tricks
How to Make Awesome SlideShares: Tips & TricksHow to Make Awesome SlideShares: Tips & Tricks
How to Make Awesome SlideShares: Tips & Tricks
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 
Vision prospective de la robotique : usages et technologies - NUIDay 2016
Vision prospective de la robotique : usages et technologies - NUIDay 2016Vision prospective de la robotique : usages et technologies - NUIDay 2016
Vision prospective de la robotique : usages et technologies - NUIDay 2016
 
Psychometric instrument development
Psychometric instrument developmentPsychometric instrument development
Psychometric instrument development
 
[lectures] Start und Organisatorisches (Seminar E-Moderation)
[lectures] Start und Organisatorisches (Seminar E-Moderation)[lectures] Start und Organisatorisches (Seminar E-Moderation)
[lectures] Start und Organisatorisches (Seminar E-Moderation)
 
Indifrrence curve analysis
Indifrrence curve analysisIndifrrence curve analysis
Indifrrence curve analysis
 
Ch7460PP
Ch7460PPCh7460PP
Ch7460PP
 

Ähnlich wie Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Ralf Stockmann
 
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
TIB Hannover
 
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordernWie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Dirk Lewandowski
 
SS13 Sitzung 1
SS13 Sitzung 1SS13 Sitzung 1
SS13 Sitzung 1
scuy
 
Wissenschaftliches Arbeiten mit Zotero
Wissenschaftliches Arbeiten mit ZoteroWissenschaftliches Arbeiten mit Zotero
Wissenschaftliches Arbeiten mit Zotero
Johann Höchtl
 

Ähnlich wie Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web (20)

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
 
"SEO Texte": So schreibst du Texte für User, die auch gefunden werden.
"SEO Texte": So schreibst du Texte für User, die auch gefunden werden. "SEO Texte": So schreibst du Texte für User, die auch gefunden werden.
"SEO Texte": So schreibst du Texte für User, die auch gefunden werden.
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich Wollen
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
 
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordernWie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Inhaltsstrategien
InhaltsstrategienInhaltsstrategien
Inhaltsstrategien
 
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
 
Suchmaschinen verstehen
Suchmaschinen verstehenSuchmaschinen verstehen
Suchmaschinen verstehen
 
Frontend Coding Guidelines - Ein Baustein zur Qualitätssicherung
Frontend Coding Guidelines - Ein Baustein zur QualitätssicherungFrontend Coding Guidelines - Ein Baustein zur Qualitätssicherung
Frontend Coding Guidelines - Ein Baustein zur Qualitätssicherung
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
 
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
 
SS13 Sitzung 1
SS13 Sitzung 1SS13 Sitzung 1
SS13 Sitzung 1
 
Wissenschaftliches Arbeiten mit Zotero
Wissenschaftliches Arbeiten mit ZoteroWissenschaftliches Arbeiten mit Zotero
Wissenschaftliches Arbeiten mit Zotero
 
Drupal, Context Modul
Drupal, Context ModulDrupal, Context Modul
Drupal, Context Modul
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
 
Fachkurs Online Content Management, FHNW
Fachkurs Online Content Management, FHNWFachkurs Online Content Management, FHNW
Fachkurs Online Content Management, FHNW
 
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und WerkzeugeHypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
 

Mehr von Georg Rehm

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

  • 1. Hypertextsorten Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Georg Rehm, M.A. Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen Georg.Rehm@uni-giessen.de http://www.uni-giessen.de/~g91063/
  • 3. Status Quo Aus Sicht des (unerfahrenen) Benutzers: •  DWIM-Prinzip („Do what I mean! ) •  Spezifizierung einer Suchanfrage ist schwierig •  Es ist unklar, nach welchen Kriterien die Maschine sucht
  • 4. Das Ziel Abstraktion über Inhalt bzw. Thema: Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation !
  • 6. Textsorten !  Textlinguistik: Textsorten (Brief, Rezept, ...), d.h. unterschiedliche Typen von Texten Zentrale Hypothese: !  Klassifikationskriterien (u.a.): Inhalt – Thema Im World Wide Web existieren Hypertextsorten "  Form – Aufbau, Struktur, Gliederung #  Nach nur wenigen Jahren (!) kanonisierte, "  Funktion – Zweck funktionsgebundene, hypertextuelle Strukturen "  kkkkkkkkkkkkkkkkkkkkk „[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind. Brinker (1985) Georg Rehm TaCoS 2003
  • 8. Textsorten-Klassifikation Fazit Korpus Methoden •  Einfache Methoden liefern für wenige Textsorten sehr Karlgren & gute Resultate Cutting (1994), DiskriminantenJeweils 500 Texte •  In diesen Ansätzen ausschließlich: ASCII-Texte (!) Analyse – 20 Recognizing Text •  Wie kann man sehr aus dem Brown viele Hypertextsorten möglichst Parameter (noun, Genres with Corpus präzise detektieren? it, adv., word etc. Simple Metrics (tagged) counts) Using Discriminant Functions Kessler, Nunberg & Schütze (1997), Automatic Detection of Text Genre Stamatatos et al. (2000), Text Genre Detection Using Common Word Frequencies ca. 500 Texte aus dem Brown Corpus (tagged) Statististik/KNNs, 55 Merkmale (Interpunktion, Affixe, Passiv, etc.) Wall Street Journal Corpus (untagged) DiskriminantenAnalyse – Worthäufigkeiten und Interpunktionsz. Genres 2.  4.  Informative, Imaginative Press, Fiction, Misc., Non-Fiction Präzision 2.  4.  ca. 96% ca. 73% 6.  Reportage, Editorial, SciTech, Legal, Non-Fiction, Fiction ca. 90% (für „reportage und „fiction ) 4.  Editorial, Letter to the Editor, Reportage, Spot news ca. 97%
  • 9. Hypertextsorten-Klassifikation Genres Matsuda & Fukushima (1999), Task-Oriented World Wide Web Retrieval by Document Type Classification Karlgren et al. (1998), Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres Methoden 9: prod. catalogue, online shop, advertisement for help, CfP, links, FAQ, glossary, home page, bulletin board Gewichtetes PatternMatching in HTMLElementen Merkmale ! keyword, link, URL, structure, image, OCR, plugin 11: Informal/Private, Public/Com., Clustering der insgesamt 40 Indices, Journ. Merkmale; Merkmale, z.B. Material, Reports, Fazit Konstruktion Vorkommen von Text, FAQ, Link von if-thenWörtern und •  Einfache Methoden liefern für wenige HypertextColl., Listings/Regeln HTML-Elementen sorten sehr gute Tables, Discussio- Resultate •  Sind Messages ns, Error diese Ergebnisse auf sehr viele, tw. recht ähnliche Hypertextsorten übertragbar? •  Auswahl und Granularität der gewählten Hypertextsorten ad hoc, nicht textlinguistisch motiviert! Präzision avg. precision of document-type search: 88,9% [avg. precision of keyword-based search: 31,2%] Zwischen 30% und 90%, je nach Genre
  • 10. Hypertextsorten: Beispiele !  Eine sehr interessante Hypertextsorte: Persönliche Homepage !  Mittlerweile: empirisch nachweisbare, subgenerische Varianten, u.a.: "  "  "  Persönliche Homepage eines Studierenden Persönliche Homepage eines administrativen oder technischen Mitarbeiters Persönliche Homepage eines Wissenschaftlers Beispiele aus: •  vier verschiedenen Universitäten und •  vier unterschiedlichen Disziplinen Georg Rehm TaCoS 2003
  • 12. Projektverlauf – Roadmap I.  Empirischer, Korpus-basierter Ansatz: "  "  Auswahl einer geeigneten Untersuchungsdomäne Korpus-Datenbank-System: 1.  2.  3.  4.  Datensammlung Implementation eines Web-basierten Front-Ends (semi-automatische) Analyse von Stichproben Erstellung einer Taxonomie von Hypertextsorten II.  Maschinelle Erkennung von Hypertextsorten: "  "  "  "  "  Georg Rehm Sammlung von Detektionsmerkmalen Generischer Aufbau von Hypertextsorten Klassifikations-Methoden und -Ansätze Generische Informationsextraktion Design und Implementierung der System-Architektur TaCoS 2003
  • 13. I.  Empirischer, Korpus-basierter Ansatz Untersuchungsdomäne Korpus-Datenbank-System: "  "  •  •  •  •  Datensammlung Das Web-basierte Korpus-Front-End Stichprobenanalyse Eine Taxonomie von Hypertextsorten II.  Maschinelle Erkennung von Hypertextsorten "  "  "  "  Detektionsmerkmale Generischer Aufbau von Hypertextsorten Klassifikations-Methoden und -Ansätze Design der System-Architektur
  • 14. Untersuchungsdomäne !  Arbeiten aus dem „digital genre -Bereich: "  "  Analyse weltweiter Stichproben ohne jegliche Einschränkungen Extrem grobe und wenig hilfreiche Ergebnisse !  Empirischer Ansatz erfordert: "  "  Korpus von HTML-Dokumenten als sicheren und großen Vorrat HTML-Dokumente sind „flüchtig !  Untersuchungsdomäne – Datensammlung: "  "  Deutschsprachige Dokumente der Webserver deutscher Hochschulen: •  •  •  Georg Rehm Dokumente sind stark strukturiert Kaum binäre Dateitypen als Vermittler von Text Bzgl. Inhalt und Form überschaubar (vs. kommerziellen, künstlerischen, Hobby-Angeboten) TaCoS 2003
  • 15. beschränken Ausnahmen *.uni-giessen.de Datei-Suffixe: Ausnahmen Hostnames: MIME-Typen: Crawler (rekursiver Transfer) HTML, XML etc. Datei < 500kB? HTTP-Port = 80? Verknüpfungen Alle HTTP-Header HTML-Dokument deutschsprachig? fung knüp Ver generiert Statistik ja, speichern UNIXDateisystem liefert Daten SQLDatenbank Tilgung von Duplikaten
  • 16. Universitäten 100 Allgemeine Universitäten (vollständig) 62 Technische Hochschulen (vollständig) 12 Musik- und Kunsthochschulen (partiell) 5 Wirtschaftshochschulen (partiell) 5 Sonstige Hochschulen (partiell) 16 Traversierte Webserver insgesamt / auf Port 80 operierend Anzahl per HTTP erreichbarer Dateien Anzahl HTML-Dokumente gesamt 14.968 / 13.885 16.196.511 8.465.105 Gesamtumfang aller entfernten Webserver 701.464,29 MB Gesamtumfang der Hypnotic-Korpusdatenbank 40.914,99 MB Laufende Wortformen (gesamt; nur text/html) 1.138.794.715 Laufende Wortformen (eindeutig; nur text/html) Gesamtanzahl Dateien im Korpus 12.120.162 4.294.417 Dateien vom Medientyp text/html 3.956.692 Dateien vom Medientyp text/plain 270.400 Dateien vom Medientyp text/css 35.651 Dateien vom Medientyp text/xml 25.871 Dateien vom Medientyp text/sgml 956 Dateien vom Medientyp message/news 490 Dateien vom Medientyp message/rfc822 436 Georg Rehm TaCoS 2003
  • 17. Die durchschnittliche Webseite ... !  ... ist 594,11 (!) Tage alt. "  "  96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt !  ... ist 7.024 Bytes groß. "  Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte !  ... enthält 120,57 Elemente und 236,04 Attribute. "  body (98%), html (97%), head (97%), title (96%), a (87%), p (81%), br (73%), img (67%), meta (66%), table (64%). !  ... enthält 13,53 Hyperlinks. "  "  "  Etwa 56% aller Dokumente enthalten bis zu 10 Links. 90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5% zeigen auf JavaScript-Dateien. Top-Level-Domänen in entfernten Links: .de (86,7%), .com (5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%) !  Nur 46% aller HTML-Dokumente der Domäne deutschsprachig! Georg Rehm TaCoS 2003
  • 18. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten Georg Rehm TaCoS 2003
  • 19. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auswahl einer Universität Georg Rehm TaCoS 2003
  • 20. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Server einer Universität Georg Rehm TaCoS 2003
  • 21. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Dokumente eines Servers Georg Rehm TaCoS 2003
  • 22. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Ansicht eines Dokuments Georg Rehm TaCoS 2003
  • 23. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Generierung einer Stichprobe Georg Rehm TaCoS 2003
  • 24. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Die Dokumente einer Stichprobe Georg Rehm TaCoS 2003
  • 25. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse DB-gestützte Dokumentanalyse Georg Rehm TaCoS 2003
  • 26. Hypnotic-Korpus-Front-End !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse !  Einsatz von Open SourceWerkzeugen !  Spätere Veröffentlichung des Systems als Open Source Georg Rehm TaCoS 2003 Analyseergebnisse
  • 27. Hypertextsorten und Ontologien !  Viele Textsorten können hierarchisch angeordnet werden. !  Dies trifft auch auf Hypertextsorten zu – in mehrfacher Hinsicht: "  "  "  Hypertextsorten-Ebene Hyperlink-Ebene Thematische Ebene → → → Hypertextsorten-Ontologie Struktur-Ontologie Themen-Ontologie !  Hypertextsorten-Ebene ist zentral für dieses Projekt: "  "  "  Wie sind Hypertextsorten generisch strukturiert? Wie werden diese Strukturinformationen repräsentiert? Wie kann man korrespondierende Detektionsmerkmale in diese Repräsentation integrieren? Georg Rehm TaCoS 2003
  • 28. Hypertextsorten-Module !  Hypertextsorten werden aus Modulen gebildet. "  Hypertextsorten sind nicht monolithisch. !  Diese Module sind: "  "  obligatorisch vs. optional optisch und/oder strukturell voneinander separiert !  Persönliche Homepage eines Wissenschaftlers: "  Beispiel-Module: -  -  -  -  -  -  Georg Rehm Name (der beschriebenen Person bzw. des Autors) Kontaktinformationen Publikationen Projekte Lehrveranstaltungen ... TaCoS 2003
  • 30. XML Schema-Repräsentationen HypertextsortenOntologie definieren Default-Eigenschaften: <Inhalt, Form, Funktion> Hypertextsorte referenzieren können fungieren als bestehen aus Obligatorische Hypertextsorten-Module kann modifizieren Optionale Hypertextsorten-Module Spezifische Eigenschaften: <Inhalt, Form, Funktion> werden je HTS gruppiert in Hypertextsortenmodule Atomare Module bzw. Merkmale spezifizieren Komplexe Module RDF-Beschreibungen von Merkmalen und Modulen HypertextsortenModul-Ontologie
  • 31. Modellierung von Hypertextsorten !  Modellierung durch Stichproben-Analysen "  Semiautomatische Durchführung mit Hilfe des FrontEnds der Korpusdatenbank: •  Automatische Generierung von Samples •  Semiautomatische Analyse von Samples •  Sukzessive Rekonfiguration modularer Einheiten !  Beispiel: "  "  Georg Rehm Persönliche Homepage eines Wissenschaftlers Stichprobe von 100 Dokumenten TaCoS 2003
  • 32. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Atomares Modul Explizite Begrüßung generell optional Komplexes Modul Identifikation generell obligatorisch – Komplexes Modul Eigenständige Affiliation generell obligatorisch – Atomares Modul Alternative Sprachversion generell optional Komplexes Modul Kontakt-Informationen generell obligatorisch – Komplexes Modul Kontakt-Informationen (Sekretariat) spezifisch optional – Komplexes Modul Kontakt-Informationen (Mitarbeiter) spezifisch optional – Komplexes Modul Universitäres Profil spezifisch obligatorisch – Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch – Atomares Modul Lebenslauf, C.V., biographische Angaben generell obligatorisch 60 Atomares Modul Interessante Links generell optional 12 Komplexes Modul Relevante Links generell optional – Atomares Modul Angabe der letzten Änderung / Stand universal obligatorisch 42 Atomares Modul Counter, Zugriffszähler universal optional 11 Atomares Modul Gästebuch universal optional 1 Georg Rehm TaCoS 2003 14 75
  • 33. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Atomares Modul Explizite Begrüßung generell optional Komplexes Modul Identifikation generell obligatorisch – Merkmal Name des Homepage-Besitzers generell obligatorisch 100 Merkmal ... begleitet von Titelangabe spezifisch obligatorisch 69 Merkmal ... begleitet von Tätigkeitsangabe generell optional 27 Merkmal ... begleitet von Affiliation generell obligatorisch 34 Merkmal ... begleitet von Photos des Autors generell obligatorisch 54 Komplexes Modul Eigenständige Affiliation generell obligatorisch – Merkmal Name der Universität im Klartext generell obligatorisch 75 Merkmal Logo der Universität generell optional 16 Georg Rehm TaCoS 2003 14
  • 34. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Komplexes Modul Kontakt-Informationen generell obligatorisch – Merkmal Straßenadresse (Univ., Straße, PLZ, ...) generell obligatorisch 90 Merkmal Explizite Postadresse generell optional Merkmal Telefonnummer generell obligatorisch Merkmal Telefonnummer (Sekretariat) generell optional Merkmal Faxnummer generell obligatorisch 66 Merkmal Email-Adresse generell obligatorisch 98 Merkmal Angabe der URL dieser Homepage generell optional Merkmal Zimmernummer generell obligatorisch Merkmal SMS senden generell optional 1 Merkmal PGP Public Key bzw. PGP Fingerprint generell optional 2 Merkmal X.500 Eintrag generell optional 2 Merkmal Informationen zur Anreise generell optional 2 Merkmal Sprechstunden spezifisch optional 2 ... ... ... ... ... Georg Rehm TaCoS 2003 8 86 7 4 30
  • 35. Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit Komplexes Modul Universitäres Profil spezifisch obligatorisch – Merkmal Angaben zu Lehrveranstaltungen spezifisch obligatorisch 49 Merkmal Universitäre Funktionen (z.B. Gremien) spezifisch optional 7 Merkmal Allgemeine Studienhinweise spezifisch optional 3 Merkmal Angebotene Abschlussarbeiten spezifisch optional 2 Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch – Merkmal Publikationsliste spezifisch obligatorisch 71 Merkmal Forschungsinteressen spezifisch obligatorisch 50 Merkmal Forschungsprojekte spezifisch optional 22 Merkmal Prominent platzierte Bücher/Zeitschriften spezifisch optional 6 Merkmal Liste von Vorträgen und Präsentationen spezifisch optional 5 Merkmal Mitgliedschaften in Fachverbänden spezifisch optional 4 Merkmal Technologietransfer spezifisch optional 1 Georg Rehm TaCoS 2003
  • 36. Hypertextsorten-Definition !  Modul-Reihenfolge entspricht kanonischer Sequenz !  In dieser Stichprobe Bestimmung obligatorisch vs. optional ab 30 Vorkommen !  Status von Modulen und Merkmalen: "  "  Kennzeichnet mögliche Vorkommen eben diesen Merkmals in höher angeordneten Hypertextsorten Beispiel: Das Modul „Kontakt-Informationen •  In persönliche Homepage eines Wissenschaftlers generell –  Auch in z.B. persönliche Homepage eines Studierenden •  Das hierin enthaltene Merkmal „Sprechstunden ist spezifisch •  Module wie „Zugriffszähler oder „Gästebuch sind universal "  Zweck: Modellierung der persönlichen Homepage eines Wissenschaftlers als subgenerische Varietät der persönlichen Homepage Georg Rehm TaCoS 2003
  • 37. Hypertextsorten: NL-Definition !  Persönliche Homepage eines Wissenschaftlers: "  gekürzt Präsentation einer Person in digitaler, hypertextueller Form, verfasst von einem Autor, der an einer Universität oder einer vergleichbaren Institution arbeitet. Die Präsentation •  stellt die Person heraus (durch einen Namen und ein Photo) und macht eindeutige Angaben zur Affiliation, •  stellt vergangene und aktuelle Forschungsaktivitäten und •  die Berufserfahrung dar, indem das –  Universitäre Profil (Angaben zu Lehrveranstaltungen) und das –  Wissenschaftliche Profil (Publikationsliste und Forschungsinteressen) der Person aufgeführt werden. "  •  enthält Kontakt-Informationen (mindestens Straßenadresse, Telefonnummer, Email-Adresse und die Raumnummer), evtl. auch dezidiert für das Sekretariat und Mitarbeiter. Funktion dieser Hypertextsorte: (i) Etablierung eines eigenständigen wissenschaftlichen Profils; Distribution von (ii) Materialien für Lehrveranstaltungen sowie (iii) Publikationen, aktuellen Forschungsinteressen und Kontakt-Informationen. Georg Rehm TaCoS 2003
  • 38. Zwischenstand !  Bislang wurden thematisiert: "  "  "  "  Erzeugung eines Web-Schnappschusses einer bestimmten Domäne, Korpus und Zugriffswerkzeuge Hypertextsorten Ihre Konstituierung aus Hypertextsorten-Modulen Module können sich aus einzelnen Merkmalen zusammensetzen, die auf zwei Ebenen typisiert sind !  Es stehen noch aus: "  "  "  Georg Rehm Aufbau von Hypertextsorten-Ontologien Maschinelle Klassifikation von Hypertextsorten Der zentrale Vorteil dieses Ansatzes TaCoS 2003
  • 39. Hypertextsorten-Ontologie !  Stichproben-Analysen: 1.  Erste Stichprobe (200 Dokumente) ergab: initiale Liste von Hypertextsorten, •  extremen Bedarf für eine hierarchische Anordnung! 2.  Zwei weitere Stichproben: a.  top-down: •  •  727 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus b.  bottom-up: •  •  Georg Rehm 2000 zufällig ausgewählte „tiefe Dokumente Diese Analyse steht noch aus TaCoS 2003
  • 40. Hypnotic-Hypertextsorten-Ontologie Version 0.4 Nur einige der noch offenen Fragen: •  Welche unterschiedlichen Knoten-Typen existieren? •  Welche dieser Typen treten in der Realität auf („Text )? •  Wie können isolierte Knoten („Linkliste ) sinnvoller in die Ontologie integriert werden? •  Welche unterschiedlichen Kanten-Typen existieren? •  Ist eine Hyperlink-Typologie sinnvoll integrierbar? •  XML als vereinheitlichendes Repräsentationsformat? Georg Rehm TaCoS 2003
  • 41. Grobe Verteilung im 200er Sample !  Administrative Informationen (14) "  Studienordnung (2) "  Lehrveranstaltungsbezogene Informationen (2) •  Grundlegende Informationen zu einem Kurs (9) •  Kommentar (7) "  "  !  •  Übungsaufgabe (5) •  Lösungen von Aufgaben (1) •  Liste von Veranstaltungen (2) •  LV-Materialien (2) Informationen zu Stipendium (1) Stellenangebot (1) !  Institut/Lehrstuhl/Arbeitsbereich (15) "  Einstiegsseite (4) •  Konferenz (5) "  "  Universitäre Informationen (5) "  Wegbeschreibung/Lageplan (3) "  Beschreibung eines universitären Informationsangebots (1) •  84 Hypertextsorten sind enthalten. •  11 Dokumenten konnte aus technischen Gründen keine Hypertextsorte zugeordnet werden. •  4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden. "  "  •  Beschreibung einer Arbeitsgruppe (2) •  Programmüberblick (1) •  Anmeldeformular (1) Liste der Mitarbeiter (4) •  Persönliche Homepage (14) •  Wissenschaftler (4) •  Hilfskraft (3) •  Virtuelle Visitenkarte (1) Beschreibung eines Forschungsschwerpunkts (3) •  Bibliographie (9) •  eines Autors (3) •  eines Instituts (3) •  thematisch sortiert (2) •  Forschungsprojekt (9) •  Beschreibung (7) •  Arbeitsplan (19) Kurze Darstellung der Institution (1) Organisationsplan (1)
  • 42. Detektionsmerkmale !  Werden eingesetzt zur !  !  !  Ansätze zur Textsorten-Klassifikation: !  !  !  Klassifikation von Dokumentinstanzen in Hypertextsorten Genauer gesagt: Zur Zuweisung von HypertextsortenModulen an Dokumentfragmente Analyse von „flat ASCII -Text Fast ausschließlich sprachliche Merkmale HTML bietet „mehr : !  !  Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit! Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen: 1.  2.  3.  4.  5.  Georg Rehm Dokumentübergreifende Merkmale Metadaten Sprachliche und strukturelle Cues Sprachliche Konzeption HTML-Struktur TaCoS 2003
  • 43. Sprachliche und strukturelle Merkmale Titel Vorname Nachname Universität ... → Institut ... → Arbeitsbereich ... Straße Hausnr. PLZ Stadt Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr. Sprechstunde Tag Uhrzeit Automatische Erkennung mittels: •  regulärer Ausdrücke (für Telefonnummern etc.) Erkennung dieser Cues schränkt Suche ein auf: •  named entity-Tagger (für Personen- und Stadtnamen) •  Persönliche Homepage eines Wissenschaftlers •  hochfrequenter Schlüsselwörter einer Hypertextsorte •  Virtuelle Visitenkarte •  ... Georg Rehm TaCoS 2003
  • 44. Merkmal: Sprachliche Konzeption !  Koch & Oesterreicher (1994): "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich TaCoS 2003 dichotomisch: entweder – oder Kontinuum: von ... bis
  • 45. Merkmal: Sprachliche Konzeption !  CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit !  Berichtete Merkmale: !  Umgangssprachliche Formen !  Einfache Syntax und Lexik (z.B. bei Begrüßungen und !  Freie, assoziative ThemenVerabschiedungen) entwicklung Diese Merkmale sind mit Hilfe von !  Spontane Äußerungen !  Hochfrequent: ich, man, du, ein- regulären Ausdrücken und fach, mal, ziemlich, irgendwie verschiedenen Listen (von Smileys, speziellen Akronymen etc.) !  ... automatisch detektierbar! !  Regionalismen, Dialektismen !  Ausgeprägte Dialogizität !  Emphasen: ist _eingeschränkt_ !  Slangausdrücke: IMHO ... !  Bigraphen (gruen), Assimilationen (gibt s), Auslassungspunkte (...), reduplizierte Interpunktionszeichen (!!!!!!) etc. Georg Rehm TaCoS 2003 !  Smileys: :-) !  Isolierte Verbstämme: *lach*, *grins*, ... !  Spezifische Abkürzungen: *rotfl* !  Iterationen: Tschüßiiiii
  • 46. Merkmal: Sprachliche Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 47. Merkmal: Sprachliche Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 48. Merkmal: Sprachliche Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 49. Merkmal: Sprachliche Konzeption Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc. Kommentiertes Vorlesungsverzeichnis Persönliche Homepage von Prof. Dr. Henning Lobin des Fachgebiets Germanistik der JLU ! Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 50. Das eigentliche Ziel !  XML Schema als Repräsentationsformat der Hypertextsorten-Ontologie !  Resultate des Analyse-Systems sollen sein: "  "  Klassifikation eines HTML-Dokuments in eine Hypertextsorte Basierend auf dieser Information: •  Konvertierung der Webseite in eine XML-Instanz •  Explizite Annotation der HTS-Module !  Anders gesagt: "  Georg Rehm Hypertextsorten-getriebene Konvertierung arbiträrer HTML-Dokumente der Untersuchungsdomäne in korrespondierende XML-Formate TaCoS 2003
  • 51. Zuweisung von Hypertextsorten-Modulen HTSModule HTS-Klassifikation HTSOntologie StrukturOntologie AnalyseDTD Strukturanalyse Konvertierung: HTML → XHTML Hypnotic-Korpusdatenbank ThemenOntologie XMLDateien UserDaten Metadaten HTTPHeader HTMLDateien Stichproben Analyse Features ServerDaten PHP, Perl, verschiedene Tools RDF, DTD, XML Schema Dokumentansicht Apache Webserver SampleSampleGenerierung Analyse StrukturVisualisierung
  • 52. Konvertierung HTML → XHTML !  HTML-Dokumente im Web enthalten sehr viel fehlerhaftes Markup "  Erschwert maschinelle Verarbeitung erheblich !  XHTML: Neuformlierung von HTML mit XML "  XHTML-Dokumente sind auch XML-Dokumente !  Wohlgeformte XHTML-Dokumente können mit XMLWerkzeugen verarbeitet werden: "  XML Parser, XPath, DOM, XSLT etc. !  Konvertierung erfolgt mit gepatchtem Tidy und dem Perl-Modul HTML::TreeBuilder !  Test mit 10.000 Dokumenten: "  Konvertierung in 98,7% aller Fälle erfolgreich •  Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente sind alle von einem (nicht validierenden) XML-Parser ohne Fehlermeldung prozessierbar Georg Rehm TaCoS 2003
  • 53. Strukturanalyse !  Perl-Skript (work in progress), benutzt das Modul XML::LibXML, also DOM Level 2 und XPath "  Georg Rehm DOM: Document Object Model, ermöglicht baum-basierte Verarbeitung von XML-Instanzen TaCoS 2003
  • 54.
  • 55. DOM-Struktur einer XML-Instanz erheblich gekürzt und abstrahiert
  • 56. Strukturanalyse !  Perl-Skript (work in progress), benutzt das Modul XML::LibXML, also DOM Level 2 und XPath "  DOM: Document Object Model, ermöglicht baum-basierte Verarbeitung von XML-Instanzen !  Verschachtelte rekursive Funktionen beginnen beim Wurzelelement des Dokumens (<html>): "  Berechnung verschiedener Merkmale einzelner Teilbäume, der in ihnen enthaltenen Teilbäume etc.: •  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter •  Hyperlink-Analyse (external, samedomain, internal) •  Analyse von eingebetteten Graphiken –  Ermittlung der Abmessungen der Graphiken –  Erkennung von Werbebannern –  Erkennung horizontaler Separatoren •  Analyse von Listen-Strukturen •  ... Georg Rehm TaCoS 2003
  • 57. Strukturanalyse !  Die Analyse-Heuristiken legen ihre Resultate unmittelbar in dem XHTML-Dokument ab: "  Deklaration eines eigenen Namespace (hypnotic:) im Wurzelelement (Default bleibt jedoch XHTML 1.0) •  Namespace → Analyse-DTD der Systemarchitektur "  "  "  "  Elemente: Makrostrukturelle Analyseresultate Attribute: Teilbaum- und Element-bezogene Analyseresultate Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung Beispiel: •  Horizontale Linien sind eigentlich durch <hr> zu realisieren •  Häufig werden hierfür auch Graphiken benutzt •  Strukturanalyse markiert: <img src="..." hypnotic:TagGroup="separator"> "  Vergrößert ein Dokument derzeit um den Faktor 20 !  Bislang erst Spitze des Eisberges implementiert – sehr viele Funktionen stehen noch aus Georg Rehm TaCoS 2003
  • 58. Informationsextraktion !  Wrapping: Mittlerweile triviale Anwendung "  Informationsextraktion aus genau einem HTMLDokument-Typ !  Hypnotic verfolgt: "  "  Hypertextsorten-getriebene Informationsextraktion Kann für einige HTS-Module auf der bloßen Strukturanalyse basieren: •  Definition des Moduls: „Interessante Links –  Listenartige Präsentation von mindestens zwei externen Hyperlinks –  Evtl. flankiert von kurzer Erläuterung des Link-Ziels –  Mindestens ein Hyperlink pro logischem Abschnitt der Liste Georg Rehm TaCoS 2003
  • 59. Informationsextraktion !  Definition ist unmittelbar in XPath-Ausdruck überführbar: //* [@hypnotic:TagGroup="list"] [@hypnotic:NumberOfListItems > 1] [@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)] [//* [@hypnotic:LinkType]] [(not(.//*[ @hypnotic:LinkType and @hypnotic:LinkType != "external"]))] !  Finde alle Knoten: Aber: Die vom Typ „Liste sind, "  mehr als ein bezieht sich nun Dieses Element List-Item enthalten, nicht mehr auf die Analyse-DTD, "  ausschließlich externe Hyperlinks beinhalten und sondern auf die XML Schema-Formalisierung einer Hypertextsorte! "  mindestens so viele externe Hyperlinks wie List-Items umfassen. "  !  Falls alle Prädikate wahr sind, kann der Kontext-Knoten als hypnotic:WebGenreModule="Interesting Links" analysiert werden Georg Rehm TaCoS 2003
  • 60. Informationsextraktion ! Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation
  • 61. Ausblick !  Stichprobenauswertung (bottom-up) zur Komplettierung der Hypertextsorten-Ontologie !  Entwicklung des XML-Repräsentationsformats für die Hypertextsorten-Ontologie !  Entwicklung des RDF-Repräsentationsformats für die Hypertextsorten-Modul-Ontologie !  Implementation des Klassifikationssystems !  Evaluation des Systems mit realen SuchFragestellungen Georg Rehm TaCoS 2003