SlideShare ist ein Scribd-Unternehmen logo
1 von 52
Downloaden Sie, um offline zu lesen
Hypertextsorten"
Definition – Struktur – Klassifikation
!
Georg Rehm
!
!
georg.rehm@gmail.com
!
http://georg-re.hm
!

Hypertextsorten: Definition – Struktur – Klassifikation
!

1/52!
Motivation!

Hypertextsorten: Definition – Struktur – Klassifikation
!

2/52!
Hypothese!
• 

In der Textlinguistik werden Textsorten untersucht und beschrieben:!
!„[Textsorten sind] komplexe Muster sprachlicher Kommunikation
[...], die innerhalb der Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse
entstanden sind.“ (Brinker, 1985)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

3/52!
Hypothese!
• 

In der Textlinguistik werden Textsorten untersucht und beschrieben:!
!„[Textsorten sind] komplexe Muster sprachlicher Kommunikation
[...], die innerhalb der Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse
entstanden sind.“ (Brinker, 1985)!

• 

Zentrale Hypothese: Im World Wide Web existieren
Hypertextsorten.!
-  Primär als Hypertexte realisierte Muster sprachlicher
Kommunikation, die in der Sprachgemeinschaft der WWW-Nutzer
aufgrund kommunikativer Bedürfnisse entstanden sind.!
-  Verantwortlich dafür, dass Nutzer mit spezifischen Typen von Websites spezifische Erwartungshaltungen und Konventionen verbinden.!

Hypertextsorten: Definition – Struktur – Klassifikation
!

4/52!
Forschungsfragen (Auszug)!
• 

• 

• 
• 

• 

Welche und wieviele Hypertextsorten existieren in der
Untersuchungsdomäne der universitären Webangebote?!
Welche Spezifika weisen Hypertextsorten (im Gegensatz zu
traditionellen Textsorten) auf?!
Welche Konstituenten besitzen Hypertextsorten?!
Wie können diese Konstituenten repräsentiert und maschinellen
Verarbeitungsprozessen zur Verfügung gestellt werden?!
Können Hypertextsorten – im Rahmen einer all-purpose-Suchmaschine
– maschinell identifiziert werden?!

Hypertextsorten: Definition – Struktur – Klassifikation
!

5/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Möglichkeiten der Erstellung von HTML-Dokumenten!
HTML-Dokument(e)!

Manuelle Erstellung!

Automatische Konvertierung!

ASCII-Editor! HTML-Editor! CMS-Editor! Export-Assistent! Verfügbarer Konverter! Eigenentwicklung!
(XSLT Stylesheet)!
(Emacs)!
(Mozilla)!
(Typo3)!
(MS Word)!
(LaTeX2HTML)!
Flexibilität nimmt ab!

Flexibilität nimmt ab!

Aufwand steigt an!

Aufwand steigt an!

Hypertextsorten: Definition – Struktur – Klassifikation
!

7/52!
Entwicklung von Hypertextsorten – Automatisch!

Quelldokument!

Konvertierungs-!
werkzeug!

Textsorte des!
Quelldokuments bleibt!
– weitestgehend –!
unverändert erhalten!

HTML-Dokument(e)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

8/52!
Entwicklung von Hypertextsorten – Manuell!
Status einer!
Hypertextsorte zu einem!
bestimmten Zeitpunkt!

Rezeption:!

Aktualisierung:!

Identifikation von!
Regeln und Konventionen!

Anwendung, Erweiterung,!
Brechung der Regeln!

Erstmalige Anwendung!
einer Protohypertextsorte!

fremde!
eigenes!
Webangebote! Webangebot!

Hypertextsorte!
und ihre spezifischen!
Konventionen!
Änderung:!

Anwendung – Hypertextproduktion:!

Modifikationen der externen Webangebote,!
die ebenfalls auf der Grundlage!
dieses zyklischen Modells erfolgen!
(allmähliche Festigung der Konventionen)!

Einflussfaktoren:!
• Inhalt und Funktion des Webangebots,!
• verwendete Software, !
• dem Produzenten bekannte Text- und Hyper-!
textsorten, Internet-spezifische Medien etc.!

Hypertextsorten: Definition – Struktur – Klassifikation
!

9/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Das Hypertextsortenmodell!
• 

Bislang kaum Erkenntnisse über die Spezifika von Hypertextsorten!

• 

Das Hypertextsortenmodell ist Grundlage für!
-  linguistische und textlinguistische Analysen von
Hypertextexemplaren,!
-  eine Architektur zur automatischen Erkennung von Hypertextsorten.!

• 

Granularität der zu beschreibenden Einheiten:!
-  Hypertextsorte!
-  Hypertextknotensorte!
-  Hypertextsortenmodul!

Hypertextsorten: Definition – Struktur – Klassifikation
!

11/52!
Der generische Aufbau einer Hypertextsorte!
Merkmale:!
• 
Kommunikative Funktion!
• 
Kontextuelle Faktoren!
• 
Inhalt/Thema!
• 
Interaktion!
• 
Strukturierung!
• 
Kommunikation!
• 
Dekoration!

besitzt!

Hypertextsorte i!
kann fungieren als!

besteht aus!

besitzt identischen Aufbau!

Hypertextsortenmodul 1...n!
Hypertextknotensorte 1...n! Hypertextsorte 0...n!
kann fungieren als!

Optionale Hyper-!
textsortenmodule 0...n!

wird eingebettet in oder!
kann fungieren als!

Obligatorische Hyper-!
textsortenmodule 1...n!

Optionale Hyper-!
textsorten 0...n!

umfasst konventiona-!
lisierte Vorbelegung!

Atomare Hyper-!
textsortenmodule!
Hypertext-!
sortenmodul 1!

besitzt!

Komplexe Hyper-!
textsortenmodule!
Hypertext-!
sortenmodule 2...n!
prägen aus!

Obligatorische Hyper-!
textsorten 0...n!

Typen:!
• 
Inhalt/Thema!
• 
Interaktion!
• 
Kommunikation!
• 
Navigation!
• 
Metainformation!
• 
Dekoration!
• 
Textstrukturmuster!

Merkmale:!
• 
Positionierung!
• 
Kommunikative Funktion!
• 
Dekoration!

Hypertextsorten: Definition – Struktur – Klassifikation
!

12/52!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!

Hypertextsorten: Definition – Struktur – Klassifikation
!

13/52!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!

Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Hypertextsorten: Definition – Struktur – Klassifikation
!

14/52!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!

Hypertextsorten: Definition – Struktur – Klassifikation
!

15/52!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!

Hypertextknotensorte:!
Einstiegsseite der persönlichen!
Homepage eines Wissenschaftlers!

Eingebettete Hypertextsorte:!
Persönliche Homepage eines"
Wissenschaftlers!
Hypertextsortenmodul:!
Kontaktinformationen!
Hypertextsortenmodul:!
Foto!

Hypertextsorten: Definition – Struktur – Klassifikation
!

16/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Zur weiteren Methodologie!
• 

Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)!

• 

Untersuchungsdomäne: Webauftritte von Hochschulen!
- 

Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

18/52!
Web-Oberfläche der Korpusdatenbank!

• 

SQL-Datenbank für Metadaten!

• 

Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:!
-  Navigation & Suche im
Dokumentbestand!
-  Generierung von Stichproben!
-  Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse!

Hypertextsorten: Definition – Struktur – Klassifikation
!

19/52!
Zur weiteren Methodologie!
•  Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)!
•  Untersuchungsdomäne: Webauftritte von Hochschulen!
- 
• 

Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)!

Methode: Stichprobenanalysen auf Basis des Hypertextsortenmodells!
1.  Erstellung von Profilen für ausgewählte Hypertextsorten!
2.  Sammlung von Hypertextsorten!

• 
• 

Integration der Ergebnisse in einer maschinenlesbaren Repräsentation!
Erstellung und teilweise Implementierung einer Architektur für die
automatische Identifizierung von Hypertextsorten!

Hypertextsorten: Definition – Struktur – Klassifikation
!

20/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank !

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Hypertextsorten – Ein Beispiel!
• 

Ein sehr interessanter Hypertexttyp: Persönliche Homepage!

• 

Mittlerweile existieren subgenerische Varianten, z.B.!
-  Persönliche Homepage eines Studierenden!
-  Persönliche Homepage eines Wissenschaftlers!
!  Enthält z.B. die Hypertextsortenmodule: Name (der dargestellten Person),
Kontaktinformationen, Publikationsliste, Liste aktueller Projekte, ...!

• 

Analyse einer Stichprobe von 100 zufällig ausgewählten Instanzen!

Hypertextsorten: Definition – Struktur – Klassifikation
!

22/52!
Persönliche Homepage eines Wissenschaftlers!

Hypertextsorten: Definition – Struktur – Klassifikation
!

23/52!
Hypertextsortenmodul: Kontaktinformationen!

Hypertextsorten: Definition – Struktur – Klassifikation
!

24/52!
Hypertextsortenmodul: Biografische Informationen!

Hypertextsorten: Definition – Struktur – Klassifikation
!

25/52!
Modellierung einer Hypertextsorte (Ausschnitt)!
Ebene
!

Bezeichnung des Hypertextsortenmoduls
!

Status
!

Vorkommen
!

Häufigkeit
!

Atomares Modul!

Explizite Begrüßung!

generell
!

optional
!

14
!

Komplexes Modul!

Identifikation!

generell
!

obligatorisch
!

–
!

Komplexes Modul!

Eigenständige Affiliation!

generell
!

obligatorisch
!

–
!

Atomares Modul!

Alternative Sprachversion!

generell
!

optional
!

75
!

Komplexes Modul!

Kontaktinformationen!

generell
!

obligatorisch
!

–
!

Komplexes Modul!

Kontaktinformationen (Sekretariat)!

spezifisch
!

optional
!

–
!

Komplexes Modul!

Kontaktinformationen (Mitarbeiter)!

spezifisch
!

optional
!

–
!

Komplexes Modul!

Universitäres Profil!

spezifisch
!

optional
!

–
!

Komplexes Modul!

Wissenschaftliches Profil!

spezifisch
!

obligatorisch
!

–
!

Atomares Modul!

Lebenslauf, C.V., biografische Angaben!

generell
!

obligatorisch
!

60
!

Atomares Modul!

Interessante Links!

generell
!

optional
!

12
!

Komplexes Modul!

Relevante Links!

generell
!

optional
!

–
!

Atomares Modul!

Angabe der letzten Änderung / Stand!

universal
!

optional
!

42
!

Atomares Modul!

Counter, Zugriffszähler!

universal
!

optional
!

11
!

Atomares Modul!

Gästebuch!

universal
!

optional
!

1
!

Hypertextsorten: Definition – Struktur – Klassifikation
!

26/52!
Ausprägungen persönlicher Homepages von Wissenschaftlern!
Rudimentäre Ausprägung!

Typische Ausprägung!

Ausführliche Ausprägung!

Hypertextsorten: Definition – Struktur – Klassifikation
!

27/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Sammlung von Hypertextsorten!
• 

Kein Konsens bezüglich Anzahl und Granularität von Hypertextsorten!

• 

Analyse 750 zufällig ausgewählter, tief eingebetteter Dokumente:!
!a) zugehörige Hypertextsorte, b) Hypertextknotensorte!

• 

Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe
der maschinellen Identifizierung von Hypertextsorten:!
a)  65 Hypertexttypen bzw. -sorten!
! 

6 Hypertexttypen besitzen 53 Subtypen (= Hypertextsorten)!

b)  114 Hypertextknotentypen bzw. -sorten!
! 

10 Hypertextknotentypen besitzen 54 Subtypen (= Hypertextknotensorten)!

! 

Ca. 67% gehören zu den universitären Textsorten.!

! 

Ca. 34% basieren auf den unterschiedlichsten Gebrauchstextsorten (ca.
20%) oder neuen Hypertextsorten (ca. 14%)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

29/52!
Die Hypertextsorten im Überblick!
!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveranstaltung (4;
13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. Forschungsbericht,
Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9.
Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11.
Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13.
Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16.
Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18.
Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21.
Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek
(0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/Vortrag/Ausarbeitung; 27. Webangebot einer
Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer
Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus­ oder
Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische
Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studierendenstatistik; 37.
Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41.
Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung;
45. Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten
historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55.
Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (für Studien­ und
Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel zu einer
Sportveranstaltung; 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel!
!
Hypertextsorten: Definition – Struktur – Klassifikation
!

30/52!
Die Hypertextknotensorten im Überblick (Ausschnitt)!
!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer
Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8.
Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6;
2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit)
(1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines
Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan
bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20.
Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24.
Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­
Mail; 28. Kontaktinformationen; 29. Kurzdarstellung einer Organisationseinheit (Funktionen und
Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext)
(0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33.
Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder
angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38.
Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische
Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Construction“­Hinweis; 45. Verteiler;
46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufgabenstellung für eine Haus­ oder Abschlussarbeit
(0,4%); 48. Bericht zu einer Konferenz/Tagung/Veranstaltung; 49. Download­Liste (multimediale Ressourcen); 50.
Kommentar einer Lehrveranstaltung !
!!
Hypertextsorten: Definition – Struktur – Klassifikation
!

31/52!
Spezialisierte Hypertextknotensorten!
• 

• 

Erschweren die maschinelle Verarbeitung: Hochgradig spezialisierte
Hypertextsorten und Hypertextknotensorten (Fachinformationen).!
Zwei vollständig reproduzierte Beispiele:!
Kerndaten eines historischen Bauwerks
!

Medizinische Diagnoseprozedur!

Hypertextsorten: Definition – Struktur – Klassifikation
!

32/52!
Problemfälle: Zuordnung nicht möglich!
Zugehörige Hypertextsorte: !
Kunst- und Kulturprojekt!
(„Ein Friedhof senkrecht in den Himmel“)!
!
!

Zugehörige Hypertextsorte: !
Webangebot einer Lehrveranstaltung!

Basiert vermutlich auf !
der Broschüre des Vereins!
„Interkultureller Rat in!
Deutschland e.V.“!
!
Umfasst u.a. Instanzen der!
folgenden Textsorten:!
• Gesetzestext!
• Aufruf!
• Vorstellungstext!
• Adressliste!
• Telefonverzeichnis!
• Impressum!
• Produktkatalog!

Zugehörige Hypertextsorte:!
Virtuelles Museum!

Zugehörige Hypertextsorte:!
Webauftritt einer Professur !
bzw. Arbeitsgruppe!

Hypertextsorten: Definition – Struktur – Klassifikation
!

33/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Repräsentation von Hypertextsorten durch Ontologien!
• 

Teilziel: Konstruktion einer Ontologie von Hypertextsorten als
Ressource für sprachtechnologische Anwendungen!

• 

Datengrundlage:!
1. 
2. 

top-down-Stichprobe (727 Dokumente der obersten Linkebene der
Einstiegsseiten von 35 im Korpus enthaltenen Universitäten)!

3. 

bottom-up-Stichprobe (750 tief eingebettete Dokumente)!

4. 
• 

Initiale Stichprobe (200 zufällig ausgewählte Dokumente) !

Drei weitere Stichproben zu unterschiedlichen Typen persönlicher Homepages
(insgesamt ca. 1500 Dokumente)!

Modellierung in der Web Ontology Language (OWL)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

35/52!
Integration von drei unterschiedlichen Ontologien!
UDK (Kategorienbaum
!
des Projekts GERHARD;
!
ca. 25.000 Klassen)
!

Mehrere Datenquellen
!
(z.B. Hochschulgesetze;
!
ca. 400 Klassen und 200
Relationen)
!

Ontologie wissenschaftlicher!
Themen und Fachgebiete!

Domänenontologie!
referenziert!

Hypertextsortenmodell
!

Stichprobenanalysen
!

Hypertextsortenontologie!
beschreibt!

Hypertexttypen und!
Hypertextsorten!

Hypertextknotentypen und!
Hypertextknotensorten!

Hypertextsortenmodule!

Hypertextsorten: Definition – Struktur – Klassifikation
!

36/52!
Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!

das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!

Hypertextsorten: Definition – Struktur – Klassifikation
!

37/52!
Die Hypertextsortenontologie!

Referenzierung aller potentiellen Emittenten,!
die in der Domänenontologie repräsentiert werden!

In diesen Visualisierungen fehlen u.a.:!
• 
• 
• 

Datatype Propertys!
Spezifikationen der Relationen!
RDF-Annotationen!

Hypertextsorten: Definition – Struktur – Klassifikation
!

38/52!
Die Hypertextsortenontologie!

Hypertexttyp: Software-Dokumentation!
• 

Umfasst vier Hypertextsorten!

• 

Ihre Definitionen referenzieren spezifische Subklassen von Hypertextknotentyp

• 

Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert!

• 

domain:SubjectArea bezeichnet die Ontologie wissenschaftlicher Themen/
Fachgebiete!
Hypertextsorten: Definition – Struktur – Klassifikation
!

39/52!
Die Hypertextsortenontologie!

Typologie des Hypertexttyps!
Homepage einer Person!

Hypertextsorten: Definition – Struktur – Klassifikation
!

40/52!
OWL-Ontologien und Dokumentgrammatiken!
• 

Kein XML-Standard zur Repräsentation multipler Dokumentgrammatiken!

• 

OWL bietet sich für diesen Zweck an:!
-  Hypertextsortenontologie: Oberhalb der Ebene einzelner DTDs!
-  DTDs können über Annotationen/RDF-Propertys integriert werden!
-  Hypertextsortenontologie sollte als Sammlung von Dokumentgrammatiken fungieren können:!
!  Maschinelle Identifizierung der Hypertextsorte eines HTML-Hypertextes!
!  Kompilierung der zugehörigen Dokumentgrammatik (z.B. DTD PHEW)!
!  Abbildung auf Hypertextsortenmodule und Hypertextknotensorten!
!  Konvertierung des gegebenen Hypertextes von HTML nach XML (gemäß PHEW)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

41/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Kritische Anmerkungen zum Status Quo!
• 

Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich.!

• 

Es liegen jedoch mehrere Problemkreise vor, z.B.:!
1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder
textlinguistisch noch empirisch motiviert.!
2.  Mangelnde theoretische Fundierung – Die Spezifika von Hypertextsorten werden
ignoriert (einfache Übertragung der traditionellen Verfahren auf das WWW).!
3.  Das einzelne HTML-Dokument als atomare Analyseeinheit – Die realen
Gegebenheiten im World Wide Web werden ignoriert.!
4.  Die verwendeten Methoden und ihre Skalierbarkeit – Können mit ihnen auch die
150+ Hypertextknotensorten der fünften Stichprobe verarbeitet werden?!

Hypertextsorten: Definition – Struktur – Klassifikation
!

43/52!
Systemarchitektur!
(partiell implementiert)!
Der Textparser für generische HTML-Dokumente!
• 

Prämisse: Konvertierung von HTML nach XHTML (d.h. XML)!

• 

Mehrstufige, rekursive Verarbeitung der DOM-Struktur!
-  Analyse der struktur- und layoutorientierten Elemente und Attribute!
-  Problem: tag abuse!

• 

Ziele:!
-  Ermittlung der Bausteine der Textoberfläche!
-  Reduktion des meist sehr komplexen HTML-Markups auf ein
überschaubares Inventar von Makrostrukturbausteinen!
-  Abbildung dieser Bausteine auf Hypertextsortenmodule!

Hypertextsorten: Definition – Struktur – Klassifikation
!

45/52!
Das Document Object Model (DOM)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

46/52!
Der Textparser für generische HTML-Dokumente!
• 

Perl (benutzt XML::LibXML, also DOM Level 2 und XPath)!

• 

Rekursive Funktionen beginnen Analyse bei Wurzel (<html>):!
-  Berechnung von Merkmalen für alle Teilbäume, z.B.:!
!  Hyperlink-Analyse (external, samedomain, internal)!
!  Analyse von Listen-Strukturen!
!  Analyse eingebetteter Grafiken (Abmessungen, Werbebanner, Separatoren)!
!  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter!

• 

Ergebnisse werden innerhalb des Dokuments abgelegt !
-  Neuer Namensraum: hypnotic (Analyse-DTD in der Architektur)!
-  Vergrößert ein Dokument etwa um den Faktor 25!
-  Ermöglicht Meta-Ansicht und Partitionierung eines Dokuments!
-  Visualisierung innerhalb der Web-Oberfläche!
Hypertextsorten: Definition – Struktur – Klassifikation
!

Video 1,Video 2 !
47/52!
Ausblick – Informationsextraktion!
• 

Wrapping:!
-  Informationsextraktion aus genau einem HTML-Dokument-Typ"
(z.B. Yahoo!-Newsticker-Seiten)!

• 

Wrapping ist sehr unflexibel, daher:!
-  Hypertextsorten-getriebene Informationsextraktion!
-  Idee: Integration aller Ressourcen in die Hypertextsortenontologie!
-  Sie erfüllt mehrere Funktionen parallel:!
!  Modelliert die Konstituenten von Hypertextsorten!
!  Dient als Grundlage für Dokumentgrammatiken!
!  Enthält Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper,
DTD-Fragmente, statistische Daten, Schlüsselwörter)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

48/52!
Ausblick – Informationsextraktion!

Hypertextsorten: Definition – Struktur – Klassifikation
!

49/52!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Zur Entwicklung von Hypertextsorten!

• 

Das Hypertextsortenmodell!

• 

Die Korpusdatenbank!

• 

Hypertextsorten – Beispiele!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Perspektiven!
• 

Hypertextsorten in der Sprach- und Informationstechnologie:!
-  Filterung in Suchmaschinen!
-  Generische Informationsextraktion!
-  Metadatenvokabulare (z.B. in Dublin Core)!
-  Webdesign (z.B. Hypertextsorten als empirisch gestützte und mit
Hilfe der Ontologie konstruierte Templates für einen HTML-Editor)!
-  (Korpus)linguistische Analysen (zur Systematisierung des Web as
Corpus -Ansatzes)!
-  Sprachtechnologische Anwendungen (z.B. Textzusammenfassen und
Anpassung von HTML-Dokumenten an mobile Endgeräte)!

Hypertextsorten: Definition – Struktur – Klassifikation
!

51/52!
Schlussfolgerungen!
• 

• 

Einige Hypertextsorten sind äußerst konventionalisiert "
(z.B. die persönliche Homepage eines Wissenschaftlers).!
Hypertextsorten werden nur sehr punktuell in sprachtechnologischen
Systemen zur Verarbeitung von HTML-Dokumenten eingesetzt.!

• 

Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter!

• 

Übergreifende Probleme verhindern dies (zurzeit) noch. Hierzu zählen:!
-  Problematik eines WWW-weit gültigen Inventars von Hypertextsorten:!
!  Bestimmung nur manuell und empirisch möglich (Stichprobenanalysen)!
!  Ermittlung aller Hypertextsorten im WWW ist nicht realistisch"
(im WWW existieren beliebige traditionelle Textsorten, kulturelle
Besonderheiten, spezifische Diskursgemeinschaften etc.)!
-  Maschinelle Bestimmung der Grenzen von Hypertexten!
-  Maschinelle Bestimmung von Hypertextsortenmodulen!
Hypertextsorten: Definition – Struktur – Klassifikation
!

52/52!

Weitere ähnliche Inhalte

Andere mochten auch

SmartSocial - Ethnomarketing : Vorteile und Ziele
SmartSocial - Ethnomarketing : Vorteile und ZieleSmartSocial - Ethnomarketing : Vorteile und Ziele
SmartSocial - Ethnomarketing : Vorteile und ZieleSmartSocial
 
Donovan x paula souteras
Donovan x  paula souterasDonovan x  paula souteras
Donovan x paula souterasCarlos Muñoz
 
Tt iep and ca - english[1]
Tt   iep and ca - english[1]Tt   iep and ca - english[1]
Tt iep and ca - english[1]projetosinclusao
 
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...Álex Hincapié
 
Hola niños 2 de nottingham
Hola niños 2 de nottinghamHola niños 2 de nottingham
Hola niños 2 de nottinghammateoherrera38
 
Digitala akademin del 3 &4 - driv trafik till din hemsida - TopVisible
Digitala akademin del 3 &4 - driv trafik till din hemsida - TopVisibleDigitala akademin del 3 &4 - driv trafik till din hemsida - TopVisible
Digitala akademin del 3 &4 - driv trafik till din hemsida - TopVisibleAnna-Karin Persson
 
High CRI LED CL 2016 catalog
High CRI LED CL 2016 catalogHigh CRI LED CL 2016 catalog
High CRI LED CL 2016 catalogmaeng yeonghun
 
20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...
20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...
20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...FIAB
 
NCSU MGSA Unix Presentation
NCSU MGSA Unix PresentationNCSU MGSA Unix Presentation
NCSU MGSA Unix PresentationJon Ernstberger
 
2011 BZ.COMM Agenturpraesentation
2011 BZ.COMM Agenturpraesentation2011 BZ.COMM Agenturpraesentation
2011 BZ.COMM AgenturpraesentationTom Melzer
 
Virtual Incubator3 [Compatibility Mode]
Virtual Incubator3 [Compatibility Mode]Virtual Incubator3 [Compatibility Mode]
Virtual Incubator3 [Compatibility Mode]Rabiya Jilani
 
ZEHN TRENDS im WISSENSMANAGEMENT
ZEHN TRENDS im WISSENSMANAGEMENTZEHN TRENDS im WISSENSMANAGEMENT
ZEHN TRENDS im WISSENSMANAGEMENTInfoman AG
 
Präsentation webbasierte anwedungen englisch 03.11.16_web
Präsentation webbasierte anwedungen englisch 03.11.16_webPräsentation webbasierte anwedungen englisch 03.11.16_web
Präsentation webbasierte anwedungen englisch 03.11.16_webdidactic_dude
 
Early stage fundraising
Early stage fundraisingEarly stage fundraising
Early stage fundraisingAriel Poler
 

Andere mochten auch (20)

Prácticas pedagogía
Prácticas pedagogía Prácticas pedagogía
Prácticas pedagogía
 
SmartSocial - Ethnomarketing : Vorteile und Ziele
SmartSocial - Ethnomarketing : Vorteile und ZieleSmartSocial - Ethnomarketing : Vorteile und Ziele
SmartSocial - Ethnomarketing : Vorteile und Ziele
 
Ilustrações 2
Ilustrações 2Ilustrações 2
Ilustrações 2
 
Donovan x paula souteras
Donovan x  paula souterasDonovan x  paula souteras
Donovan x paula souteras
 
Rayos X Alex Chamorro
Rayos X Alex ChamorroRayos X Alex Chamorro
Rayos X Alex Chamorro
 
Tt iep and ca - english[1]
Tt   iep and ca - english[1]Tt   iep and ca - english[1]
Tt iep and ca - english[1]
 
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...
 
Hola niños 2 de nottingham
Hola niños 2 de nottinghamHola niños 2 de nottingham
Hola niños 2 de nottingham
 
Digitala akademin del 3 &4 - driv trafik till din hemsida - TopVisible
Digitala akademin del 3 &4 - driv trafik till din hemsida - TopVisibleDigitala akademin del 3 &4 - driv trafik till din hemsida - TopVisible
Digitala akademin del 3 &4 - driv trafik till din hemsida - TopVisible
 
High CRI LED CL 2016 catalog
High CRI LED CL 2016 catalogHigh CRI LED CL 2016 catalog
High CRI LED CL 2016 catalog
 
20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...
20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...
20140507 La Industria de Alimentación y Bebidas busca soluciones medioambient...
 
NCSU MGSA Unix Presentation
NCSU MGSA Unix PresentationNCSU MGSA Unix Presentation
NCSU MGSA Unix Presentation
 
2011 BZ.COMM Agenturpraesentation
2011 BZ.COMM Agenturpraesentation2011 BZ.COMM Agenturpraesentation
2011 BZ.COMM Agenturpraesentation
 
Virtual Incubator3 [Compatibility Mode]
Virtual Incubator3 [Compatibility Mode]Virtual Incubator3 [Compatibility Mode]
Virtual Incubator3 [Compatibility Mode]
 
Libre office
Libre officeLibre office
Libre office
 
ZEHN TRENDS im WISSENSMANAGEMENT
ZEHN TRENDS im WISSENSMANAGEMENTZEHN TRENDS im WISSENSMANAGEMENT
ZEHN TRENDS im WISSENSMANAGEMENT
 
Diary spain
Diary spainDiary spain
Diary spain
 
Präsentation webbasierte anwedungen englisch 03.11.16_web
Präsentation webbasierte anwedungen englisch 03.11.16_webPräsentation webbasierte anwedungen englisch 03.11.16_web
Präsentation webbasierte anwedungen englisch 03.11.16_web
 
Early stage fundraising
Early stage fundraisingEarly stage fundraising
Early stage fundraising
 
Gi 020540
Gi 020540Gi 020540
Gi 020540
 

Ähnlich wie Hypertextsorten: Definition – Struktur – Klassifikation

Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...K15t
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Thomas Koch
 
Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...
Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...
Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...LLudwig
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)Peter Mayr
 
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...Jakob .
 
Sacherschliessung in und mit der Wikipedia - Idee, Prototyp, Diskussion
Sacherschliessung in und mit der Wikipedia - Idee, Prototyp, DiskussionSacherschliessung in und mit der Wikipedia - Idee, Prototyp, Diskussion
Sacherschliessung in und mit der Wikipedia - Idee, Prototyp, DiskussionTIB Hannover
 
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?kostaedt
 
Recherche von und Umgang mit Literatur.pdf
Recherche von und Umgang mit Literatur.pdfRecherche von und Umgang mit Literatur.pdf
Recherche von und Umgang mit Literatur.pdfsolima4
 
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...Georg Rehm
 
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...TIB Hannover
 
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordernWie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordernDirk Lewandowski
 
Web 2.0 in der Hochschullehre version slideshare
Web 2.0 in der Hochschullehre version slideshareWeb 2.0 in der Hochschullehre version slideshare
Web 2.0 in der Hochschullehre version slidesharePetra Grell
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Dirk Lewandowski
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Dirk Lewandowski
 

Ähnlich wie Hypertextsorten: Definition – Struktur – Klassifikation (20)

Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
 
Suchmaschinen verstehen
Suchmaschinen verstehenSuchmaschinen verstehen
Suchmaschinen verstehen
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
 
Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...
Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...
Konferenzbeitrag DGI 2010 (DGI10): Lösung zum multilingualen Wissensmanagemen...
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)
 
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
Sacherschliessung in und mit der Wikipedia - Idee, Prototyp, Diskussion
Sacherschliessung in und mit der Wikipedia - Idee, Prototyp, DiskussionSacherschliessung in und mit der Wikipedia - Idee, Prototyp, Diskussion
Sacherschliessung in und mit der Wikipedia - Idee, Prototyp, Diskussion
 
Inhaltsstrategien
InhaltsstrategienInhaltsstrategien
Inhaltsstrategien
 
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
Softwareentwicklung in Bibliotheken und Verbundzentralen - Ist das sinnvoll?
 
Recherche von und Umgang mit Literatur.pdf
Recherche von und Umgang mit Literatur.pdfRecherche von und Umgang mit Literatur.pdf
Recherche von und Umgang mit Literatur.pdf
 
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...
 
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und WerkzeugeHypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
 
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
 
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordernWie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
 
Web 2.0 in der Hochschullehre version slideshare
Web 2.0 in der Hochschullehre version slideshareWeb 2.0 in der Hochschullehre version slideshare
Web 2.0 in der Hochschullehre version slideshare
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?
 

Mehr von Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 

Hypertextsorten: Definition – Struktur – Klassifikation

  • 1. Hypertextsorten" Definition – Struktur – Klassifikation ! Georg Rehm ! ! georg.rehm@gmail.com ! http://georg-re.hm ! Hypertextsorten: Definition – Struktur – Klassifikation ! 1/52!
  • 2. Motivation! Hypertextsorten: Definition – Struktur – Klassifikation ! 2/52!
  • 3. Hypothese! •  In der Textlinguistik werden Textsorten untersucht und beschrieben:! !„[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.“ (Brinker, 1985)! Hypertextsorten: Definition – Struktur – Klassifikation ! 3/52!
  • 4. Hypothese! •  In der Textlinguistik werden Textsorten untersucht und beschrieben:! !„[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.“ (Brinker, 1985)! •  Zentrale Hypothese: Im World Wide Web existieren Hypertextsorten.! -  Primär als Hypertexte realisierte Muster sprachlicher Kommunikation, die in der Sprachgemeinschaft der WWW-Nutzer aufgrund kommunikativer Bedürfnisse entstanden sind.! -  Verantwortlich dafür, dass Nutzer mit spezifischen Typen von Websites spezifische Erwartungshaltungen und Konventionen verbinden.! Hypertextsorten: Definition – Struktur – Klassifikation ! 4/52!
  • 5. Forschungsfragen (Auszug)! •  •  •  •  •  Welche und wieviele Hypertextsorten existieren in der Untersuchungsdomäne der universitären Webangebote?! Welche Spezifika weisen Hypertextsorten (im Gegensatz zu traditionellen Textsorten) auf?! Welche Konstituenten besitzen Hypertextsorten?! Wie können diese Konstituenten repräsentiert und maschinellen Verarbeitungsprozessen zur Verfügung gestellt werden?! Können Hypertextsorten – im Rahmen einer all-purpose-Suchmaschine – maschinell identifiziert werden?! Hypertextsorten: Definition – Struktur – Klassifikation ! 5/52!
  • 6. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 7. Möglichkeiten der Erstellung von HTML-Dokumenten! HTML-Dokument(e)! Manuelle Erstellung! Automatische Konvertierung! ASCII-Editor! HTML-Editor! CMS-Editor! Export-Assistent! Verfügbarer Konverter! Eigenentwicklung! (XSLT Stylesheet)! (Emacs)! (Mozilla)! (Typo3)! (MS Word)! (LaTeX2HTML)! Flexibilität nimmt ab! Flexibilität nimmt ab! Aufwand steigt an! Aufwand steigt an! Hypertextsorten: Definition – Struktur – Klassifikation ! 7/52!
  • 8. Entwicklung von Hypertextsorten – Automatisch! Quelldokument! Konvertierungs-! werkzeug! Textsorte des! Quelldokuments bleibt! – weitestgehend –! unverändert erhalten! HTML-Dokument(e)! Hypertextsorten: Definition – Struktur – Klassifikation ! 8/52!
  • 9. Entwicklung von Hypertextsorten – Manuell! Status einer! Hypertextsorte zu einem! bestimmten Zeitpunkt! Rezeption:! Aktualisierung:! Identifikation von! Regeln und Konventionen! Anwendung, Erweiterung,! Brechung der Regeln! Erstmalige Anwendung! einer Protohypertextsorte! fremde! eigenes! Webangebote! Webangebot! Hypertextsorte! und ihre spezifischen! Konventionen! Änderung:! Anwendung – Hypertextproduktion:! Modifikationen der externen Webangebote,! die ebenfalls auf der Grundlage! dieses zyklischen Modells erfolgen! (allmähliche Festigung der Konventionen)! Einflussfaktoren:! • Inhalt und Funktion des Webangebots,! • verwendete Software, ! • dem Produzenten bekannte Text- und Hyper-! textsorten, Internet-spezifische Medien etc.! Hypertextsorten: Definition – Struktur – Klassifikation ! 9/52!
  • 10. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 11. Das Hypertextsortenmodell! •  Bislang kaum Erkenntnisse über die Spezifika von Hypertextsorten! •  Das Hypertextsortenmodell ist Grundlage für! -  linguistische und textlinguistische Analysen von Hypertextexemplaren,! -  eine Architektur zur automatischen Erkennung von Hypertextsorten.! •  Granularität der zu beschreibenden Einheiten:! -  Hypertextsorte! -  Hypertextknotensorte! -  Hypertextsortenmodul! Hypertextsorten: Definition – Struktur – Klassifikation ! 11/52!
  • 12. Der generische Aufbau einer Hypertextsorte! Merkmale:! •  Kommunikative Funktion! •  Kontextuelle Faktoren! •  Inhalt/Thema! •  Interaktion! •  Strukturierung! •  Kommunikation! •  Dekoration! besitzt! Hypertextsorte i! kann fungieren als! besteht aus! besitzt identischen Aufbau! Hypertextsortenmodul 1...n! Hypertextknotensorte 1...n! Hypertextsorte 0...n! kann fungieren als! Optionale Hyper-! textsortenmodule 0...n! wird eingebettet in oder! kann fungieren als! Obligatorische Hyper-! textsortenmodule 1...n! Optionale Hyper-! textsorten 0...n! umfasst konventiona-! lisierte Vorbelegung! Atomare Hyper-! textsortenmodule! Hypertext-! sortenmodul 1! besitzt! Komplexe Hyper-! textsortenmodule! Hypertext-! sortenmodule 2...n! prägen aus! Obligatorische Hyper-! textsorten 0...n! Typen:! •  Inhalt/Thema! •  Interaktion! •  Kommunikation! •  Navigation! •  Metainformation! •  Dekoration! •  Textstrukturmuster! Merkmale:! •  Positionierung! •  Kommunikative Funktion! •  Dekoration! Hypertextsorten: Definition – Struktur – Klassifikation ! 12/52!
  • 13. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Hypertextsorten: Definition – Struktur – Klassifikation ! 13/52!
  • 14. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Hypertextsorten: Definition – Struktur – Klassifikation ! 14/52!
  • 15. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt einer Arbeitsgruppe! Hypertextsorten: Definition – Struktur – Klassifikation ! 15/52!
  • 16. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt einer Arbeitsgruppe! Hypertextknotensorte:! Einstiegsseite der persönlichen! Homepage eines Wissenschaftlers! Eingebettete Hypertextsorte:! Persönliche Homepage eines" Wissenschaftlers! Hypertextsortenmodul:! Kontaktinformationen! Hypertextsortenmodul:! Foto! Hypertextsorten: Definition – Struktur – Klassifikation ! 16/52!
  • 17. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 18. Zur weiteren Methodologie! •  Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)! •  Untersuchungsdomäne: Webauftritte von Hochschulen! -  Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)! Hypertextsorten: Definition – Struktur – Klassifikation ! 18/52!
  • 19. Web-Oberfläche der Korpusdatenbank! •  SQL-Datenbank für Metadaten! •  Web-Oberfläche (PHP) ermöglicht verteilten Zugriff:! -  Navigation & Suche im Dokumentbestand! -  Generierung von Stichproben! -  Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse! Hypertextsorten: Definition – Struktur – Klassifikation ! 19/52!
  • 20. Zur weiteren Methodologie! •  Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)! •  Untersuchungsdomäne: Webauftritte von Hochschulen! -  •  Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)! Methode: Stichprobenanalysen auf Basis des Hypertextsortenmodells! 1.  Erstellung von Profilen für ausgewählte Hypertextsorten! 2.  Sammlung von Hypertextsorten! •  •  Integration der Ergebnisse in einer maschinenlesbaren Repräsentation! Erstellung und teilweise Implementierung einer Architektur für die automatische Identifizierung von Hypertextsorten! Hypertextsorten: Definition – Struktur – Klassifikation ! 20/52!
  • 21. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank ! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 22. Hypertextsorten – Ein Beispiel! •  Ein sehr interessanter Hypertexttyp: Persönliche Homepage! •  Mittlerweile existieren subgenerische Varianten, z.B.! -  Persönliche Homepage eines Studierenden! -  Persönliche Homepage eines Wissenschaftlers! !  Enthält z.B. die Hypertextsortenmodule: Name (der dargestellten Person), Kontaktinformationen, Publikationsliste, Liste aktueller Projekte, ...! •  Analyse einer Stichprobe von 100 zufällig ausgewählten Instanzen! Hypertextsorten: Definition – Struktur – Klassifikation ! 22/52!
  • 23. Persönliche Homepage eines Wissenschaftlers! Hypertextsorten: Definition – Struktur – Klassifikation ! 23/52!
  • 25. Hypertextsortenmodul: Biografische Informationen! Hypertextsorten: Definition – Struktur – Klassifikation ! 25/52!
  • 26. Modellierung einer Hypertextsorte (Ausschnitt)! Ebene ! Bezeichnung des Hypertextsortenmoduls ! Status ! Vorkommen ! Häufigkeit ! Atomares Modul! Explizite Begrüßung! generell ! optional ! 14 ! Komplexes Modul! Identifikation! generell ! obligatorisch ! – ! Komplexes Modul! Eigenständige Affiliation! generell ! obligatorisch ! – ! Atomares Modul! Alternative Sprachversion! generell ! optional ! 75 ! Komplexes Modul! Kontaktinformationen! generell ! obligatorisch ! – ! Komplexes Modul! Kontaktinformationen (Sekretariat)! spezifisch ! optional ! – ! Komplexes Modul! Kontaktinformationen (Mitarbeiter)! spezifisch ! optional ! – ! Komplexes Modul! Universitäres Profil! spezifisch ! optional ! – ! Komplexes Modul! Wissenschaftliches Profil! spezifisch ! obligatorisch ! – ! Atomares Modul! Lebenslauf, C.V., biografische Angaben! generell ! obligatorisch ! 60 ! Atomares Modul! Interessante Links! generell ! optional ! 12 ! Komplexes Modul! Relevante Links! generell ! optional ! – ! Atomares Modul! Angabe der letzten Änderung / Stand! universal ! optional ! 42 ! Atomares Modul! Counter, Zugriffszähler! universal ! optional ! 11 ! Atomares Modul! Gästebuch! universal ! optional ! 1 ! Hypertextsorten: Definition – Struktur – Klassifikation ! 26/52!
  • 27. Ausprägungen persönlicher Homepages von Wissenschaftlern! Rudimentäre Ausprägung! Typische Ausprägung! Ausführliche Ausprägung! Hypertextsorten: Definition – Struktur – Klassifikation ! 27/52!
  • 28. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 29. Sammlung von Hypertextsorten! •  Kein Konsens bezüglich Anzahl und Granularität von Hypertextsorten! •  Analyse 750 zufällig ausgewählter, tief eingebetteter Dokumente:! !a) zugehörige Hypertextsorte, b) Hypertextknotensorte! •  Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der maschinellen Identifizierung von Hypertextsorten:! a)  65 Hypertexttypen bzw. -sorten! !  6 Hypertexttypen besitzen 53 Subtypen (= Hypertextsorten)! b)  114 Hypertextknotentypen bzw. -sorten! !  10 Hypertextknotentypen besitzen 54 Subtypen (= Hypertextknotensorten)! !  Ca. 67% gehören zu den universitären Textsorten.! !  Ca. 34% basieren auf den unterschiedlichsten Gebrauchstextsorten (ca. 20%) oder neuen Hypertextsorten (ca. 14%)! Hypertextsorten: Definition – Struktur – Klassifikation ! 29/52!
  • 30. Die Hypertextsorten im Überblick! !1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveranstaltung (4; 13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. Forschungsbericht, Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus­ oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studierendenstatistik; 37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41. Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung; 45. Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55. Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (für Studien­ und Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel zu einer Sportveranstaltung; 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel! ! Hypertextsorten: Definition – Struktur – Klassifikation ! 30/52!
  • 31. Die Hypertextknotensorten im Überblick (Ausschnitt)! !1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8. Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6; 2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit) (1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20. Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24. Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­ Mail; 28. Kontaktinformationen; 29. Kurzdarstellung einer Organisationseinheit (Funktionen und Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext) (0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33. Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38. Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Construction“­Hinweis; 45. Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufgabenstellung für eine Haus­ oder Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung/Veranstaltung; 49. Download­Liste (multimediale Ressourcen); 50. Kommentar einer Lehrveranstaltung ! !! Hypertextsorten: Definition – Struktur – Klassifikation ! 31/52!
  • 32. Spezialisierte Hypertextknotensorten! •  •  Erschweren die maschinelle Verarbeitung: Hochgradig spezialisierte Hypertextsorten und Hypertextknotensorten (Fachinformationen).! Zwei vollständig reproduzierte Beispiele:! Kerndaten eines historischen Bauwerks ! Medizinische Diagnoseprozedur! Hypertextsorten: Definition – Struktur – Klassifikation ! 32/52!
  • 33. Problemfälle: Zuordnung nicht möglich! Zugehörige Hypertextsorte: ! Kunst- und Kulturprojekt! („Ein Friedhof senkrecht in den Himmel“)! ! ! Zugehörige Hypertextsorte: ! Webangebot einer Lehrveranstaltung! Basiert vermutlich auf ! der Broschüre des Vereins! „Interkultureller Rat in! Deutschland e.V.“! ! Umfasst u.a. Instanzen der! folgenden Textsorten:! • Gesetzestext! • Aufruf! • Vorstellungstext! • Adressliste! • Telefonverzeichnis! • Impressum! • Produktkatalog! Zugehörige Hypertextsorte:! Virtuelles Museum! Zugehörige Hypertextsorte:! Webauftritt einer Professur ! bzw. Arbeitsgruppe! Hypertextsorten: Definition – Struktur – Klassifikation ! 33/52!
  • 34. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 35. Repräsentation von Hypertextsorten durch Ontologien! •  Teilziel: Konstruktion einer Ontologie von Hypertextsorten als Ressource für sprachtechnologische Anwendungen! •  Datengrundlage:! 1.  2.  top-down-Stichprobe (727 Dokumente der obersten Linkebene der Einstiegsseiten von 35 im Korpus enthaltenen Universitäten)! 3.  bottom-up-Stichprobe (750 tief eingebettete Dokumente)! 4.  •  Initiale Stichprobe (200 zufällig ausgewählte Dokumente) ! Drei weitere Stichproben zu unterschiedlichen Typen persönlicher Homepages (insgesamt ca. 1500 Dokumente)! Modellierung in der Web Ontology Language (OWL)! Hypertextsorten: Definition – Struktur – Klassifikation ! 35/52!
  • 36. Integration von drei unterschiedlichen Ontologien! UDK (Kategorienbaum ! des Projekts GERHARD; ! ca. 25.000 Klassen) ! Mehrere Datenquellen ! (z.B. Hochschulgesetze; ! ca. 400 Klassen und 200 Relationen) ! Ontologie wissenschaftlicher! Themen und Fachgebiete! Domänenontologie! referenziert! Hypertextsortenmodell ! Stichprobenanalysen ! Hypertextsortenontologie! beschreibt! Hypertexttypen und! Hypertextsorten! Hypertextknotentypen und! Hypertextknotensorten! Hypertextsortenmodule! Hypertextsorten: Definition – Struktur – Klassifikation ! 36/52!
  • 37. Die Hypertextsortenontologie! das Hypertext-! sortenmodell! in abstrakter Form! das Hypertext-! sortenmodell! als OWL-Ontologie! (Ausschnitt)! Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz! Hypertextsorten: Definition – Struktur – Klassifikation ! 37/52!
  • 38. Die Hypertextsortenontologie! Referenzierung aller potentiellen Emittenten,! die in der Domänenontologie repräsentiert werden! In diesen Visualisierungen fehlen u.a.:! •  •  •  Datatype Propertys! Spezifikationen der Relationen! RDF-Annotationen! Hypertextsorten: Definition – Struktur – Klassifikation ! 38/52!
  • 39. Die Hypertextsortenontologie! Hypertexttyp: Software-Dokumentation! •  Umfasst vier Hypertextsorten! •  Ihre Definitionen referenzieren spezifische Subklassen von Hypertextknotentyp •  Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert! •  domain:SubjectArea bezeichnet die Ontologie wissenschaftlicher Themen/ Fachgebiete! Hypertextsorten: Definition – Struktur – Klassifikation ! 39/52!
  • 40. Die Hypertextsortenontologie! Typologie des Hypertexttyps! Homepage einer Person! Hypertextsorten: Definition – Struktur – Klassifikation ! 40/52!
  • 41. OWL-Ontologien und Dokumentgrammatiken! •  Kein XML-Standard zur Repräsentation multipler Dokumentgrammatiken! •  OWL bietet sich für diesen Zweck an:! -  Hypertextsortenontologie: Oberhalb der Ebene einzelner DTDs! -  DTDs können über Annotationen/RDF-Propertys integriert werden! -  Hypertextsortenontologie sollte als Sammlung von Dokumentgrammatiken fungieren können:! !  Maschinelle Identifizierung der Hypertextsorte eines HTML-Hypertextes! !  Kompilierung der zugehörigen Dokumentgrammatik (z.B. DTD PHEW)! !  Abbildung auf Hypertextsortenmodule und Hypertextknotensorten! !  Konvertierung des gegebenen Hypertextes von HTML nach XML (gemäß PHEW)! Hypertextsorten: Definition – Struktur – Klassifikation ! 41/52!
  • 42. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 43. Kritische Anmerkungen zum Status Quo! •  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich.! •  Es liegen jedoch mehrere Problemkreise vor, z.B.:! 1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder textlinguistisch noch empirisch motiviert.! 2.  Mangelnde theoretische Fundierung – Die Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung der traditionellen Verfahren auf das WWW).! 3.  Das einzelne HTML-Dokument als atomare Analyseeinheit – Die realen Gegebenheiten im World Wide Web werden ignoriert.! 4.  Die verwendeten Methoden und ihre Skalierbarkeit – Können mit ihnen auch die 150+ Hypertextknotensorten der fünften Stichprobe verarbeitet werden?! Hypertextsorten: Definition – Struktur – Klassifikation ! 43/52!
  • 45. Der Textparser für generische HTML-Dokumente! •  Prämisse: Konvertierung von HTML nach XHTML (d.h. XML)! •  Mehrstufige, rekursive Verarbeitung der DOM-Struktur! -  Analyse der struktur- und layoutorientierten Elemente und Attribute! -  Problem: tag abuse! •  Ziele:! -  Ermittlung der Bausteine der Textoberfläche! -  Reduktion des meist sehr komplexen HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen! -  Abbildung dieser Bausteine auf Hypertextsortenmodule! Hypertextsorten: Definition – Struktur – Klassifikation ! 45/52!
  • 46. Das Document Object Model (DOM)! Hypertextsorten: Definition – Struktur – Klassifikation ! 46/52!
  • 47. Der Textparser für generische HTML-Dokumente! •  Perl (benutzt XML::LibXML, also DOM Level 2 und XPath)! •  Rekursive Funktionen beginnen Analyse bei Wurzel (<html>):! -  Berechnung von Merkmalen für alle Teilbäume, z.B.:! !  Hyperlink-Analyse (external, samedomain, internal)! !  Analyse von Listen-Strukturen! !  Analyse eingebetteter Grafiken (Abmessungen, Werbebanner, Separatoren)! !  Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter! •  Ergebnisse werden innerhalb des Dokuments abgelegt ! -  Neuer Namensraum: hypnotic (Analyse-DTD in der Architektur)! -  Vergrößert ein Dokument etwa um den Faktor 25! -  Ermöglicht Meta-Ansicht und Partitionierung eines Dokuments! -  Visualisierung innerhalb der Web-Oberfläche! Hypertextsorten: Definition – Struktur – Klassifikation ! Video 1,Video 2 ! 47/52!
  • 48. Ausblick – Informationsextraktion! •  Wrapping:! -  Informationsextraktion aus genau einem HTML-Dokument-Typ" (z.B. Yahoo!-Newsticker-Seiten)! •  Wrapping ist sehr unflexibel, daher:! -  Hypertextsorten-getriebene Informationsextraktion! -  Idee: Integration aller Ressourcen in die Hypertextsortenontologie! -  Sie erfüllt mehrere Funktionen parallel:! !  Modelliert die Konstituenten von Hypertextsorten! !  Dient als Grundlage für Dokumentgrammatiken! !  Enthält Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper, DTD-Fragmente, statistische Daten, Schlüsselwörter)! Hypertextsorten: Definition – Struktur – Klassifikation ! 48/52!
  • 49. Ausblick – Informationsextraktion! Hypertextsorten: Definition – Struktur – Klassifikation ! 49/52!
  • 50. Gliederung! •  Motivation und Forschungsfragen! •  Zur Entwicklung von Hypertextsorten! •  Das Hypertextsortenmodell! •  Die Korpusdatenbank! •  Hypertextsorten – Beispiele! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 51. Perspektiven! •  Hypertextsorten in der Sprach- und Informationstechnologie:! -  Filterung in Suchmaschinen! -  Generische Informationsextraktion! -  Metadatenvokabulare (z.B. in Dublin Core)! -  Webdesign (z.B. Hypertextsorten als empirisch gestützte und mit Hilfe der Ontologie konstruierte Templates für einen HTML-Editor)! -  (Korpus)linguistische Analysen (zur Systematisierung des Web as Corpus -Ansatzes)! -  Sprachtechnologische Anwendungen (z.B. Textzusammenfassen und Anpassung von HTML-Dokumenten an mobile Endgeräte)! Hypertextsorten: Definition – Struktur – Klassifikation ! 51/52!
  • 52. Schlussfolgerungen! •  •  Einige Hypertextsorten sind äußerst konventionalisiert " (z.B. die persönliche Homepage eines Wissenschaftlers).! Hypertextsorten werden nur sehr punktuell in sprachtechnologischen Systemen zur Verarbeitung von HTML-Dokumenten eingesetzt.! •  Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter! •  Übergreifende Probleme verhindern dies (zurzeit) noch. Hierzu zählen:! -  Problematik eines WWW-weit gültigen Inventars von Hypertextsorten:! !  Bestimmung nur manuell und empirisch möglich (Stichprobenanalysen)! !  Ermittlung aller Hypertextsorten im WWW ist nicht realistisch" (im WWW existieren beliebige traditionelle Textsorten, kulturelle Besonderheiten, spezifische Diskursgemeinschaften etc.)! -  Maschinelle Bestimmung der Grenzen von Hypertexten! -  Maschinelle Bestimmung von Hypertextsortenmodulen! Hypertextsorten: Definition – Struktur – Klassifikation ! 52/52!