Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Hypertextsorten"
"

Eine neuartige Ebene der Filterung und "
Herausforderung für moderne Suchmaschinen
!

Georg Rehm
!
!
g...
Motivation!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

2/37!
Motivation!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

3/37!
Hypothese!
• 

Die Textlinguistik untersucht und beschreibt Textsorten:!
-  Komplexe Muster sprachlicher Kommunikation !
-...
Wichtige Forschungsfragen (Auszug)!
• 
• 

• 

Welche und wieviele Hypertextsorten existieren?!
Welche Spezifika weisen Hyp...
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sam...
Persönliche Homepage eines Wissenschaftlers!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für ...
Hypertextsorten – Bausteine!
• 

Hypertextsorten sind hochgradig flexibel (und nicht monolithisch).!

• 

Hypertextsorten b...
Modellierung einer Hypertextsorte (Ausschnitt)!
Ebene
!

Bezeichnung des Hypertextsortenmoduls
!

Status
!

Vorkommen
!

F...
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sam...
Das Hypertextsortenmodell!
• 

Das Hypertextsortenmodell ist Grundlage für!
-  linguistische und textlinguistische Analyse...
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!

Hypertextsorten: Eine neuartig...
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!

Eingebettete Hypertextsorte:!
...
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
W...
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
W...
Zur weiteren Methodologie!
• 

Korpusdatenbank (Linux, Apache, MySQL, PHP)!

• 

Untersuchungsdomäne: Webauftritte von Hoc...
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sam...
Sammlung von Hypertextsorten!
• 

• 

Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der
maschinelle...
Die Hypertextsorten im Überblick!
!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Leh...
Die Hypertextknotensorten im Überblick (Ausschnitt)!
!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Org...
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sam...
Repräsentation durch Ontologien!
• 

• 

• 

Teilziel: Konstruktion einer Ontologie von Hypertextsorten als
Repräsentation...
Integration von drei unterschiedlichen Ontologien!
UDK (Kategorienbaum
!
des Projekts GERHARD)
!

Mehrere Datenquellen
!
(...
Die Hypertextsortenontologie!
Das Hypertext-!
sortenmodell!
in abstrakter und!
vereinfachter Form!
(Ausschnitt)!

Das Hype...
Die Hypertextsortenontologie!

Referenzierung aller potentiellen Emittenten,!
die in der Domänenontologie repräsentiert we...
Die Hypertextsortenontologie!

Typologie des Hypertexttyps!
Homepage einer Person!

Hypertextsorten: Eine neuartige Ebene ...
Die Hypertextsortenontologie!
• 

Aufgaben und Funktionen der Hypertextsortenontologie:!
-  Modelliert multiple Typologien...
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sam...
Status Quo: Maschinelle Erkennung von Textsorten!
Korpus
!

Methoden
!

Genres
!

Präzision
!

!Biber (1988)!

!481 englis...
Status Quo: Maschinelle Erkennung v. Web-Genres!
Web-Genres
!

Methoden
!

Präzision
!

!Matsuda und
Fukushima (1999)!

!9...
Status Quo: Kritische Anmerkungen!
• 

Identifizierung von Textsorten/Web-Genres prinzipiell möglich!

• 

Methoden basiere...
Systemarchitektur!
(partiell implementiert)!
Der Textparser für generische HTML-Dokumente!
• 
• 

• 
• 

• 

Konvertierung von HTML nach XHTML (d.h. XML)!
Textparser b...
Ausblick – HTS-getriebene Informationsextraktion!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung...
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sam...
Schlussfolgerungen!
• 

Maschinelle Erkennung von Text- und Hypertextsorten ist prinzipiell
möglich.!

• 

Langfristiges Z...
Lösungsansatz!
• 

Einsatz der maschinellen Erkennung von Text- und Hypertextsorten im
Bereich Enterprise Search. Vorteile...
Nächste SlideShare
Wird geladen in …5
×

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

1.019 Aufrufe

Veröffentlicht am

Georg Rehm. Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen. FAST Search, A Microsoft Subsidiary, Munich, Germany, August 2008. August 13, 2008. Invited talk.

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

  1. 1. Hypertextsorten" " Eine neuartige Ebene der Filterung und " Herausforderung für moderne Suchmaschinen ! Georg Rehm ! ! georg.rehm@gmail.com ! http://georg-re.hm ! Hypertextsorten: Eine neuartige Ebene der Filterung und HerausforderungAugust 2008 Suchmaschinen! FAST Search, München, 13. für moderne ! 1/37!
  2. 2. Motivation! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 2/37!
  3. 3. Motivation! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 3/37!
  4. 4. Hypothese! •  Die Textlinguistik untersucht und beschreibt Textsorten:! -  Komplexe Muster sprachlicher Kommunikation ! -  Im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden! -  Beispiele: Liebesbrief, Kassenbon, Zeugnis, Einkaufszettel, Wörterbuch, Dissertation, Rechnung, Wetterbericht etc.! •  Zentrale Hypothese: Im WWW existieren Hypertextsorten.! -  Ebenfalls Muster sprachlicher Kommunikation ! -  Ebenfalls entstanden aufgrund kommunikativer Bedürfnisse! -  Grund dafür, dass Nutzer mit spezifischen Typen von Websites spezifische Erwartungshaltungen und Konventionen verbinden! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 4/37!
  5. 5. Wichtige Forschungsfragen (Auszug)! •  •  •  Welche und wieviele Hypertextsorten existieren?! Welche Spezifika weisen Hypertextsorten im Vergleich zu traditionellen Textsorten auf?! Welche Konstituenten besitzen Hypertextsorten und wie können diese repräsentiert werden?! •  Kann eine Typologie von Hypertextsorten konstruiert werden?! •  Können Hypertextsorten maschinell identifiziert werden?! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 5/37!
  6. 6. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  7. 7. Persönliche Homepage eines Wissenschaftlers! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 7/37!
  8. 8. Hypertextsorten – Bausteine! •  Hypertextsorten sind hochgradig flexibel (und nicht monolithisch).! •  Hypertextsorten bestehen aus Hypertextsortenmodulen! -  Strukturell voneinander separierte Bausteine! •  Zur Beschreibung und Erfassung von Hypertextsorten sind Stichprobenanalysen notwendig.! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 8/37!
  9. 9. Modellierung einer Hypertextsorte (Ausschnitt)! Ebene ! Bezeichnung des Hypertextsortenmoduls ! Status ! Vorkommen ! Frequenz ! Atomares Modul! Explizite Begrüßung! generell ! optional ! 14 ! Komplexes Modul! Identifikation! generell ! obligatorisch ! – ! Komplexes Modul! Eigenständige Affiliation! generell ! obligatorisch ! – ! Atomares Modul! Alternative Sprachversion! generell ! optional ! 75 ! Komplexes Modul! Kontaktinformationen! generell ! obligatorisch ! – ! Komplexes Modul! Kontaktinformationen (Sekretariat)! spezifisch ! optional ! – ! Komplexes Modul! Kontaktinformationen (Mitarbeiter)! spezifisch ! optional ! – ! Komplexes Modul! Universitäres Profil! spezifisch ! optional ! – ! Komplexes Modul! Wissenschaftliches Profil! spezifisch ! obligatorisch ! – ! Atomares Modul! Lebenslauf, C.V., biographische Angaben! generell ! obligatorisch ! 60 ! Atomares Modul! Interessante Links! generell ! optional ! 12 ! Komplexes Modul! Relevante Links! generell ! optional ! – ! Atomares Modul! Angabe der letzten Änderung / Stand! universal ! optional ! 42 ! Atomares Modul! Counter, Zugriffszähler! universal ! optional ! 11 ! Atomares Modul! Gästebuch! universal ! optional ! 1 ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 9/37!
  10. 10. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  11. 11. Das Hypertextsortenmodell! •  Das Hypertextsortenmodell ist Grundlage für! -  linguistische und textlinguistische Analysen von Hypertextexemplaren,! -  eine sprachtechnologische Architektur zur automatischen Identifizierung von Hypertextsorten.! •  Generischer Aufbau einer Hypertextsorte:! Hypertextsorte i! besteht aus! Hypertextsortenmodul 1...n! Hypertextknotensorte 1...n! Hypertextsorte 0...n! wird eingebettet in oder ! kann fungieren als ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! Ausschnitt des" Hypertextsortenmodells! 11/37!
  12. 12. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 12/37!
  13. 13. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 13/37!
  14. 14. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt einer Arbeitsgruppe! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 14/37!
  15. 15. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt einer Arbeitsgruppe! Eingebettete Hypertextsorte:! Persönliche Homepage eines" Wissenschaftlers! Hypertextsortenmodul:! Kontaktinformationen! Hypertextsortenmodul:! Foto! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 15/37!
  16. 16. Zur weiteren Methodologie! •  Korpusdatenbank (Linux, Apache, MySQL, PHP)! •  Untersuchungsdomäne: Webauftritte von Hochschulen! •  Manuelle und semiautomatische Analyse von Stichproben auf der Basis des Hypertextsortenmodells zur! -  Beschreibung spezifischer Hypertextsorten! -  Sammlung von Hypertextsorten! •  •  Integration der Ergebnisse in maschinenlesbare Repräsentation! Erstellung und teilweise Implementierung einer Architektur für die automatische Identifizierung von Hypertextsorten! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 16/37!
  17. 17. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  18. 18. Sammlung von Hypertextsorten! •  •  Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der maschinellen Identifizierung von Hypertextsorten.! Analyse einer Stichprobe von 750 zufällig ausgewählten Dokumenten:! -  65 Hypertexttypen bzw. -sorten (mit Subtypen)! -  114 Hypertextknotentypen bzw. -sorten (mit Subtypen)! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 18/37!
  19. 19. Die Hypertextsorten im Überblick! !1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveran-staltung (4; 13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. For-schungsbericht, Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/ Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus­ oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studieren-denstatistik; 37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41. Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung; 45. Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55. Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (Studien­/Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel (Sportveranstaltung); 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel! ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 19/37!
  20. 20. Die Hypertextknotensorten im Überblick (Ausschnitt)! !1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8. Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6; 2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit) (1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20. Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24. Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­ Mail; 28. Kontaktinformationen; 29. Kurzdar-stellung einer Organisationseinheit (Funktionen und Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext) (0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33. Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38. Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Con-struction“­Hinweis; 45. Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufga-benstellung für eine Haus­ oder Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung-/Veranstaltung; 49. Download­Liste; 50. Kommentar einer Lehrveranstaltung ! !! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 20/37!
  21. 21. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  22. 22. Repräsentation durch Ontologien! •  •  •  Teilziel: Konstruktion einer Ontologie von Hypertextsorten als Repräsentationsformat für sprachtechnologische Anwendungen! Datengrundlage: Ergebnisse von sechs Stichprobenanalysen (insgesamt etwa 3000 HTML-Dokumente)! Modellierung in der Web Ontology Language (OWL):! -  W3C-Standard, gute Software-Unterstützung ! -  Hypertextsorten-Repräsentation als Teil des Semantic Web! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 22/37!
  23. 23. Integration von drei unterschiedlichen Ontologien! UDK (Kategorienbaum ! des Projekts GERHARD) ! Mehrere Datenquellen ! (z.B. Hochschulgesetze) ! Ontologie wissenschaftlicher! Themen und Fachgebiete! Domänenontologie! referenziert! Hypertextsortenmodell ! Hypertextsortenontologie! Stichprobenanalysen ! beschreibt! Hypertexttypen und! Hypertextsorten! Hypertextknotentypen und! Hypertextknotensorten! Hypertextsortenmodule! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 23/37!
  24. 24. Die Hypertextsortenontologie! Das Hypertext-! sortenmodell! in abstrakter und! vereinfachter Form! (Ausschnitt)! Das Hypertext-! sortenmodell! als OWL-Ontologie! (Ausschnitt)! Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 24/37!
  25. 25. Die Hypertextsortenontologie! Referenzierung aller potentiellen Emittenten,! die in der Domänenontologie repräsentiert werden! In diesen Visualisierungen fehlen u.a.:! •  •  •  Datatype Propertys! Spezifikationen der Relationen! RDF-Annotationen! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 25/37!
  26. 26. Die Hypertextsortenontologie! Typologie des Hypertexttyps! Homepage einer Person! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 26/37!
  27. 27. Die Hypertextsortenontologie! •  Aufgaben und Funktionen der Hypertextsortenontologie:! -  Modelliert multiple Typologien von Hypertextsorten, Hypertextknotensorten und Hypertextsortenmodulen! -  Modelliert die Konstituenten von Hypertextsorten! -  Dient als Grundlage von Dokumentgrammatiken! -  Enthält weiterführende Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper, DTD-Fragmente)! -  Basis des User Interface einer Suchmaschine mit Hypertextsortenfilter (Navigation und Exploration der Ontologie)! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 27/37!
  28. 28. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  29. 29. Status Quo: Maschinelle Erkennung von Textsorten! Korpus ! Methoden ! Genres ! Präzision ! !Biber (1988)! !481 englische Texte " (u.a. LOB)! !Statistische Verfahren; " 67 linguistische Merkmale! !23 Genres! !k.A.! !Karlgren und Cutting (1994)! !500 englische Texte " (Brown Corpus)! !Statistische Verfahren; " 20 Merkmale! !1.: 2 Genres" 2.: 4 Genres" 3.: 15 Genres! !1. ca. 96%" 2. ca. 73%" 3. ca. 52%! !Kessler " et al. (1997)! !499 englische Texte " (Brown Corpus)! !Statistische Verfahren und neuronale Netze; 55 Merkmale! !6 Genres! !Zwischen " 58% und 100%! !Stamatatos " et al. (2000)! !160 englische Texte " (Wall Street Journal Corpus)! !Statistische Verfahren; Wortund Interpunktionsfrequenzen! !4 Genres! !ca. 97%! !Stamatatos " et al. (2001)! !250 griechische Texte " (aus dem WWW)! !Statistische Verfahren; " 22 Merkmale! !10 Genres! !ca. 82%! !Dewdney " et al. (2001)! !9705 englische Texte! !Überwachte Lernverfahren auf zwei Merkmalsgruppen! !7 Genres! !Bis zu 92,1%! !Santini (2004)! !150 englische Txte " (British National Corpus)! !Überwachte Lernverfahren auf POS-Trigrammen! !10 Genres! !Zw. 78,6% " und 99,3%! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 29/37!
  30. 30. Status Quo: Maschinelle Erkennung v. Web-Genres! Web-Genres ! Methoden ! Präzision ! !Matsuda und Fukushima (1999)! !9: Product catalogue, online shop, advertisement for help, call for papers, links, FAQ, glossary, home page, bulletin board! !Gewichtetes Pattern Matching in HTMLElementen! !88,9% (IR-Task), ohne die engine: 31,2%! !Finn et al. " (2002)! !2: Kommentare bzw. Editorials ( opinion ), Nachrichtenartikel ( fact )! !Überwachtes Lernverfahren! !Zwischen " 68% und 72%! !Lee und Myaeng (2002, 2004)! !7: Reportage, editorial, research articles, reviews, homepage, Q&A, spec! !Überwachtes Lernverfahren " (kNN-ähnlich)! !87% (engl. Texte)," 90% (kor. Texte)! !Shepherd et al. (2004)! !3: Personal home page, corporate home page, organization home page! !Überwachtes Lernverfahren (NN)! !Durchschnittliches " F-Maß: 70,6%! !Meyer zu Eissen und Stein (2004)! !8: Help, article, discussion, shop, portrayal (nonprivate), portrayal (private), link collection, download! !Überwachtes Lernverfahren " (SVM, NN)! !70%! !Lim et al. (2005a,b)! !16: Personal homepages, public homepages, commercial homepages, bulletin collections, link collections, image collections, simple tables/lists, input pages, journalistic materials, research reports, official materials, informative materials, FAQs, discussions, product specifications, others (informal texts)! !Überwachtes Lernverfahren " (kNN-ähnlich)! !75,9%! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 30/37!
  31. 31. Status Quo: Kritische Anmerkungen! •  Identifizierung von Textsorten/Web-Genres prinzipiell möglich! •  Methoden basieren auf strukturellen bzw. linguistischen Merkmalen, die einfach erhoben werden können! •  Mehrere Problemfelder:! 1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder textlinguistisch noch empirisch motiviert.! 2.  Mangelnde theoretische Fundierung – Spezifika von Hypertextsorten wer-den ignoriert (simple Übertragung traditioneller Verfahren auf das WWW).! 3.  Das einzelne HTML-Dokument als atomare Analyseeinheit. ! 4.  Verwendete Methoden und ihre Skalierbarkeit – Verarbeitung von " 150+ Hypertextknotensorten mehr als fraglich.! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 31/37!
  32. 32. Systemarchitektur! (partiell implementiert)!
  33. 33. Der Textparser für generische HTML-Dokumente! •  •  •  •  •  Konvertierung von HTML nach XHTML (d.h. XML)! Textparser basiert auf einer mehrstufigen, rekursiven Verarbeitung der DOM-Struktur eines Dokuments (Problem: tag abuse).! Zentrale Komponente innerhalb der Architektur! Ergebnisse werden innerhalb des Dokuments abgelegt (eigener Namensraum, vergrößert ein Dokument um den Faktor 25)! Ziele:! -  Ermittlung der Bausteine der Textoberfläche! -  Reduktion des meist sehr komplexen HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen! -  Abbildung dieser Bausteine auf Hypertextsortenmodule! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 33/37!
  34. 34. Ausblick – HTS-getriebene Informationsextraktion! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 34/37!
  35. 35. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  36. 36. Schlussfolgerungen! •  Maschinelle Erkennung von Text- und Hypertextsorten ist prinzipiell möglich.! •  Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter! •  Übergreifende Probleme verhindern dies noch. Hierzu zählen:! -  Problematik eines Inventars von Hypertextsorten:! !  Bestimmung nur manuell und empirisch möglich.! !  Ermittlung aller Hypertextsorten im WWW ist unrealistisch (es existieren beliebige traditionelle Textsorten, kulturelle Besonderheiten etc.)! -  Maschinelle Bestimmung der Grenzen von Hypertexten! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 36/37!
  37. 37. Lösungsansatz! •  Einsatz der maschinellen Erkennung von Text- und Hypertextsorten im Bereich Enterprise Search. Vorteile:! -  Geschlossenes und kontrolliertes System (mehr oder weniger).! -  Anzahl der Text- und Hypertextsorten ist begrenzt.! -  Text- und Hypertextsorten können in Kooperation mit Domänenexperten erfasst, benannt und modelliert werden.! !Georg Rehm (2007): Hypertextsorten: Definition – Struktur – Klassifikation. " Norderstedt: Books on Demand.! !Georg Rehm und Marina Santini (Hrsg.) (2007): Proceedings of the International Workshop „Towards Genre-Enabled Search Engines“ (held in conjunction with " RANLP 2007 on September 30). Shoumen, Bulgaria: Incoma. ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 37/37!

×