Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Georg Rehm
Georg Rehm. Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen. FAST Search, A Microsoft Subsidiary, Munich, Germany, August 2008. August 13, 2008. Invited talk.
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Georg Rehm
Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Tagung der Computerlinguistik-Studierenden (TaCoS 2003), Universität Gießen, Germany, June 2003. June, 2003. Invited talk.
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Georg Rehm
Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Universität Potsdam, Germany, December 2001. December 4, 2001. Invited talk.
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
Georg Rehm. Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda for the Multilingual Digital Single Market. Future and Emerging Trends in Language Technologies, Machine Learning and Big Data (FETLT 2016), Seville, Spain, November 2016. November 30, 2016.
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Georg Rehm
Georg Rehm. Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen. FAST Search, A Microsoft Subsidiary, Munich, Germany, August 2008. August 13, 2008. Invited talk.
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Georg Rehm
Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Tagung der Computerlinguistik-Studierenden (TaCoS 2003), Universität Gießen, Germany, June 2003. June, 2003. Invited talk.
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Georg Rehm
Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Universität Potsdam, Germany, December 2001. December 4, 2001. Invited talk.
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
Georg Rehm. Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda for the Multilingual Digital Single Market. Future and Emerging Trends in Language Technologies, Machine Learning and Big Data (FETLT 2016), Seville, Spain, November 2016. November 30, 2016.
O IRIS (Melhoria através da Investigação na Escola Inclusiva) é um Projecto
Comenius Europeu com o foco na Inclusão e nos progressos escolares,
abrangendo todas as crianças numa escola para todos. O Projecto IRIS
iniciou-se no fim de 2006 e termina em 1 de Outubro de 2009. A Áustria e
a Bélgica coordenam as actividades do Projecto. A equipa Projecto IRIS é
composta por 7 parceiros a trabalhar em grupos temáticos e os membros
do grupo têm mudado, bem como os sistemas evoluído. Toda a equipa
do Projecto se reúne de 6 em 6 meses para partilhar informação sobre o
desenvolvimento, como um todo colaborativo.
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...Álex Hincapié
Este trabajo muestra la determinación moderna por 'descubrir' la verdad del sujeto en el sexo, sin reparar que descubrir dicha verdad significa, precisamente, hundirla en el cuerpo con la voluntad de corregirlo o hacerlo pedazos.
CL Lighting has high CRI light source and finished products along with high efficacy. With us you can achieve both high CRI and efficiency. Take a close look at our technology and products.
http://cl-led-lighting.com/high-cri-led-lighting/
During the Mathematics Graduate Student Seminar (a seminar for graduate students by graduate students), I was asked to give a lecture on Unix and the NC State University computing environment.
Originally given in 2006, this talk gave an overview of Redhat Linux, Solaris, basic Unix commands, basic programs, compression, and remote networking connection tools.
Wissen: Erkennen, Sichern und Teilen. Vom Mitarbeiter zum Wissensvermittler – Was geht in der Praxis? Die Allgegenwart der IT ändert das Lernverhalten auch im industriellen Umfeld. 10 Trends werden aufgezeigt und mit Beispielen aus der Praxis erläutert: Vom „People Business“ bis zu „Assistenzsystemen“.
Diese Folien dienten der Unterstützung von Vortrag und Gespräch in einer Lehrerfortbildung am Institut für Lehrerbildung und Schulentwicklung, Hamburg und stehen folglich nicht für sich selbst.
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...K15t
Foliensatz zu Martin Häberle's Präsentation "Mythos und Wahrheit: Wikis für die Technische Dokumentation" bei der tekom Regionalgruppe Stuttgart am 30. April 2014
Slidedeck of Martin Häberle's presentation about Wikis for Technical Documentation at the tekom Regionalgruppentreffen Stuttgart, April 30th 2014
See http://www.tekom.de/ueber-uns/regionalgruppen/termine.html?tx_tekomwebforum_webforumtermin[uid]=8225&tx_tekomwebforum_webforumtermin[action]=show&tx_tekomwebforum_webforumtermin[controller]=WebforumTermin&cHash=506c752271f2ece081efa125e626ed9b for further details about the event (German).
Suchmaschinen sind der meistgenutzte Dienst des Internet; täglich werden viele Milliarden Suchanfragen an Google und Co. gestellt. Doch dieser immensen Nutzung steht ein nur mangelhaftes Wissen über die Suchmaschinen gegenüber. Dabei geht es auf der einen Seite natürlich um ein Verständnis der zugrunde liegenden Technik; Suchmaschinen sind aber weit mehr: Hinter ihnen stehen Unternehmen, die mit der Suche im Web Geld verdienen wollen, Suchmaschinen spielen eine wichtige Rolle für den Informationserwerb in der Gesellschaft, und schließlich spielen Suchmaschinen als Plattform für das Online-Marketing eine bedeutende Rolle bei der Vermittlung zwischen Suchenden und Unternehmen.
Im Vortrag werden die zentralen Akteure auf dem Suchmaschinenmarkt vorgestellt und ausgeführt, warum ein Verständnis von Suchmaschinen aus nur einer Perspektive (sei diese technisch, wirtschaftlich oder gesellschaftlich) nicht ausreicht, sondern wir Suchmaschinen tatsächlich nur verstehen können, wenn wir sie ganzheitlich betrachten.
O IRIS (Melhoria através da Investigação na Escola Inclusiva) é um Projecto
Comenius Europeu com o foco na Inclusão e nos progressos escolares,
abrangendo todas as crianças numa escola para todos. O Projecto IRIS
iniciou-se no fim de 2006 e termina em 1 de Outubro de 2009. A Áustria e
a Bélgica coordenam as actividades do Projecto. A equipa Projecto IRIS é
composta por 7 parceiros a trabalhar em grupos temáticos e os membros
do grupo têm mudado, bem como os sistemas evoluído. Toda a equipa
do Projecto se reúne de 6 em 6 meses para partilhar informação sobre o
desenvolvimento, como um todo colaborativo.
El sexo como verdad. Morfología corporal ambigua y expectativas culturales en...Álex Hincapié
Este trabajo muestra la determinación moderna por 'descubrir' la verdad del sujeto en el sexo, sin reparar que descubrir dicha verdad significa, precisamente, hundirla en el cuerpo con la voluntad de corregirlo o hacerlo pedazos.
CL Lighting has high CRI light source and finished products along with high efficacy. With us you can achieve both high CRI and efficiency. Take a close look at our technology and products.
http://cl-led-lighting.com/high-cri-led-lighting/
During the Mathematics Graduate Student Seminar (a seminar for graduate students by graduate students), I was asked to give a lecture on Unix and the NC State University computing environment.
Originally given in 2006, this talk gave an overview of Redhat Linux, Solaris, basic Unix commands, basic programs, compression, and remote networking connection tools.
Wissen: Erkennen, Sichern und Teilen. Vom Mitarbeiter zum Wissensvermittler – Was geht in der Praxis? Die Allgegenwart der IT ändert das Lernverhalten auch im industriellen Umfeld. 10 Trends werden aufgezeigt und mit Beispielen aus der Praxis erläutert: Vom „People Business“ bis zu „Assistenzsystemen“.
Diese Folien dienten der Unterstützung von Vortrag und Gespräch in einer Lehrerfortbildung am Institut für Lehrerbildung und Schulentwicklung, Hamburg und stehen folglich nicht für sich selbst.
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...K15t
Foliensatz zu Martin Häberle's Präsentation "Mythos und Wahrheit: Wikis für die Technische Dokumentation" bei der tekom Regionalgruppe Stuttgart am 30. April 2014
Slidedeck of Martin Häberle's presentation about Wikis for Technical Documentation at the tekom Regionalgruppentreffen Stuttgart, April 30th 2014
See http://www.tekom.de/ueber-uns/regionalgruppen/termine.html?tx_tekomwebforum_webforumtermin[uid]=8225&tx_tekomwebforum_webforumtermin[action]=show&tx_tekomwebforum_webforumtermin[controller]=WebforumTermin&cHash=506c752271f2ece081efa125e626ed9b for further details about the event (German).
Suchmaschinen sind der meistgenutzte Dienst des Internet; täglich werden viele Milliarden Suchanfragen an Google und Co. gestellt. Doch dieser immensen Nutzung steht ein nur mangelhaftes Wissen über die Suchmaschinen gegenüber. Dabei geht es auf der einen Seite natürlich um ein Verständnis der zugrunde liegenden Technik; Suchmaschinen sind aber weit mehr: Hinter ihnen stehen Unternehmen, die mit der Suche im Web Geld verdienen wollen, Suchmaschinen spielen eine wichtige Rolle für den Informationserwerb in der Gesellschaft, und schließlich spielen Suchmaschinen als Plattform für das Online-Marketing eine bedeutende Rolle bei der Vermittlung zwischen Suchenden und Unternehmen.
Im Vortrag werden die zentralen Akteure auf dem Suchmaschinenmarkt vorgestellt und ausgeführt, warum ein Verständnis von Suchmaschinen aus nur einer Perspektive (sei diese technisch, wirtschaftlich oder gesellschaftlich) nicht ausreicht, sondern wir Suchmaschinen tatsächlich nur verstehen können, wenn wir sie ganzheitlich betrachten.
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Thomas Koch
Am Beispiel des Projektes EnArgus wird eine Methode zur Wissenserschließung und –Modellierung präsentiert, bei der eine Anwendungsdomäne durch Informationsextraktion aus Wiki-Texten (durch Sprachanalyse) erschlossen und in einer Ontologie repräsentiert wird. Die Ontologie dient dabei zur Unterstützung einer intelligenten Volltextsuche.
Session zu Mikroformaten und COinS von Lambert Heller und Christian Hauschke beim KIM-Workshop "Metadaten, Mikroformate und Semantic Web" am 13. April 2010 in der ETH Zürich.
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguist...Georg Rehm
Georg Rehm. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen. Universität Zürich, Switzerland, November 2006. November 9, 2006. Invited talk.
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
Georg Rehm. QURATOR: Developing a Flexible AI Platform for Digital Content Curation. QURATOR 2020 – Conference on Digital Curation Technologies., 1 2020. Fraunhofer FOKUS, January 20/21, 2020. Invited keynote talk.
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
Georg Rehm. Observations on Annotations – From Computational Linguistics and the World Wide Web to Artificial Intelligence and back again. Annotation in Scholarly Editions and Research: Function – Differentiation – Systematization, University of Wuppertal, Germany. February 20-22, 2019. Invited keynote talk.
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
Georg Rehm. The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”. Sanskrit and Other Indian Languages Technology (SOIL-Tech), Jawaharlal Nehru University, New Delhi, India, February 2019. February 15, 2019. Invited keynote talk.
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
Georg Rehm. AI and Conference Interpretation - From Smart Assistants for the Human Interpreter to Automatic Solutions. DG Interpretation Lunchtime Session on Digital Transformation. European Commission, Brussels, November 2018. November 12, 2018. Invited talk.
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
Georg Rehm. Künstliche Intelligenz beim Dolmetschen und Übersetzen. Institut für Angewandte Linguistik und Translatologie, Universität Leipzig, November 2018. November 1, 2018. Invited presentation.
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
Georg Rehm. Herausforderungen und Lösungen für die europäische Sprachtechnologie-Forschung und -Entwicklung. Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, Berlin, Germany, October 2018. October 30, 2018. Presentation on the occasion of being awarded the appointment as a DFKI Research Fellow.
European Language Technologies – Past, Present and FutureGeorg Rehm
Georg Rehm. European Language Technologies – Past, Present and Future. Language Equality in the Digital Age. Conference on language technologies and digital equality in a multilingual Europe, European Parliament, Brussels, Belgium, September 2018. September 27, 2018. Invited talk
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
Georg Rehm. Towards a Human Language Project for Multilingual Europe: AI and Interpretation. DG Interpretation Conference - Interpretation: Sharing Knowledge & Fostering Communities. European Commission, Brussels, April 2018. April 19/20, 2018. Invited talk.
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
Georg Rehm. KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick. Interdisziplinärer Forschungsverbund Digital Humanities in Berlin (ifDHb), 23. Berliner DH-Rundgang im Deutschen Forschungszentrum für Künstliche Intelligenz, Berlin, Germany, February 05, 2018.
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
Georg Rehm. Language Technologies for Multilingual Europe - Towards a Human Language Project. Strategic Research and Innovation Agenda (Version 1.0). META-FORUM 2017, Brussels, Belgium, November 2017. November 13/14, 2017
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
Georg Rehm. AI for Translation Technologies and Multilingual Europe. DG TRAD Conference - Translation Services in the Digital World: A Sneak Peek into the (near) Future. Luxembourg. October 16/17, 2017.
Georg Rehm. Kuratieren im Zeitalter der KI. #DKT17 - Kuratieren im Zeitalter der KI, Berlin, Germany, October 2017. October 12, 2017. Invited keynote talk.
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
Georg Rehm. Transformieren, Manipulieren, Kuratieren? Technologien für die Wissensarbeit im Netz. KOOP-LITERA International. Konferenz 2017, Berlin, Germany, June 2017. June 20, 2017. Invited talk.
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
Georg Rehm and Clemens Neudecker. Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken . Berliner Bibliothekswissenschaftliches Kolloqium (BBK), Humboldt-Universität zu Berlin, Berlin, Germany, June 2017. June 06, 2017. Invited talk.
Georg Rehm. EPUB, quo vadis? ePublishing im W3C. Jahrestagung der IG Digital. Im Rahmen der Buchtage, Jahreskongress des Börsenvereins, Berlin, Germany, June 2017. June 14, 2017. Invited talk.
Human Language Technologies in a Multilingual EuropeGeorg Rehm
Georg Rehm. Human Language Technologies in a Multilingual Europe. Workshop Language Equality in the Digital Age - Towards a Human Language Project. Science and Technology Options Assessment (STOA), European Parliament, Brussels, Belgium, January 2017. January 10, 2017.
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
Georg Rehm. Language Technologies for Big Data – A Strategic Agenda for the Multilingual Digital Single Market. BDVA Summit (Big Data Value Association), Valencia, Spain, December 2016. December 1, 2016.
Georg Rehm. Mehrsprachigkeit für das Digitale Europa. Ringvorlesung Digitale Lebenswelten, University of Hildesheim, Germany, November 2016. November 15, 2016.
3. Hypothese!
•
In der Textlinguistik werden Textsorten untersucht und beschrieben:!
!„[Textsorten sind] komplexe Muster sprachlicher Kommunikation
[...], die innerhalb der Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse
entstanden sind.“ (Brinker, 1985)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
3/52!
4. Hypothese!
•
In der Textlinguistik werden Textsorten untersucht und beschrieben:!
!„[Textsorten sind] komplexe Muster sprachlicher Kommunikation
[...], die innerhalb der Sprachgemeinschaft im Laufe der historischgesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse
entstanden sind.“ (Brinker, 1985)!
•
Zentrale Hypothese: Im World Wide Web existieren
Hypertextsorten.!
- Primär als Hypertexte realisierte Muster sprachlicher
Kommunikation, die in der Sprachgemeinschaft der WWW-Nutzer
aufgrund kommunikativer Bedürfnisse entstanden sind.!
- Verantwortlich dafür, dass Nutzer mit spezifischen Typen von Websites spezifische Erwartungshaltungen und Konventionen verbinden.!
Hypertextsorten: Definition – Struktur – Klassifikation
!
4/52!
5. Forschungsfragen (Auszug)!
•
•
•
•
•
Welche und wieviele Hypertextsorten existieren in der
Untersuchungsdomäne der universitären Webangebote?!
Welche Spezifika weisen Hypertextsorten (im Gegensatz zu
traditionellen Textsorten) auf?!
Welche Konstituenten besitzen Hypertextsorten?!
Wie können diese Konstituenten repräsentiert und maschinellen
Verarbeitungsprozessen zur Verfügung gestellt werden?!
Können Hypertextsorten – im Rahmen einer all-purpose-Suchmaschine
– maschinell identifiziert werden?!
Hypertextsorten: Definition – Struktur – Klassifikation
!
5/52!
6. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
8. Entwicklung von Hypertextsorten – Automatisch!
Quelldokument!
Konvertierungs-!
werkzeug!
Textsorte des!
Quelldokuments bleibt!
– weitestgehend –!
unverändert erhalten!
HTML-Dokument(e)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
8/52!
9. Entwicklung von Hypertextsorten – Manuell!
Status einer!
Hypertextsorte zu einem!
bestimmten Zeitpunkt!
Rezeption:!
Aktualisierung:!
Identifikation von!
Regeln und Konventionen!
Anwendung, Erweiterung,!
Brechung der Regeln!
Erstmalige Anwendung!
einer Protohypertextsorte!
fremde!
eigenes!
Webangebote! Webangebot!
Hypertextsorte!
und ihre spezifischen!
Konventionen!
Änderung:!
Anwendung – Hypertextproduktion:!
Modifikationen der externen Webangebote,!
die ebenfalls auf der Grundlage!
dieses zyklischen Modells erfolgen!
(allmähliche Festigung der Konventionen)!
Einflussfaktoren:!
• Inhalt und Funktion des Webangebots,!
• verwendete Software, !
• dem Produzenten bekannte Text- und Hyper-!
textsorten, Internet-spezifische Medien etc.!
Hypertextsorten: Definition – Struktur – Klassifikation
!
9/52!
10. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
11. Das Hypertextsortenmodell!
•
Bislang kaum Erkenntnisse über die Spezifika von Hypertextsorten!
•
Das Hypertextsortenmodell ist Grundlage für!
- linguistische und textlinguistische Analysen von
Hypertextexemplaren,!
- eine Architektur zur automatischen Erkennung von Hypertextsorten.!
•
Granularität der zu beschreibenden Einheiten:!
- Hypertextsorte!
- Hypertextknotensorte!
- Hypertextsortenmodul!
Hypertextsorten: Definition – Struktur – Klassifikation
!
11/52!
13. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Hypertextsorten: Definition – Struktur – Klassifikation
!
13/52!
14. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Hypertextsorten: Definition – Struktur – Klassifikation
!
14/52!
15. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!
Hypertextsorten: Definition – Struktur – Klassifikation
!
15/52!
16. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!
Hypertextknotensorte:!
Einstiegsseite der persönlichen!
Homepage eines Wissenschaftlers!
Eingebettete Hypertextsorte:!
Persönliche Homepage eines"
Wissenschaftlers!
Hypertextsortenmodul:!
Kontaktinformationen!
Hypertextsortenmodul:!
Foto!
Hypertextsorten: Definition – Struktur – Klassifikation
!
16/52!
17. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
18. Zur weiteren Methodologie!
•
Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)!
•
Untersuchungsdomäne: Webauftritte von Hochschulen!
-
Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
18/52!
19. Web-Oberfläche der Korpusdatenbank!
•
SQL-Datenbank für Metadaten!
•
Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:!
- Navigation & Suche im
Dokumentbestand!
- Generierung von Stichproben!
- Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse!
Hypertextsorten: Definition – Struktur – Klassifikation
!
19/52!
20. Zur weiteren Methodologie!
• Korpus-basierter Ansatz – Entwicklung einer Korpusdatenbank (LAMP)!
• Untersuchungsdomäne: Webauftritte von Hochschulen!
-
•
Korpus: 3.956.692 HTML-Dokumente (ca. 41 GB)!
Methode: Stichprobenanalysen auf Basis des Hypertextsortenmodells!
1. Erstellung von Profilen für ausgewählte Hypertextsorten!
2. Sammlung von Hypertextsorten!
•
•
Integration der Ergebnisse in einer maschinenlesbaren Repräsentation!
Erstellung und teilweise Implementierung einer Architektur für die
automatische Identifizierung von Hypertextsorten!
Hypertextsorten: Definition – Struktur – Klassifikation
!
20/52!
21. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank !
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
22. Hypertextsorten – Ein Beispiel!
•
Ein sehr interessanter Hypertexttyp: Persönliche Homepage!
•
Mittlerweile existieren subgenerische Varianten, z.B.!
- Persönliche Homepage eines Studierenden!
- Persönliche Homepage eines Wissenschaftlers!
! Enthält z.B. die Hypertextsortenmodule: Name (der dargestellten Person),
Kontaktinformationen, Publikationsliste, Liste aktueller Projekte, ...!
•
Analyse einer Stichprobe von 100 zufällig ausgewählten Instanzen!
Hypertextsorten: Definition – Struktur – Klassifikation
!
22/52!
23. Persönliche Homepage eines Wissenschaftlers!
Hypertextsorten: Definition – Struktur – Klassifikation
!
23/52!
27. Ausprägungen persönlicher Homepages von Wissenschaftlern!
Rudimentäre Ausprägung!
Typische Ausprägung!
Ausführliche Ausprägung!
Hypertextsorten: Definition – Struktur – Klassifikation
!
27/52!
28. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
29. Sammlung von Hypertextsorten!
•
Kein Konsens bezüglich Anzahl und Granularität von Hypertextsorten!
•
Analyse 750 zufällig ausgewählter, tief eingebetteter Dokumente:!
!a) zugehörige Hypertextsorte, b) Hypertextknotensorte!
•
Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe
der maschinellen Identifizierung von Hypertextsorten:!
a) 65 Hypertexttypen bzw. -sorten!
!
6 Hypertexttypen besitzen 53 Subtypen (= Hypertextsorten)!
b) 114 Hypertextknotentypen bzw. -sorten!
!
10 Hypertextknotentypen besitzen 54 Subtypen (= Hypertextknotensorten)!
!
Ca. 67% gehören zu den universitären Textsorten.!
!
Ca. 34% basieren auf den unterschiedlichsten Gebrauchstextsorten (ca.
20%) oder neuen Hypertextsorten (ca. 14%)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
29/52!
30. Die Hypertextsorten im Überblick!
!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveranstaltung (4;
13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. SoftwareDokumentation (4; 5,3%); 5. Forschungsbericht,
Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9.
Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11.
Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13.
Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16.
Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18.
Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21.
Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek
(0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/Vortrag/Ausarbeitung; 27. Webangebot einer
Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer
Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus oder
Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische
Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studierendenstatistik; 37.
Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41.
Dissertation; 42. Fachinformationsportal; 43. FAQDokument; 44. Grafischer Assistent zur Prozessentwicklung;
45. InternetZeitschrift; 46. MailingListenArchiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten
historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55.
Kunst und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (für Studien und
Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel zu einer
Sportveranstaltung; 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel!
!
Hypertextsorten: Definition – Struktur – Klassifikation
!
30/52!
31. Die Hypertextknotensorten im Überblick (Ausschnitt)!
!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer
Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8.
Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6;
2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit)
(1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines
Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan
bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20.
Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24.
Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E
Mail; 28. Kontaktinformationen; 29. Kurzdarstellung einer Organisationseinheit (Funktionen und
Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im TechnologietransferKontext)
(0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33.
Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder
angebotene Haus und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38.
Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur und Prüfungstermine; 42. Medizinische
Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Construction“Hinweis; 45. Verteiler;
46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufgabenstellung für eine Haus oder Abschlussarbeit
(0,4%); 48. Bericht zu einer Konferenz/Tagung/Veranstaltung; 49. DownloadListe (multimediale Ressourcen); 50.
Kommentar einer Lehrveranstaltung !
!!
Hypertextsorten: Definition – Struktur – Klassifikation
!
31/52!
32. Spezialisierte Hypertextknotensorten!
•
•
Erschweren die maschinelle Verarbeitung: Hochgradig spezialisierte
Hypertextsorten und Hypertextknotensorten (Fachinformationen).!
Zwei vollständig reproduzierte Beispiele:!
Kerndaten eines historischen Bauwerks
!
Medizinische Diagnoseprozedur!
Hypertextsorten: Definition – Struktur – Klassifikation
!
32/52!
33. Problemfälle: Zuordnung nicht möglich!
Zugehörige Hypertextsorte: !
Kunst- und Kulturprojekt!
(„Ein Friedhof senkrecht in den Himmel“)!
!
!
Zugehörige Hypertextsorte: !
Webangebot einer Lehrveranstaltung!
Basiert vermutlich auf !
der Broschüre des Vereins!
„Interkultureller Rat in!
Deutschland e.V.“!
!
Umfasst u.a. Instanzen der!
folgenden Textsorten:!
• Gesetzestext!
• Aufruf!
• Vorstellungstext!
• Adressliste!
• Telefonverzeichnis!
• Impressum!
• Produktkatalog!
Zugehörige Hypertextsorte:!
Virtuelles Museum!
Zugehörige Hypertextsorte:!
Webauftritt einer Professur !
bzw. Arbeitsgruppe!
Hypertextsorten: Definition – Struktur – Klassifikation
!
33/52!
34. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
35. Repräsentation von Hypertextsorten durch Ontologien!
•
Teilziel: Konstruktion einer Ontologie von Hypertextsorten als
Ressource für sprachtechnologische Anwendungen!
•
Datengrundlage:!
1.
2.
top-down-Stichprobe (727 Dokumente der obersten Linkebene der
Einstiegsseiten von 35 im Korpus enthaltenen Universitäten)!
3.
bottom-up-Stichprobe (750 tief eingebettete Dokumente)!
4.
•
Initiale Stichprobe (200 zufällig ausgewählte Dokumente) !
Drei weitere Stichproben zu unterschiedlichen Typen persönlicher Homepages
(insgesamt ca. 1500 Dokumente)!
Modellierung in der Web Ontology Language (OWL)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
35/52!
36. Integration von drei unterschiedlichen Ontologien!
UDK (Kategorienbaum
!
des Projekts GERHARD;
!
ca. 25.000 Klassen)
!
Mehrere Datenquellen
!
(z.B. Hochschulgesetze;
!
ca. 400 Klassen und 200
Relationen)
!
Ontologie wissenschaftlicher!
Themen und Fachgebiete!
Domänenontologie!
referenziert!
Hypertextsortenmodell
!
Stichprobenanalysen
!
Hypertextsortenontologie!
beschreibt!
Hypertexttypen und!
Hypertextsorten!
Hypertextknotentypen und!
Hypertextknotensorten!
Hypertextsortenmodule!
Hypertextsorten: Definition – Struktur – Klassifikation
!
36/52!
37. Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!
das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!
Hypertextsorten: Definition – Struktur – Klassifikation
!
37/52!
38. Die Hypertextsortenontologie!
Referenzierung aller potentiellen Emittenten,!
die in der Domänenontologie repräsentiert werden!
In diesen Visualisierungen fehlen u.a.:!
•
•
•
Datatype Propertys!
Spezifikationen der Relationen!
RDF-Annotationen!
Hypertextsorten: Definition – Struktur – Klassifikation
!
38/52!
39. Die Hypertextsortenontologie!
Hypertexttyp: Software-Dokumentation!
•
Umfasst vier Hypertextsorten!
•
Ihre Definitionen referenzieren spezifische Subklassen von Hypertextknotentyp
•
Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert!
•
domain:SubjectArea bezeichnet die Ontologie wissenschaftlicher Themen/
Fachgebiete!
Hypertextsorten: Definition – Struktur – Klassifikation
!
39/52!
41. OWL-Ontologien und Dokumentgrammatiken!
•
Kein XML-Standard zur Repräsentation multipler Dokumentgrammatiken!
•
OWL bietet sich für diesen Zweck an:!
- Hypertextsortenontologie: Oberhalb der Ebene einzelner DTDs!
- DTDs können über Annotationen/RDF-Propertys integriert werden!
- Hypertextsortenontologie sollte als Sammlung von Dokumentgrammatiken fungieren können:!
! Maschinelle Identifizierung der Hypertextsorte eines HTML-Hypertextes!
! Kompilierung der zugehörigen Dokumentgrammatik (z.B. DTD PHEW)!
! Abbildung auf Hypertextsortenmodule und Hypertextknotensorten!
! Konvertierung des gegebenen Hypertextes von HTML nach XML (gemäß PHEW)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
41/52!
42. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
43. Kritische Anmerkungen zum Status Quo!
•
Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich.!
•
Es liegen jedoch mehrere Problemkreise vor, z.B.:!
1. Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder
textlinguistisch noch empirisch motiviert.!
2. Mangelnde theoretische Fundierung – Die Spezifika von Hypertextsorten werden
ignoriert (einfache Übertragung der traditionellen Verfahren auf das WWW).!
3. Das einzelne HTML-Dokument als atomare Analyseeinheit – Die realen
Gegebenheiten im World Wide Web werden ignoriert.!
4. Die verwendeten Methoden und ihre Skalierbarkeit – Können mit ihnen auch die
150+ Hypertextknotensorten der fünften Stichprobe verarbeitet werden?!
Hypertextsorten: Definition – Struktur – Klassifikation
!
43/52!
45. Der Textparser für generische HTML-Dokumente!
•
Prämisse: Konvertierung von HTML nach XHTML (d.h. XML)!
•
Mehrstufige, rekursive Verarbeitung der DOM-Struktur!
- Analyse der struktur- und layoutorientierten Elemente und Attribute!
- Problem: tag abuse!
•
Ziele:!
- Ermittlung der Bausteine der Textoberfläche!
- Reduktion des meist sehr komplexen HTML-Markups auf ein
überschaubares Inventar von Makrostrukturbausteinen!
- Abbildung dieser Bausteine auf Hypertextsortenmodule!
Hypertextsorten: Definition – Struktur – Klassifikation
!
45/52!
46. Das Document Object Model (DOM)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
46/52!
47. Der Textparser für generische HTML-Dokumente!
•
Perl (benutzt XML::LibXML, also DOM Level 2 und XPath)!
•
Rekursive Funktionen beginnen Analyse bei Wurzel (<html>):!
- Berechnung von Merkmalen für alle Teilbäume, z.B.:!
! Hyperlink-Analyse (external, samedomain, internal)!
! Analyse von Listen-Strukturen!
! Analyse eingebetteter Grafiken (Abmessungen, Werbebanner, Separatoren)!
! Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter!
•
Ergebnisse werden innerhalb des Dokuments abgelegt !
- Neuer Namensraum: hypnotic (Analyse-DTD in der Architektur)!
- Vergrößert ein Dokument etwa um den Faktor 25!
- Ermöglicht Meta-Ansicht und Partitionierung eines Dokuments!
- Visualisierung innerhalb der Web-Oberfläche!
Hypertextsorten: Definition – Struktur – Klassifikation
!
Video 1,Video 2 !
47/52!
48. Ausblick – Informationsextraktion!
•
Wrapping:!
- Informationsextraktion aus genau einem HTML-Dokument-Typ"
(z.B. Yahoo!-Newsticker-Seiten)!
•
Wrapping ist sehr unflexibel, daher:!
- Hypertextsorten-getriebene Informationsextraktion!
- Idee: Integration aller Ressourcen in die Hypertextsortenontologie!
- Sie erfüllt mehrere Funktionen parallel:!
! Modelliert die Konstituenten von Hypertextsorten!
! Dient als Grundlage für Dokumentgrammatiken!
! Enthält Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper,
DTD-Fragmente, statistische Daten, Schlüsselwörter)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
48/52!
50. Gliederung!
•
Motivation und Forschungsfragen!
•
Zur Entwicklung von Hypertextsorten!
•
Das Hypertextsortenmodell!
•
Die Korpusdatenbank!
•
Hypertextsorten – Beispiele!
•
Sammlung von Hypertextsorten!
•
Die Hypertextsortenontologie!
•
Zur maschinellen Erkennung von Hypertextsorten!
•
Schlussfolgerungen!
51. Perspektiven!
•
Hypertextsorten in der Sprach- und Informationstechnologie:!
- Filterung in Suchmaschinen!
- Generische Informationsextraktion!
- Metadatenvokabulare (z.B. in Dublin Core)!
- Webdesign (z.B. Hypertextsorten als empirisch gestützte und mit
Hilfe der Ontologie konstruierte Templates für einen HTML-Editor)!
- (Korpus)linguistische Analysen (zur Systematisierung des Web as
Corpus -Ansatzes)!
- Sprachtechnologische Anwendungen (z.B. Textzusammenfassen und
Anpassung von HTML-Dokumenten an mobile Endgeräte)!
Hypertextsorten: Definition – Struktur – Klassifikation
!
51/52!
52. Schlussfolgerungen!
•
•
Einige Hypertextsorten sind äußerst konventionalisiert "
(z.B. die persönliche Homepage eines Wissenschaftlers).!
Hypertextsorten werden nur sehr punktuell in sprachtechnologischen
Systemen zur Verarbeitung von HTML-Dokumenten eingesetzt.!
•
Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter!
•
Übergreifende Probleme verhindern dies (zurzeit) noch. Hierzu zählen:!
- Problematik eines WWW-weit gültigen Inventars von Hypertextsorten:!
! Bestimmung nur manuell und empirisch möglich (Stichprobenanalysen)!
! Ermittlung aller Hypertextsorten im WWW ist nicht realistisch"
(im WWW existieren beliebige traditionelle Textsorten, kulturelle
Besonderheiten, spezifische Diskursgemeinschaften etc.)!
- Maschinelle Bestimmung der Grenzen von Hypertexten!
- Maschinelle Bestimmung von Hypertextsortenmodulen!
Hypertextsorten: Definition – Struktur – Klassifikation
!
52/52!