– Semantic Technologies –
Dozent: Christoph Stollwerk
Semantische Technologien
Übung, Wintersemester 2015/16
19. & 20. Okt...
Modulzuordnung
• Informationsverarbeitung, Bachelor
• Übung Aufbaumodul 2
• “Mo dulbe zo g e ne Vo rausse tzung e n:
Erfo ...
Modulzuordnung
• Medienwissenschaften, Bachelor
(Wahlpflichtfach Medieninformatik)
• Übung Aufbaumodule 1 und 2
• “Modulbe...
Leistungsnachweis
●
Anwesenheit nach Liste (wird rumgegeben)
●
Abgabe der Aufgaben → lehre@christoph-stollwerk.de
●
Bewert...
Kein Leistungsnachweis
Wer zwei mal nicht anwesend ist
oder
zwei mal keine Hausaufgaben abgibt.
Achten Sie daher bitte sel...
Aufgaben
• Begonnen kann während der
Sitzungen
• Spätestens bis ~1,5 Wochen
später am Freitag um 12Uhr:
• Beispiel: Aufgab...
Fragen?!Fragen?!
??
??
??
? ?? ?
Quelle:http://www.basicthinQking.de/blog/2013/06/19/das-internet-bleibt-neuland-warum-merkel-gar-nicht-so-unrecht-hat/
Prognose zumVolumen derjährlich generierten digitalen Datenmenge weltweit in
den Jahren 2005 bis 2020 (in Exabyte)
Datenvo...
Quel
len:
(1)
Chri
sP
Jol)i
ng;
Quel
le:
Flick
r,
CC
BY-
SA
2.0);
(2)
http://hlwiki.slais.ubc.ca/index.php/Semantic_web
,
Recherche im Web:
Beispiel 1
• Einstieg: Suchmaschine
• Hoher Recall bei geringer
Precision
• Keywords abhängig von
Vokabu...
Recherche im Web:
Beispiel 2
• Einstieg: Fachportal
• Keywords abhängig von
Vokabular
• Bessere Precision, dafür
geringer ...
Ideale Recherche
• Zeige mir alle Bilder im Web, die
Karikaturen sind, aus satirischen
Zeitschriften stammen und die
zwisc...
Problem
• Die Bedeutung von Inhalten ist für
Maschinen nicht greifbar.
Zwei Lösungswege
1. Bestehenden Inhalt besser interpretieren
●
KI & Computerlinguistik
2. Neuer, maschinen-lesbarer Inhalt...
Semantic Web Intro
Quelle:wikipedia.org/wiki/Semantic_Web_Stack
Quelle:http://bnode.org/blog/2009/07/08/the-semantic-web-not-a-
piece-of-cake
Fragen?!Fragen?!
??
??
??
? ?? ?
Problem
• Die Bedeutung von
Inhalten im Web ist
für Maschinen nicht
greifbar.
‣ Lösung: Explizite,
maschinen-lesbare
Seman...
Explizite Metadaten in XML
• XML erlaubt die Repräsentation von
Information in einem Format, dass auch
maschinenlesbar ist...
• Nachteile:
• kaum Datentypen
• eigene Sprache
• Keine Namensräume
XML Schemasprache: DTD
XML Schema (XSD)
• XML Anwendung
• reichhaltige
Datentypen
• Namensräume
XML Schema Einfache Datentypen
• Wurzeltag
<xsd:schema xmlns:xsd="http://www.w3.org/2000/10/XMLSchema" version="1.0">
oder...
XML Schema Einfache Datentypen
Basisdatentypen
– xs:string, xs:decimal,
xs:integer, xs:float, xs:boolean,
xs:date, xs:time...
XML Schema Komplexe Datentypen
• Legen die Struktur von
Elementen durch die
Definition von Attributen
und Kindelementen fe...
XML Schema Komplexe Datentypen
• Können
erweitert und
eingeschränkt
werden.
Fragen?!Fragen?!
??
??
??
? ?? ?
XML Schema - Namensräume
Erhöhte Interoperabilität durch Wiederverwendbarkeit
XML Schema - Namensräume
person.xsd
XML Schema - Namensräume
cast.xsd
XML Schema - Namensräume
star-trek.xml
Fragen?!Fragen?!
??
??
??
? ?? ?
(Aufgaben)
Lesen:
Lesen Sie folgenden Artikel:
• Tim Berners-Lee, James Hendler, Ora
Lassila: The Semantic Web: a new form of
Web con...
Fragen?!Fragen?!
??
??
??
? ?? ?
HerzlichenHerzlichen
Dank!Dank!
1.Sitzung (Semantic Technologies)
1.Sitzung (Semantic Technologies)
1.Sitzung (Semantic Technologies)
1.Sitzung (Semantic Technologies)
Nächste SlideShare
Wird geladen in …5
×

1.Sitzung (Semantic Technologies)

453 Aufrufe

Veröffentlicht am

(Semantic Technologies)

Veröffentlicht in: Internet
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
453
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
232
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • „Das Internet ist für uns alle Neuland, und es ermöglicht auch Feinden und Gegnern unserer demokratischen Grundordnung, mit völlig neuen Möglichkeiten und völlig neuen Herangehensweisen unsere Art zu leben in Gefahr zu bringen.“ Spott und Kritik stoßen seitdem auf zartes Verständnis und ehrliche Selbstreflektion.
    -
    Es bleibt also Neuland.
    -
    Neuland, denn auch 10 Jahre nach der Formulierung des Semantic Webs durch Tim Berners-Lee ist noch immer alles Bestehende weit seinen Gedanken/Kollegen entfernt.
    -
    Aber es gibt bereits die ersten &amp;apos;einfachen&amp;apos; Ansätze: z.B. Robotorjournalisten
    Aber auch trivialere Angebote Guardian: Glastonburry Festival (Wiki, Youtube, last.fm etc.)
    -
    Leistungsschutzrecht
    PRISM-Skandal bei dem massive Datenmengen in großén Datenzentren verarbeitet werden
  • Das ist nur das zu erwartende jährlich generierte Datenaufkommen.
    Von Struktur keine Rede.
    Man spricht von einer Menge 5% - 20% strukturierter Daten.
  • Die Datenmenge steigt und die Unübersichtlichkeit wächst.
    Metadaten werden in vielen Bereichen wichtiger den je, z.B. SEO/AI/nformation finding,

    information extracting,

    information representing,

    information interpreting and

    and information maintaining.
  • KLICKEN
    Einstieg: Suchmaschine
    Hoher Recall bei geringer Precision
    Keywords abhängig von Vokabular
    Ergebnisse in heterogener Form
    -
    Beispiel: Kunsthistoriker - „Die Rolle des Karikaturisten in Satirezeitschriften zu Beginn des 20. Jahrhunderts“
    -
    Recall=Maß für die Vollständigkeit des Retrievalergebnisses (Verhältnis zwischen den gefundenen relevanten Dokumenten &amp; Gesamtanzahl der im Dokumentenbestand vorhandenen relevanten Dokumente.
    Precision = Genauigkeit der Suche (Verhältnis der gefundenen relevanten Dokumente zur Zahl aller gefundenen Dokumente.
  • Einstieg: Fachportal
    Keywords abhängig von Vokabular
    Bessere Precision, dafür geringer Recall-string- oder musterbasierte Suchen
    eingeschränkte Kollektion
  • Was man eigentlich möchte ...
    Anfrage absichtlich in natürlicher Sprache.
  • Kontext nur implizit.
    Jahreszahl auf Webseite Publikationsdatum oder Änderungsdatum ...
  • Welche Fragen wirft das Video auf?
    -
    Wo liegen angesprochene Problematiken?
    -
    Weil die Vorliegen zeige ich Ihnen im Folgenden die Architektur des Semantic Webs
  • Semantic Web Cake oder Semantic Web Layer Cake
    1. Hypertext Web technologies (einschli. XML)
    2. Standardized Semantic Web technologies (RDF, OWL, SPARQL)
    3. Unrealized Semantic Web technologies (RIF, SWIRL = Rules; Crypto to digSig)
  • 1-Die meisten Apps nutzen nur eine Teilmenge.
    2-Standardisierung erlaubt informationsaustausch
    3- Sweb basiert auf dem Web, wie wir es kennen. → ERWEITERUNG
    Linked Data nutzt nur eine kleine Auswahl der vorliegenden Techniken.
    -
    Viele Baustellen und Nutzungsweisen, aber das Grundproblem ist immer dasselbe.
    Was?
    Nächst Folie?
  • Die Bedeutung von Inhalten im Web ist für Maschinen nicht greifbar.
    Lösung: Explizite, maschinen-lesbare Semantik.
    Zwei Möglichkeiten: (verbesserter Struktur (Semantic web) oder verbesserter Interpretation (AI/Computerlinguistik)
    Strukturierte Daten
    BILD → HTML nur für Präsentation
    -
    Wer ist mit HTML gut bis sehr gut vertraut?
    Wo liegen semantische Ansätze in HTML?
    Ein Beispiel auf der nächsten Folie
    -
    [Das Bild beruht auf dem Hass gegen MS, denn der IE bremste lange die Web-Entwicklung]
  • Viel Markup, aber wenig Struktur
  • Bessere Struktur
    aber implizite Semantik
    -
    Meistens heute genutzt (SEO)
    -
    Besser wäre was?
  • XML erlaubt Definition eines eigenen Vokabulars
    Gezielte Suche in bestimmten Feldern möglich
    Problem: gemeinsames Vokabular
  • Ein Standard zur Erfassung von Metadaten kann daher:
    MODS - Metadata Object Description Schema
    Oder auch
    Schema.org von Google/BING/Yahoo
    Oder auch
    RDFa
    -
    XML Applikationen denkbar z.B.
    Library of Congress
  • Vorl. Zusammenfassung
    flexible Nutzung der Technologien
    Domänenspezifische XML
    Es folgt Basiswissen Rückblick “XML”
  • nur Strings
    erfordert zusätzliche Tools
    später mehr zu Namensräumen
  • weitere XML Schemasprachen: RELAX NG, Schematron
  • Ansicht Wechseln!!!
  • Beschränkung auf Basisdatentypen möglich
  • Wann Attribute und wann Element?
    -
    Order indicators:
    Sequence ( must appear in a specific order)
    choice, (can occur)
    All (any order, occur once)
  • Occurrence indicators: min, max
  • xmlns defines the Schema XML namespace. (by &amp;quot;artifact&amp;quot;)
    own vocabulary + prefix target
    The following fragment:
    xmlns:xs=&amp;quot;http://www.w3.org/2001/XMLSchema&amp;quot;
    indicates that the elements and data types used in the schema come from the &amp;quot;http://www.w3.org/2001/XMLSchema&amp;quot; namespace. It also specifies that the elements and data types that come from the &amp;quot;http://www.w3.org/2001/XMLSchema&amp;quot; namespace should be prefixed with xs:
    TargetNamespace= &amp;gt; elements defined by this schema come from a namespace.
    -
    Xmlns= indicates that the default namespace
    ElementFormDefault = any elements used by the XML instance document which were declared in this schema must be namespace qualified.
  • every element (or attribute) in XML belongs to a namespace, a way of &amp;quot;qualifying&amp;quot; the name of the element.
  • Oxygen unter Mac
  • 1.Sitzung (Semantic Technologies)

    1. 1. – Semantic Technologies – Dozent: Christoph Stollwerk Semantische Technologien Übung, Wintersemester 2015/16 19. & 20. Oktober 2015
    2. 2. Modulzuordnung • Informationsverarbeitung, Bachelor • Übung Aufbaumodul 2 • “Mo dulbe zo g e ne Vo rausse tzung e n: Erfo lg re iche r Abschluss de r Basism o dule 1 und 3; de r Abschluss säm tliche r Basism o dule wird e m pfo hle n. ” • Credit Points: 2 • Leistung: Aktive Teilnahme
    3. 3. Modulzuordnung • Medienwissenschaften, Bachelor (Wahlpflichtfach Medieninformatik) • Übung Aufbaumodule 1 und 2 • “Modulbezogene Voraussetzungen: Erfolgreicher Abschluss der Basismodule 1 und 2.” • Credit Points: 3 • Leistung: Aktive Teilnahme + Kurzreferat bzw. praktische Semesterarbeit
    4. 4. Leistungsnachweis ● Anwesenheit nach Liste (wird rumgegeben) ● Abgabe der Aufgaben → lehre@christoph-stollwerk.de ● Bewertungskriterien Ihrer Aufgaben: - Zuverlässigkeit; Kommentare; Programmstruktur; Ergonomie; Re-usability; etc. - late submission? - Vollständigkeit
    5. 5. Kein Leistungsnachweis Wer zwei mal nicht anwesend ist oder zwei mal keine Hausaufgaben abgibt. Achten Sie daher bitte selbstständig darauf, dass Sie sich in die Listen eintragen und Ihre Aufgaben rechtzeitig einsenden.
    6. 6. Aufgaben • Begonnen kann während der Sitzungen • Spätestens bis ~1,5 Wochen später am Freitag um 12Uhr: • Beispiel: Aufgabenstellung am 26/27.10.15 => spät. Abgabe 6.11.15 12 Uhr • Abgabe: E-Mail an lehre@christoph-stollwerk.de
    7. 7. Fragen?!Fragen?! ?? ?? ?? ? ?? ?
    8. 8. Quelle:http://www.basicthinQking.de/blog/2013/06/19/das-internet-bleibt-neuland-warum-merkel-gar-nicht-so-unrecht-hat/
    9. 9. Prognose zumVolumen derjährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte) Datenvolumen in Exabyte 130,00 1.227,00 2.837,00 8.591,00 40.026,00 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 2005 2010 2012 2015* 2020* Quel le: http: //de. stati sta.c om/s tatist ik/da ten/s tudie /267 974/ umfr age/ prog nose - zum - welt weit- gen erier ten- date nvol ume n/ 3.000 EB = 3.145.728.000 TB
    10. 10. Quel len: (1) Chri sP Jol)i ng; Quel le: Flick r, CC BY- SA 2.0); (2) http://hlwiki.slais.ubc.ca/index.php/Semantic_web ,
    11. 11. Recherche im Web: Beispiel 1 • Einstieg: Suchmaschine • Hoher Recall bei geringer Precision • Keywords abhängig von Vokabular • Ergebnisse in heterogener Form Quelle:Google
    12. 12. Recherche im Web: Beispiel 2 • Einstieg: Fachportal • Keywords abhängig von Vokabular • Bessere Precision, dafür geringer Recall prometheus.uni-koeln.de
    13. 13. Ideale Recherche • Zeige mir alle Bilder im Web, die Karikaturen sind, aus satirischen Zeitschriften stammen und die zwischen 1900 und 1925 publiziert wurden.
    14. 14. Problem • Die Bedeutung von Inhalten ist für Maschinen nicht greifbar.
    15. 15. Zwei Lösungswege 1. Bestehenden Inhalt besser interpretieren ● KI & Computerlinguistik 2. Neuer, maschinen-lesbarer Inhalt ● Semantic Web
    16. 16. Semantic Web Intro
    17. 17. Quelle:wikipedia.org/wiki/Semantic_Web_Stack
    18. 18. Quelle:http://bnode.org/blog/2009/07/08/the-semantic-web-not-a- piece-of-cake
    19. 19. Fragen?!Fragen?! ?? ?? ?? ? ?? ?
    20. 20. Problem • Die Bedeutung von Inhalten im Web ist für Maschinen nicht greifbar. ‣ Lösung: Explizite, maschinen-lesbare Semantik. Quelle:http://www.flickr.com/photos/thefangmonster/490423135/
    21. 21. Explizite Metadaten in XML • XML erlaubt die Repräsentation von Information in einem Format, dass auch maschinenlesbar ist. • XML ist eine Metasprache und erlaubt die Definition unterschiedlicher Vokabulare. • Damit ein erfolgreicher Austausch von Information möglich ist, müssen Standards geschaffen werden.
    22. 22. • Nachteile: • kaum Datentypen • eigene Sprache • Keine Namensräume XML Schemasprache: DTD
    23. 23. XML Schema (XSD) • XML Anwendung • reichhaltige Datentypen • Namensräume
    24. 24. XML Schema Einfache Datentypen • Wurzeltag <xsd:schema xmlns:xsd="http://www.w3.org/2000/10/XMLSchema" version="1.0"> oder <schema xmlns="http://www.w3.org/2000/10/XMLSchema" version="1.0"> • Elementtags <element name=“...“ (type=“...“) (minOccurs=“...“) (maxOccurs=“...“)/> • Attributtags <attribute name=“...“ (type=“...“) (use=“optional|required|prohibited“) (default=“...“)/> • Typdefinitionen xsd:complexType vs. xsd:simpleTyp
    25. 25. XML Schema Einfache Datentypen Basisdatentypen – xs:string, xs:decimal, xs:integer, xs:float, xs:boolean, xs:date, xs:time, ... • Dürfen weder Kindelemente noch Attribute besitzen • User-definierte einfache Datentypen können Basistypen einschränken
    26. 26. XML Schema Komplexe Datentypen • Legen die Struktur von Elementen durch die Definition von Attributen und Kindelementen fest • Die Struktur der Kindelemente wird durch die Tags sequence, all oder choice festgelegt.
    27. 27. XML Schema Komplexe Datentypen • Können erweitert und eingeschränkt werden.
    28. 28. Fragen?!Fragen?! ?? ?? ?? ? ?? ?
    29. 29. XML Schema - Namensräume Erhöhte Interoperabilität durch Wiederverwendbarkeit
    30. 30. XML Schema - Namensräume person.xsd
    31. 31. XML Schema - Namensräume cast.xsd
    32. 32. XML Schema - Namensräume star-trek.xml
    33. 33. Fragen?!Fragen?! ?? ?? ?? ? ?? ?
    34. 34. (Aufgaben)
    35. 35. Lesen: Lesen Sie folgenden Artikel: • Tim Berners-Lee, James Hendler, Ora Lassila: The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. In: Scientific American, 284 (5), S. 34–43, May 2001
    36. 36. Fragen?!Fragen?! ?? ?? ?? ? ?? ?
    37. 37. HerzlichenHerzlichen Dank!Dank!

    ×