Seminar Semantic Media Mining - Kickoff

867 Aufrufe

Veröffentlicht am

Handout für die Einführungsveranstaltung zum Seminar "Semantic Media Mining", 17.10.2012, Hasso Plattner Institut, Universität Potsdam, Dr. Harald Sack, Wintersemester 2012/13

Veröffentlicht in: Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
867
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
39
Aktionen
Geteilt
0
Downloads
18
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Seminar Semantic Media Mining - Kickoff

  1. 1. SEMANTIC MEDIA MINING Seminar Dr. Harald Sack / Jörg Waitelonis Christian Hentschel / Magnus Knuth / Nadine Steinmetz Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2012/13 Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).Freitag, 19. Oktober 12
  2. 2. Semantic Media Mining2 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  3. 3. Semantic Media Mining Dozenten / Tutoren3 Dr. Harald Sack ■ Senior Researcher am HPI ■ Leiter der Forschungsgruppe „Semantische Technologien“ ■ Forschungsschwerpunkte: □ Semantic Web Technologien □ Multimedia Retrieval □ Wissensrepräsentation ■ Yovisto.com / SEMEX Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  4. 4. Semantic Media Mining Dozenten / Tutoren4 Dipl. Inform. Jörg Waitelonis ■ Studium Informatik Uni-Jena bis 2006 ■ 2006-2007 Exist-Seed Projekt Osotis ■ seit 2007 Gründer von yovisto.com ■ Forschung: Semantic Web, Multimedia-Retrieval, Suchmaschinen Technologien Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  5. 5. Semantic Media Mining Dozenten / Tutoren5 Dipl.-Inf. Magnus Knuth ■ Studium Informatik, Uni Leipzig bis 2007 ■ Institut für Medizinische Informatik, Statistik und Epidemiologie, Uni Leipzig 2006-2010 ■ Research Assistant am HPI, Contentus & Mediaglobe ■ Forschungsgebiete: Semantic Web, Knowledge Management, Read-Write-Web, Linked Data Cleansing Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  6. 6. Semantic Media Mining Dozenten / Tutoren6 Dipl.-Inf. Nadine Steinmetz ■ Studium Informatik, TU Ilmenau bis 2005 ■ 2005-2010 TU Berlin: • kooperative Lernszenarien • Integration von Semantic Web Technologien in kooperative Lernplattformen ■ seit 05/2010 am HPI: • Semantische Analyse, Named Entity Recognition, Disambiguierung Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  7. 7. Semantic Media Mining Dozenten / Tutoren7 Christian Hentschel, M.Sc. ■ 2005: B.Sc. in Softwaresystemtechnik ■ 2007: M.Sc. in Computational Visualistics an der Otto-von-Guericke-Universität Magdeburg ■ 2007-2011: wiss. Mitarbeiter am Fraunhofer Heinrich Hertz Institut ■ Theseus ■ seit 2011: Doktorand am HPI ■ Forschungsgebiet: visuelle Klassifikation von Bild- und Videoinhalten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  8. 8. 8 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  9. 9. 9 ■ Projektzeitraum: 2009-2012 ■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten ■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von AV-Inhalten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  10. 10. Freitag, 19. Oktober 12
  11. 11. Semantic Media Mining11 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  12. 12. 12 Wie kann ich etwas (wieder) finden...? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  13. 13. Metadaten13 „Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia) „Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985) „Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  14. 14. 14 • bibliografische Metadaten Identifikation über ISBN / ISSN Autor(en) Titel ... Klassifikation über Kategorien Schlüsselwörter Abstract / Zusammenfassung ... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  15. 15. Strukturierte Metadaten • bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)15 • sind typisiert (Autor ist vom Typ Zeichenkette) • Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core) • Title: Namen des Objekts. • Creator: Personen, Organisationen oder Di enste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autor innen oder Autoren. • Subject: Thema (topic) des Objekts, typisc herweise Stichwörter, Deskriptoren oder Elemente eines Klassifikation ssystems. • Description: Beschreibung des Inhalts de s Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen , die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisation en, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht un ter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren ). .... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  16. 16. Strukturierte Metadaten16 • können hierarchisch strukturiert werden (Taxonomie) Moderner Mensch (Homo sapiens) Mensch (Homo) Menschenartige (Hominidae) Primaten Säugetiere (Mammaliae) Wirbeltiere Tierreich (Animalia) Mehrzeller (Eukaria) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  17. 17. Strukturierte Metadaten • Klassifikationssysteme17 z.B. Dewey Decimal System DDC 1 (1876) DDC 23 (2011) • 44 Seiten • 4 Bände • 4000 Seiten Hauptklassen • 45.000 Klassen 000 Inf.-Wiss., allg. Werke 100 Philosophie • 96.000 Registerbegriffe 200 Religion 300 Sozialwissenschaften 400 Sprachen 500 Naturwissenschaften 600 Technik (Angew. Wiss.) 700 Künste 800 Literatur 900 Geschichte Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  18. 18. Unstrukturierte Metadaten • als unstrukturierte Metadaten werden textuelle Metadaten18 bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt. • Bsp.: Inhaltsangabe/abstract Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaftliches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz.... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  19. 19. Autoritative vs. nicht-autoritative Metadaten19 • Autoritative Metadaten stammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten • einem ausgewiesenen Experten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  20. 20. Autoritative vs. nicht-autoritative Metadaten20 • Nicht-autoritative Metadaten stammen von einer prinzipiell unzuverlässigen Quelle, wie z.B. • den Benutzern • prominentes Beispiel: Social Tagging Systeme Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  21. 21. Kollaborative Annotation -- Social Tagging21 Apfel Ressource apple Autor Apfel Obst Frühstück Frucht Benutzer kaufen © E.C. Publications, Inc. nicht- autoritative autoritative Metadaten Metadaten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  22. 22. Kollaborative Annotation -- Social Tagging22 http://www.wordle.net/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  23. 23. Semantische Metadaten23 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  24. 24. Semantische Metadaten24 • sind strukturierte/unstrukturierte Metadaten • Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie) und daher maschinenlesbar (und maschinenverstehbar) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  25. 25. Semantische Metadaten25 "An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“ (Thomas R. Gruber, 1993) Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante Begriffe, Beziehungen) Explizit: Bedeutungen aller Begriffe definiert Formal: maschinenverstehbar Gemeinsam: Konsens bzgl. Ontologie Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  26. 26. Semantische Metadaten26 Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  27. 27. Semantische Metadaten26 Eigenschaften • Titel • Schlüsselwörter • ... Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  28. 28. Semantische Metadaten26 Eigenschaften Buch • Titel • Schlüsselwörter • ... ist eine Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  29. 29. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  30. 30. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation verlegt Verlag Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  31. 31. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation wird verfasst von verlegt Verlag Autor verfasst Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  32. 32. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation wird verfasst 1..n von verlegt 1..n Verlag Autor verfasst Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  33. 33. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation wird verfasst 1..n von verlegt 1..n Verlag Autor Person verfasst ist eine Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  34. 34. Semantische Metadaten26 Eigenschaften Zeitschrift Buch • Titel • Schlüsselwörter • ... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  35. 35. Semantische Metadaten26 Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  36. 36. Semantische Metadaten26 Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine ist ein Springer Verlag Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  37. 37. Semantische Metadaten26 Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine ist ein ist eine Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  38. 38. Semantische Metadaten26 Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine verlegt 1..n Verlag Autor Person verfasst ist eine ist ein ist eine Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  39. 39. Semantische Metadaten26 Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine Frau ist eine verlegt 1..n Verlag Autor Person verfasst ist eine ist eine ist ein ist eine Mann Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  40. 40. Semantische Metadaten26 Digitale Kommunikation ist ein Eigenschaften Eigenschaften Zeitschrift Buch • Titel • Nachname • Schlüsselwörter • Vorname • ... • Straße... ist eine ist eine Publikation Adresse wird verfasst 1..n von hat eine Frau ist eine verlegt 1..n Verlag Autor Person ≠ verfasst ist eine ist eine ist ein ist eine Mann Springer Verlag HaraldSack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  41. 41. Semantische Metadaten27 • erlauben die Festlegung formaler Axiome • z.B. „Es ist nicht möglich, dass das Publikationsdatum vor dem Geburtsdatum eines Autors der Publikation liegt.“ • erlauben das Ziehen von Schlussfolgerungen • z.B. „Alle Menschen sind sterblich.“ „Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam Raffael: Die Schule von Athen, 1510Freitag, 19. Oktober 12
  42. 42. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  43. 43. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  44. 44. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  45. 45. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  46. 46. Named Entity Recognition • Ziel ist eine Abbildung von Zeichenketten bzw. Low-28 Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren. Jörg Waitelonis Text http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata foaf:Person RDF Metadata Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  47. 47. Entity Mapping29 Jörg Waitelonis is a foaf:Project property foaf:Document disjoint with foaf:Person foaf:firstname Jörg foaf:Organization property foaf:lastname Waitelonis knows property foaf:interest foaf:Person foaf:publications foaf:workplaceHomepage is a ... Harald Sack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  48. 48. Entity Mapping29 Entity Mapping Jörg Waitelonis is a foaf:Project property foaf:Document disjoint with foaf:Person foaf:firstname Jörg foaf:Organization property foaf:lastname Waitelonis knows property foaf:interest foaf:Person foaf:publications foaf:workplaceHomepage is a ... Harald Sack Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  49. 49. Named Entity Recognition30 Entitäten- zuweisung Jörg Waitelonis Entität Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  50. 50. Named Entity Recognition30 Entitäten- zuweisung Jörg Waitelonis Entität ist ein Doktorand Klasse Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  51. 51. Named Entity Recognition30 Entitäten- zuweisung Jörg Waitelonis Entität ist ein Doktorand Klasse ist eine Person Klasse Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  52. 52. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Determine possible Entity Mapping CandidatesFreitag, 19. Oktober 12
  53. 53. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text We have to examine the Context... Determine possible Entity Mapping CandidatesFreitag, 19. Oktober 12
  54. 54. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text We have to examine the Context... Determine possible Entity Mapping CandidatesFreitag, 19. Oktober 12
  55. 55. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ TextFreitag, 19. Oktober 12
  56. 56. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping CandidatesFreitag, 19. Oktober 12
  57. 57. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping Candidates Armstrong George Armstrong Custer Neil Armstrong The Armstrong Twins Armstrong, Florida Craig Armstrong Armstrong, Ontario Armstrong (Mondkrater) Armstrong Gun Sir Thomas Armstrong Armstrong‘s Theorem Louis Armstrong Louis Armstrong International Airport Armstrong County, Texass Joe Armstrong Ian Armstrong Armstrong Tunnel Armstrong AutomobileFreitag, 19. Oktober 12
  58. 58. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping Candidates Armstrong Mensch George Armstrong Custer Human Neil Armstrong Bill Mensch The Armstrong Twins Bob Mensch Armstrong, Florida Craig Armstrong David Mensch Armstrong, Ontario Homer Mensch Armstrong (Mondkrater) Armstrong Gun Sir Thomas Armstrong Louise Mensch Armstrong‘s Theorem Mensch (album) Halber Mensch Louis Armstrong Louis Armstrong International Airport Mensch ärgere Dich nicht Armstrong County, Texass Mensch Computer Joe Armstrong Peter van Mensch Ian Armstrong Armstrong Tunnel Daniel Mensch Armstrong AutomobileFreitag, 19. Oktober 12
  59. 59. Named Entity Recognition „Armstrong betrat als erster Mensch den Mond.“ Text Create all possible Sets of Mapping Candidates Armstrong Mensch Mond George Armstrong Custer Human Neil Armstrong Bill Mensch MOND The Armstrong Twins Bob Mensch Der Mond (Oper) Armstrong, Florida Craig Armstrong David Mensch Mond Nickel Company Brunner Mond Armstrong, Ontario Homer Mensch Alfred Mond Armstrong (Mondkrater) Bernard Mond Sir Thomas Armstrong Louise Mensch Chava Mond Armstrong Gun Peter Mond Henry Mond Armstrong‘s Theorem Mensch (album) Halber Mensch Louis Armstrong Julian Mond Louis Armstrong International Airport Mensch ärgere Dich nicht Armstrong County, Texass Mensch Computer Ludwig Mond Robert Mond Joe Armstrong Peter van Mensch Ian Armstrong Violet Mond Daniel Mensch MOND Technologies Armstrong Tunnel Armstrong AutomobileFreitag, 19. Oktober 12
  60. 60. Named Entity Recognition (1) Co-occurence Analysis (2) Semantic Analysis Armstrong Mensch Mond George Armstrong Custer Human Mond (Erdtrabant) Neil Armstrong Bob Mensch Der Mond (Oper) Louis Armstrong Craig Armstrong David Mensch Mond Nickel Company Armstrong, Florida Brunner Mond Armstrong, Ontario Homer Mensch Alfred Mond Bernard Mond Armstrong (Mondkrater) Louise Mensch Chava Mond Peter Mond Henry Mond Mensch (album) Halber Mensch Armstrong Gun Julian Mond Mensch ärgere Dich nicht Sir Thomas Armstrong Mensch Computer Ludwig Mond Demo: SEMEX NER http://mediaglobe.yovisto.com/semex/Freitag, 19. Oktober 12
  61. 61. Semantic Media Mining34 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  62. 62. Seminar Themen35 (1) Linked Soccer: Man muss keine Ahnung von Fußball haben. (2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  63. 63. Linked Soccer - Motivation36 ■ Informationen liegen in verschiedenen, losen, un-/semi-strukturierten Datenquellen, z.B.: □ Spieler- und Teaminformationen in Wikipedia/DBpedia □ Live-Spielergebnisse in Live-Tickern und Tweets □ historische Begegnungen auf versch. Webseiten (z.B. von Vereinen) ■ Ziel: ein Datensatz, der all diese Informationen strukturiert aggregiert und sich selbständig aktualisiert □ Erzeugung eines Linked Data Datensatzes, □ aus frei verfügbaren Quellen, □ mit vorhandenen semantischen Entitäten verbunden □ stetige Aktualisierung anhand neu verfügbarer Daten Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  64. 64. Linked Soccer - das Spiel37 ■ “Linked Soccer” ist ein Spiel in 16 Seminartreffen ■ gespielt wird in Teams zu je 3-4 Spielern ■ Ziel des Spiels ist die Beantwortung von Fragen zu Fußballstatistiken mit Hilfe von aggregiertem Linked Data ■ Der Spielverlauf ist wie folgt: □ Teilnahme an Seminartreffen □ Zwischen- und Abschlusspräsentation □ Ausarbeitung □ Software Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  65. 65. Ziel des Spiels38 Beantworte folgende Fragen (Beispiel) mit Hilfe von Linked Data: ■ Welcher Verein erzielte in der Geschichte der 2. Bundesliga die wenigsten Tore? ■ Welcher Spieler erzielte bei Spielen in der 1. Bundesliga die meisten Eigentore? ■ Bei welcher Begegnung der laufenden Saison 2012/2013 wurden die meisten Gelb- Roten Karten gezeigt (1. und 2. Bundesliga gemeinsam)? ■ Welches Team (1. und 2. Bundesliga gemeinsam) erzielte in der Saison 1995/1996 die meisten Tore in der ersten Halbzeit? ■ Welcher Spieler des Teams “SpVgg Greuther Fürth” wurde in der Spielsaison 2009/2010 am häufigsten in der Spielhälfte seiner eigenen Mannschaft gefoult? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  66. 66. Spieltaktik: Linked Data39 ■ Verwendung von Informationen über Entitäten aus der Linked Open Data Cloud (DBpedia, Freebase, ...) ■ einfach erweiterbares Datenschema (RDF, RDFS) ■ Abfrage per SPARQL ■ Nutzung von semantischen Technologien: □ Named Entity Recognition □ RDFa □ GRDDL Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  67. 67. Die Spieler: Entitäten40 Welche Entitäten kommen in Frage? ■ Spieler ■ Mannschaften ■ Begegnungen □ Ergebnis, Tore, Karten, Fouls, ... ■ Ligen ■ Verbände ■ ... Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  68. 68. Die Spielregeln: Datenquellen41 Fokus auf öffentliche und freie Quellen: ■ DBpedia (http://dbpedia.org/page/Johannes_Focher) ■ öffentliche Kalender (https://www.google.com/calendar/ical/ spielplan.fussball.em%40gmail.com/public/basic.ics) ■ Wikipedia ■ Twitter/Facebook ■ RSS-Feeds (News, Medien) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  69. 69. Die Spielregeln (2)42 alternative Quellen (nach Absprache mit den Schiedsrichtern!): ■ www.fussballdaten.de ■ www.worldfootball.net ■ www.fussball.de ■ UEFA (z.B. http://www.uefa.com/uefachampionsleague/ season=2012/clubs/club=52758/matches/index.html) ■ Statistiken von Vereinsseiten (z.B. http://www.bvb.de/?%9CS %1B%E7%F4%9D) ■ diverse Live-Ticker (z.B. http://liveticker.tagesspiegel.de/de/ popup/co12/) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  70. 70. Die Meisterschaft43 ■ Recherche von öffentlichen Datenquellen 1. Woche ■ Selektion relevanter Entitäten 2. Woche ■ Erstellen einer erweiterbaren Datenstruktur 3. Woche ■ Entwickeln einer Strategie zur Extraktion der Daten 4. Woche ■ Identifikation der Entitäten (z.B. anhand von Bezeichnern und Hash-Tags), Aggregation der Daten (Mapping) ■ Persistierung der Daten in geeignetem Store 9. Woche ■ Entwickeln einer dynamischen Webseite zur Präsentation der Daten 12. Woche ■ Ableiten von Statistiken 13. Woche ■ Erweiterungen 16. Woche Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  71. 71. Die Kommentare44 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  72. 72. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  73. 73. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  74. 74. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  75. 75. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“ = Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  76. 76. Die Kommentare Günter Netzer: „Der Klose wusste, wie gewohnt, immer44 genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“ = Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden Giovanni Trapattoni: „Fußball ist Ding, Dang, Dong. Es gibt nicht nur Ding.“ = ??? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  77. 77. Materialien / Einstieg in das Thema45 ■ Bücher zu Semantic Web Technologien □ T. Heath, Ch. Bitzer Linked Data - Evolving the Web into a Global Data Space, Morgan & Claypool, 2011. ■ Tutorial: How to Publish Linked Data on the Web, Bizer et. al ■ Linked Data Starting Point (Papers und Tools): http://linkeddata.org ■ DBpedia (http://dbpedia.org/) ■ Twitter API (https://dev.twitter.com/docs) ■ W3C GRDDL Specification (http://www.w3.org/TR/grddl/) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  78. 78. (2) Intelligente Produktempfehlungen, oder46 was haben Mozartkugeln mit dem Wetter zu tun? Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  79. 79. (2) Intelligente Produktempfehlungen, oder46 was haben Mozartkugeln mit dem Wetter zu tun? ■viele online Geschäftsmodelle basieren auf Werbung ■unterschiedliche Arten von Werbe-Einblendungen: ■Einblendungen als Text (incl. Link) ■Einblendungen als Bilder (horizontal/vertikal/kombiniert) ■PopUps & Co. ■Video Werbung: Bumper, Zwischeneinblendungen Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  80. 80. (2) Intelligente Produktempfehlungen, oder46 was haben Mozartkugeln mit dem Wetter zu tun? ■viele online Geschäftsmodelle basieren auf Werbung ■unterschiedliche Arten von Werbe-Einblendungen: ■Einblendungen als Text (incl. Link) ■Einblendungen als Bilder (horizontal/vertikal/kombiniert) ■PopUps & Co. ■Video Werbung: Bumper, Zwischeneinblendungen Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  81. 81. (2) Intelligente Produktempfehlungen47 ■ Wie wird die Werbung bzgl. einer Webseite ausgewählt? ■ Abhängig vom Benutzer (Personalisierung), z.B. bei Facebook, Cookies ■ Abhängig von Aktionen der Benutzer, z.B. Sucheingabe bei Googel AdSense ■ Collaborative Filtering, z.B. Amazon “Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.” ■ ohne besonderen Zusammenhang zum Inhalt Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  82. 82. (2) Intelligente Produktempfehlungen47 ■ Wie wird die Werbung bzgl. einer Webseite ausgewählt? ■ Abhängig vom Benutzer (Personalisierung), z.B. bei Facebook, Cookies ■ Abhängig von Aktionen der Benutzer, z.B. Sucheingabe bei Googel AdSense ■ Collaborative Filtering, z.B. Amazon “Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.” ■ ohne besonderen Zusammenhang zum Inhalt Das ist die Regel Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  83. 83. (2) Intelligente Produktempfehlungen48 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  84. 84. (2) Intelligente Produktempfehlungen49 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  85. 85. 50 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  86. 86. (2) Intelligente Produktempfehlungen51 Ziel: ■ Intelligente Verknüpfung von Multimediadaten mit inhaltlich dazu passenden Produkten. ■ Online Werbung wird zu inhaltsbasierten Produktempfehlungen. ■ “Storytelling”, um dem Nutzer zu kommunizieren, warum dieses Produkt empfohlen wird (Assoziationsketten). ■ Verwendung von semantischen Technologien: ■ RDF / RDFa ■ Named Entity Recognition Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  87. 87. (2) Intelligente Produktempfehlungen52 Beispiel “Baumgartner springt aus der Stratosphäre und holt sich den Weltrekord” generierte Empfehlungen z.B. ■ Guiness Buch der Rekorde, Craig Glenday [1] ■ Mirabell Mozartkugeln Geschenkbox [2] ■ “Wie wird das Wetter?: Eine verständliche Einführung für jedermann von Jörg Kachelmann und Siegfried Schöpfer (1. Februar 2006) EUR 8,95 Taschenbuch” [3] [1] http://www.amazon.com/Guinness-World-Records-Craig-Glenday/dp/0440423104 [2] http://www.austriangrocery.com/de/mirabell-mozartkugeln/mirabell-mozartkugeln-geschenkbox [3| http://www.amazon.de/Wie-wird-das-Wetter-verständliche/dp/3499620898/ref=sr_1_1?ie=UTF8&qid=1350294405&sr=8-1 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  88. 88. (2) Intelligente Produktempfehlungen53 Schritt 1: Semantische Produktdatenbank aufbauen ■ manuell: Annotation des Produktes durch sem. Entitäten/Kategorien ■ automatisch: Wo findet man (semantische) Produktbeschreibungen? ■ eingebettet in Webseiten (als Microformat, RDFa) ■ z.B. sears.com ■ vgl. Goodrelations Ontologie (mit Mappings zu DBpedia) ■ in semantischen Suchmaschinen (z.B. http://sindice.com) Demo: RDFa Distiller http://www.w3.org/2007/08/pyRdfa/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  89. 89. (2) Intelligente Produktempfehlungen54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER) ■ “Eingabetext” kann stammen aus: ■ Webseiten ■ Social Media Posts: Tweets, Facebook, Google +, etc ■ Videos ■ sonstigen Dokumenten ■ Named Entity Recognition ■ Zuordung von Begriffen zu semantischen Entitäten ■ Mehrdeutigkeiten auflösen (Disambiguierung) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  90. 90. (2) Intelligente Produktempfehlungen54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER) “Baumgartner springt aus der Stratosphäre ■ “Eingabetext” kann stammen aus: und ■ Webseiten holt sich den Weltrekord” ■ Social Media Posts: Tweets, Facebook, Google +, etc ■ Videos dbp:Felix_Baumgartner ■ sonstigen Dokumenten dbp:Stratosphere ■ Named Entity Recognition ■ Zuordung von Begriffen zu semantischen Entitäten dbp:World_record ■ Mehrdeutigkeiten auflösen (Disambiguierung) PREFIX dbp: http://dbpedia.org/resource/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  91. 91. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  92. 92. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  93. 93. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER dbp:Felix_Baumgartner Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  94. 94. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  95. 95. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject category:People_from_Salzburg Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  96. 96. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:People_from_Salzburg Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  97. 97. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:People_from_Salzburg dc:subject category:Wolfgang_Amadeus_Mozart Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  98. 98. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:Wolfgang_Amadeus_Mozart_in_popular_culture category:People_from_Salzburg skos:broader dc:subject category:Wolfgang_Amadeus_Mozart Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  99. 99. (2) Intelligente Produktempfehlungen55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen “... Baumgartner...” NER NER dbp:Felix_Baumgartner dbp:Mozartkugel dc:subject dc:subject dbp:Wolfgang_Amadeus_Mozart dc:subject category:Wolfgang_Amadeus_Mozart_in_popular_culture category:People_from_Salzburg skos:broader dc:subject category:Wolfgang_Amadeus_Mozart Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  100. 100. (2) Intelligente Produktempfehlungen56 Formal: Spezielle Anwendung von (semantischer) Suche ■ Produkte sind die Dokumente ■ Texte (z.B. aus Webseiten, Video, Audio) sind die Suchanfragen: ■ “Finde die am besten passenden Produkte zu einem gegebenen Text” P ... Menge von Dokumenten (Produkte). FP = featP(p) ... Funktion zum Extrahieren von Deskriptoren FP eines Dokuments. FQ = featQ(p) ... Funktion zum Extrahieren von Deskriptoren FQ einer Suchanfrage. dist(FP, FQ) ... Distanzfunktion basierend auf einer Metrik, die den Abstand zwischen zwei Mengen von Deskriptoren bestimmt. Aufgabe für das Seminar: P erzeugen, featP, featQ, dist(FP, FQ) implementieren. Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  101. 101. (2) Intelligente Produktempfehlungen57 Vorgehen: 1. Literatur Recherche 2. Anforderungsanalyse aufstellen 3. initiale Produktdatenbank P erstellen (featP) 4. Text-Analyse implementieren (featQ) 5. zwei einfache Metriken implementieren ( dist(FP, FQ) ) 6. Evaluation: ■ entweder gegen Ground Truth? ■ oder durch Rating/Voting? 7. weitere Metriken implementieren 8. Optimieren 9. Produktdatenbank erweitern Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  102. 102. (2) Intelligente Produktempfehlungen57 Vorgehen: 1. Literatur Recherche 1. Woche 2. Anforderungsanalyse aufstellen 2. Woche 3. initiale Produktdatenbank P erstellen (featP) 3. Woche 4. Text-Analyse implementieren (featQ) 4.-5. Woche 5. zwei einfache Metriken implementieren ( dist(FP, FQ) ) 6.-7. Woche 6. Evaluation: ■ entweder gegen Ground Truth? 8.-9. Woche ■ oder durch Rating/Voting? 7. weitere Metriken implementieren 8. Optimieren Rest 9. Produktdatenbank erweitern Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  103. 103. (2) Intelligente Produktempfehlungen Einstiegs- und Lesestoff:58 ■ Recommender Systems: http://en.wikipedia.org/wiki/Recommender_system ■ Empfehlungsdienst http://de.wikipedia.org/wiki/Empfehlungsdienst ■ Verkaufsführung http://de.wikipedia.org/wiki/Guided_Selling ■ Bharat Bhasker; K. Srikumar (2010). Recommender Systems in E-Commerce. CUP. ISBN 978-0-07-068067-8. ■ Francesco Ricci; Lior Rokach; Bracha Shapira; Paul B. Kantor, ed. (2011). Recommender Systems Handbook. ISBN 978-0-387-85819-7. ■ Bracha Shapira; Lior Rokach (June 2012). Building Effective Recommender Systems. ISBN 978-1-4419-0047-0. ■ Dietmar Jannach; Markus Zanker; Alexander Felfernig; Gerhard Friedrich (2010). Recommender Systems:An Introduction. CUP. ISBN 978-0-521-49336-9. ■ E. Peis; J. M. Morales-del-Castillo; J. A. Delgado-López. Semantic Recommender Systems. Analysis of the state of the topic: http://www.upf.edu/hipertextnet/en/numero-6/recomendacion.html ■ ACM Conference on Recommender Systems: http://www.recsys.acm.org/2012/ program.html ■ Goodrelations Paper: An ontology for describing products and services offers on the web; M. Hepp - Knowledge Engineering: Practice and Patterns, 2008 - Springer http:// www.heppnetz.de/projects/goodrelations/ ■ DBpedia: http://dbpedia.org/ , Freebase: http://freebase.org/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  104. 104. Semantic Media Mining59 1. Dozenten 2. Semantic Multimedia 3. Seminar Themen 4. Administratives Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  105. 105. Seminar Semantic Media Mining60 □ Semesterwochenstunden: 4 □ ECTS: 6 □ Leistungsfeststellung: □ Schriftliche Ausarbeitung zum Vortragsthema (Umfang ca. 20 Seiten) □ Musterausarbeitung in den Materialien zum Seminar □ Umsetzung einer vorgegebenen Implementierungsaufgabe im Team □ Präsentation der Ergebnisse (Zwischenpräsentation, Endpräsentation, Wochenbesprechungen) Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  106. 106. Seminar Semantic Media Mining61 □ Projektteams mit je 2-3 Studenten bearbeiten alle die selbe Aufgabenstellung (doodle Link s. Blog) bis 24.10. □ Termine □ 24.10.2012: Technologieeinführung □ ab dem 29.10.2012: Wöchentliche Seminargruppentreffen □ Termine nach Absprache □ ca. 19.12.2012: Zwischenpräsentation der Projektergebnisse □ ca. 6.2.2013: Abschlusspräsentation der Ergebnisse □ ca. 6.3.2013: Abgabe Ausarbeitung Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  107. 107. Seminar Semantic Multimedia62 Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12
  108. 108. Seminar Semantic Media Mining63 Literatur • P. Hitzler, S. Roschke, Y. Sure: Semantic Web Grundlagen, Springer, 2007. • Grundlegende Materialien via Seminar-Blog http://smm2013.blogspot.com/ Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität PotsdamFreitag, 19. Oktober 12

×