SlideShare ist ein Scribd-Unternehmen logo

Mgrani trier-faktenextraktion

1 von 35
Downloaden Sie, um offline zu lesen
Faktenextraktion aus Forschungspublikationen mittels
semantischer Technologien und Crowdsourcing
             Erste Ergebnisse aus dem Forschungsprojekt CODE –
             Commercially Empowered Linked Open Data Ecosystems for
             Research


             Michael Granitzer
             University of Passau




                                                      FP 7 Strep No. 296150
                                                                              1
nani gigantum humeris insidentes
   Wir stehen auf den Schultern von
    Giganten
    – Forschung basiert auf
       Erkenntnissen aus der
       Vergangenheit
    – Wurzel unserer Zivilisation




                                       2
Aber wir ertrinken in einer Flut von Dokumenten
   mit widersprüchlichen Fakten
   mit fehlenden Daten
   mit geringer Vergleichbarkeit
   Metastudien sind schwer durchzuführen
   Einige Beispiele
    – “Improvements that don‟t add up”
      Armstrong et. al. 2009

    – “Why most research results are false”
      Ioannidis, 2005




       Welche Lösungsmöglichkeiten stehen
                   im Raum?


                                                  3
Lösungsansatz in CODE
   Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen
    unter Anwendung semantischer Technologien
    – Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in
      semantische Form
    – Publikation dieser Forschungsdatenquellen als offene Daten
    – Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen
    – Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing)


   Fokus auf
    – Empirischen Beobachtungen
    – Linked Open Data als gemeinsame Beschreibungsprache
    – Informatik und Biomedizin als erster Anwendungsfall



                                                                                       4
Allgemeiner Workflow
Überblick

                                                                                                                                          Kollaboration &
        Extraktion   Integration/Aggregation           Analyse & Organisation
                                                                                                                                          Crowdsourcing




                                               Dependency and Frequency Analysis

                                                                                          Graph Depencies
                                                                                                                             Machine
                                                                                                Algorithm
                                                                                                                             Learning




                                                                                                                    CRF        SVM


                                                                                                Biomedical
                                                                                                                          Data Set 1




                                                 Gesamtergebnis"
                                                                                                  Algorithms"
                                                          (Leer)"
                                                           SVM"                                   Domain"
                                                       DataSet2"
                                                                                                  Experiment"
                                                       DataSet1"
                                                            CRF"                                  (Leer)"
                                                     Biomedical"                                  Gesamtergebnis"
                                                                    0"   5"   10"   15"   20"




                                                   Visual Analytics &
       Text,          Linked Science              Kollaborative Analyse                                                                   Crowdsourcing &
Linked (Open) Data   Data Warehouse;                                                                                                      Kollaboration über
    Experimente      Offene Standards                                                                                                     Web-Technologien
                                                                                                                                        und Datenmarktplätzen
                                                                                                                                                            5
Inhalte dieses Vortrags
   Extraktion von Fakten aus Forschungspublikationen
     – Strukturanalyse von PDFs
     – Automatische Annotation von PDFs

   Semantische Integration
     – Disambiguierung von extrahierter Entitäten/Fakten
     – Semantisches Format zur Repräsentation von Fakten
     – Web-basierte Zugriff mittels RDF/SPARQL

   (Visuelle) Analyse
     – Abfrage von Fakten
     – Visuelle Analyse

   Crowdsourcing & Teilen von Forschungsdaten
     – Überblick
                                                           6
Anzeige

Recomendados

Der Wert von Daten in Zeiten von "Big Data"
Der Wert von Daten in Zeiten von "Big Data"Der Wert von Daten in Zeiten von "Big Data"
Der Wert von Daten in Zeiten von "Big Data"Thilo Stadelmann
 
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...
Wie die Swiss Alliance for Data-Intensive Services datenbasierte Mehrwerte sc...Thilo Stadelmann
 
ACLE Publicidad 2011
ACLE Publicidad 2011ACLE Publicidad 2011
ACLE Publicidad 2011BUAP
 
Tus Pertenencias
Tus PertenenciasTus Pertenencias
Tus PertenenciasJorge Llosa
 
BAHÍA VIETNAMITA
BAHÍA VIETNAMITABAHÍA VIETNAMITA
BAHÍA VIETNAMITAJorge Llosa
 
pitchfreunde Vol. 4 - Pitch-Deck: silva projekt
pitchfreunde Vol. 4 - Pitch-Deck: silva projektpitchfreunde Vol. 4 - Pitch-Deck: silva projekt
pitchfreunde Vol. 4 - Pitch-Deck: silva projektpitchfreunde
 
Sesion1c tecnicas venta
Sesion1c tecnicas ventaSesion1c tecnicas venta
Sesion1c tecnicas ventaLuis Alfaro
 

Más contenido relacionado

Destacado

Corre Caballito
Corre CaballitoCorre Caballito
Corre Caballitoclau on
 
Interpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre GraffitiInterpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre Graffitiestelacardena
 
E Learning para Actualización Curricular
E Learning para Actualización CurricularE Learning para Actualización Curricular
E Learning para Actualización CurricularUniversidad Israel
 
Water sports
Water sportsWater sports
Water sportsAleVrba
 
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En  EspañAPowepoint De Los Comienzos Del Movimiento Obrero En  EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En EspañAdiversion
 
LO DICEN LOS SABIOS
LO DICEN LOS SABIOSLO DICEN LOS SABIOS
LO DICEN LOS SABIOSJorge Llosa
 
Cm el conte. mésrecursoseducatius
Cm   el conte. mésrecursoseducatiusCm   el conte. mésrecursoseducatius
Cm el conte. mésrecursoseducatiussilvia
 
LA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELOLA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELOJorge Llosa
 
Elektrische fische
Elektrische fischeElektrische fische
Elektrische fischeswoessner
 

Destacado (19)

Renacimiento
RenacimientoRenacimiento
Renacimiento
 
Manual de Intermediacion de Conflictos
Manual de Intermediacion de ConflictosManual de Intermediacion de Conflictos
Manual de Intermediacion de Conflictos
 
Corre Caballito
Corre CaballitoCorre Caballito
Corre Caballito
 
Interpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre GraffitiInterpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre Graffiti
 
E Learning para Actualización Curricular
E Learning para Actualización CurricularE Learning para Actualización Curricular
E Learning para Actualización Curricular
 
Juegos
JuegosJuegos
Juegos
 
Water sports
Water sportsWater sports
Water sports
 
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En  EspañAPowepoint De Los Comienzos Del Movimiento Obrero En  EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
 
LO DICEN LOS SABIOS
LO DICEN LOS SABIOSLO DICEN LOS SABIOS
LO DICEN LOS SABIOS
 
Me divorcié
Me divorcié Me divorcié
Me divorcié
 
Presa snode1
Presa snode1Presa snode1
Presa snode1
 
Antraege
AntraegeAntraege
Antraege
 
4 b
4 b4 b
4 b
 
Cm el conte. mésrecursoseducatius
Cm   el conte. mésrecursoseducatiusCm   el conte. mésrecursoseducatius
Cm el conte. mésrecursoseducatius
 
LA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELOLA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELO
 
Bernyanyi
BernyanyiBernyanyi
Bernyanyi
 
Elektrische fische
Elektrische fischeElektrische fische
Elektrische fische
 
Doc1
Doc1Doc1
Doc1
 
Calidad humana
Calidad humanaCalidad humana
Calidad humana
 

Ähnlich wie Mgrani trier-faktenextraktion

Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...Jana Porsche
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...Daniel Brügge
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?BARC GmbH
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataAWS Germany
 
EyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenEyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenuxHH
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Florian Stegmaier
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBARC GmbH
 
CRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining OptimierenCRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining OptimierenLaurent Müllender
 
Überblick zum Industrial Data Space
Überblick zum Industrial Data SpaceÜberblick zum Industrial Data Space
Überblick zum Industrial Data SpaceBoris Otto
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...CONOGY GmbH
 
Splunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit SplunkSplunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit SplunkSplunk
 
Machine Learning
Machine LearningMachine Learning
Machine LearningSplunk
 
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)nwilbert
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashupstischmid
 
Social Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungSocial Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungRalf Klamma
 
EOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche WolkeEOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche WolkeThomas Uhl
 

Ähnlich wie Mgrani trier-faktenextraktion (20)

Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big Data
 
EyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenEyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. Analysieren
 
Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
 
CRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining OptimierenCRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining Optimieren
 
Überblick zum Industrial Data Space
Überblick zum Industrial Data SpaceÜberblick zum Industrial Data Space
Überblick zum Industrial Data Space
 
Big Data - einfach erklärt!
Big Data - einfach erklärt!Big Data - einfach erklärt!
Big Data - einfach erklärt!
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
 
Splunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit SplunkSplunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit Splunk
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashups
 
Social Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungSocial Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle Herausforderung
 
EOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche WolkeEOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche Wolke
 

Mgrani trier-faktenextraktion

  • 1. Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research Michael Granitzer University of Passau FP 7 Strep No. 296150 1
  • 2. nani gigantum humeris insidentes  Wir stehen auf den Schultern von Giganten – Forschung basiert auf Erkenntnissen aus der Vergangenheit – Wurzel unserer Zivilisation 2
  • 3. Aber wir ertrinken in einer Flut von Dokumenten  mit widersprüchlichen Fakten  mit fehlenden Daten  mit geringer Vergleichbarkeit  Metastudien sind schwer durchzuführen  Einige Beispiele – “Improvements that don‟t add up” Armstrong et. al. 2009 – “Why most research results are false” Ioannidis, 2005 Welche Lösungsmöglichkeiten stehen im Raum? 3
  • 4. Lösungsansatz in CODE  Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien – Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in semantische Form – Publikation dieser Forschungsdatenquellen als offene Daten – Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen – Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing)  Fokus auf – Empirischen Beobachtungen – Linked Open Data als gemeinsame Beschreibungsprache – Informatik und Biomedizin als erster Anwendungsfall 4
  • 5. Allgemeiner Workflow Überblick Kollaboration & Extraktion Integration/Aggregation Analyse & Organisation Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing & Linked (Open) Data Data Warehouse; Kollaboration über Experimente Offene Standards Web-Technologien und Datenmarktplätzen 5
  • 6. Inhalte dieses Vortrags  Extraktion von Fakten aus Forschungspublikationen – Strukturanalyse von PDFs – Automatische Annotation von PDFs  Semantische Integration – Disambiguierung von extrahierter Entitäten/Fakten – Semantisches Format zur Repräsentation von Fakten – Web-basierte Zugriff mittels RDF/SPARQL  (Visuelle) Analyse – Abfrage von Fakten – Visuelle Analyse  Crowdsourcing & Teilen von Forschungsdaten – Überblick 6
  • 7. EXTRAKTION VON FAKTEN AUS FORSCHUNGSPUBLIKATIONEN 7
  • 8. Extraktion von Fakten aus Publikationen Überblick  Extraktion struktureller Elemente – Tabellen, Abbildungen (Kapitel und Unterkapitel) – Extraktion von Fakten aus Tabellen  Extraktion von Fakten aus Texten – Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels etc.) – Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)  Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer – User in the Loop 8
  • 9. Extraktion von Fakten aus Publikationen Ein motivierendes Beispiel Dimensionen/Entitäten Messgröße Fakten Ranking Facts 9
  • 10. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion  Hauptformat: PDF – Optimiert für die Darstellung, jedoch schwierig zu analysieren – Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten – Metadaten Qualität in PDFs unzuverlässig – Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.  Ansatz – Divide and Conquer – Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information – Klassifikation der Blöcke • e.g. Title, Haupttext, Abstract, Referenzen – Klassifikation/Extraktion der Inhalte in Blöcken • Klassifikation von Strukturen (z.B. Tabellen) • Extraktion von Namen, Entitäten, Adressen etc. 10
  • 11. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion  Extraktion struktureller Blöcke – Verwendung unterschiedlicher, Layout bezogener Merkmale • Zeichengröße, Zeichensatz, Position (absolut, relativ) – Anwendung verschiedener Clustering Algorithmen • Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird. • Cluster = Block • Fehler Backtracking über sukzessives zusammenfassen und teilen – Clustering Stack • Merge: Zeichen  Wörter • Split: Wort  Wörter (Fehlerbehandlung) • Merge: Wörter  Zeilen • Split: Zeile  Zeilen (Fehlerbehandlung • Merge: Zeilen  Blöcken • Split: Block  Blöcken (Fehlerbehandlung) 11
  • 12. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion Klassifikation von Textblöcken  Überwachte Lernverfahren: Maximum Entropy Klassifikatoren – Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu Blöcken – Lernen eines entsprechenden Modells und Anwendung auf nicht klassifizierte Blöcke – Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung, Heuristiken (e.g. e-Mail)  Beispiele für Blöcke – Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten – Tabellen/Tabellenüberschriften – Abbildung/Abbildungsüberschriften R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 12
  • 13. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion  Extraktion von Entitäten innerhalb der Blöcke – Blocktyp als Selektionskriterium (e.g. Autorblock wird weiter zerlegt) – Named Entity Recongition mittels überwachter Lernverfahren – Maximum Entropy Klassifikatoren mit Beam Search  Ermittlung der Lesereihenfolge der Blöcke – Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract – Interessant für Information Retrieval Anwendungen  Offene Punkte – Relations- bzw. Prädikatextraktion – Open Information Extraction – Lernen von Modellen ohne Vorgabe von Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin – Benutzer Feedback • Explizit: Akzeptieren oder verwerfen v. Annotationen • Implizit: Analyse der Nutzung (z.B. für Navigation) R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 13
  • 14. Extraktion von Fakten aus Publikationen Online Demonstrator - http://knowminer.at:8080/code-demo 14
  • 16. Semantische Integration Zielsetzung  Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung – Mehrdeutigkeiten: Synonyme, Homonyme • Z.B. H1N1, Vogelgrippe, Grippe – Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen – Fehlendes gemeinsames Format  Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien – Überführung extrahierter Fakten in ein einheitliches, offenes Format • Mit Fokus auf Tabellen – Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud) – Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend. 16
  • 17. Semantische Integration Was ist Linked Open Data?  Das Web der Daten – Grundprinzipien 1. URI„s zur Identifikation von Dingen 2. HTTP als Lookup von Informationen zu Dingen 3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen (i.e. RDF – Resource Description Framework) 4. Die Beschreibung von Dingen enthält Links zu anderen Dingen  Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen – Bibliographische Daten (e.g. DBLP, PubMed) – Biomedizinische Daten • Gene-Ontology, Drug-Bank, Diseases etc. – Allgemeinwissen - DBPedia – Öffentliche Daten (e.g. Census, EU Förderprogramme) 17
  • 18. Semantische Integration Linked Open Data  Drei Funktionen im Projekt 1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte mit Konzepten der LOD 2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien 3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung)  Linked Data als weltweite Datenbank  „virtuelle“ Forschungsumgebungen 18
  • 19. Semantische Integration Linked Open Data - Funktion 1: Disambiguierung  Beispiel http://dbpedia.org/page/F1_score http://dbpedia.org/page/Orthography Bedeutung durch eindeutige Benennung 19
  • 20. Semantische Integration Linked Open Data - Funktion 1: Disambiguierung  Herausforderungen – Qualität abhängig von der Domäne und Größe der Wissensbasis – Abhängig vom Kontext • Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext • Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung – Qualität und Art der zugrunde liegenden Wissensbasis • Entitäts-zentriert: Thesaurus, Ontologie • Dokument-zentriert: Vorkommnisse in anderen Dokumenten  Eigenschaften von Linked Data – Sehr große Wissensbasis (Milliarden von Einträgen) – Hohe Anzahl unterschiedlicher Domänen – Stark variierende Qualität – Offene, nicht-vollständige Wissensbasis 20
  • 21. Semantische Integration Linked Open Data - Funktion 2: Disambiguierung  Ansatz und aktueller Status – Semi-automatische Annotation mittels maschineller Lernverfahren • Benutzer erhält Vorschläge zu Annotation • Akzeptiert/verwirft Vorschläge Adaption der Disambiguierung – Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung • Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS) • Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten  Erste Ergebnisse im Bereich Biomedizinischer Daten Qualität der Wissensbasis als größtes Problem 21
  • 22. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format Dimensionen/Entitäten Messgröße Fakten Wie werden Fakten repräsentiert? - Eine Beobachtung besteht aus - Messgröße/abh. Variable: Beschreibung der Wirkung - Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache - Fakten: Messwert der Messung  Überführung der statistischen Tabellen in ein „normalisiertes“ Format 22
  • 23. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format Nominal Nominal [0;1] [0;1] Schema Method Features Cosine Jaccard - Name ANDD-Raw Unigram 0.956 0.952 - Einheit Normalisierung TFIDF Unigram 0.884 0.874 - Ausprägung Binary Unigram 0.861 0.852 SpotSigs Unigram 0.953 0.952 ANDD-Raw Trigram 0.936 0.91 Beobachtungen TFIDF Trigram 0.875 0.873 Binary Trigram 0.869 0.867 SpotSigs Trigram NA NA Zusätzliche Tabelle Hinzufügen v. Tabellen in gleiche Repräsentation Datensatz Method Features Cosine Jaccard Quelle 1 ANDD-Raw Unigram 0.956 0.952 Quelle 1 TFIDF Unigram 0.884 0.874 Quelle 1 Binary Unigram 0.861 0.852 Quelle 1 SpotSigs Unigram 0.953 0.952 Quelle 1 ANDD-Raw Trigram 0.936 0.91 Quelle 1 TFIDF Trigram 0.875 0.873 Quelle 1 Binary Trigram 0.869 0.867 Quelle 1 SpotSigs Trigram NA NA Quelle 2 ANDD-Raw NA 0.674 0.7 Quelle 2 TFIDF NA 0.625 0.626 Quelle 2 Binary NA 0.622 0.622 Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR Quelle 2 SpotSigs NA 0.257 0.258 conference on Research and development in information retrieval, 2010, pp. 419– 426. 23
  • 24. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format  RDF Data Cube Vokabular – W3C Vorschlag zur Repräsentation statistischer Daten in RDF – Definition der Struktur • Dimensionen & Dimensions- hierarchien • Messgrößen – Angabe von Beobachtungen  Vorteile von RDF – Verknüpfungen zu beliebigen RDF Endpoints möglich – Zusammenhänge zwischen Datensätzen erkennbar – Wiederverwendbarkeit des Formats  Nachteile von RDF – Overhead bei Anfragen – Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses) http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType 24
  • 25. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format  Beisipiel Datensatz Beschreibung code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner. Datensatz Struktur code:dsd_ner a qb:DataStructureDefinition; qb:component [ qb:dimension code:Methode]; qb:component [ qb:measure code:Cosine; qb:conept <http://dbpedia.org/page/Cosine_similarity> ]; qb:component [ qb:measure code:Jaccard ]; Datenpunkte Linked Data code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase. 25
  • 26. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format  Semantisches Microformat zur Auszeichnung statistischer Tabellen  API für den Upload von Excel und CSV Dateien  Grafische Benutzeroberfläche zur Normalisierung von Tabellen – Selektion und Spezifikation von Dimensionen – Selektion und Spezifikation von Maßzahlen – Selektion und Spezifikation von Beobachtungen 26
  • 27. Semantische Integration Linked Open Data - Funktion 3: Forschungsdatenbank  Integration vieler unterschiedlicher Datenquellen – Publikationen – Evaluierungs- und Experimentumgebungen • TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium) • TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)  Bereitstellen eines SPARQL Endpoints für RDF Data Cubes – Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher Primärdaten Uni-Passau SPARQL Endpoint 27
  • 29. Visuelle Analyse Suche nach Daten und Fakten (für nicht Informatiker)  Herausforderung – RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL) – Keine Nutzungsmöglichkeit ohne Informatikstudium!  Zielsetzung – „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes im Speziellen – Prototyp unter http://code.know-center.tugraz.at/search 29
  • 30. Visuelle Analyse Web basierte, interaktive Visualisierung von RDF Cubes  Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein – RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen Datencube • Verbindet Visualisierung und RDF Data Cubes • Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen • Interaktive Analyse (Visual Analytics) – HTML 5 als technologische Grundlage  Erster Testprototyp unter http://code.know-center.tugraz.at/vis 30
  • 32. Crowdsourcing Teilen von Forschungsdaten  Metadaten f. Provenance/Herkunft essentiell für Qualität und Vertrauen in die Daten – Woher kommen die Daten? – Von wem wurden die Daten integriert, annotiert, bearbeitet?  Teilen aggregierter Datensätze und der Annotationsmodelle – Direkte Verwendung der Ergebnisse anderer Forscher- gruppen in der eigenen Arbeit – Verwendung von Annotationsmodellen auf eigenen Daten  Teilen der visuellen Analyse – Kollaborative Analyse der Visualisierung – Zugriff auf den Visualisierung zugrunde liegenden Rohdaten 32
  • 33. Crowdsourcing Warum sollten Nutzer annotieren, integrierern etc.? Offener Marktplatzkonzept für Forschungsdaten  Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.  Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant  Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33
  • 34. Zusammenfassung Extraktion Integration/Aggregation Analyse & Organisation Teilen & Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing & Linked (Open) Data Data Warehouse; Re-Use Experimente Offene Standards 34
  • 35. integrate crowdsource extract & organise visualise Find us, join us, ask us, help us http://code-research.eu/ http://www.facebook.com/CODEresearchEU #CODEresearchEU