SlideShare ist ein Scribd-Unternehmen logo
Faktenextraktion aus Forschungspublikationen mittels
semantischer Technologien und Crowdsourcing
             Erste Ergebnisse aus dem Forschungsprojekt CODE –
             Commercially Empowered Linked Open Data Ecosystems for
             Research


             Michael Granitzer
             University of Passau




                                                      FP 7 Strep No. 296150
                                                                              1
nani gigantum humeris insidentes
   Wir stehen auf den Schultern von
    Giganten
    – Forschung basiert auf
       Erkenntnissen aus der
       Vergangenheit
    – Wurzel unserer Zivilisation




                                       2
Aber wir ertrinken in einer Flut von Dokumenten
   mit widersprüchlichen Fakten
   mit fehlenden Daten
   mit geringer Vergleichbarkeit
   Metastudien sind schwer durchzuführen
   Einige Beispiele
    – “Improvements that don‟t add up”
      Armstrong et. al. 2009

    – “Why most research results are false”
      Ioannidis, 2005




       Welche Lösungsmöglichkeiten stehen
                   im Raum?


                                                  3
Lösungsansatz in CODE
   Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen
    unter Anwendung semantischer Technologien
    – Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in
      semantische Form
    – Publikation dieser Forschungsdatenquellen als offene Daten
    – Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen
    – Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing)


   Fokus auf
    – Empirischen Beobachtungen
    – Linked Open Data als gemeinsame Beschreibungsprache
    – Informatik und Biomedizin als erster Anwendungsfall



                                                                                       4
Allgemeiner Workflow
Überblick

                                                                                                                                          Kollaboration &
        Extraktion   Integration/Aggregation           Analyse & Organisation
                                                                                                                                          Crowdsourcing




                                               Dependency and Frequency Analysis

                                                                                          Graph Depencies
                                                                                                                             Machine
                                                                                                Algorithm
                                                                                                                             Learning




                                                                                                                    CRF        SVM


                                                                                                Biomedical
                                                                                                                          Data Set 1




                                                 Gesamtergebnis"
                                                                                                  Algorithms"
                                                          (Leer)"
                                                           SVM"                                   Domain"
                                                       DataSet2"
                                                                                                  Experiment"
                                                       DataSet1"
                                                            CRF"                                  (Leer)"
                                                     Biomedical"                                  Gesamtergebnis"
                                                                    0"   5"   10"   15"   20"




                                                   Visual Analytics &
       Text,          Linked Science              Kollaborative Analyse                                                                   Crowdsourcing &
Linked (Open) Data   Data Warehouse;                                                                                                      Kollaboration über
    Experimente      Offene Standards                                                                                                     Web-Technologien
                                                                                                                                        und Datenmarktplätzen
                                                                                                                                                            5
Inhalte dieses Vortrags
   Extraktion von Fakten aus Forschungspublikationen
     – Strukturanalyse von PDFs
     – Automatische Annotation von PDFs

   Semantische Integration
     – Disambiguierung von extrahierter Entitäten/Fakten
     – Semantisches Format zur Repräsentation von Fakten
     – Web-basierte Zugriff mittels RDF/SPARQL

   (Visuelle) Analyse
     – Abfrage von Fakten
     – Visuelle Analyse

   Crowdsourcing & Teilen von Forschungsdaten
     – Überblick
                                                           6
EXTRAKTION VON FAKTEN AUS
FORSCHUNGSPUBLIKATIONEN




                            7
Extraktion von Fakten aus Publikationen
Überblick

   Extraktion struktureller Elemente
     – Tabellen, Abbildungen (Kapitel und Unterkapitel)
     – Extraktion von Fakten aus Tabellen


   Extraktion von Fakten aus Texten
     – Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels
       etc.)
     – Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)


   Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer
     – User in the Loop




                                                                                          8
Extraktion von Fakten aus Publikationen
Ein motivierendes Beispiel




                                   Dimensionen/Entitäten
                                   Messgröße
                                   Fakten




               Ranking Facts




                                                           9
Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion

   Hauptformat: PDF
     – Optimiert für die Darstellung, jedoch schwierig zu analysieren
     – Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten
     – Metadaten Qualität in PDFs unzuverlässig
     – Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.


   Ansatz – Divide and Conquer
     – Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information
     – Klassifikation der Blöcke
         • e.g. Title, Haupttext, Abstract, Referenzen
     – Klassifikation/Extraktion der Inhalte in Blöcken
         • Klassifikation von Strukturen (z.B. Tabellen)
         • Extraktion von Namen, Entitäten, Adressen etc.




                                                                                  10
Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion

   Extraktion struktureller Blöcke
     – Verwendung unterschiedlicher, Layout bezogener Merkmale
         • Zeichengröße, Zeichensatz, Position (absolut, relativ)

     – Anwendung verschiedener Clustering Algorithmen
         • Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei
           denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen
           minimal wird.
         • Cluster = Block
         • Fehler Backtracking über sukzessives zusammenfassen und teilen
     – Clustering Stack
         • Merge:            Zeichen  Wörter
         • Split:            Wort  Wörter (Fehlerbehandlung)
         • Merge:            Wörter  Zeilen
         • Split:            Zeile  Zeilen (Fehlerbehandlung
         • Merge:            Zeilen  Blöcken
         • Split:            Block  Blöcken (Fehlerbehandlung)

                                                                                             11
Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion

Klassifikation von Textblöcken

   Überwachte Lernverfahren: Maximum Entropy Klassifikatoren
     – Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu
       Blöcken
     – Lernen eines entsprechenden Modells und Anwendung auf nicht
       klassifizierte Blöcke
     – Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung,
       Heuristiken (e.g. e-Mail)


   Beispiele für Blöcke
     – Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten
     – Tabellen/Tabellenüberschriften
     – Abbildung/Abbildungsüberschriften



              R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine,
              vol. 18, no. 7/8, 2012.                                                                                                           12
Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion

   Extraktion von Entitäten innerhalb der Blöcke
     – Blocktyp als Selektionskriterium
       (e.g. Autorblock wird weiter zerlegt)
     – Named Entity Recongition mittels überwachter Lernverfahren
     – Maximum Entropy Klassifikatoren mit Beam Search
   Ermittlung der Lesereihenfolge der Blöcke
     – Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract
     – Interessant für Information Retrieval Anwendungen
   Offene Punkte
     – Relations- bzw. Prädikatextraktion
     – Open Information Extraction – Lernen von Modellen ohne Vorgabe von
       Trainingsdaten
     – Modellgenerierung durch den Benutzer/die Benutzerin
     – Benutzer Feedback
         • Explizit: Akzeptieren oder verwerfen v. Annotationen
         • Implizit: Analyse der Nutzung (z.B. für Navigation)
            R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no.
            7/8, 2012.                                                                                                                                     13
Extraktion von Fakten aus Publikationen
Online Demonstrator - http://knowminer.at:8080/code-demo




                                                           14
SEMANTISCHE INTEGRATION




                          15
Semantische Integration
Zielsetzung

   Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung
     – Mehrdeutigkeiten: Synonyme, Homonyme
         • Z.B. H1N1, Vogelgrippe, Grippe
     – Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen
     – Fehlendes gemeinsames Format

   Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien
     – Überführung extrahierter Fakten in ein einheitliches, offenes Format
         • Mit Fokus auf Tabellen
     – Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit
       vorhandenen Wissensbasen (in der LOD Cloud)
     – Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht
       hinreichend.



                                                                                         16
Semantische Integration
Was ist Linked Open Data?

   Das Web der Daten – Grundprinzipien
     1. URI„s zur Identifikation von Dingen
     2. HTTP als Lookup von Informationen zu Dingen
     3. Verwende maschinen-lesbare Formate zur
          Beschreibung von Dingen
         (i.e. RDF – Resource Description Framework)
     4. Die Beschreibung von Dingen enthält Links
         zu anderen Dingen
   Aktuelle mehrere Milliarden Tripel aus
    unterschiedlichen Domänen
     – Bibliographische Daten (e.g. DBLP, PubMed)
     – Biomedizinische Daten
        • Gene-Ontology, Drug-Bank, Diseases etc.
    – Allgemeinwissen - DBPedia
    – Öffentliche Daten (e.g. Census, EU Förderprogramme)

                                                            17
Semantische Integration
Linked Open Data
   Drei Funktionen im Projekt
    1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte
       mit Konzepten der LOD
    2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung
       statistischer Vokabularien
    3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren
       Anreicherung)


 Linked Data als weltweite Datenbank
 „virtuelle“ Forschungsumgebungen




                                                                                       18
Semantische Integration
Linked Open Data - Funktion 1: Disambiguierung
   Beispiel
                                                     http://dbpedia.org/page/F1_score




    http://dbpedia.org/page/Orthography




                                          Bedeutung durch eindeutige Benennung


                                                                                        19
Semantische Integration
Linked Open Data - Funktion 1: Disambiguierung
   Herausforderungen
     – Qualität abhängig von der Domäne und Größe der Wissensbasis
     – Abhängig vom Kontext
        • Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext
        • Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung
     – Qualität und Art der zugrunde liegenden Wissensbasis
        • Entitäts-zentriert: Thesaurus, Ontologie
        • Dokument-zentriert: Vorkommnisse in anderen Dokumenten
   Eigenschaften von Linked Data
     – Sehr große Wissensbasis (Milliarden von Einträgen)
     – Hohe Anzahl unterschiedlicher Domänen
     – Stark variierende Qualität
     – Offene, nicht-vollständige Wissensbasis


                                                                                    20
Semantische Integration
Linked Open Data - Funktion 2: Disambiguierung
   Ansatz und aktueller Status
     – Semi-automatische Annotation mittels maschineller Lernverfahren
        • Benutzer erhält Vorschläge zu Annotation
        • Akzeptiert/verwirft Vorschläge
        Adaption der Disambiguierung
    – Unterschiedliche Modelle pro Domäne
    – Automatische Konstruktion von Wissensbasen unter Verwendung
        • Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS)
        • Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten
   Erste Ergebnisse im Bereich Biomedizinischer Daten



                                                                Qualität der Wissensbasis
                                                                als größtes Problem


                                                                                              21
Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format




                                                      Dimensionen/Entitäten
                                                      Messgröße
                                                      Fakten


 Wie werden Fakten repräsentiert?
 - Eine Beobachtung besteht aus
    - Messgröße/abh. Variable: Beschreibung der Wirkung
    - Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache
    - Fakten: Messwert der Messung
  Überführung der statistischen Tabellen in ein „normalisiertes“ Format


                                                                              22
Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format

                                                                                                     Nominal        Nominal      [0;1]    [0;1]
                                                                                                                                                        Schema
                                                                                                     Method         Features     Cosine Jaccard         - Name
                                                                                                     ANDD-Raw       Unigram         0.956      0.952    - Einheit
                                                                   Normalisierung                    TFIDF          Unigram         0.884      0.874    - Ausprägung
                                                                                                     Binary         Unigram         0.861      0.852
                                                                                                     SpotSigs       Unigram         0.953      0.952
                                                                                                     ANDD-Raw       Trigram         0.936       0.91
                                                                                                                                                         Beobachtungen
                                                                                                     TFIDF          Trigram         0.875      0.873
                                                                                                     Binary         Trigram         0.869      0.867
                                                                                                     SpotSigs       Trigram         NA        NA
Zusätzliche Tabelle

                                                Hinzufügen v. Tabellen in gleiche Repräsentation



                                                                                                   Datensatz   Method          Features    Cosine Jaccard
                                                                                                   Quelle 1    ANDD-Raw        Unigram         0.956   0.952
                                                                                                   Quelle 1    TFIDF           Unigram         0.884   0.874
                                                                                                   Quelle 1    Binary          Unigram         0.861   0.852
                                                                                                   Quelle 1    SpotSigs        Unigram         0.953   0.952
                                                                                                   Quelle 1    ANDD-Raw        Trigram         0.936     0.91
                                                                                                   Quelle 1    TFIDF           Trigram         0.875   0.873
                                                                                                   Quelle 1    Binary          Trigram         0.869   0.867
                                                                                                   Quelle 1    SpotSigs        Trigram        NA      NA
                                                                                                   Quelle 2    ANDD-Raw        NA              0.674      0.7
                                                                                                   Quelle 2    TFIDF           NA              0.625   0.626
                                                                                                   Quelle 2    Binary          NA              0.622   0.622
           Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate
           detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR   Quelle 2    SpotSigs        NA              0.257   0.258
           conference on Research and development in information retrieval, 2010, pp. 419–
           426.
                                                                                                                                                                       23
Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format

   RDF Data Cube Vokabular
     – W3C Vorschlag zur Repräsentation statistischer Daten in RDF
     – Definition der Struktur
         • Dimensionen & Dimensions-
           hierarchien
         • Messgrößen
     – Angabe von Beobachtungen
   Vorteile von RDF
     – Verknüpfungen zu beliebigen RDF
       Endpoints möglich
     – Zusammenhänge zwischen
       Datensätzen erkennbar
     – Wiederverwendbarkeit des Formats
   Nachteile von RDF
     – Overhead bei Anfragen
     – Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses)

              http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType      24
Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format

   Beisipiel

    Datensatz Beschreibung

    code:mydataset a qb:DataSet;
      rdfs:isDefinedBy <http://www.dummy.de/>;
      rdfs:label “NER Vergleiche";
      qb:structure code:dsd_ner.

    Datensatz Struktur

    code:dsd_ner a qb:DataStructureDefinition;
              qb:component [        qb:dimension code:Methode];
              qb:component [        qb:measure code:Cosine;
                                    qb:conept <http://dbpedia.org/page/Cosine_similarity> ];
              qb:component [        qb:measure code:Jaccard ];
    Datenpunkte
                                                                                               Linked Data
    code:obs1 a qb:Observation;
              code:Methode [ rdfs:label “TFIDF" ];
              code:Cosine [ rdfs:label "0.625" ];
              code:Jaccard [ rdfs:label "0.622" ];
              qb:dataSet code:mydatase.


                                                                                                             25
Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format
   Semantisches Microformat zur
    Auszeichnung statistischer Tabellen
   API für den Upload von Excel und CSV
    Dateien
   Grafische Benutzeroberfläche zur
    Normalisierung von Tabellen
     – Selektion und Spezifikation von
       Dimensionen
     – Selektion und Spezifikation von
       Maßzahlen
     – Selektion und Spezifikation von
       Beobachtungen




                                                      26
Semantische Integration
Linked Open Data - Funktion 3: Forschungsdatenbank
   Integration vieler unterschiedlicher Datenquellen
    – Publikationen
    – Evaluierungs- und Experimentumgebungen
       • TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium)
       • TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)
   Bereitstellen eines SPARQL Endpoints für RDF Data Cubes
    – Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher
      Primärdaten




                                                                              Uni-Passau
                                                                              SPARQL
                                                                              Endpoint




                                                                                           27
(VISUELLE) ANALYSE




                     28
Visuelle Analyse
Suche nach Daten und Fakten (für nicht Informatiker)

   Herausforderung
     – RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL)
     – Keine Nutzungsmöglichkeit ohne Informatikstudium!
   Zielsetzung
     – „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes
        im Speziellen
     – Prototyp unter http://code.know-center.tugraz.at/search




                                                                                  29
Visuelle Analyse
Web basierte, interaktive Visualisierung von RDF Cubes

   Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach
    möglich sein
     – RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen
        Datencube
         • Verbindet Visualisierung und RDF Data Cubes
         • Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen
         • Interaktive Analyse (Visual Analytics)
     – HTML 5 als technologische Grundlage
   Erster Testprototyp unter http://code.know-center.tugraz.at/vis




                                                                                         30
KOLLABORATION &
CROWDSOURCING




                  31
Crowdsourcing
Teilen von Forschungsdaten

   Metadaten f. Provenance/Herkunft essentiell für Qualität und
    Vertrauen in die Daten
     – Woher kommen die Daten?
     – Von wem wurden die Daten integriert, annotiert, bearbeitet?

   Teilen aggregierter Datensätze und der Annotationsmodelle
     – Direkte Verwendung der Ergebnisse anderer Forscher-
        gruppen in der eigenen Arbeit
     – Verwendung von Annotationsmodellen auf eigenen Daten

   Teilen der visuellen Analyse
     – Kollaborative Analyse der Visualisierung
     – Zugriff auf den Visualisierung zugrunde liegenden
        Rohdaten


                                                                     32
Crowdsourcing
Warum sollten Nutzer annotieren, integrierern etc.?




Offener Marktplatzkonzept für Forschungsdaten
 Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open
   Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.
 Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant
 Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen


                                                                                    33
Zusammenfassung

        Extraktion   Integration/Aggregation           Analyse & Organisation                                                           Teilen & Crowdsourcing




                                               Dependency and Frequency Analysis

                                                                                          Graph Depencies
                                                                                                                             Machine
                                                                                                Algorithm
                                                                                                                             Learning




                                                                                                                    CRF        SVM


                                                                                                Biomedical
                                                                                                                          Data Set 1




                                                 Gesamtergebnis"
                                                                                                  Algorithms"
                                                          (Leer)"
                                                           SVM"                                   Domain"
                                                       DataSet2"
                                                                                                  Experiment"
                                                       DataSet1"
                                                            CRF"                                  (Leer)"
                                                     Biomedical"                                  Gesamtergebnis"
                                                                    0"   5"   10"   15"   20"




                                                   Visual Analytics &
       Text,          Linked Science              Kollaborative Analyse                                                                     Crowdsourcing &
Linked (Open) Data   Data Warehouse;                                                                                                            Re-Use
    Experimente      Offene Standards
                                                                                                                                                                 34
integrate    crowdsource




      extract &
                      organise
      visualise




 Find us, join us, ask us, help us
         http://code-research.eu/
http://www.facebook.com/CODEresearchEU
           #CODEresearchEU

Weitere ähnliche Inhalte

Andere mochten auch

Renacimiento
RenacimientoRenacimiento
Renacimiento
maria irles
 
Manual de Intermediacion de Conflictos
Manual de Intermediacion de ConflictosManual de Intermediacion de Conflictos
Manual de Intermediacion de Conflictos
Guillermo Rioja-Ballivian
 
Corre Caballito
Corre CaballitoCorre Caballito
Corre Caballito
clau on
 
Interpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre GraffitiInterpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre Graffiti
estelacardena
 
E Learning para Actualización Curricular
E Learning para Actualización CurricularE Learning para Actualización Curricular
E Learning para Actualización Curricular
Universidad Israel
 
Juegos
JuegosJuegos
Juegos
clau on
 
Water sports
Water sportsWater sports
Water sports
AleVrba
 
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En  EspañAPowepoint De Los Comienzos Del Movimiento Obrero En  EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
diversion
 
LO DICEN LOS SABIOS
LO DICEN LOS SABIOSLO DICEN LOS SABIOS
LO DICEN LOS SABIOS
Jorge Llosa
 
Me divorcié
Me divorcié Me divorcié
Me divorcié
Jorge Llosa
 
Presa snode1
Presa snode1Presa snode1
Presa snode1
doghomedeluxe
 
Antraege
AntraegeAntraege
4 b
4 b4 b
Cm el conte. mésrecursoseducatius
Cm   el conte. mésrecursoseducatiusCm   el conte. mésrecursoseducatius
Cm el conte. mésrecursoseducatius
silvia
 
LA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELOLA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELO
Jorge Llosa
 
Bernyanyi
BernyanyiBernyanyi
Bernyanyi
cindyrahmadani
 
Elektrische fische
Elektrische fischeElektrische fische
Elektrische fische
swoessner
 
Doc1
Doc1Doc1
Calidad humana
Calidad humanaCalidad humana
Calidad humana
Jorge Llosa
 

Andere mochten auch (19)

Renacimiento
RenacimientoRenacimiento
Renacimiento
 
Manual de Intermediacion de Conflictos
Manual de Intermediacion de ConflictosManual de Intermediacion de Conflictos
Manual de Intermediacion de Conflictos
 
Corre Caballito
Corre CaballitoCorre Caballito
Corre Caballito
 
Interpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre GraffitiInterpretaciones Teóricas Sobre Graffiti
Interpretaciones Teóricas Sobre Graffiti
 
E Learning para Actualización Curricular
E Learning para Actualización CurricularE Learning para Actualización Curricular
E Learning para Actualización Curricular
 
Juegos
JuegosJuegos
Juegos
 
Water sports
Water sportsWater sports
Water sports
 
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En  EspañAPowepoint De Los Comienzos Del Movimiento Obrero En  EspañA
Powepoint De Los Comienzos Del Movimiento Obrero En EspañA
 
LO DICEN LOS SABIOS
LO DICEN LOS SABIOSLO DICEN LOS SABIOS
LO DICEN LOS SABIOS
 
Me divorcié
Me divorcié Me divorcié
Me divorcié
 
Presa snode1
Presa snode1Presa snode1
Presa snode1
 
Antraege
AntraegeAntraege
Antraege
 
4 b
4 b4 b
4 b
 
Cm el conte. mésrecursoseducatius
Cm   el conte. mésrecursoseducatiusCm   el conte. mésrecursoseducatius
Cm el conte. mésrecursoseducatius
 
LA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELOLA TIERRA VISTA DESDE EL CIELO
LA TIERRA VISTA DESDE EL CIELO
 
Bernyanyi
BernyanyiBernyanyi
Bernyanyi
 
Elektrische fische
Elektrische fischeElektrische fische
Elektrische fische
 
Doc1
Doc1Doc1
Doc1
 
Calidad humana
Calidad humanaCalidad humana
Calidad humana
 

Ähnlich wie Mgrani trier-faktenextraktion

Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...
Jana Porsche
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
Martin Voigt
 
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Daniel Brügge
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
BARC GmbH
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big Data
AWS Germany
 
EyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenEyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. Analysieren
uxHH
 
Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -
Jens Schwartz-Freiberg
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Florian Stegmaier
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BARC GmbH
 
CRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining OptimierenCRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining Optimieren
Laurent Müllender
 
Überblick zum Industrial Data Space
Überblick zum Industrial Data SpaceÜberblick zum Industrial Data Space
Überblick zum Industrial Data Space
Boris Otto
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
CONOGY GmbH
 
Splunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit SplunkSplunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit Splunk
Splunk
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
Splunk
 
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
nwilbert
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 
Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashups
tischmid
 
Social Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungSocial Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle Herausforderung
Ralf Klamma
 
EOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche WolkeEOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche Wolke
Thomas Uhl
 

Ähnlich wie Mgrani trier-faktenextraktion (20)

Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...Institutional Repository for Research Data - Support for Science and Scientis...
Institutional Repository for Research Data - Support for Science and Scientis...
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
Konzeption und Implementierung eines Multi- Agentensystems zur Informationsge...
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big Data
 
EyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenEyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. Analysieren
 
Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -Die Loesung - Turbo iXtractor -
Die Loesung - Turbo iXtractor -
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
 
CRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining OptimierenCRO Prozesse mit Data Mining Optimieren
CRO Prozesse mit Data Mining Optimieren
 
Überblick zum Industrial Data Space
Überblick zum Industrial Data SpaceÜberblick zum Industrial Data Space
Überblick zum Industrial Data Space
 
Big Data - einfach erklärt!
Big Data - einfach erklärt!Big Data - einfach erklärt!
Big Data - einfach erklärt!
 
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
Webinarunterlagen: Datenvorbereitung für erfolgreiche Analysen mit SAP Predic...
 
Splunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit SplunkSplunk Webinar: Machine Learning mit Splunk
Splunk Webinar: Machine Learning mit Splunk
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
Python in Computational Neuroscience & Modular toolkit for Data Processing (MDP)
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Anwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise MashupsAnwendungsbeispiele von Enterprise Mashups
Anwendungsbeispiele von Enterprise Mashups
 
Social Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle HerausforderungSocial Media Analytics – Aktuelle Herausforderung
Social Media Analytics – Aktuelle Herausforderung
 
EOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche WolkeEOSD 2012: Deutsche Wolke
EOSD 2012: Deutsche Wolke
 

Mgrani trier-faktenextraktion

  • 1. Faktenextraktion aus Forschungspublikationen mittels semantischer Technologien und Crowdsourcing Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research Michael Granitzer University of Passau FP 7 Strep No. 296150 1
  • 2. nani gigantum humeris insidentes  Wir stehen auf den Schultern von Giganten – Forschung basiert auf Erkenntnissen aus der Vergangenheit – Wurzel unserer Zivilisation 2
  • 3. Aber wir ertrinken in einer Flut von Dokumenten  mit widersprüchlichen Fakten  mit fehlenden Daten  mit geringer Vergleichbarkeit  Metastudien sind schwer durchzuführen  Einige Beispiele – “Improvements that don‟t add up” Armstrong et. al. 2009 – “Why most research results are false” Ioannidis, 2005 Welche Lösungsmöglichkeiten stehen im Raum? 3
  • 4. Lösungsansatz in CODE  Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien – Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in semantische Form – Publikation dieser Forschungsdatenquellen als offene Daten – Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen – Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing)  Fokus auf – Empirischen Beobachtungen – Linked Open Data als gemeinsame Beschreibungsprache – Informatik und Biomedizin als erster Anwendungsfall 4
  • 5. Allgemeiner Workflow Überblick Kollaboration & Extraktion Integration/Aggregation Analyse & Organisation Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing & Linked (Open) Data Data Warehouse; Kollaboration über Experimente Offene Standards Web-Technologien und Datenmarktplätzen 5
  • 6. Inhalte dieses Vortrags  Extraktion von Fakten aus Forschungspublikationen – Strukturanalyse von PDFs – Automatische Annotation von PDFs  Semantische Integration – Disambiguierung von extrahierter Entitäten/Fakten – Semantisches Format zur Repräsentation von Fakten – Web-basierte Zugriff mittels RDF/SPARQL  (Visuelle) Analyse – Abfrage von Fakten – Visuelle Analyse  Crowdsourcing & Teilen von Forschungsdaten – Überblick 6
  • 7. EXTRAKTION VON FAKTEN AUS FORSCHUNGSPUBLIKATIONEN 7
  • 8. Extraktion von Fakten aus Publikationen Überblick  Extraktion struktureller Elemente – Tabellen, Abbildungen (Kapitel und Unterkapitel) – Extraktion von Fakten aus Tabellen  Extraktion von Fakten aus Texten – Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels etc.) – Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)  Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer – User in the Loop 8
  • 9. Extraktion von Fakten aus Publikationen Ein motivierendes Beispiel Dimensionen/Entitäten Messgröße Fakten Ranking Facts 9
  • 10. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion  Hauptformat: PDF – Optimiert für die Darstellung, jedoch schwierig zu analysieren – Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten – Metadaten Qualität in PDFs unzuverlässig – Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.  Ansatz – Divide and Conquer – Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information – Klassifikation der Blöcke • e.g. Title, Haupttext, Abstract, Referenzen – Klassifikation/Extraktion der Inhalte in Blöcken • Klassifikation von Strukturen (z.B. Tabellen) • Extraktion von Namen, Entitäten, Adressen etc. 10
  • 11. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion  Extraktion struktureller Blöcke – Verwendung unterschiedlicher, Layout bezogener Merkmale • Zeichengröße, Zeichensatz, Position (absolut, relativ) – Anwendung verschiedener Clustering Algorithmen • Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird. • Cluster = Block • Fehler Backtracking über sukzessives zusammenfassen und teilen – Clustering Stack • Merge: Zeichen  Wörter • Split: Wort  Wörter (Fehlerbehandlung) • Merge: Wörter  Zeilen • Split: Zeile  Zeilen (Fehlerbehandlung • Merge: Zeilen  Blöcken • Split: Block  Blöcken (Fehlerbehandlung) 11
  • 12. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion Klassifikation von Textblöcken  Überwachte Lernverfahren: Maximum Entropy Klassifikatoren – Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu Blöcken – Lernen eines entsprechenden Modells und Anwendung auf nicht klassifizierte Blöcke – Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung, Heuristiken (e.g. e-Mail)  Beispiele für Blöcke – Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten – Tabellen/Tabellenüberschriften – Abbildung/Abbildungsüberschriften R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 12
  • 13. Extraktion von Fakten aus Publikationen Ansatz zur Extraktion  Extraktion von Entitäten innerhalb der Blöcke – Blocktyp als Selektionskriterium (e.g. Autorblock wird weiter zerlegt) – Named Entity Recongition mittels überwachter Lernverfahren – Maximum Entropy Klassifikatoren mit Beam Search  Ermittlung der Lesereihenfolge der Blöcke – Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract – Interessant für Information Retrieval Anwendungen  Offene Punkte – Relations- bzw. Prädikatextraktion – Open Information Extraction – Lernen von Modellen ohne Vorgabe von Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin – Benutzer Feedback • Explizit: Akzeptieren oder verwerfen v. Annotationen • Implizit: Analyse der Nutzung (z.B. für Navigation) R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 13
  • 14. Extraktion von Fakten aus Publikationen Online Demonstrator - http://knowminer.at:8080/code-demo 14
  • 16. Semantische Integration Zielsetzung  Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung – Mehrdeutigkeiten: Synonyme, Homonyme • Z.B. H1N1, Vogelgrippe, Grippe – Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen – Fehlendes gemeinsames Format  Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien – Überführung extrahierter Fakten in ein einheitliches, offenes Format • Mit Fokus auf Tabellen – Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud) – Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend. 16
  • 17. Semantische Integration Was ist Linked Open Data?  Das Web der Daten – Grundprinzipien 1. URI„s zur Identifikation von Dingen 2. HTTP als Lookup von Informationen zu Dingen 3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen (i.e. RDF – Resource Description Framework) 4. Die Beschreibung von Dingen enthält Links zu anderen Dingen  Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen – Bibliographische Daten (e.g. DBLP, PubMed) – Biomedizinische Daten • Gene-Ontology, Drug-Bank, Diseases etc. – Allgemeinwissen - DBPedia – Öffentliche Daten (e.g. Census, EU Förderprogramme) 17
  • 18. Semantische Integration Linked Open Data  Drei Funktionen im Projekt 1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte mit Konzepten der LOD 2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien 3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung)  Linked Data als weltweite Datenbank  „virtuelle“ Forschungsumgebungen 18
  • 19. Semantische Integration Linked Open Data - Funktion 1: Disambiguierung  Beispiel http://dbpedia.org/page/F1_score http://dbpedia.org/page/Orthography Bedeutung durch eindeutige Benennung 19
  • 20. Semantische Integration Linked Open Data - Funktion 1: Disambiguierung  Herausforderungen – Qualität abhängig von der Domäne und Größe der Wissensbasis – Abhängig vom Kontext • Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext • Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung – Qualität und Art der zugrunde liegenden Wissensbasis • Entitäts-zentriert: Thesaurus, Ontologie • Dokument-zentriert: Vorkommnisse in anderen Dokumenten  Eigenschaften von Linked Data – Sehr große Wissensbasis (Milliarden von Einträgen) – Hohe Anzahl unterschiedlicher Domänen – Stark variierende Qualität – Offene, nicht-vollständige Wissensbasis 20
  • 21. Semantische Integration Linked Open Data - Funktion 2: Disambiguierung  Ansatz und aktueller Status – Semi-automatische Annotation mittels maschineller Lernverfahren • Benutzer erhält Vorschläge zu Annotation • Akzeptiert/verwirft Vorschläge Adaption der Disambiguierung – Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung • Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS) • Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten  Erste Ergebnisse im Bereich Biomedizinischer Daten Qualität der Wissensbasis als größtes Problem 21
  • 22. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format Dimensionen/Entitäten Messgröße Fakten Wie werden Fakten repräsentiert? - Eine Beobachtung besteht aus - Messgröße/abh. Variable: Beschreibung der Wirkung - Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache - Fakten: Messwert der Messung  Überführung der statistischen Tabellen in ein „normalisiertes“ Format 22
  • 23. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format Nominal Nominal [0;1] [0;1] Schema Method Features Cosine Jaccard - Name ANDD-Raw Unigram 0.956 0.952 - Einheit Normalisierung TFIDF Unigram 0.884 0.874 - Ausprägung Binary Unigram 0.861 0.852 SpotSigs Unigram 0.953 0.952 ANDD-Raw Trigram 0.936 0.91 Beobachtungen TFIDF Trigram 0.875 0.873 Binary Trigram 0.869 0.867 SpotSigs Trigram NA NA Zusätzliche Tabelle Hinzufügen v. Tabellen in gleiche Repräsentation Datensatz Method Features Cosine Jaccard Quelle 1 ANDD-Raw Unigram 0.956 0.952 Quelle 1 TFIDF Unigram 0.884 0.874 Quelle 1 Binary Unigram 0.861 0.852 Quelle 1 SpotSigs Unigram 0.953 0.952 Quelle 1 ANDD-Raw Trigram 0.936 0.91 Quelle 1 TFIDF Trigram 0.875 0.873 Quelle 1 Binary Trigram 0.869 0.867 Quelle 1 SpotSigs Trigram NA NA Quelle 2 ANDD-Raw NA 0.674 0.7 Quelle 2 TFIDF NA 0.625 0.626 Quelle 2 Binary NA 0.622 0.622 Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR Quelle 2 SpotSigs NA 0.257 0.258 conference on Research and development in information retrieval, 2010, pp. 419– 426. 23
  • 24. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format  RDF Data Cube Vokabular – W3C Vorschlag zur Repräsentation statistischer Daten in RDF – Definition der Struktur • Dimensionen & Dimensions- hierarchien • Messgrößen – Angabe von Beobachtungen  Vorteile von RDF – Verknüpfungen zu beliebigen RDF Endpoints möglich – Zusammenhänge zwischen Datensätzen erkennbar – Wiederverwendbarkeit des Formats  Nachteile von RDF – Overhead bei Anfragen – Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses) http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType 24
  • 25. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format  Beisipiel Datensatz Beschreibung code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner. Datensatz Struktur code:dsd_ner a qb:DataStructureDefinition; qb:component [ qb:dimension code:Methode]; qb:component [ qb:measure code:Cosine; qb:conept <http://dbpedia.org/page/Cosine_similarity> ]; qb:component [ qb:measure code:Jaccard ]; Datenpunkte Linked Data code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase. 25
  • 26. Semantische Integration Linked Open Data - Funktion 2: Einheitliches Format  Semantisches Microformat zur Auszeichnung statistischer Tabellen  API für den Upload von Excel und CSV Dateien  Grafische Benutzeroberfläche zur Normalisierung von Tabellen – Selektion und Spezifikation von Dimensionen – Selektion und Spezifikation von Maßzahlen – Selektion und Spezifikation von Beobachtungen 26
  • 27. Semantische Integration Linked Open Data - Funktion 3: Forschungsdatenbank  Integration vieler unterschiedlicher Datenquellen – Publikationen – Evaluierungs- und Experimentumgebungen • TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium) • TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)  Bereitstellen eines SPARQL Endpoints für RDF Data Cubes – Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher Primärdaten Uni-Passau SPARQL Endpoint 27
  • 29. Visuelle Analyse Suche nach Daten und Fakten (für nicht Informatiker)  Herausforderung – RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL) – Keine Nutzungsmöglichkeit ohne Informatikstudium!  Zielsetzung – „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes im Speziellen – Prototyp unter http://code.know-center.tugraz.at/search 29
  • 30. Visuelle Analyse Web basierte, interaktive Visualisierung von RDF Cubes  Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein – RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen Datencube • Verbindet Visualisierung und RDF Data Cubes • Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen • Interaktive Analyse (Visual Analytics) – HTML 5 als technologische Grundlage  Erster Testprototyp unter http://code.know-center.tugraz.at/vis 30
  • 32. Crowdsourcing Teilen von Forschungsdaten  Metadaten f. Provenance/Herkunft essentiell für Qualität und Vertrauen in die Daten – Woher kommen die Daten? – Von wem wurden die Daten integriert, annotiert, bearbeitet?  Teilen aggregierter Datensätze und der Annotationsmodelle – Direkte Verwendung der Ergebnisse anderer Forscher- gruppen in der eigenen Arbeit – Verwendung von Annotationsmodellen auf eigenen Daten  Teilen der visuellen Analyse – Kollaborative Analyse der Visualisierung – Zugriff auf den Visualisierung zugrunde liegenden Rohdaten 32
  • 33. Crowdsourcing Warum sollten Nutzer annotieren, integrierern etc.? Offener Marktplatzkonzept für Forschungsdaten  Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.  Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant  Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33
  • 34. Zusammenfassung Extraktion Integration/Aggregation Analyse & Organisation Teilen & Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing & Linked (Open) Data Data Warehouse; Re-Use Experimente Offene Standards 34
  • 35. integrate crowdsource extract & organise visualise Find us, join us, ask us, help us http://code-research.eu/ http://www.facebook.com/CODEresearchEU #CODEresearchEU