Mgrani trier-faktenextraktion

Faktenextraktion aus Forschungspublikationen mittels
semantischer Technologien und Crowdsourcing
Erste Ergebnisse aus dem Forschungsprojekt CODE –
Commercially Empowered Linked Open Data Ecosystems for
Research

Michael Granitzer
University of Passau

FP 7 Strep No. 296150
1

nani gigantum humeris insidentes
 Wir stehen auf den Schultern von
Giganten
– Forschung basiert auf
Erkenntnissen aus der
Vergangenheit
– Wurzel unserer Zivilisation

2

Aber wir ertrinken in einer Flut von Dokumenten
 mit widersprüchlichen Fakten
 mit fehlenden Daten
 mit geringer Vergleichbarkeit
 Metastudien sind schwer durchzuführen
 Einige Beispiele
– “Improvements that don‟t add up”
Armstrong et. al. 2009

– “Why most research results are false”
Ioannidis, 2005

Welche Lösungsmöglichkeiten stehen
im Raum?

3

Lösungsansatz in CODE
 Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen
unter Anwendung semantischer Technologien
– Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in
semantische Form
– Publikation dieser Forschungsdatenquellen als offene Daten
– Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen
– Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing)

 Fokus auf
– Empirischen Beobachtungen
– Linked Open Data als gemeinsame Beschreibungsprache
– Informatik und Biomedizin als erster Anwendungsfall

4

Allgemeiner Workflow
Überblick

Kollaboration &
Extraktion Integration/Aggregation Analyse & Organisation
Crowdsourcing

Dependency and Frequency Analysis

Graph Depencies
Machine
Algorithm
Learning

CRF SVM

Biomedical
Data Set 1

Gesamtergebnis"
Algorithms"
(Leer)"
SVM" Domain"
DataSet2"
Experiment"
DataSet1"
CRF" (Leer)"
Biomedical" Gesamtergebnis"
0" 5" 10" 15" 20"

Visual Analytics &
Text, Linked Science Kollaborative Analyse Crowdsourcing &
Linked (Open) Data Data Warehouse; Kollaboration über
Experimente Offene Standards Web-Technologien
und Datenmarktplätzen
5

Inhalte dieses Vortrags
 Extraktion von Fakten aus Forschungspublikationen
– Strukturanalyse von PDFs
– Automatische Annotation von PDFs

 Semantische Integration
– Disambiguierung von extrahierter Entitäten/Fakten
– Semantisches Format zur Repräsentation von Fakten
– Web-basierte Zugriff mittels RDF/SPARQL

 (Visuelle) Analyse
– Abfrage von Fakten
– Visuelle Analyse

 Crowdsourcing & Teilen von Forschungsdaten
– Überblick
6

EXTRAKTION VON FAKTEN AUS
FORSCHUNGSPUBLIKATIONEN

7

Extraktion von Fakten aus Publikationen
Überblick

 Extraktion struktureller Elemente
– Tabellen, Abbildungen (Kapitel und Unterkapitel)
– Extraktion von Fakten aus Tabellen

 Extraktion von Fakten aus Texten
– Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels
etc.)
– Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)

 Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer
– User in the Loop

8

Ein motivierendes Beispiel

Dimensionen/Entitäten
Messgröße
Fakten

Ranking Facts

9

Ansatz zur Extraktion

 Hauptformat: PDF
– Optimiert für die Darstellung, jedoch schwierig zu analysieren
– Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten
– Metadaten Qualität in PDFs unzuverlässig
– Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.

 Ansatz – Divide and Conquer
– Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information
– Klassifikation der Blöcke
• e.g. Title, Haupttext, Abstract, Referenzen
– Klassifikation/Extraktion der Inhalte in Blöcken
• Klassifikation von Strukturen (z.B. Tabellen)
• Extraktion von Namen, Entitäten, Adressen etc.

10


 Extraktion struktureller Blöcke
– Verwendung unterschiedlicher, Layout bezogener Merkmale
• Zeichengröße, Zeichensatz, Position (absolut, relativ)

– Anwendung verschiedener Clustering Algorithmen
• Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei
denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen
minimal wird.
• Cluster = Block
• Fehler Backtracking über sukzessives zusammenfassen und teilen
– Clustering Stack
• Merge: Zeichen  Wörter
• Split: Wort  Wörter (Fehlerbehandlung)
• Merge: Wörter  Zeilen
• Split: Zeile  Zeilen (Fehlerbehandlung
• Merge: Zeilen  Blöcken
• Split: Block  Blöcken (Fehlerbehandlung)

11


Klassifikation von Textblöcken

 Überwachte Lernverfahren: Maximum Entropy Klassifikatoren
– Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu
Blöcken
– Lernen eines entsprechenden Modells und Anwendung auf nicht
klassifizierte Blöcke
– Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung,
Heuristiken (e.g. e-Mail)

 Beispiele für Blöcke
– Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten
– Tabellen/Tabellenüberschriften
– Abbildung/Abbildungsüberschriften

R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine,
vol. 18, no. 7/8, 2012. 12


 Extraktion von Entitäten innerhalb der Blöcke
– Blocktyp als Selektionskriterium
(e.g. Autorblock wird weiter zerlegt)
– Named Entity Recongition mittels überwachter Lernverfahren
– Maximum Entropy Klassifikatoren mit Beam Search
 Ermittlung der Lesereihenfolge der Blöcke
– Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract
– Interessant für Information Retrieval Anwendungen
 Offene Punkte
– Relations- bzw. Prädikatextraktion
– Open Information Extraction – Lernen von Modellen ohne Vorgabe von
Trainingsdaten
– Modellgenerierung durch den Benutzer/die Benutzerin
– Benutzer Feedback
• Explizit: Akzeptieren oder verwerfen v. Annotationen
• Implizit: Analyse der Nutzung (z.B. für Navigation)
R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no.
7/8, 2012. 13

Online Demonstrator - http://knowminer.at:8080/code-demo

14

SEMANTISCHE INTEGRATION

15

Semantische Integration
Zielsetzung

 Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung
– Mehrdeutigkeiten: Synonyme, Homonyme
• Z.B. H1N1, Vogelgrippe, Grippe
– Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen
– Fehlendes gemeinsames Format

 Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien
– Überführung extrahierter Fakten in ein einheitliches, offenes Format
• Mit Fokus auf Tabellen
– Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit
vorhandenen Wissensbasen (in der LOD Cloud)
– Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht
hinreichend.

16

Was ist Linked Open Data?

 Das Web der Daten – Grundprinzipien
1. URI„s zur Identifikation von Dingen
2. HTTP als Lookup von Informationen zu Dingen
3. Verwende maschinen-lesbare Formate zur
Beschreibung von Dingen
(i.e. RDF – Resource Description Framework)
4. Die Beschreibung von Dingen enthält Links
zu anderen Dingen
 Aktuelle mehrere Milliarden Tripel aus
unterschiedlichen Domänen
– Bibliographische Daten (e.g. DBLP, PubMed)
– Biomedizinische Daten
• Gene-Ontology, Drug-Bank, Diseases etc.
– Allgemeinwissen - DBPedia
– Öffentliche Daten (e.g. Census, EU Förderprogramme)

17

Linked Open Data
 Drei Funktionen im Projekt
1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte
mit Konzepten der LOD
2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung
statistischer Vokabularien
3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren
Anreicherung)

 Linked Data als weltweite Datenbank
 „virtuelle“ Forschungsumgebungen

18

Linked Open Data - Funktion 1: Disambiguierung
 Beispiel
http://dbpedia.org/page/F1_score

http://dbpedia.org/page/Orthography

Bedeutung durch eindeutige Benennung

19

 Herausforderungen
– Qualität abhängig von der Domäne und Größe der Wissensbasis
– Abhängig vom Kontext
• Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext
• Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung
– Qualität und Art der zugrunde liegenden Wissensbasis
• Entitäts-zentriert: Thesaurus, Ontologie
• Dokument-zentriert: Vorkommnisse in anderen Dokumenten
 Eigenschaften von Linked Data
– Sehr große Wissensbasis (Milliarden von Einträgen)
– Hohe Anzahl unterschiedlicher Domänen
– Stark variierende Qualität
– Offene, nicht-vollständige Wissensbasis

20

 Ansatz und aktueller Status
– Semi-automatische Annotation mittels maschineller Lernverfahren
• Benutzer erhält Vorschläge zu Annotation
• Akzeptiert/verwirft Vorschläge
Adaption der Disambiguierung
– Unterschiedliche Modelle pro Domäne
– Automatische Konstruktion von Wissensbasen unter Verwendung
• Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS)
• Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten
 Erste Ergebnisse im Bereich Biomedizinischer Daten

Qualität der Wissensbasis
als größtes Problem

21

Linked Open Data - Funktion 2: Einheitliches Format

Dimensionen/Entitäten
Messgröße
Fakten

Wie werden Fakten repräsentiert?
- Eine Beobachtung besteht aus
- Messgröße/abh. Variable: Beschreibung der Wirkung
- Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache
- Fakten: Messwert der Messung
 Überführung der statistischen Tabellen in ein „normalisiertes“ Format

22


Nominal Nominal [0;1] [0;1]
Schema
Method Features Cosine Jaccard - Name
ANDD-Raw Unigram 0.956 0.952 - Einheit
Normalisierung TFIDF Unigram 0.884 0.874 - Ausprägung
Binary Unigram 0.861 0.852
SpotSigs Unigram 0.953 0.952
ANDD-Raw Trigram 0.936 0.91
Beobachtungen
TFIDF Trigram 0.875 0.873
Binary Trigram 0.869 0.867
SpotSigs Trigram NA NA
Zusätzliche Tabelle

Hinzufügen v. Tabellen in gleiche Repräsentation

Datensatz Method Features Cosine Jaccard
Quelle 1 ANDD-Raw Unigram 0.956 0.952
Quelle 1 TFIDF Unigram 0.884 0.874
Quelle 1 Binary Unigram 0.861 0.852
Quelle 1 SpotSigs Unigram 0.953 0.952
Quelle 1 ANDD-Raw Trigram 0.936 0.91
Quelle 1 TFIDF Trigram 0.875 0.873
Quelle 1 Binary Trigram 0.869 0.867
Quelle 1 SpotSigs Trigram NA NA
Quelle 2 ANDD-Raw NA 0.674 0.7
Quelle 2 TFIDF NA 0.625 0.626
Quelle 2 Binary NA 0.622 0.622
Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate
detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR Quelle 2 SpotSigs NA 0.257 0.258
conference on Research and development in information retrieval, 2010, pp. 419–
426.
23


 RDF Data Cube Vokabular
– W3C Vorschlag zur Repräsentation statistischer Daten in RDF
– Definition der Struktur
• Dimensionen & Dimensions-
hierarchien
• Messgrößen
– Angabe von Beobachtungen
 Vorteile von RDF
– Verknüpfungen zu beliebigen RDF
Endpoints möglich
– Zusammenhänge zwischen
Datensätzen erkennbar
– Wiederverwendbarkeit des Formats
 Nachteile von RDF
– Overhead bei Anfragen
– Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses)

http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType 24


 Beisipiel

Datensatz Beschreibung

code:mydataset a qb:DataSet;
rdfs:isDefinedBy <http://www.dummy.de/>;
rdfs:label “NER Vergleiche";
qb:structure code:dsd_ner.

Datensatz Struktur

code:dsd_ner a qb:DataStructureDefinition;
qb:component [ qb:dimension code:Methode];
qb:component [ qb:measure code:Cosine;
qb:conept <http://dbpedia.org/page/Cosine_similarity> ];
qb:component [ qb:measure code:Jaccard ];
Datenpunkte
Linked Data
code:obs1 a qb:Observation;
code:Methode [ rdfs:label “TFIDF" ];
code:Cosine [ rdfs:label "0.625" ];
code:Jaccard [ rdfs:label "0.622" ];
qb:dataSet code:mydatase.

25

 Semantisches Microformat zur
Auszeichnung statistischer Tabellen
 API für den Upload von Excel und CSV
Dateien
 Grafische Benutzeroberfläche zur
Normalisierung von Tabellen
– Selektion und Spezifikation von
Dimensionen
Maßzahlen
Beobachtungen

26

Linked Open Data - Funktion 3: Forschungsdatenbank
 Integration vieler unterschiedlicher Datenquellen
– Publikationen
– Evaluierungs- und Experimentumgebungen
• TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium)
• TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)
 Bereitstellen eines SPARQL Endpoints für RDF Data Cubes
– Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher
Primärdaten

Uni-Passau
SPARQL
Endpoint

27

(VISUELLE) ANALYSE

28

Visuelle Analyse
Suche nach Daten und Fakten (für nicht Informatiker)

 Herausforderung
– RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL)
– Keine Nutzungsmöglichkeit ohne Informatikstudium!
 Zielsetzung
– „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes
im Speziellen
– Prototyp unter http://code.know-center.tugraz.at/search

29

Visuelle Analyse
Web basierte, interaktive Visualisierung von RDF Cubes

 Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach
möglich sein
– RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen
Datencube
• Verbindet Visualisierung und RDF Data Cubes
• Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen
• Interaktive Analyse (Visual Analytics)
– HTML 5 als technologische Grundlage
 Erster Testprototyp unter http://code.know-center.tugraz.at/vis

30

KOLLABORATION &
CROWDSOURCING

31

Crowdsourcing
Teilen von Forschungsdaten

 Metadaten f. Provenance/Herkunft essentiell für Qualität und
Vertrauen in die Daten
– Woher kommen die Daten?
– Von wem wurden die Daten integriert, annotiert, bearbeitet?

 Teilen aggregierter Datensätze und der Annotationsmodelle
– Direkte Verwendung der Ergebnisse anderer Forscher-
gruppen in der eigenen Arbeit
– Verwendung von Annotationsmodellen auf eigenen Daten

 Teilen der visuellen Analyse
– Kollaborative Analyse der Visualisierung
– Zugriff auf den Visualisierung zugrunde liegenden
Rohdaten

32

Crowdsourcing
Warum sollten Nutzer annotieren, integrierern etc.?

Offener Marktplatzkonzept für Forschungsdaten
 Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open
Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.
 Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant
 Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen

33

Zusammenfassung

Extraktion Integration/Aggregation Analyse & Organisation Teilen & Crowdsourcing

Dependency and Frequency Analysis

Graph Depencies
Machine
Algorithm
Learning

CRF SVM

Biomedical
Data Set 1

Gesamtergebnis"
Algorithms"
(Leer)"
SVM" Domain"
DataSet2"
Experiment"
DataSet1"
CRF" (Leer)"
Biomedical" Gesamtergebnis"
0" 5" 10" 15" 20"

Visual Analytics &
Text, Linked Science Kollaborative Analyse Crowdsourcing &
Linked (Open) Data Data Warehouse; Re-Use
Experimente Offene Standards
34

integrate crowdsource

extract &
organise
visualise

Find us, join us, ask us, help us
http://code-research.eu/
http://www.facebook.com/CODEresearchEU
#CODEresearchEU

Mgrani trier-faktenextraktion

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (19)

Ähnlich wie Mgrani trier-faktenextraktion

Ähnlich wie Mgrani trier-faktenextraktion (20)

Mgrani trier-faktenextraktion