Mgrani trier-faktenextraktion

503 Aufrufe

Veröffentlicht am

0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
503
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
37
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Mgrani trier-faktenextraktion

  1. 1. Faktenextraktion aus Forschungspublikationen mittelssemantischer Technologien und Crowdsourcing Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research Michael Granitzer University of Passau FP 7 Strep No. 296150 1
  2. 2. nani gigantum humeris insidentes Wir stehen auf den Schultern von Giganten – Forschung basiert auf Erkenntnissen aus der Vergangenheit – Wurzel unserer Zivilisation 2
  3. 3. Aber wir ertrinken in einer Flut von Dokumenten mit widersprüchlichen Fakten mit fehlenden Daten mit geringer Vergleichbarkeit Metastudien sind schwer durchzuführen Einige Beispiele – “Improvements that don‟t add up” Armstrong et. al. 2009 – “Why most research results are false” Ioannidis, 2005 Welche Lösungsmöglichkeiten stehen im Raum? 3
  4. 4. Lösungsansatz in CODE Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien – Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in semantische Form – Publikation dieser Forschungsdatenquellen als offene Daten – Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen – Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing) Fokus auf – Empirischen Beobachtungen – Linked Open Data als gemeinsame Beschreibungsprache – Informatik und Biomedizin als erster Anwendungsfall 4
  5. 5. Allgemeiner WorkflowÜberblick Kollaboration & Extraktion Integration/Aggregation Analyse & Organisation Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing &Linked (Open) Data Data Warehouse; Kollaboration über Experimente Offene Standards Web-Technologien und Datenmarktplätzen 5
  6. 6. Inhalte dieses Vortrags Extraktion von Fakten aus Forschungspublikationen – Strukturanalyse von PDFs – Automatische Annotation von PDFs Semantische Integration – Disambiguierung von extrahierter Entitäten/Fakten – Semantisches Format zur Repräsentation von Fakten – Web-basierte Zugriff mittels RDF/SPARQL (Visuelle) Analyse – Abfrage von Fakten – Visuelle Analyse Crowdsourcing & Teilen von Forschungsdaten – Überblick 6
  7. 7. EXTRAKTION VON FAKTEN AUSFORSCHUNGSPUBLIKATIONEN 7
  8. 8. Extraktion von Fakten aus PublikationenÜberblick Extraktion struktureller Elemente – Tabellen, Abbildungen (Kapitel und Unterkapitel) – Extraktion von Fakten aus Tabellen Extraktion von Fakten aus Texten – Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels etc.) – Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B) Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer – User in the Loop 8
  9. 9. Extraktion von Fakten aus PublikationenEin motivierendes Beispiel Dimensionen/Entitäten Messgröße Fakten Ranking Facts 9
  10. 10. Extraktion von Fakten aus PublikationenAnsatz zur Extraktion Hauptformat: PDF – Optimiert für die Darstellung, jedoch schwierig zu analysieren – Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten – Metadaten Qualität in PDFs unzuverlässig – Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht. Ansatz – Divide and Conquer – Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information – Klassifikation der Blöcke • e.g. Title, Haupttext, Abstract, Referenzen – Klassifikation/Extraktion der Inhalte in Blöcken • Klassifikation von Strukturen (z.B. Tabellen) • Extraktion von Namen, Entitäten, Adressen etc. 10
  11. 11. Extraktion von Fakten aus PublikationenAnsatz zur Extraktion Extraktion struktureller Blöcke – Verwendung unterschiedlicher, Layout bezogener Merkmale • Zeichengröße, Zeichensatz, Position (absolut, relativ) – Anwendung verschiedener Clustering Algorithmen • Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird. • Cluster = Block • Fehler Backtracking über sukzessives zusammenfassen und teilen – Clustering Stack • Merge: Zeichen  Wörter • Split: Wort  Wörter (Fehlerbehandlung) • Merge: Wörter  Zeilen • Split: Zeile  Zeilen (Fehlerbehandlung • Merge: Zeilen  Blöcken • Split: Block  Blöcken (Fehlerbehandlung) 11
  12. 12. Extraktion von Fakten aus PublikationenAnsatz zur ExtraktionKlassifikation von Textblöcken Überwachte Lernverfahren: Maximum Entropy Klassifikatoren – Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu Blöcken – Lernen eines entsprechenden Modells und Anwendung auf nicht klassifizierte Blöcke – Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung, Heuristiken (e.g. e-Mail) Beispiele für Blöcke – Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten – Tabellen/Tabellenüberschriften – Abbildung/Abbildungsüberschriften R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 12
  13. 13. Extraktion von Fakten aus PublikationenAnsatz zur Extraktion Extraktion von Entitäten innerhalb der Blöcke – Blocktyp als Selektionskriterium (e.g. Autorblock wird weiter zerlegt) – Named Entity Recongition mittels überwachter Lernverfahren – Maximum Entropy Klassifikatoren mit Beam Search Ermittlung der Lesereihenfolge der Blöcke – Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract – Interessant für Information Retrieval Anwendungen Offene Punkte – Relations- bzw. Prädikatextraktion – Open Information Extraction – Lernen von Modellen ohne Vorgabe von Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin – Benutzer Feedback • Explizit: Akzeptieren oder verwerfen v. Annotationen • Implizit: Analyse der Nutzung (z.B. für Navigation) R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 13
  14. 14. Extraktion von Fakten aus PublikationenOnline Demonstrator - http://knowminer.at:8080/code-demo 14
  15. 15. SEMANTISCHE INTEGRATION 15
  16. 16. Semantische IntegrationZielsetzung Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung – Mehrdeutigkeiten: Synonyme, Homonyme • Z.B. H1N1, Vogelgrippe, Grippe – Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen – Fehlendes gemeinsames Format Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien – Überführung extrahierter Fakten in ein einheitliches, offenes Format • Mit Fokus auf Tabellen – Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud) – Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend. 16
  17. 17. Semantische IntegrationWas ist Linked Open Data? Das Web der Daten – Grundprinzipien 1. URI„s zur Identifikation von Dingen 2. HTTP als Lookup von Informationen zu Dingen 3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen (i.e. RDF – Resource Description Framework) 4. Die Beschreibung von Dingen enthält Links zu anderen Dingen Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen – Bibliographische Daten (e.g. DBLP, PubMed) – Biomedizinische Daten • Gene-Ontology, Drug-Bank, Diseases etc. – Allgemeinwissen - DBPedia – Öffentliche Daten (e.g. Census, EU Förderprogramme) 17
  18. 18. Semantische IntegrationLinked Open Data Drei Funktionen im Projekt 1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte mit Konzepten der LOD 2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien 3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung) Linked Data als weltweite Datenbank „virtuelle“ Forschungsumgebungen 18
  19. 19. Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung Beispiel http://dbpedia.org/page/F1_score http://dbpedia.org/page/Orthography Bedeutung durch eindeutige Benennung 19
  20. 20. Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung Herausforderungen – Qualität abhängig von der Domäne und Größe der Wissensbasis – Abhängig vom Kontext • Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext • Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung – Qualität und Art der zugrunde liegenden Wissensbasis • Entitäts-zentriert: Thesaurus, Ontologie • Dokument-zentriert: Vorkommnisse in anderen Dokumenten Eigenschaften von Linked Data – Sehr große Wissensbasis (Milliarden von Einträgen) – Hohe Anzahl unterschiedlicher Domänen – Stark variierende Qualität – Offene, nicht-vollständige Wissensbasis 20
  21. 21. Semantische IntegrationLinked Open Data - Funktion 2: Disambiguierung Ansatz und aktueller Status – Semi-automatische Annotation mittels maschineller Lernverfahren • Benutzer erhält Vorschläge zu Annotation • Akzeptiert/verwirft Vorschläge Adaption der Disambiguierung – Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung • Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS) • Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten Erste Ergebnisse im Bereich Biomedizinischer Daten Qualität der Wissensbasis als größtes Problem 21
  22. 22. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Dimensionen/Entitäten Messgröße Fakten Wie werden Fakten repräsentiert? - Eine Beobachtung besteht aus - Messgröße/abh. Variable: Beschreibung der Wirkung - Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache - Fakten: Messwert der Messung  Überführung der statistischen Tabellen in ein „normalisiertes“ Format 22
  23. 23. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Nominal Nominal [0;1] [0;1] Schema Method Features Cosine Jaccard - Name ANDD-Raw Unigram 0.956 0.952 - Einheit Normalisierung TFIDF Unigram 0.884 0.874 - Ausprägung Binary Unigram 0.861 0.852 SpotSigs Unigram 0.953 0.952 ANDD-Raw Trigram 0.936 0.91 Beobachtungen TFIDF Trigram 0.875 0.873 Binary Trigram 0.869 0.867 SpotSigs Trigram NA NAZusätzliche Tabelle Hinzufügen v. Tabellen in gleiche Repräsentation Datensatz Method Features Cosine Jaccard Quelle 1 ANDD-Raw Unigram 0.956 0.952 Quelle 1 TFIDF Unigram 0.884 0.874 Quelle 1 Binary Unigram 0.861 0.852 Quelle 1 SpotSigs Unigram 0.953 0.952 Quelle 1 ANDD-Raw Trigram 0.936 0.91 Quelle 1 TFIDF Trigram 0.875 0.873 Quelle 1 Binary Trigram 0.869 0.867 Quelle 1 SpotSigs Trigram NA NA Quelle 2 ANDD-Raw NA 0.674 0.7 Quelle 2 TFIDF NA 0.625 0.626 Quelle 2 Binary NA 0.622 0.622 Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR Quelle 2 SpotSigs NA 0.257 0.258 conference on Research and development in information retrieval, 2010, pp. 419– 426. 23
  24. 24. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format RDF Data Cube Vokabular – W3C Vorschlag zur Repräsentation statistischer Daten in RDF – Definition der Struktur • Dimensionen & Dimensions- hierarchien • Messgrößen – Angabe von Beobachtungen Vorteile von RDF – Verknüpfungen zu beliebigen RDF Endpoints möglich – Zusammenhänge zwischen Datensätzen erkennbar – Wiederverwendbarkeit des Formats Nachteile von RDF – Overhead bei Anfragen – Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses) http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType 24
  25. 25. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Beisipiel Datensatz Beschreibung code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner. Datensatz Struktur code:dsd_ner a qb:DataStructureDefinition; qb:component [ qb:dimension code:Methode]; qb:component [ qb:measure code:Cosine; qb:conept <http://dbpedia.org/page/Cosine_similarity> ]; qb:component [ qb:measure code:Jaccard ]; Datenpunkte Linked Data code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase. 25
  26. 26. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Semantisches Microformat zur Auszeichnung statistischer Tabellen API für den Upload von Excel und CSV Dateien Grafische Benutzeroberfläche zur Normalisierung von Tabellen – Selektion und Spezifikation von Dimensionen – Selektion und Spezifikation von Maßzahlen – Selektion und Spezifikation von Beobachtungen 26
  27. 27. Semantische IntegrationLinked Open Data - Funktion 3: Forschungsdatenbank Integration vieler unterschiedlicher Datenquellen – Publikationen – Evaluierungs- und Experimentumgebungen • TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium) • TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar) Bereitstellen eines SPARQL Endpoints für RDF Data Cubes – Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher Primärdaten Uni-Passau SPARQL Endpoint 27
  28. 28. (VISUELLE) ANALYSE 28
  29. 29. Visuelle AnalyseSuche nach Daten und Fakten (für nicht Informatiker) Herausforderung – RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL) – Keine Nutzungsmöglichkeit ohne Informatikstudium! Zielsetzung – „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes im Speziellen – Prototyp unter http://code.know-center.tugraz.at/search 29
  30. 30. Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein – RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen Datencube • Verbindet Visualisierung und RDF Data Cubes • Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen • Interaktive Analyse (Visual Analytics) – HTML 5 als technologische Grundlage Erster Testprototyp unter http://code.know-center.tugraz.at/vis 30
  31. 31. KOLLABORATION &CROWDSOURCING 31
  32. 32. CrowdsourcingTeilen von Forschungsdaten Metadaten f. Provenance/Herkunft essentiell für Qualität und Vertrauen in die Daten – Woher kommen die Daten? – Von wem wurden die Daten integriert, annotiert, bearbeitet? Teilen aggregierter Datensätze und der Annotationsmodelle – Direkte Verwendung der Ergebnisse anderer Forscher- gruppen in der eigenen Arbeit – Verwendung von Annotationsmodellen auf eigenen Daten Teilen der visuellen Analyse – Kollaborative Analyse der Visualisierung – Zugriff auf den Visualisierung zugrunde liegenden Rohdaten 32
  33. 33. CrowdsourcingWarum sollten Nutzer annotieren, integrierern etc.?Offener Marktplatzkonzept für Forschungsdaten Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen. Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33
  34. 34. Zusammenfassung Extraktion Integration/Aggregation Analyse & Organisation Teilen & Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing &Linked (Open) Data Data Warehouse; Re-Use Experimente Offene Standards 34
  35. 35. integrate crowdsource extract & organise visualise Find us, join us, ask us, help us http://code-research.eu/http://www.facebook.com/CODEresearchEU #CODEresearchEU

×