Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Faktenextraktion aus Forschungspublikationen mittelssemantischer Technologien und Crowdsourcing             Erste Ergebnis...
nani gigantum humeris insidentes   Wir stehen auf den Schultern von    Giganten    – Forschung basiert auf       Erkenntn...
Aber wir ertrinken in einer Flut von Dokumenten   mit widersprüchlichen Fakten   mit fehlenden Daten   mit geringer Ver...
Lösungsansatz in CODE   Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen    unter Anwendung semantisc...
Allgemeiner WorkflowÜberblick                                                                                             ...
Inhalte dieses Vortrags   Extraktion von Fakten aus Forschungspublikationen     – Strukturanalyse von PDFs     – Automati...
EXTRAKTION VON FAKTEN AUSFORSCHUNGSPUBLIKATIONEN                            7
Extraktion von Fakten aus PublikationenÜberblick   Extraktion struktureller Elemente     – Tabellen, Abbildungen (Kapitel...
Extraktion von Fakten aus PublikationenEin motivierendes Beispiel                                   Dimensionen/Entitäten ...
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion   Hauptformat: PDF     – Optimiert für die Darstellung, jedo...
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion   Extraktion struktureller Blöcke     – Verwendung unterschi...
Extraktion von Fakten aus PublikationenAnsatz zur ExtraktionKlassifikation von Textblöcken   Überwachte Lernverfahren: Ma...
Extraktion von Fakten aus PublikationenAnsatz zur Extraktion   Extraktion von Entitäten innerhalb der Blöcke     – Blockt...
Extraktion von Fakten aus PublikationenOnline Demonstrator - http://knowminer.at:8080/code-demo                           ...
SEMANTISCHE INTEGRATION                          15
Semantische IntegrationZielsetzung   Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung  ...
Semantische IntegrationWas ist Linked Open Data?   Das Web der Daten – Grundprinzipien     1. URI„s zur Identifikation vo...
Semantische IntegrationLinked Open Data   Drei Funktionen im Projekt    1. Integration und Disambiguierung durch Verknüpf...
Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung   Beispiel                                         ...
Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung   Herausforderungen     – Qualität abhängig von der...
Semantische IntegrationLinked Open Data - Funktion 2: Disambiguierung   Ansatz und aktueller Status     – Semi-automatisc...
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format                                                ...
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format                                                ...
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format   RDF Data Cube Vokabular     – W3C Vorschlag ...
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format   Beisipiel    Datensatz Beschreibung    code:...
Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format   Semantisches Microformat zur    Auszeichnung...
Semantische IntegrationLinked Open Data - Funktion 3: Forschungsdatenbank   Integration vieler unterschiedlicher Datenque...
(VISUELLE) ANALYSE                     28
Visuelle AnalyseSuche nach Daten und Fakten (für nicht Informatiker)   Herausforderung     – RDF Zugriff erfolgt meist üb...
Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes   Ziel: Visuelle Analyse integrierter Daten soll i...
KOLLABORATION &CROWDSOURCING                  31
CrowdsourcingTeilen von Forschungsdaten   Metadaten f. Provenance/Herkunft essentiell für Qualität und    Vertrauen in di...
CrowdsourcingWarum sollten Nutzer annotieren, integrierern etc.?Offener Marktplatzkonzept für Forschungsdaten Forschungsd...
Zusammenfassung        Extraktion   Integration/Aggregation           Analyse & Organisation                              ...
integrate    crowdsource      extract &                      organise      visualise Find us, join us, ask us, help us    ...
Nächste SlideShare
Wird geladen in …5
×

Mgrani trier-faktenextraktion

654 Aufrufe

Veröffentlicht am

  • Als Erste(r) kommentieren

Mgrani trier-faktenextraktion

  1. 1. Faktenextraktion aus Forschungspublikationen mittelssemantischer Technologien und Crowdsourcing Erste Ergebnisse aus dem Forschungsprojekt CODE – Commercially Empowered Linked Open Data Ecosystems for Research Michael Granitzer University of Passau FP 7 Strep No. 296150 1
  2. 2. nani gigantum humeris insidentes Wir stehen auf den Schultern von Giganten – Forschung basiert auf Erkenntnissen aus der Vergangenheit – Wurzel unserer Zivilisation 2
  3. 3. Aber wir ertrinken in einer Flut von Dokumenten mit widersprüchlichen Fakten mit fehlenden Daten mit geringer Vergleichbarkeit Metastudien sind schwer durchzuführen Einige Beispiele – “Improvements that don‟t add up” Armstrong et. al. 2009 – “Why most research results are false” Ioannidis, 2005 Welche Lösungsmöglichkeiten stehen im Raum? 3
  4. 4. Lösungsansatz in CODE Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen unter Anwendung semantischer Technologien – Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in semantische Form – Publikation dieser Forschungsdatenquellen als offene Daten – Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen – Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing) Fokus auf – Empirischen Beobachtungen – Linked Open Data als gemeinsame Beschreibungsprache – Informatik und Biomedizin als erster Anwendungsfall 4
  5. 5. Allgemeiner WorkflowÜberblick Kollaboration & Extraktion Integration/Aggregation Analyse & Organisation Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing &Linked (Open) Data Data Warehouse; Kollaboration über Experimente Offene Standards Web-Technologien und Datenmarktplätzen 5
  6. 6. Inhalte dieses Vortrags Extraktion von Fakten aus Forschungspublikationen – Strukturanalyse von PDFs – Automatische Annotation von PDFs Semantische Integration – Disambiguierung von extrahierter Entitäten/Fakten – Semantisches Format zur Repräsentation von Fakten – Web-basierte Zugriff mittels RDF/SPARQL (Visuelle) Analyse – Abfrage von Fakten – Visuelle Analyse Crowdsourcing & Teilen von Forschungsdaten – Überblick 6
  7. 7. EXTRAKTION VON FAKTEN AUSFORSCHUNGSPUBLIKATIONEN 7
  8. 8. Extraktion von Fakten aus PublikationenÜberblick Extraktion struktureller Elemente – Tabellen, Abbildungen (Kapitel und Unterkapitel) – Extraktion von Fakten aus Tabellen Extraktion von Fakten aus Texten – Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels etc.) – Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B) Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer – User in the Loop 8
  9. 9. Extraktion von Fakten aus PublikationenEin motivierendes Beispiel Dimensionen/Entitäten Messgröße Fakten Ranking Facts 9
  10. 10. Extraktion von Fakten aus PublikationenAnsatz zur Extraktion Hauptformat: PDF – Optimiert für die Darstellung, jedoch schwierig zu analysieren – Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten – Metadaten Qualität in PDFs unzuverlässig – Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht. Ansatz – Divide and Conquer – Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information – Klassifikation der Blöcke • e.g. Title, Haupttext, Abstract, Referenzen – Klassifikation/Extraktion der Inhalte in Blöcken • Klassifikation von Strukturen (z.B. Tabellen) • Extraktion von Namen, Entitäten, Adressen etc. 10
  11. 11. Extraktion von Fakten aus PublikationenAnsatz zur Extraktion Extraktion struktureller Blöcke – Verwendung unterschiedlicher, Layout bezogener Merkmale • Zeichengröße, Zeichensatz, Position (absolut, relativ) – Anwendung verschiedener Clustering Algorithmen • Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen minimal wird. • Cluster = Block • Fehler Backtracking über sukzessives zusammenfassen und teilen – Clustering Stack • Merge: Zeichen  Wörter • Split: Wort  Wörter (Fehlerbehandlung) • Merge: Wörter  Zeilen • Split: Zeile  Zeilen (Fehlerbehandlung • Merge: Zeilen  Blöcken • Split: Block  Blöcken (Fehlerbehandlung) 11
  12. 12. Extraktion von Fakten aus PublikationenAnsatz zur ExtraktionKlassifikation von Textblöcken Überwachte Lernverfahren: Maximum Entropy Klassifikatoren – Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu Blöcken – Lernen eines entsprechenden Modells und Anwendung auf nicht klassifizierte Blöcke – Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung, Heuristiken (e.g. e-Mail) Beispiele für Blöcke – Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten – Tabellen/Tabellenüberschriften – Abbildung/Abbildungsüberschriften R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 12
  13. 13. Extraktion von Fakten aus PublikationenAnsatz zur Extraktion Extraktion von Entitäten innerhalb der Blöcke – Blocktyp als Selektionskriterium (e.g. Autorblock wird weiter zerlegt) – Named Entity Recongition mittels überwachter Lernverfahren – Maximum Entropy Klassifikatoren mit Beam Search Ermittlung der Lesereihenfolge der Blöcke – Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract – Interessant für Information Retrieval Anwendungen Offene Punkte – Relations- bzw. Prädikatextraktion – Open Information Extraction – Lernen von Modellen ohne Vorgabe von Trainingsdaten – Modellgenerierung durch den Benutzer/die Benutzerin – Benutzer Feedback • Explizit: Akzeptieren oder verwerfen v. Annotationen • Implizit: Analyse der Nutzung (z.B. für Navigation) R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no. 7/8, 2012. 13
  14. 14. Extraktion von Fakten aus PublikationenOnline Demonstrator - http://knowminer.at:8080/code-demo 14
  15. 15. SEMANTISCHE INTEGRATION 15
  16. 16. Semantische IntegrationZielsetzung Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung – Mehrdeutigkeiten: Synonyme, Homonyme • Z.B. H1N1, Vogelgrippe, Grippe – Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen – Fehlendes gemeinsames Format Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien – Überführung extrahierter Fakten in ein einheitliches, offenes Format • Mit Fokus auf Tabellen – Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit vorhandenen Wissensbasen (in der LOD Cloud) – Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht hinreichend. 16
  17. 17. Semantische IntegrationWas ist Linked Open Data? Das Web der Daten – Grundprinzipien 1. URI„s zur Identifikation von Dingen 2. HTTP als Lookup von Informationen zu Dingen 3. Verwende maschinen-lesbare Formate zur Beschreibung von Dingen (i.e. RDF – Resource Description Framework) 4. Die Beschreibung von Dingen enthält Links zu anderen Dingen Aktuelle mehrere Milliarden Tripel aus unterschiedlichen Domänen – Bibliographische Daten (e.g. DBLP, PubMed) – Biomedizinische Daten • Gene-Ontology, Drug-Bank, Diseases etc. – Allgemeinwissen - DBPedia – Öffentliche Daten (e.g. Census, EU Förderprogramme) 17
  18. 18. Semantische IntegrationLinked Open Data Drei Funktionen im Projekt 1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte mit Konzepten der LOD 2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung statistischer Vokabularien 3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren Anreicherung) Linked Data als weltweite Datenbank „virtuelle“ Forschungsumgebungen 18
  19. 19. Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung Beispiel http://dbpedia.org/page/F1_score http://dbpedia.org/page/Orthography Bedeutung durch eindeutige Benennung 19
  20. 20. Semantische IntegrationLinked Open Data - Funktion 1: Disambiguierung Herausforderungen – Qualität abhängig von der Domäne und Größe der Wissensbasis – Abhängig vom Kontext • Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext • Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung – Qualität und Art der zugrunde liegenden Wissensbasis • Entitäts-zentriert: Thesaurus, Ontologie • Dokument-zentriert: Vorkommnisse in anderen Dokumenten Eigenschaften von Linked Data – Sehr große Wissensbasis (Milliarden von Einträgen) – Hohe Anzahl unterschiedlicher Domänen – Stark variierende Qualität – Offene, nicht-vollständige Wissensbasis 20
  21. 21. Semantische IntegrationLinked Open Data - Funktion 2: Disambiguierung Ansatz und aktueller Status – Semi-automatische Annotation mittels maschineller Lernverfahren • Benutzer erhält Vorschläge zu Annotation • Akzeptiert/verwirft Vorschläge Adaption der Disambiguierung – Unterschiedliche Modelle pro Domäne – Automatische Konstruktion von Wissensbasen unter Verwendung • Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS) • Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten Erste Ergebnisse im Bereich Biomedizinischer Daten Qualität der Wissensbasis als größtes Problem 21
  22. 22. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Dimensionen/Entitäten Messgröße Fakten Wie werden Fakten repräsentiert? - Eine Beobachtung besteht aus - Messgröße/abh. Variable: Beschreibung der Wirkung - Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache - Fakten: Messwert der Messung  Überführung der statistischen Tabellen in ein „normalisiertes“ Format 22
  23. 23. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Nominal Nominal [0;1] [0;1] Schema Method Features Cosine Jaccard - Name ANDD-Raw Unigram 0.956 0.952 - Einheit Normalisierung TFIDF Unigram 0.884 0.874 - Ausprägung Binary Unigram 0.861 0.852 SpotSigs Unigram 0.953 0.952 ANDD-Raw Trigram 0.936 0.91 Beobachtungen TFIDF Trigram 0.875 0.873 Binary Trigram 0.869 0.867 SpotSigs Trigram NA NAZusätzliche Tabelle Hinzufügen v. Tabellen in gleiche Repräsentation Datensatz Method Features Cosine Jaccard Quelle 1 ANDD-Raw Unigram 0.956 0.952 Quelle 1 TFIDF Unigram 0.884 0.874 Quelle 1 Binary Unigram 0.861 0.852 Quelle 1 SpotSigs Unigram 0.953 0.952 Quelle 1 ANDD-Raw Trigram 0.936 0.91 Quelle 1 TFIDF Trigram 0.875 0.873 Quelle 1 Binary Trigram 0.869 0.867 Quelle 1 SpotSigs Trigram NA NA Quelle 2 ANDD-Raw NA 0.674 0.7 Quelle 2 TFIDF NA 0.625 0.626 Quelle 2 Binary NA 0.622 0.622 Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR Quelle 2 SpotSigs NA 0.257 0.258 conference on Research and development in information retrieval, 2010, pp. 419– 426. 23
  24. 24. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format RDF Data Cube Vokabular – W3C Vorschlag zur Repräsentation statistischer Daten in RDF – Definition der Struktur • Dimensionen & Dimensions- hierarchien • Messgrößen – Angabe von Beobachtungen Vorteile von RDF – Verknüpfungen zu beliebigen RDF Endpoints möglich – Zusammenhänge zwischen Datensätzen erkennbar – Wiederverwendbarkeit des Formats Nachteile von RDF – Overhead bei Anfragen – Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses) http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType 24
  25. 25. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Beisipiel Datensatz Beschreibung code:mydataset a qb:DataSet; rdfs:isDefinedBy <http://www.dummy.de/>; rdfs:label “NER Vergleiche"; qb:structure code:dsd_ner. Datensatz Struktur code:dsd_ner a qb:DataStructureDefinition; qb:component [ qb:dimension code:Methode]; qb:component [ qb:measure code:Cosine; qb:conept <http://dbpedia.org/page/Cosine_similarity> ]; qb:component [ qb:measure code:Jaccard ]; Datenpunkte Linked Data code:obs1 a qb:Observation; code:Methode [ rdfs:label “TFIDF" ]; code:Cosine [ rdfs:label "0.625" ]; code:Jaccard [ rdfs:label "0.622" ]; qb:dataSet code:mydatase. 25
  26. 26. Semantische IntegrationLinked Open Data - Funktion 2: Einheitliches Format Semantisches Microformat zur Auszeichnung statistischer Tabellen API für den Upload von Excel und CSV Dateien Grafische Benutzeroberfläche zur Normalisierung von Tabellen – Selektion und Spezifikation von Dimensionen – Selektion und Spezifikation von Maßzahlen – Selektion und Spezifikation von Beobachtungen 26
  27. 27. Semantische IntegrationLinked Open Data - Funktion 3: Forschungsdatenbank Integration vieler unterschiedlicher Datenquellen – Publikationen – Evaluierungs- und Experimentumgebungen • TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium) • TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar) Bereitstellen eines SPARQL Endpoints für RDF Data Cubes – Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher Primärdaten Uni-Passau SPARQL Endpoint 27
  28. 28. (VISUELLE) ANALYSE 28
  29. 29. Visuelle AnalyseSuche nach Daten und Fakten (für nicht Informatiker) Herausforderung – RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL) – Keine Nutzungsmöglichkeit ohne Informatikstudium! Zielsetzung – „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes im Speziellen – Prototyp unter http://code.know-center.tugraz.at/search 29
  30. 30. Visuelle AnalyseWeb basierte, interaktive Visualisierung von RDF Cubes Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach möglich sein – RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen Datencube • Verbindet Visualisierung und RDF Data Cubes • Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen • Interaktive Analyse (Visual Analytics) – HTML 5 als technologische Grundlage Erster Testprototyp unter http://code.know-center.tugraz.at/vis 30
  31. 31. KOLLABORATION &CROWDSOURCING 31
  32. 32. CrowdsourcingTeilen von Forschungsdaten Metadaten f. Provenance/Herkunft essentiell für Qualität und Vertrauen in die Daten – Woher kommen die Daten? – Von wem wurden die Daten integriert, annotiert, bearbeitet? Teilen aggregierter Datensätze und der Annotationsmodelle – Direkte Verwendung der Ergebnisse anderer Forscher- gruppen in der eigenen Arbeit – Verwendung von Annotationsmodellen auf eigenen Daten Teilen der visuellen Analyse – Kollaborative Analyse der Visualisierung – Zugriff auf den Visualisierung zugrunde liegenden Rohdaten 32
  33. 33. CrowdsourcingWarum sollten Nutzer annotieren, integrierern etc.?Offener Marktplatzkonzept für Forschungsdaten Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open Source Model sollte diese entsprechenden Verwertungsrechten unterliegen. Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen 33
  34. 34. Zusammenfassung Extraktion Integration/Aggregation Analyse & Organisation Teilen & Crowdsourcing Dependency and Frequency Analysis Graph Depencies Machine Algorithm Learning CRF SVM Biomedical Data Set 1 Gesamtergebnis" Algorithms" (Leer)" SVM" Domain" DataSet2" Experiment" DataSet1" CRF" (Leer)" Biomedical" Gesamtergebnis" 0" 5" 10" 15" 20" Visual Analytics & Text, Linked Science Kollaborative Analyse Crowdsourcing &Linked (Open) Data Data Warehouse; Re-Use Experimente Offene Standards 34
  35. 35. integrate crowdsource extract & organise visualise Find us, join us, ask us, help us http://code-research.eu/http://www.facebook.com/CODEresearchEU #CODEresearchEU

×