LHA – Leipziger Gesundheitsatlas
Annotation Linking
Anika Groß, Ying-Chi Lin, Erhard Rahm
Institut für Informatik, Abteilu...
LHA – Leipziger Gesundheitsatlas
Ontologien
Kick-off Meeting, Leipzig, 04.04.2016 2
• Strukturierte Repräsentation von Wis...
LHA – Leipziger Gesundheitsatlas
Ontologiebasierte Annotationen
Kick-off Meeting, Leipzig, 04.04.2016 3
• Einheitliche, se...
LHA – Leipziger Gesundheitsatlas
Probleme und Ziele
Kick-off Meeting, Leipzig, 04.04.2016 4
• Bisher kaum Annotationen für...
LHA – Leipziger Gesundheitsatlas
Ziele AG 1.3
1) Annotationsverwaltung und Datenintegration
• Vereinheitlichung der Objekt...
LHA – Leipziger Gesundheitsatlas
Vorarbeiten – Ontology Matching
Kick-off Meeting, Leipzig, 04.04.2016 6
• GOMMA: GENERIC ...
LHA – Leipziger Gesundheitsatlas
Beispiel: Annotation von CRFs
Kick-off Meeting, Leipzig, 04.04.2016 7
• Case Report Forms...
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016 8
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In...
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Metathesaurus UMLS, NCI
Codes:
https://cdebrowser.n...
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Metathesaurus UMLS, NCI
NCI Common Data Elements
(C...
LHA – Leipziger Gesundheitsatlas
Patients who have had prior
recombinant erythropoietin
treatment whose anemia
had never r...
LHA – Leipziger Gesundheitsatlas
Vorarbeiten - Annotation Linking
Kick-off Meeting, Leipzig, 04.04.2016 13
• Workflow zur ...
LHA – Leipziger Gesundheitsatlas
Erweiterte Verfahren
Kick-off Meeting, Leipzig, 04.04.2016 14
• Wiederverwendung existier...
LHA – Leipziger Gesundheitsatlas
Zusammenfassung
• LHA-Forschungsdatenbank: Komponente zur
Annotationsverwaltung und Daten...
Nächste SlideShare
Wird geladen in …5
×

Annotation Linking

211 Aufrufe

Veröffentlicht am

Vortrag auf dem Kick-off Meeting "LHA - Der Leipziger Gesundheitsatlas"

Veröffentlicht in: Gesundheit & Medizin
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
211
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
10
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Annotation Linking

  1. 1. LHA – Leipziger Gesundheitsatlas Annotation Linking Anika Groß, Ying-Chi Lin, Erhard Rahm Institut für Informatik, Abteilung Datenbanken 1Kick-off Meeting, Leipzig, 04.04.2016
  2. 2. LHA – Leipziger Gesundheitsatlas Ontologien Kick-off Meeting, Leipzig, 04.04.2016 2 • Strukturierte Repräsentation von Wissen Konzepte, Beziehungen • Sehr große Ontologien Tissue Anatomic Structure, System, or Substance Organ … Anatomie Molekular- biologie ChemieMedizin Lung SkinKidney …
  3. 3. LHA – Leipziger Gesundheitsatlas Ontologiebasierte Annotationen Kick-off Meeting, Leipzig, 04.04.2016 3 • Einheitliche, semantische Beschreibung von Objekt- eigenschaften Gene, Proteine, … Publikationen Patientenakten Case Report Forms UMLS → Semantische Suche, Navigation … → Interoperabilität, quellübergreifende Analysen, ... • z.B. zwischen klinischen & Forschungsanwendungen → Identifikation von Common Data Elements (CDEs) • z.B. Design neuer Fragebögen (Wiederverwendung) …
  4. 4. LHA – Leipziger Gesundheitsatlas Probleme und Ziele Kick-off Meeting, Leipzig, 04.04.2016 4 • Bisher kaum Annotationen für z.B. Case Report Forms (CRFs), Analyseergebnisse, komplexe Phänotypen, … • Schwieriger und aufwendiger Annotationsprozess • Domänenspezifische Objekteigenschaften • Unstrukturierte Freitextangaben • Hohe Anzahl biomedizinischer Datensätze & sehr große Ontologien • Semantische Anreicherung der LHA-Daten durch Annotationen • Entwicklung (semi-)automatischer Annotation Linking Verfahren • Hohe Datenqualität: Verifikation und iterative Verbesserung • Effiziente Verlinkung: steigende Anzahl Quellen+Anwendungen im LHA
  5. 5. LHA – Leipziger Gesundheitsatlas Ziele AG 1.3 1) Annotationsverwaltung und Datenintegration • Vereinheitlichung der Objekte und Dokumente und Integration in die LHA-Forschungsdatenbank (mit AP 1.1) 2) Weiterentwicklung und Anwendung von Annotation Linking Verfahren für LHA-Daten • Verwendung von Metadaten + Wiederverwendung existierender Links • Nutzen der in BIO definierten ontologischen Grundlage (mit AP 1.2) • Realisierung effizienter, skalierbarer Annotationsverfahren (mit Big Data Zentrum ScaDS Dresden/Leipzig) 3) Qualitätsanalyse und Verifikation der Annotationen • Qualitätskriterien: Ranking von Annotationsvorschlägen • Qualitätsanalyse, Verifikation und iterative Verbesserung (mit AP 1.4 und AP 2) • Analyse der Effizienz der Linking Verfahren Kick-off Meeting, Leipzig, 04.04.2016 5
  6. 6. LHA – Leipziger Gesundheitsatlas Vorarbeiten – Ontology Matching Kick-off Meeting, Leipzig, 04.04.2016 6 • GOMMA: GENERIC ONTOLOGY MATCHING AND MAPPING MANAGEMENT • Umfangreiche Infrastruktur zur Verwaltung und Analyse der Evolution von Ontologien und Mappings Kirsten, Groß, Hartung, Rahm: GOMMA: A Component-based Infrastructure for managing and analyzing Life Science Ontologies and their Evolution. Journal of Biomedical Semantics, 2:6, 2011.
  7. 7. LHA – Leipziger Gesundheitsatlas Beispiel: Annotation von CRFs Kick-off Meeting, Leipzig, 04.04.2016 7 • Case Report Forms (CRFs): Fragebögen / Formulare zur Datenerhebung • Medizinische Historie von Patienten • Soziodemographie • Anthropometrie • Eignungskriterien für Patientenrekrutierung • … • Annotation mit Konzepten biomedizinischer Ontologien UMLSLIFE Investigation Ontology BIO
  8. 8. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 8
  9. 9. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 Seit wann leben Sie im Alten- oder Pflegeheim? … In welchem Land sind Sie geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land In welchem Land ist Ihre Mutter geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land 9
  10. 10. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 Metathesaurus UMLS, NCI Codes: https://cdebrowser.nci.nih.gov/CDEBrowser/ https://ncim.nci.nih.gov/ncimbrowser/ https://uts.nlm.nih.gov/metathesaurus.html Seit wann leben Sie im Alten- oder Pflegeheim? … In welchem Land sind Sie geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land In welchem Land ist Ihre Mutter geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land C0032040 Place of Birth Birth Place C3172580 Where was your biological mother born? Mother birthplace C0338046 Residential Home retirement home
  11. 11. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 Metathesaurus UMLS, NCI NCI Common Data Elements (CDEBrowser) Codes: https://cdebrowser.nci.nih.gov/CDEBrowser/ https://ncim.nci.nih.gov/ncimbrowser/ https://uts.nlm.nih.gov/metathesaurus.html Seit wann leben Sie im Alten- oder Pflegeheim? … In welchem Land sind Sie geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land In welchem Land ist Ihre Mutter geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land C0032040 Place of Birth Birth Place 2661044 Demographic Patient Birth Place Code Birth Place C3172580 Where was your biological mother born? Mother birthplace C0338046 Residential Home retirement home
  12. 12. LHA – Leipziger Gesundheitsatlas Patients who have had prior recombinant erythropoietin treatment whose anemia had never responded Patients who have had prior recombinant erythropoietin (1) treatment whose anemia (2) had never responded (3) Patients with established CRF as an indication for the treatment of anemia Herausforderungen Kick-off Meeting, Leipzig, 04.04.2016 12 • Fragen häufig in natürlicher Sprache formuliert • Identifikation relevanter Terme oder Termgruppen • Suche nach N:M Korrespondenzen • Fragen können mehrere biomedizinische Konzepte enthalten • Standardstrategien erzeugen 1:1 Mappings • Größe der Datenquellen • Viele Formulare • UMLS: >2.8 Millionen Konzepte • Teilweise verschiedene Sprachen (engl., dt.) 1 C0022661 Kidney Failure, Chronic 2 C0039798 therapeutic aspects 3 C0002871 Anemia 1 C0376541 Recombinant Erythropoietin 2 C0002871 Anemia 3 C0438286 Absent response to treatment Patients with established CRF (1) as an indication for the treatment (2) of anemia (3) yes no yes no
  13. 13. LHA – Leipziger Gesundheitsatlas Vorarbeiten - Annotation Linking Kick-off Meeting, Leipzig, 04.04.2016 13 • Workflow zur automatischen Annotation von medizinischen Formularen mit UMLS Christen, Groß, Varghese, Dugas, Rahm: Annotating Medical Forms using UMLS. Proc. 11th Intl. Conference on Data Integration in the Life Sciences (DILS), 2015. Keyword Identifikation (POS-Tagging), Tokenisierung, Semantisches Blocking Matching: TF/IDF, Trigram, LCS, Soft-TFIDF… Selektion: Threshold, Group-based filtering … Set of annotation mappings ℳ𝐹1,𝑈𝑀𝐿𝑆 … ℳ𝐹 𝑛,𝑈𝑀𝐿𝑆 Set of forms 𝐹1 . . 𝐹 𝑛 UMLS Preprocessing Annotation Generation Postprocessing
  14. 14. LHA – Leipziger Gesundheitsatlas Erweiterte Verfahren Kick-off Meeting, Leipzig, 04.04.2016 14 • Wiederverwendung existierender Annotationen • Erzeugung von Annotationsclustern • Gruppierung nach Konzepten & Identifikation von relevanten Features • Linking neuer CRFs nutzt Cluster • Semantik-basierte Selektion • Ausnutzung der semantischen Beziehungen zwischen Konzepten • Co-Okkurrenzen: häufig gemeinsame Annotation zu einer Frage • Ontologiehierarchie • Graphbasierte Verfahren zur Ähnlichkeitsberechnung Victor Christen: Annotation of Medical Documents. Talk at Australian National University, Canberra, March 2016.
  15. 15. LHA – Leipziger Gesundheitsatlas Zusammenfassung • LHA-Forschungsdatenbank: Komponente zur Annotationsverwaltung und Datenintegration • Weiterentwicklung und Anwendung von Annotation Linking Verfahren für LHA-Daten • CRFs, Analyseergebnisse, Phänotypen • LIFE Investigation Ontology, BIO, externe Ontologien • Definition von Qualitätskriterien • Verifikation der Annotationen und iterative Verbesserung der Verfahren und Ergebnisse 15Kick-off Meeting, Leipzig, 04.04.2016

×