SlideShare ist ein Scribd-Unternehmen logo
LHA – Leipziger Gesundheitsatlas
Annotation Linking
Anika Groß, Ying-Chi Lin, Erhard Rahm
Institut für Informatik, Abteilung Datenbanken
1Kick-off Meeting, Leipzig, 04.04.2016
LHA – Leipziger Gesundheitsatlas
Ontologien
Kick-off Meeting, Leipzig, 04.04.2016 2
• Strukturierte Repräsentation von Wissen
Konzepte, Beziehungen
• Sehr große Ontologien
Tissue
Anatomic Structure,
System, or Substance
Organ …
Anatomie Molekular-
biologie
ChemieMedizin
Lung SkinKidney …
LHA – Leipziger Gesundheitsatlas
Ontologiebasierte Annotationen
Kick-off Meeting, Leipzig, 04.04.2016 3
• Einheitliche, semantische
Beschreibung von Objekt-
eigenschaften
Gene, Proteine, … Publikationen Patientenakten Case Report Forms
UMLS
→ Semantische Suche, Navigation …
→ Interoperabilität, quellübergreifende Analysen, ...
• z.B. zwischen klinischen & Forschungsanwendungen
→ Identifikation von Common Data Elements (CDEs)
• z.B. Design neuer Fragebögen (Wiederverwendung)
…
LHA – Leipziger Gesundheitsatlas
Probleme und Ziele
Kick-off Meeting, Leipzig, 04.04.2016 4
• Bisher kaum Annotationen für z.B. Case Report Forms (CRFs),
Analyseergebnisse, komplexe Phänotypen, …
• Schwieriger und aufwendiger Annotationsprozess
• Domänenspezifische Objekteigenschaften
• Unstrukturierte Freitextangaben
• Hohe Anzahl biomedizinischer Datensätze & sehr große Ontologien
• Semantische Anreicherung der LHA-Daten durch Annotationen
• Entwicklung (semi-)automatischer Annotation Linking Verfahren
• Hohe Datenqualität: Verifikation und iterative Verbesserung
• Effiziente Verlinkung: steigende Anzahl Quellen+Anwendungen im LHA
LHA – Leipziger Gesundheitsatlas
Ziele AG 1.3
1) Annotationsverwaltung und Datenintegration
• Vereinheitlichung der Objekte und Dokumente und Integration
in die LHA-Forschungsdatenbank (mit AP 1.1)
2) Weiterentwicklung und Anwendung von Annotation
Linking Verfahren für LHA-Daten
• Verwendung von Metadaten + Wiederverwendung existierender Links
• Nutzen der in BIO definierten ontologischen Grundlage (mit AP 1.2)
• Realisierung effizienter, skalierbarer Annotationsverfahren
(mit Big Data Zentrum ScaDS Dresden/Leipzig)
3) Qualitätsanalyse und Verifikation der Annotationen
• Qualitätskriterien: Ranking von Annotationsvorschlägen
• Qualitätsanalyse, Verifikation und iterative Verbesserung (mit AP 1.4 und AP 2)
• Analyse der Effizienz der Linking Verfahren
Kick-off Meeting, Leipzig, 04.04.2016 5
LHA – Leipziger Gesundheitsatlas
Vorarbeiten – Ontology Matching
Kick-off Meeting, Leipzig, 04.04.2016 6
• GOMMA: GENERIC ONTOLOGY MATCHING AND MAPPING MANAGEMENT
• Umfangreiche Infrastruktur zur Verwaltung und Analyse der
Evolution von Ontologien und Mappings
Kirsten, Groß, Hartung, Rahm: GOMMA: A Component-based Infrastructure for managing and
analyzing Life Science Ontologies and their Evolution. Journal of Biomedical Semantics, 2:6, 2011.
LHA – Leipziger Gesundheitsatlas
Beispiel: Annotation von CRFs
Kick-off Meeting, Leipzig, 04.04.2016 7
• Case Report Forms (CRFs): Fragebögen / Formulare
zur Datenerhebung
• Medizinische Historie von Patienten
• Soziodemographie
• Anthropometrie
• Eignungskriterien für Patientenrekrutierung
• …
• Annotation mit Konzepten biomedizinischer Ontologien
UMLSLIFE Investigation
Ontology
BIO
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016 8
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In welchem Land sind Sie geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
In welchem Land ist Ihre Mutter geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
9
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Metathesaurus UMLS, NCI
Codes:
https://cdebrowser.nci.nih.gov/CDEBrowser/
https://ncim.nci.nih.gov/ncimbrowser/
https://uts.nlm.nih.gov/metathesaurus.html
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In welchem Land sind Sie geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
In welchem Land ist Ihre Mutter geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
C0032040
Place of Birth
Birth Place
C3172580
Where was your biological mother born?
Mother birthplace
C0338046
Residential Home
retirement home
LHA – Leipziger Gesundheitsatlas
Kick-off Meeting, Leipzig, 04.04.2016
Metathesaurus UMLS, NCI
NCI Common Data Elements
(CDEBrowser)
Codes:
https://cdebrowser.nci.nih.gov/CDEBrowser/
https://ncim.nci.nih.gov/ncimbrowser/
https://uts.nlm.nih.gov/metathesaurus.html
Seit wann leben Sie im Alten- oder Pflegeheim?
…
In welchem Land sind Sie geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
In welchem Land ist Ihre Mutter geboren?
In Deutschland
Weiß nicht
Antwortverweigerung
In einem anderen Land
C0032040
Place of Birth
Birth Place
2661044
Demographic Patient Birth Place Code
Birth Place
C3172580
Where was your biological mother born?
Mother birthplace
C0338046
Residential Home
retirement home
LHA – Leipziger Gesundheitsatlas
Patients who have had prior
recombinant erythropoietin
treatment whose anemia
had never responded
Patients who have had prior
recombinant erythropoietin (1)
treatment whose anemia (2)
had never responded (3)
Patients with established CRF
as an indication for the
treatment of anemia
Herausforderungen
Kick-off Meeting, Leipzig, 04.04.2016 12
• Fragen häufig in natürlicher
Sprache formuliert
• Identifikation relevanter Terme
oder Termgruppen
• Suche nach N:M Korrespondenzen
• Fragen können mehrere
biomedizinische Konzepte enthalten
• Standardstrategien erzeugen
1:1 Mappings
• Größe der Datenquellen
• Viele Formulare
• UMLS: >2.8 Millionen Konzepte
• Teilweise verschiedene
Sprachen (engl., dt.)
1 C0022661 Kidney Failure, Chronic
2 C0039798 therapeutic aspects
3 C0002871 Anemia
1 C0376541 Recombinant Erythropoietin
2 C0002871 Anemia
3 C0438286 Absent response to treatment
Patients with established CRF (1)
as an indication for the
treatment (2) of anemia (3)
yes no
yes no
LHA – Leipziger Gesundheitsatlas
Vorarbeiten - Annotation Linking
Kick-off Meeting, Leipzig, 04.04.2016 13
• Workflow zur automatischen Annotation von
medizinischen Formularen mit UMLS
Christen, Groß, Varghese, Dugas, Rahm: Annotating Medical Forms using UMLS. Proc. 11th Intl.
Conference on Data Integration in the Life Sciences (DILS), 2015.
Keyword
Identifikation
(POS-Tagging),
Tokenisierung,
Semantisches
Blocking
Matching:
TF/IDF,
Trigram, LCS,
Soft-TFIDF…
Selektion:
Threshold,
Group-based
filtering
…
Set of
annotation
mappings
ℳ𝐹1,𝑈𝑀𝐿𝑆
…
ℳ𝐹 𝑛,𝑈𝑀𝐿𝑆
Set of
forms
𝐹1 . . 𝐹 𝑛
UMLS
Preprocessing Annotation
Generation
Postprocessing
LHA – Leipziger Gesundheitsatlas
Erweiterte Verfahren
Kick-off Meeting, Leipzig, 04.04.2016 14
• Wiederverwendung existierender Annotationen
• Erzeugung von Annotationsclustern
• Gruppierung nach Konzepten &
Identifikation von relevanten Features
• Linking neuer CRFs nutzt Cluster
• Semantik-basierte Selektion
• Ausnutzung der semantischen
Beziehungen zwischen Konzepten
• Co-Okkurrenzen: häufig gemeinsame
Annotation zu einer Frage
• Ontologiehierarchie
• Graphbasierte Verfahren zur
Ähnlichkeitsberechnung
Victor Christen: Annotation of Medical Documents. Talk at Australian National
University, Canberra, March 2016.
LHA – Leipziger Gesundheitsatlas
Zusammenfassung
• LHA-Forschungsdatenbank: Komponente zur
Annotationsverwaltung und Datenintegration
• Weiterentwicklung und Anwendung von Annotation
Linking Verfahren für LHA-Daten
• CRFs, Analyseergebnisse, Phänotypen
• LIFE Investigation Ontology, BIO, externe Ontologien
• Definition von Qualitätskriterien
• Verifikation der Annotationen und iterative
Verbesserung der Verfahren und Ergebnisse
15Kick-off Meeting, Leipzig, 04.04.2016

Weitere ähnliche Inhalte

Andere mochten auch

Expression of recombinant proteins in mammalian cell lines
Expression of recombinant proteins in mammalian cell linesExpression of recombinant proteins in mammalian cell lines
Expression of recombinant proteins in mammalian cell lines
Sandeep Kumar
 
Industrial production of recombinant therapeutics
Industrial production of recombinant therapeuticsIndustrial production of recombinant therapeutics
Industrial production of recombinant therapeutics
Dr. Geetanjali Baruah
 
05 Lecture Ppt
05 Lecture Ppt05 Lecture Ppt
05 Lecture Ppt
Wesley McCammon
 
Cloning and expression vectors
Cloning and expression vectorsCloning and expression vectors
Cloning and expression vectors
Promila Sheoran
 
03 Lecture Ppt
03 Lecture Ppt03 Lecture Ppt
03 Lecture Ppt
Wesley McCammon
 
10 Lecture Ppt
10 Lecture Ppt10 Lecture Ppt
10 Lecture Ppt
Wesley McCammon
 
04 Lecture Ppt
04 Lecture Ppt04 Lecture Ppt
04 Lecture Ppt
Wesley McCammon
 
Recombinant protein expression in E.coli
Recombinant protein expression in E.coliRecombinant protein expression in E.coli
Recombinant protein expression in E.coli
ajithnandanam
 
Industrial production of recombinant human insulin
Industrial production of recombinant human insulinIndustrial production of recombinant human insulin
Industrial production of recombinant human insulin
Farzana Sultana
 
07 Lecture Ppt
07 Lecture Ppt07 Lecture Ppt
07 Lecture Ppt
Wesley McCammon
 
Recombinant therapeutic proteins
Recombinant therapeutic proteinsRecombinant therapeutic proteins
Recombinant therapeutic proteins
Beenish Choudhary
 
Recombinant Proteins
Recombinant ProteinsRecombinant Proteins
Recombinant Proteins
Amith Reddy
 
Role of enzymes in dairy industries
Role of enzymes in dairy industriesRole of enzymes in dairy industries
Role of enzymes in dairy industries
babasahebkumbhar
 
Strain Improvement
Strain ImprovementStrain Improvement
Strain Improvement
Rachana Tiwari
 
App of enzymes in dairy industry
App of enzymes in dairy industryApp of enzymes in dairy industry
App of enzymes in dairy industry
Archa Dave
 
Expression vectors
Expression vectorsExpression vectors
Expression vectors
Urmila N Pai
 
Expression vectors
Expression vectorsExpression vectors
Expression vectors
madhu_mahajan
 
Recombinant protein
Recombinant proteinRecombinant protein
Recombinant protein
Pranitha Prani
 

Andere mochten auch (18)

Expression of recombinant proteins in mammalian cell lines
Expression of recombinant proteins in mammalian cell linesExpression of recombinant proteins in mammalian cell lines
Expression of recombinant proteins in mammalian cell lines
 
Industrial production of recombinant therapeutics
Industrial production of recombinant therapeuticsIndustrial production of recombinant therapeutics
Industrial production of recombinant therapeutics
 
05 Lecture Ppt
05 Lecture Ppt05 Lecture Ppt
05 Lecture Ppt
 
Cloning and expression vectors
Cloning and expression vectorsCloning and expression vectors
Cloning and expression vectors
 
03 Lecture Ppt
03 Lecture Ppt03 Lecture Ppt
03 Lecture Ppt
 
10 Lecture Ppt
10 Lecture Ppt10 Lecture Ppt
10 Lecture Ppt
 
04 Lecture Ppt
04 Lecture Ppt04 Lecture Ppt
04 Lecture Ppt
 
Recombinant protein expression in E.coli
Recombinant protein expression in E.coliRecombinant protein expression in E.coli
Recombinant protein expression in E.coli
 
Industrial production of recombinant human insulin
Industrial production of recombinant human insulinIndustrial production of recombinant human insulin
Industrial production of recombinant human insulin
 
07 Lecture Ppt
07 Lecture Ppt07 Lecture Ppt
07 Lecture Ppt
 
Recombinant therapeutic proteins
Recombinant therapeutic proteinsRecombinant therapeutic proteins
Recombinant therapeutic proteins
 
Recombinant Proteins
Recombinant ProteinsRecombinant Proteins
Recombinant Proteins
 
Role of enzymes in dairy industries
Role of enzymes in dairy industriesRole of enzymes in dairy industries
Role of enzymes in dairy industries
 
Strain Improvement
Strain ImprovementStrain Improvement
Strain Improvement
 
App of enzymes in dairy industry
App of enzymes in dairy industryApp of enzymes in dairy industry
App of enzymes in dairy industry
 
Expression vectors
Expression vectorsExpression vectors
Expression vectors
 
Expression vectors
Expression vectorsExpression vectors
Expression vectors
 
Recombinant protein
Recombinant proteinRecombinant protein
Recombinant protein
 

Ähnlich wie Annotation Linking

Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten
Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten
Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten
jangeissler
 
The past, present and future of the German Cochrane Centre - perspectives fro...
The past, present and future of the German Cochrane Centre - perspectives fro...The past, present and future of the German Cochrane Centre - perspectives fro...
The past, present and future of the German Cochrane Centre - perspectives fro...
Cochrane.Collaboration
 
Gesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdf
Gesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdfGesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdf
Gesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdf
unn | UNITED NEWS NETWORK GmbH
 
Semantik und Bilddaten: wie Terminologien in der Radiologie helfen
Semantik und Bilddaten: wie Terminologien in der Radiologie helfenSemantik und Bilddaten: wie Terminologien in der Radiologie helfen
Semantik und Bilddaten: wie Terminologien in der Radiologie helfen
Institute of Information Systems (HES-SO)
 
PCR-Info-Projekt (Cornelia Borowczak)
PCR-Info-Projekt (Cornelia Borowczak)PCR-Info-Projekt (Cornelia Borowczak)
PCR-Info-Projekt (Cornelia Borowczak)
jangeissler
 
Icnp2.0
Icnp2.0Icnp2.0
Icnp2.0tbnext
 
SeHF 2015 | Standardisierung und Digitalisierung des medizinischen Zuweisun...
SeHF 2015 |  	Standardisierung und Digitalisierung des medizinischen Zuweisun...SeHF 2015 |  	Standardisierung und Digitalisierung des medizinischen Zuweisun...
SeHF 2015 | Standardisierung und Digitalisierung des medizinischen Zuweisun...
Swiss eHealth Forum
 
Dr. Hager 2020 Interview VISION (page 21)
Dr. Hager 2020 Interview VISION (page 21)Dr. Hager 2020 Interview VISION (page 21)
Dr. Hager 2020 Interview VISION (page 21)
Dr. Martin Hager, MBA
 
Workshop Gesundheitsthemen für Volontäre
Workshop Gesundheitsthemen für VolontäreWorkshop Gesundheitsthemen für Volontäre
Workshop Gesundheitsthemen für Volontäre
Dr. med. Michael Prang
 
Open Science in den Sozialwissenschaften und der Soziologie
Open Science in den Sozialwissenschaften und der SoziologieOpen Science in den Sozialwissenschaften und der Soziologie
Open Science in den Sozialwissenschaften und der Soziologie
uherb
 
NPK2011: Pflegeplanung mit POP Pflegediagnostik
NPK2011: Pflegeplanung mit POP PflegediagnostikNPK2011: Pflegeplanung mit POP Pflegediagnostik
NPK2011: Pflegeplanung mit POP Pflegediagnostik
Niederrheinischer Pflegekongress
 
Logopädie 3.jahr Literatursuche jan. 2011
Logopädie  3.jahr Literatursuche jan. 2011Logopädie  3.jahr Literatursuche jan. 2011
Logopädie 3.jahr Literatursuche jan. 2011Schneider Karin
 
Universitäre Hochschulen im internationalen Regulierungswettbewerb
Universitäre Hochschulen im internationalen RegulierungswettbewerbUniversitäre Hochschulen im internationalen Regulierungswettbewerb
Universitäre Hochschulen im internationalen Regulierungswettbewerb
metrobasel
 
SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...
SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...
SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...Swiss eHealth Forum
 

Ähnlich wie Annotation Linking (15)

Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten
Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten
Relevanz von Laienzusammenfassungen von Studienergebnissen für Patienten
 
The past, present and future of the German Cochrane Centre - perspectives fro...
The past, present and future of the German Cochrane Centre - perspectives fro...The past, present and future of the German Cochrane Centre - perspectives fro...
The past, present and future of the German Cochrane Centre - perspectives fro...
 
Gesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdf
Gesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdfGesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdf
Gesundheitsinformation.de_Wie_unsere_Informationen_entstehen.pdf
 
Semantik und Bilddaten: wie Terminologien in der Radiologie helfen
Semantik und Bilddaten: wie Terminologien in der Radiologie helfenSemantik und Bilddaten: wie Terminologien in der Radiologie helfen
Semantik und Bilddaten: wie Terminologien in der Radiologie helfen
 
PCR-Info-Projekt (Cornelia Borowczak)
PCR-Info-Projekt (Cornelia Borowczak)PCR-Info-Projekt (Cornelia Borowczak)
PCR-Info-Projekt (Cornelia Borowczak)
 
Icnp2.0
Icnp2.0Icnp2.0
Icnp2.0
 
SeHF 2015 | Standardisierung und Digitalisierung des medizinischen Zuweisun...
SeHF 2015 |  	Standardisierung und Digitalisierung des medizinischen Zuweisun...SeHF 2015 |  	Standardisierung und Digitalisierung des medizinischen Zuweisun...
SeHF 2015 | Standardisierung und Digitalisierung des medizinischen Zuweisun...
 
Dr. Hager 2020 Interview VISION (page 21)
Dr. Hager 2020 Interview VISION (page 21)Dr. Hager 2020 Interview VISION (page 21)
Dr. Hager 2020 Interview VISION (page 21)
 
Workshop Gesundheitsthemen für Volontäre
Workshop Gesundheitsthemen für VolontäreWorkshop Gesundheitsthemen für Volontäre
Workshop Gesundheitsthemen für Volontäre
 
Open Science in den Sozialwissenschaften und der Soziologie
Open Science in den Sozialwissenschaften und der SoziologieOpen Science in den Sozialwissenschaften und der Soziologie
Open Science in den Sozialwissenschaften und der Soziologie
 
NPK2011: Pflegeplanung mit POP Pflegediagnostik
NPK2011: Pflegeplanung mit POP PflegediagnostikNPK2011: Pflegeplanung mit POP Pflegediagnostik
NPK2011: Pflegeplanung mit POP Pflegediagnostik
 
Logopädie 3.jahr Literatursuche jan. 2011
Logopädie  3.jahr Literatursuche jan. 2011Logopädie  3.jahr Literatursuche jan. 2011
Logopädie 3.jahr Literatursuche jan. 2011
 
Publikationsverhalten in den Wirtschaftswissenschaften, von Ralf Toepfer
Publikationsverhalten in den Wirtschaftswissenschaften, von Ralf ToepferPublikationsverhalten in den Wirtschaftswissenschaften, von Ralf Toepfer
Publikationsverhalten in den Wirtschaftswissenschaften, von Ralf Toepfer
 
Universitäre Hochschulen im internationalen Regulierungswettbewerb
Universitäre Hochschulen im internationalen RegulierungswettbewerbUniversitäre Hochschulen im internationalen Regulierungswettbewerb
Universitäre Hochschulen im internationalen Regulierungswettbewerb
 
SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...
SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...
SeHF 2014 | Voraussetzungen für den Nutzen von eHealth für die Alters- und Pf...
 

Annotation Linking

  • 1. LHA – Leipziger Gesundheitsatlas Annotation Linking Anika Groß, Ying-Chi Lin, Erhard Rahm Institut für Informatik, Abteilung Datenbanken 1Kick-off Meeting, Leipzig, 04.04.2016
  • 2. LHA – Leipziger Gesundheitsatlas Ontologien Kick-off Meeting, Leipzig, 04.04.2016 2 • Strukturierte Repräsentation von Wissen Konzepte, Beziehungen • Sehr große Ontologien Tissue Anatomic Structure, System, or Substance Organ … Anatomie Molekular- biologie ChemieMedizin Lung SkinKidney …
  • 3. LHA – Leipziger Gesundheitsatlas Ontologiebasierte Annotationen Kick-off Meeting, Leipzig, 04.04.2016 3 • Einheitliche, semantische Beschreibung von Objekt- eigenschaften Gene, Proteine, … Publikationen Patientenakten Case Report Forms UMLS → Semantische Suche, Navigation … → Interoperabilität, quellübergreifende Analysen, ... • z.B. zwischen klinischen & Forschungsanwendungen → Identifikation von Common Data Elements (CDEs) • z.B. Design neuer Fragebögen (Wiederverwendung) …
  • 4. LHA – Leipziger Gesundheitsatlas Probleme und Ziele Kick-off Meeting, Leipzig, 04.04.2016 4 • Bisher kaum Annotationen für z.B. Case Report Forms (CRFs), Analyseergebnisse, komplexe Phänotypen, … • Schwieriger und aufwendiger Annotationsprozess • Domänenspezifische Objekteigenschaften • Unstrukturierte Freitextangaben • Hohe Anzahl biomedizinischer Datensätze & sehr große Ontologien • Semantische Anreicherung der LHA-Daten durch Annotationen • Entwicklung (semi-)automatischer Annotation Linking Verfahren • Hohe Datenqualität: Verifikation und iterative Verbesserung • Effiziente Verlinkung: steigende Anzahl Quellen+Anwendungen im LHA
  • 5. LHA – Leipziger Gesundheitsatlas Ziele AG 1.3 1) Annotationsverwaltung und Datenintegration • Vereinheitlichung der Objekte und Dokumente und Integration in die LHA-Forschungsdatenbank (mit AP 1.1) 2) Weiterentwicklung und Anwendung von Annotation Linking Verfahren für LHA-Daten • Verwendung von Metadaten + Wiederverwendung existierender Links • Nutzen der in BIO definierten ontologischen Grundlage (mit AP 1.2) • Realisierung effizienter, skalierbarer Annotationsverfahren (mit Big Data Zentrum ScaDS Dresden/Leipzig) 3) Qualitätsanalyse und Verifikation der Annotationen • Qualitätskriterien: Ranking von Annotationsvorschlägen • Qualitätsanalyse, Verifikation und iterative Verbesserung (mit AP 1.4 und AP 2) • Analyse der Effizienz der Linking Verfahren Kick-off Meeting, Leipzig, 04.04.2016 5
  • 6. LHA – Leipziger Gesundheitsatlas Vorarbeiten – Ontology Matching Kick-off Meeting, Leipzig, 04.04.2016 6 • GOMMA: GENERIC ONTOLOGY MATCHING AND MAPPING MANAGEMENT • Umfangreiche Infrastruktur zur Verwaltung und Analyse der Evolution von Ontologien und Mappings Kirsten, Groß, Hartung, Rahm: GOMMA: A Component-based Infrastructure for managing and analyzing Life Science Ontologies and their Evolution. Journal of Biomedical Semantics, 2:6, 2011.
  • 7. LHA – Leipziger Gesundheitsatlas Beispiel: Annotation von CRFs Kick-off Meeting, Leipzig, 04.04.2016 7 • Case Report Forms (CRFs): Fragebögen / Formulare zur Datenerhebung • Medizinische Historie von Patienten • Soziodemographie • Anthropometrie • Eignungskriterien für Patientenrekrutierung • … • Annotation mit Konzepten biomedizinischer Ontologien UMLSLIFE Investigation Ontology BIO
  • 8. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 8
  • 9. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 Seit wann leben Sie im Alten- oder Pflegeheim? … In welchem Land sind Sie geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land In welchem Land ist Ihre Mutter geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land 9
  • 10. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 Metathesaurus UMLS, NCI Codes: https://cdebrowser.nci.nih.gov/CDEBrowser/ https://ncim.nci.nih.gov/ncimbrowser/ https://uts.nlm.nih.gov/metathesaurus.html Seit wann leben Sie im Alten- oder Pflegeheim? … In welchem Land sind Sie geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land In welchem Land ist Ihre Mutter geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land C0032040 Place of Birth Birth Place C3172580 Where was your biological mother born? Mother birthplace C0338046 Residential Home retirement home
  • 11. LHA – Leipziger Gesundheitsatlas Kick-off Meeting, Leipzig, 04.04.2016 Metathesaurus UMLS, NCI NCI Common Data Elements (CDEBrowser) Codes: https://cdebrowser.nci.nih.gov/CDEBrowser/ https://ncim.nci.nih.gov/ncimbrowser/ https://uts.nlm.nih.gov/metathesaurus.html Seit wann leben Sie im Alten- oder Pflegeheim? … In welchem Land sind Sie geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land In welchem Land ist Ihre Mutter geboren? In Deutschland Weiß nicht Antwortverweigerung In einem anderen Land C0032040 Place of Birth Birth Place 2661044 Demographic Patient Birth Place Code Birth Place C3172580 Where was your biological mother born? Mother birthplace C0338046 Residential Home retirement home
  • 12. LHA – Leipziger Gesundheitsatlas Patients who have had prior recombinant erythropoietin treatment whose anemia had never responded Patients who have had prior recombinant erythropoietin (1) treatment whose anemia (2) had never responded (3) Patients with established CRF as an indication for the treatment of anemia Herausforderungen Kick-off Meeting, Leipzig, 04.04.2016 12 • Fragen häufig in natürlicher Sprache formuliert • Identifikation relevanter Terme oder Termgruppen • Suche nach N:M Korrespondenzen • Fragen können mehrere biomedizinische Konzepte enthalten • Standardstrategien erzeugen 1:1 Mappings • Größe der Datenquellen • Viele Formulare • UMLS: >2.8 Millionen Konzepte • Teilweise verschiedene Sprachen (engl., dt.) 1 C0022661 Kidney Failure, Chronic 2 C0039798 therapeutic aspects 3 C0002871 Anemia 1 C0376541 Recombinant Erythropoietin 2 C0002871 Anemia 3 C0438286 Absent response to treatment Patients with established CRF (1) as an indication for the treatment (2) of anemia (3) yes no yes no
  • 13. LHA – Leipziger Gesundheitsatlas Vorarbeiten - Annotation Linking Kick-off Meeting, Leipzig, 04.04.2016 13 • Workflow zur automatischen Annotation von medizinischen Formularen mit UMLS Christen, Groß, Varghese, Dugas, Rahm: Annotating Medical Forms using UMLS. Proc. 11th Intl. Conference on Data Integration in the Life Sciences (DILS), 2015. Keyword Identifikation (POS-Tagging), Tokenisierung, Semantisches Blocking Matching: TF/IDF, Trigram, LCS, Soft-TFIDF… Selektion: Threshold, Group-based filtering … Set of annotation mappings ℳ𝐹1,𝑈𝑀𝐿𝑆 … ℳ𝐹 𝑛,𝑈𝑀𝐿𝑆 Set of forms 𝐹1 . . 𝐹 𝑛 UMLS Preprocessing Annotation Generation Postprocessing
  • 14. LHA – Leipziger Gesundheitsatlas Erweiterte Verfahren Kick-off Meeting, Leipzig, 04.04.2016 14 • Wiederverwendung existierender Annotationen • Erzeugung von Annotationsclustern • Gruppierung nach Konzepten & Identifikation von relevanten Features • Linking neuer CRFs nutzt Cluster • Semantik-basierte Selektion • Ausnutzung der semantischen Beziehungen zwischen Konzepten • Co-Okkurrenzen: häufig gemeinsame Annotation zu einer Frage • Ontologiehierarchie • Graphbasierte Verfahren zur Ähnlichkeitsberechnung Victor Christen: Annotation of Medical Documents. Talk at Australian National University, Canberra, March 2016.
  • 15. LHA – Leipziger Gesundheitsatlas Zusammenfassung • LHA-Forschungsdatenbank: Komponente zur Annotationsverwaltung und Datenintegration • Weiterentwicklung und Anwendung von Annotation Linking Verfahren für LHA-Daten • CRFs, Analyseergebnisse, Phänotypen • LIFE Investigation Ontology, BIO, externe Ontologien • Definition von Qualitätskriterien • Verifikation der Annotationen und iterative Verbesserung der Verfahren und Ergebnisse 15Kick-off Meeting, Leipzig, 04.04.2016