Generische Datenintegration zur semantischen
        Diagnoseunterstützung im Projekt THESEUS MEDICO


                        Florian Stegmaier, Kai Schlegel, Mario Döller und Harald Kosch
                        Lehrstuhl für Verteilte Informationssysteme, Universität Passau

                       Sascha Seifert, Martin Kramer, Thomas Riegel und Andreas Hutter
                                        Siemens Corporate Technology

                                    Marisa Thoma und Hans-Peter Kriegel
                      Lehr- und Forschungseinheit für Datenbanksysteme, LMU München

                                    Matthias Hammon und Alexander Cavallaro
                                          Universitätsklinikum Erlangen


Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau         07.10.2011
Agenda
      »  Gegenwärtige Situation

      »  Allgemeine Informationen zu THESEUS MEDICO

      »  Systemarchitektur

      »  Generische Datenintegration mittels Mediatorsystem AIR

      »  Top 10 Features von THESEUS MEDICO

      »  Resümee




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau   07.10.2011
Gegenwärtige Situation
       »  Derzeitiger Zustand der informatischen Systemlandschaft im medizinischen Sektor:
            »  In sich geschlossene Systeme
            »  Fehlende Schnittstellen bzw. Austauschmöglichkeiten von Daten aufgrund von strengen
               Sicherheitsbestimmungen
            »  Modellierung der Daten mit verschiedensten proprietären bzw. standardisierten Formaten

       »  Fehlende Interoperabilität belastet den diagnostischen Prozess:
            »  Manuelle Beurteilung von Daten verschiedener Modalitäten (z.B. Begutachtung von CT-
               Aufnahmen und Laborwerte)
            »  Umständliche bzw. offline Kombination von mehreren Datenquellen (z.B. Recherche auf
               PubMed oder Wikipedia)

       »  Ziel dieses Vortrages:
          Vorstellung eines generischen Ansatzes, um die heterogenen Kliniksysteme durch moderne,
          semantisch aussagekräftige Technologien zu verbinden und uniform anfragbar zu machen.




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau                07.10.2011
Allgemeine Informationen zu THESEUS MEDICO
   »  THESEUS ist ein vom Bundesministerium für Wirtschaft und Technologie (BMWi) gefördertes
      Forschungsprogramm mit dem Ziel, den Zugang zu Informationen zu vereinfachen.

   »  Fokus liegt dabei auf dem Einsatz von Semantic Web Technologien.

   »  Aufgeteilt in mehrere Anwendungszenarien (z.B. Contentus – Mediathek der Zukunft)

   »  MEDICO ist ein 5-jährig gefördertes Teilprojekt, mit dem Ziel die Radiologie und die
      Krebsdiagnostik im Bezug auf semi-automatische Befundung und Suche zu verbessern.

   »  MEDICO Konsortium:
       »  Siemens AG (Use-Case Lead)
       »  Fraunhofer IGD
       »  Universitätsklinikum Erlangen
       »  Deutsches Forschungszentrum für künstliche Intelligenz (DFKI)
       »  Ludwig-Maximilians-Universität München



Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau            07.10.2011
Systemarchitektur




        »  Globaler Datenbestand umfasst ca. 630 Patientendatensätze (Ganz-Körper CT-Aufnahmen) zur
           Kontrolle der Lymphknoten und der Läsionssuche:
              »  Annotation von ca. 100 CT-Aufnahmen mit semantischen Konzepten aus FMA und RadLex
              »  Manuelle Annotation von 574 CT-Aufnahmen durch medizinische Experten des
                 Klinikpartners


Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau            07.10.2011
Überblick über die Wissensbasen
    »  PACS:
         »  Umsetzung mittels DCM4CHEE (sowohl Server als auch Protokollkomponenten)
         »  Implementiert vollständig den DICOM Standard
         »  Anonymisierte Patientendatensätze des Universitätsklinikum Erlangen

    »  Semantische Datenbank:
         »  Umsetzung mittels Jena TDB, Anfragesprache SPARQL
         »  Integriert FMA, RadLex und MEDICO Ontologie
         »  Besonderheiten der MEDICO Ontologie: Bild- und Befundannotation in einem Modell,
            Unterstützung von zeitlichen Anfragen, Multimodalität (z.B. MRT und CT), erweiterbare
            Menge an Vokabularien bzw. Ontologien

    »  Bildmerkmalsdatenbank:
          »  Umsetzung mittels MySQL, verwendbar via API
          »  Benutzte Bildmerkmale zur Ähnlichkeitsbestimmung: Grauwerthistogramme, Haralick
             Textur-Features und dimensionsweise Größenangaben




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau               07.10.2011
Betrachtete Dimensionen der Interoperabilität
        »  Datenzugriff: Unterschiedliche Anfragesprachen bzw. APIs (u.a. SPARQL vs. SQL vs. DICOM
           Protokoll)

        »  Informationsgehalt: Jede Datenbank bzw. Schnittstelle bietet spezielle Anfragefunktionalitäten
           (z.B. Ähnlichkeitsanfrage vs. Metadaten-basierte Anfrage)

        »  Modellierung: Verschiedenen Aufgaben im Projekt MEDICO erfordern auch verschiedene Arten
           der Datenmodellierung (u.a. RadLex vs. FMA vs. DICOM)

        »  Durch Verbesserung der Interoperabilität und einer vereinheitlichten Anfragefunktionalität
           könnte der Suchprozess wesentlich verbessert werden. Beispiel:
             »  „Finde Läsionen, die zu einer Region einer bestimmten CT-Aufnahme ähnlich sind, sich
                zudem innerhalb der Leber befinden und der betroffene Patient sowohl weiblich als auch
                älter als 60 Jahre ist!''




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau                     07.10.2011
Umsetzung der uniformen Anfragefunktionalität
        »  Einsatz der Metasearchengine AIR:
             »  Vereinheitlichte Suchschnittstelle (Mediator) in einem heterogenen, verteilten Multi-
                mediasuchsystem.
             »  Implementiert die standardisierte Anfragesprache MPEG Query Format als
                Abstraktionsschicht.
             »  „Minimal invasive“ Integration in Gesamtkonzept durch Interpreter.

        »  Definition eines globalen Schemas ermöglicht...
             »  Addressierung: Inhalte der Wissensbasen werden in XML serialisiert und können so in
                einer globalen Ergebnismenge konsolidiert werden.
             »  Aggregation: Wissensbasen geben ihren semantischen Link zu anderen bekannt um
                Konsolidierung ausführen zu können.




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau                       07.10.2011
Exkurs: MPEG Query Format (MPQF)
        »  Internationaler Standard seit 2008 (ISO/IEC IS 15938-12).

        »  XML basiertes Anfrageformat spezialisiert auf Multimediaanfragen.

        »  Features:
             »  Kombination von Information und Data Retrieval
                (sowohl fuzzy als auch exaktes Retrieval).
             »  Unterstützung von multimedia-spezifischen
                Operationen (z.B. Query-By-Example oder
                zeitliche Suche).
             »  Synchroner bzw. asynchroner Bearbeitungs-
                modus verfügbar.
             »  Neben Anfragesprache standardisiert MPQF
                den Anmeldeprozess der Datenbanken mit
                ihren Fähigkeiten.

        »  Details siehe http://www.mpegqueryformat.org/

Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau   07.10.2011
Exemplarische Anfrageverarbeitung innerhalb AIR
        »  „Finde Läsionen, die zu einer Region einer bestimmten CT-Aufnahme ähnlich sind, sich zudem
           innerhalb der Leber befinden und der betroffene Patient sowohl weiblich als auch älter als 60
           Jahre ist!'‘




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau                   07.10.2011
Arbeitsschritte zur Anbindung neuer Datenbasen
        »  In 3 Schritten ist eine neue Wissensbasis angebunden:

             »  Funktionale Beschreibung der Wissensbasis mittels MPQF:
                Abbildung der Suchfunktionalität auf MPQF Operation(en), Beschreibung der Ein- bzw.
                Ausgangsdaten, etwaiges Metadatenformat (Namespace), Erreichbarkeit (URL bzw.
                Klasse).

             »  Definition der semantischen Verknüpfung:
                Verbindung zum bisherigen globalen Schema muss dem Mediator mitgeteilt werden um
                von der föderierten Abarbeitung erfasst zu werden.

             »  Implementierung des MPQF Aufsatz:
                MPQF Aufsatz transformiert die erhaltenen MPQF Daten in das unterliegende
                Anfrageparadigma bzw. API Aufrufe.




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau                 07.10.2011
»  Please visit http://www.youtube.com/user/TheseusMedico to watch the video.
Resümee

        »  Durch Einsatz einer Middleware und im speziellen einer standardisierten Anfragesprache als
           Abstraktionsschicht für Anfrage- bzw. Registrierungsfunktionalität ist eine generische
           Datenintegration ermöglicht worden.

        »  Anfragesprache erlaubt das schnelle Anpassen von gewünschten Ergebnissen (Sortierung
           bzw. Gruppierung)

        »  Derzeitig werden die ersten Prototypen in einer Klinikstudie auf ihre Leistungsfähigkeit bzw.
           Benutzerfreundlichkeit eingesetzt.

        »  Zukünftige Arbeiten:
             »  Integration von Cloud Diensten zur Errechnung von Features
             »  Integration von Linked Open Data Datenquellen (z.B. PubMed oder DrugBank)




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau                      07.10.2011
Vielen Dank für die Aufmerksamkeit!

                                                         Fragen?




        Kontakt:
        Florian.Stegmaier@Uni-Passau.de
        fstegmai (Twitter)
        florian.stegmaier (Skype)




Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau   07.10.2011

Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt THESEUS MEDICO

  • 1.
    Generische Datenintegration zursemantischen Diagnoseunterstützung im Projekt THESEUS MEDICO Florian Stegmaier, Kai Schlegel, Mario Döller und Harald Kosch Lehrstuhl für Verteilte Informationssysteme, Universität Passau Sascha Seifert, Martin Kramer, Thomas Riegel und Andreas Hutter Siemens Corporate Technology Marisa Thoma und Hans-Peter Kriegel Lehr- und Forschungseinheit für Datenbanksysteme, LMU München Matthias Hammon und Alexander Cavallaro Universitätsklinikum Erlangen Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 2.
    Agenda »  Gegenwärtige Situation »  Allgemeine Informationen zu THESEUS MEDICO »  Systemarchitektur »  Generische Datenintegration mittels Mediatorsystem AIR »  Top 10 Features von THESEUS MEDICO »  Resümee Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 3.
    Gegenwärtige Situation »  Derzeitiger Zustand der informatischen Systemlandschaft im medizinischen Sektor: »  In sich geschlossene Systeme »  Fehlende Schnittstellen bzw. Austauschmöglichkeiten von Daten aufgrund von strengen Sicherheitsbestimmungen »  Modellierung der Daten mit verschiedensten proprietären bzw. standardisierten Formaten »  Fehlende Interoperabilität belastet den diagnostischen Prozess: »  Manuelle Beurteilung von Daten verschiedener Modalitäten (z.B. Begutachtung von CT- Aufnahmen und Laborwerte) »  Umständliche bzw. offline Kombination von mehreren Datenquellen (z.B. Recherche auf PubMed oder Wikipedia) »  Ziel dieses Vortrages: Vorstellung eines generischen Ansatzes, um die heterogenen Kliniksysteme durch moderne, semantisch aussagekräftige Technologien zu verbinden und uniform anfragbar zu machen. Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 4.
    Allgemeine Informationen zuTHESEUS MEDICO »  THESEUS ist ein vom Bundesministerium für Wirtschaft und Technologie (BMWi) gefördertes Forschungsprogramm mit dem Ziel, den Zugang zu Informationen zu vereinfachen. »  Fokus liegt dabei auf dem Einsatz von Semantic Web Technologien. »  Aufgeteilt in mehrere Anwendungszenarien (z.B. Contentus – Mediathek der Zukunft) »  MEDICO ist ein 5-jährig gefördertes Teilprojekt, mit dem Ziel die Radiologie und die Krebsdiagnostik im Bezug auf semi-automatische Befundung und Suche zu verbessern. »  MEDICO Konsortium: »  Siemens AG (Use-Case Lead) »  Fraunhofer IGD »  Universitätsklinikum Erlangen »  Deutsches Forschungszentrum für künstliche Intelligenz (DFKI) »  Ludwig-Maximilians-Universität München Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 5.
    Systemarchitektur »  Globaler Datenbestand umfasst ca. 630 Patientendatensätze (Ganz-Körper CT-Aufnahmen) zur Kontrolle der Lymphknoten und der Läsionssuche: »  Annotation von ca. 100 CT-Aufnahmen mit semantischen Konzepten aus FMA und RadLex »  Manuelle Annotation von 574 CT-Aufnahmen durch medizinische Experten des Klinikpartners Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 6.
    Überblick über dieWissensbasen »  PACS: »  Umsetzung mittels DCM4CHEE (sowohl Server als auch Protokollkomponenten) »  Implementiert vollständig den DICOM Standard »  Anonymisierte Patientendatensätze des Universitätsklinikum Erlangen »  Semantische Datenbank: »  Umsetzung mittels Jena TDB, Anfragesprache SPARQL »  Integriert FMA, RadLex und MEDICO Ontologie »  Besonderheiten der MEDICO Ontologie: Bild- und Befundannotation in einem Modell, Unterstützung von zeitlichen Anfragen, Multimodalität (z.B. MRT und CT), erweiterbare Menge an Vokabularien bzw. Ontologien »  Bildmerkmalsdatenbank: »  Umsetzung mittels MySQL, verwendbar via API »  Benutzte Bildmerkmale zur Ähnlichkeitsbestimmung: Grauwerthistogramme, Haralick Textur-Features und dimensionsweise Größenangaben Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 7.
    Betrachtete Dimensionen derInteroperabilität »  Datenzugriff: Unterschiedliche Anfragesprachen bzw. APIs (u.a. SPARQL vs. SQL vs. DICOM Protokoll) »  Informationsgehalt: Jede Datenbank bzw. Schnittstelle bietet spezielle Anfragefunktionalitäten (z.B. Ähnlichkeitsanfrage vs. Metadaten-basierte Anfrage) »  Modellierung: Verschiedenen Aufgaben im Projekt MEDICO erfordern auch verschiedene Arten der Datenmodellierung (u.a. RadLex vs. FMA vs. DICOM) »  Durch Verbesserung der Interoperabilität und einer vereinheitlichten Anfragefunktionalität könnte der Suchprozess wesentlich verbessert werden. Beispiel: »  „Finde Läsionen, die zu einer Region einer bestimmten CT-Aufnahme ähnlich sind, sich zudem innerhalb der Leber befinden und der betroffene Patient sowohl weiblich als auch älter als 60 Jahre ist!'' Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 8.
    Umsetzung der uniformenAnfragefunktionalität »  Einsatz der Metasearchengine AIR: »  Vereinheitlichte Suchschnittstelle (Mediator) in einem heterogenen, verteilten Multi- mediasuchsystem. »  Implementiert die standardisierte Anfragesprache MPEG Query Format als Abstraktionsschicht. »  „Minimal invasive“ Integration in Gesamtkonzept durch Interpreter. »  Definition eines globalen Schemas ermöglicht... »  Addressierung: Inhalte der Wissensbasen werden in XML serialisiert und können so in einer globalen Ergebnismenge konsolidiert werden. »  Aggregation: Wissensbasen geben ihren semantischen Link zu anderen bekannt um Konsolidierung ausführen zu können. Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 9.
    Exkurs: MPEG QueryFormat (MPQF) »  Internationaler Standard seit 2008 (ISO/IEC IS 15938-12). »  XML basiertes Anfrageformat spezialisiert auf Multimediaanfragen. »  Features: »  Kombination von Information und Data Retrieval (sowohl fuzzy als auch exaktes Retrieval). »  Unterstützung von multimedia-spezifischen Operationen (z.B. Query-By-Example oder zeitliche Suche). »  Synchroner bzw. asynchroner Bearbeitungs- modus verfügbar. »  Neben Anfragesprache standardisiert MPQF den Anmeldeprozess der Datenbanken mit ihren Fähigkeiten. »  Details siehe http://www.mpegqueryformat.org/ Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 10.
    Exemplarische Anfrageverarbeitung innerhalbAIR »  „Finde Läsionen, die zu einer Region einer bestimmten CT-Aufnahme ähnlich sind, sich zudem innerhalb der Leber befinden und der betroffene Patient sowohl weiblich als auch älter als 60 Jahre ist!'‘ Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 11.
    Arbeitsschritte zur Anbindungneuer Datenbasen »  In 3 Schritten ist eine neue Wissensbasis angebunden: »  Funktionale Beschreibung der Wissensbasis mittels MPQF: Abbildung der Suchfunktionalität auf MPQF Operation(en), Beschreibung der Ein- bzw. Ausgangsdaten, etwaiges Metadatenformat (Namespace), Erreichbarkeit (URL bzw. Klasse). »  Definition der semantischen Verknüpfung: Verbindung zum bisherigen globalen Schema muss dem Mediator mitgeteilt werden um von der föderierten Abarbeitung erfasst zu werden. »  Implementierung des MPQF Aufsatz: MPQF Aufsatz transformiert die erhaltenen MPQF Daten in das unterliegende Anfrageparadigma bzw. API Aufrufe. Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 12.
    »  Please visithttp://www.youtube.com/user/TheseusMedico to watch the video.
  • 13.
    Resümee »  Durch Einsatz einer Middleware und im speziellen einer standardisierten Anfragesprache als Abstraktionsschicht für Anfrage- bzw. Registrierungsfunktionalität ist eine generische Datenintegration ermöglicht worden. »  Anfragesprache erlaubt das schnelle Anpassen von gewünschten Ergebnissen (Sortierung bzw. Gruppierung) »  Derzeitig werden die ersten Prototypen in einer Klinikstudie auf ihre Leistungsfähigkeit bzw. Benutzerfreundlichkeit eingesetzt. »  Zukünftige Arbeiten: »  Integration von Cloud Diensten zur Errechnung von Features »  Integration von Linked Open Data Datenquellen (z.B. PubMed oder DrugBank) Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011
  • 14.
    Vielen Dank fürdie Aufmerksamkeit! Fragen? Kontakt: Florian.Stegmaier@Uni-Passau.de fstegmai (Twitter) florian.stegmaier (Skype) Florian Stegmaier, Lehrstuhl für verteilte Informationsysteme, Universität Passau 07.10.2011