[XML+RelDB]  [GraphDB+Cypher+Lucene] = max(efficiency|flexibility)
oder
Implementierung Graph‐basierter Ansätze 
für das Management systembiologischer 
Simulationsmodelle
Dagmar Waltemath
Medizininformatik
Universitätsmedizin Greifswald
ORCID: 0000‐0002‐5886‐5563
Twitter: @dagmarwaltemath
Ron Henkel
Business Information Systems 
Universität Rostock
ORCID: 0000‐0001‐6211‐2719
E‐Mail: ron.henkel@uni‐rostock.de
Web‐Meeting German Biobank Alliance | 10.05.2019
Wer wir sind
Kollegen am ICM: W. Hoffmann, T. Bahls,
T. Leddig; Abb.: .: Koenig et al. (2016)
Kollaboratoren: BioModels, Physiome
Model Repository, FAIRDOMHub
SBI: R. Henkel, F. Lambusch,
M. Scharm, M. Peters
Simulation model management
@Universität Rostock
(Re)use of clinical research data
@Universitätsmedizin Greifswald
Prototype implementations
in open model repositories
Unsere Daten
Systems biology is the science
that studies
how biological function emerges
from the interactions between
the components of living systems.
… and how these emergent properties
enable/constrain the behavior
of these components.
Folie links: Idee Olaf Wolkenhauer. Abb. rechts von oben nach unten: Olaf Wolkenhauer; Elektrische Aktivität im Herzen während Kammerflimmern, Chaste
Project, 2014; Multiskalenmodell Galactose‐Metabolismus im Menschen, Matthias König, HU Berlin, https://livermetabolism.com/projects/
Ein modellbasierte Simulation setzt sich aus einer Vielzahl 
heterogener, verteilter, teils unstrukturierter Daten zusammen.
Reaktionsnetzwerke
(XML, OWL, RDF)
Mathematische Modelle
(MathML/XML)
Simulationsbeschreibung
(XML, OWL, RDF)
Ergebnisse
(CSV, Excel)
Abb.: Vera et al BMC Systems Biology 2008
Publikationen (Text, 
Tabellen, Abbildungen)
Publizierte Modelle werden seit über 10 Jahren in standardisierten 
XML‐Formaten in Open Repositories abgelegt. 
1996 2019
Abb: Zellzyklusmodelle aus den Jahren 1995 (BIOM005; Tyson et al (1991)), 2001 (BIOM195), 2018: BIOM700
2001
BioModels Physiome
BioModels
Provenance Integration
Der Anspruch an Reproduzierbarkeit und Nachnutzbarkeit stellt 
das Modellmanagement vor Herausforderungen. 
Speicherung & Retrieval
• Große, heterogene, vernetzte Daten
• Kontextabhängigkeit
• Vollständigkeit der Experiment‐ und Modellbeschreibungen
• Flexibilität in Anfragen
Provenance
• Nachvollziehbarkeit der Weiterentwicklung von Modellen & Wissen
• Umgang mit widersprechenden Hypothesen & Fehlerkorrekturen
Integration
• Modelle / Modelle & Daten
• Modellgröße, ‐komplexität, Randbedingungen
• Datenqualität, insbesondere bei Gesundheitsdaten und 
biomedizinischen Parametern
Lösungsansatz
Graphbasierte Speicherung aller modell‐relevanten 
Daten in neo4j 
+ 
Lucene‐Index für Modell‐Retrieval
Wie alles begann … 
Modelle werden publiziert und als standardisierte XML‐
Formate in Open Repositories abgelegt. 
2008 2019
Abb: Zellzyklusmodell aus BioModels Database aus dem Jahr 1995 (BIOM005; Tyson et al (1991))
BioModels
Stand 2008
‐ Relationale Speicherung von Meta‐Daten 
(Modellname, Autor, Publikationsjahr, 
SpeciesNamen, PubMed‐ID)
‐ Einfache Suchmaske über die relationalen Spalten 
und Freitextsuche (auch in SQL, SELECT)
‐ Rückgabe einer Liste von XML‐Dokumenten 
(SBML) sortiert nach BIOMDB‐ID.
Zunehmende 
Anzahl an 
Modellen
Zunehmende 
Komplexität 
der Modelle 
Zunehmend 
semantische 
Annotation
Modelle werden publiziert und als standardisierte XML‐
Formate in Open Repositories abgelegt. 
2008 2019
Abb: Zellzyklusmodell aus BioModels Database aus dem Jahr 1995 (BIOM005; Tyson et al (1991))
BioModels
Ein mehr‐stufiger Index gewichtet die Suchergebnisse aus 
BioModels.
2010 2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328; Architektur rechts: MORRE V1 ‐ Code: github. Abb: Henkel et al. (2010)
.
model
species
URI
qualifier
Model Index
species:
cdk1
Semantic Index author:
NOT
John
Doe
compart-
ment:
cell
species:
cdk1
relevant models
author:
NOT
John
Doe
species:
cdk1
species
URI:
P04551
Models by non-bogus authors describing
the Cell Cycle?
speciesURI:
P04551
retrieve
models
...BM-ID species speciesURI
BIOMD
00000005
cdc2k,
cyclin
UniProt:P04551
IPR:006670
...
URI qualifier content
UniProt:P04551
IPR:006670
Cdk1, cdk1,
swo2. pi002,
SPBC11B10.09
Tyson1991
ID: BIOMD000000005
Authors: Tyson JJ.
Date: 13 Sep 2005 12:31:08
Publication: pubmed:1831270
Species: cdc2k, cyclin …
Reaction: cyclin_cdc2k_dissociation, …
compart-
ment:
cell
MORRE
BioModels
Eine neo4j‐Datenbank verwaltet  Graph‐Repräsentationen von 
Modellen verschiedener Repositories.
2019
Abb: Zellzyklusmodell aus BioModels Database aus dem Jahr 1995 (BIOM005; Tyson et al (1991)); Rechts: Repräsentation eines SBML-Modells in MaSyMoS
MaSyMoS
2012
PhysiomeBioModels
2019
Abb: Zellzyklusmodell aus BioModels Database aus dem Jahr 1995 (BIOM005; Tyson et al (1991)); Architektur rechts: MORRE ‐ Code: github. Abb: Henkel et al. (2010)
.
MaSyMoS MORRE
2012
PhysiomeBioModels
Ein Ranked‐Retrieval‐System unterstützt Nutzer beim Auffinden 
relevanter Modelle und modell‐relevanter Daten. 
Ein Ranked‐Retrieval‐System unterstützt Nutzer beim Auffinden 
relevanter Modelle und modell‐relevanter Daten. 
2012 2019
Abb: Zellzyklusmodell aus BioModels Database aus dem Jahr 1995 (BIOM005; Tyson et al (1991)); Rechts: erste Version von MaSyMoS (Henkel et al 2012, INFORMATIK/GMDS).
Model
Publication
Annotation
Person
Simulation
 Id
 Name
 Title
 Journal
 Abstract
 Authors
 …
 URI
 Description
 Id
 Name
 Component
 Variable
 Species
 Reaction
 Compartment First name
 Last name
 Organization
 Email
MaSyMoS MORRE
2012 2019
Abb: Zellzyklusmodell aus BioModels Database aus dem Jahr 1995 (BIOM005; Tyson et al (1991)); Rechts: erste Version von MaSyMoS (Henkel et al 2012, INFORMATIK/GMDS).
isVersionOf
isVersion
hasPart
is
isVersionOf
Annotation
Person
Show me models by Tyson
describing the cell cycle and
containing cdc2
1. (0.859) Tyson1991 - Cell Cycle 6 var
2. (0.854) Tyson2001_Cell_Cycle_Regulation
3. (0.477) Chen2004 - Cell Cycle Regulation
MaSyMoS MORRE
Ein Ranked‐Retrieval‐System unterstützt Nutzer beim Auffinden 
relevanter Modelle und modell‐relevanter Daten. 
2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328
Stand 2014
‐ Graphdatenbank mit extrahierten Modell‐Features incl.  
Indizes
‐ Einfaches Suchinterface über MORRE und semantische 
Anfragen über Cypher
‐ Für MORRE: Rückgabe einer gerankten Liste von XML‐
Dokumenten (SBML‐, CellML‐Modelle).
2012
MaSyMoS MORRE
PhysiomeBioModels
Ein Ranked‐Retrieval‐System unterstützt Nutzer beim Auffinden 
relevanter Modelle und modell‐relevanter Daten. 
Zunehmend 
komplexe 
Simulations‐
beschreibungen
Zunehmende 
Anzahl an 
Modellversionen
Zunehmendes 
Interesse an der 
Suche nach 
Strukturen
2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328
2012
MaSyMoS MORRE
PhysiomeBioModels
Ein Ranked‐Retrieval‐System unterstützt Nutzer beim Auffinden 
relevanter Modelle und modell‐relevanter Daten. 
Simulationsbeschreibungen werden standardisiert und in 
Repositories abgelegt.
2014 2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328; Architektur rechts: MORRE ‐ Code: github. Abb: Henkel et al. (2010)
.
MaSyMoS MORRE
BioModels
Ein Konzept für Modellversionierung wird entwickelt und 
Versionsspeicherung prototypisch umgesetzt. 
2013 2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328; BiVeS Versionierung ‐ Code: github. Abb unten links: Waltemath et al (2013), 
rechts:  Scharm et al (2015); COMODI: Scharm et al (2017), Mitte: Speicherung von Modellversionen in MaSyMoS (Martin Peters)
MaSyMoS
2015
BioModels
Neben der Lucene‐basierten Suche wird ein Workflow für 
Strukturähnlichkeit angeboten. 
2018 2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328; Rechts: Beispiel Struktursuche auf Modellen, R. Henkel, Code: Github. Abb: Oxford Lambusch et al (2018)
.
<species id="C_p" sboTerm="SBO:0000247">
<annotation>
<rdf:Description rdf:about="C_p">
<bqbiol:is>
<rdf:Bag>
<rdf:li rdf:resource=
"urn:miriam:obo.chebi:CHEBI%3A27732"/>
</rdf:Bag>
</bqbiol:is>
<bqbiol:is>
<rdf:Bag>
<rdf:li rdf:resource=
"urn:miriam:kegg.compound:C07481"/>
</rdf:Bag>
</bqbiol:is>
</rdf:Description>
</annotation>
</species>
MaSyMoS MORRE
BioModels
Neben der Lucene‐basierten Suche wird ein Workflow für 
Strukturähnlichkeit angeboten. 
2018 2019
Abb: Modellstruktur links: BioModels, Publikation: 10.1073/pnas.88.16.7328; Rechts: Beispiel Struktursuche auf Modellen, R. Henkel, Code: Github. Abb: Oxford Lambusch et al (2018)
.
MATCH (n:SBML_MODEL)‐‐>(s1:SBML_SPECIES)‐[:IS_REACTANT]‐>(r1:SBML_REACTION) ‐
[:HAS_PRODUCT]‐>(s2:SBML_SPECIES)‐[:IS_REACTANT]‐>(r2:SBML_REACTION)
‐[:HAS_PRODUCT]‐>(s1) 
RETURN n.NAME as Model_Name, count(s1)/2 as Cycle order by Cycle desc
<species id="C_p" sboTerm="SBO:0000247">
<annotation>
<rdf:Description rdf:about="C_p">
<bqbiol:is>
<rdf:Bag>
<rdf:li rdf:resource=
"urn:miriam:obo.chebi:CHEBI%3A27732"/>
</rdf:Bag>
</bqbiol:is>
<bqbiol:is>
<rdf:Bag>
<rdf:li rdf:resource=
"urn:miriam:kegg.compound:C07481"/>
</rdf:Bag>
</bqbiol:is>
</rdf:Description>
</annotation>
</species>
Model_Name Cycle
Stanford2013 ‐ Kinetic model of yeast metabolic network (standard) 2144
Stanford2013 ‐ Kinetic model of yeast metabolic network (regulation) 2144
Proctor2010 ‐ UCHL1 Protein Aggregation 1827
Smallbone2013 ‐ Yeast metabolic model with modular rate law, merged with Pritchard 2002 790
Smallbone2013 ‐ E.coli metabolic model with linlog rate law 689
Smallbone2013 ‐ Yeast metabolic model with modular rate law 681
Smallbone2013 ‐ Yeast metabolic model with linlog rate law 681
… …
Tyson1991 ‐ Cell Cycle 6 var 3
MaSyMoS MORRE
BioModels
Zusammenfassung: Verknüpfte, heterogene Daten in der Systembiologie 
erfordern effiziente Algorithmen für Speicherung, Suche und Retrieval.
Abb.: Vera et al BMC Systems Biology 2008
Reaktionsnetzwerke
(XML, OWL, RDF)
Mathematische Modelle
(MathML/XML)
Simulationsbeschreibung
(XML, OWL, RDF)
Ergebnisse
(CSV, Excel)
Publikationen (Text, 
Tabellen, Abbildungen)
Zusammenfassung: Die Graph‐basierte Speicherung stellt 
Herausforderungen dar, ist jedoch auch für die komplexen Daten 
performant. 
1Modell + 
1 Experiment +
5 Versionen
Abb: Modellstruktur BioModels, rechts: Beispielmodell mit Versionen in MASYMOS, Martin Peters, SEMS
y
Zusammenfassung
Datensilos, sperrige Anfragesprachen, 
redundante Datenspeicherung
Past
Present
Effiziente, graph‐basierte Speicherung, 
flexible Anfragen, data science
Future
KAS+ Kohorten Models4Clinic
Vielen Dank für Ihre Aufmerksamkeit
Dagmar Waltemath
0000‐0002‐5886‐5563
@dagmarwaltemath
https://semsproject.github.io/
MOST | PMR2 | JWS Online Simulation | SED‐ML Webtools
Cardiac Electrophysiology Web Lab | FAIRDOMHub | BioModels Database
Software:
COMBINE Archive | MIASE | SBML L2V5
SBML L3V2 Core | SED‐ML L1V1/V2 | SED‐ML  L1V3
Specifications:
2019
Heidelberg, Germany
15. – 19. Juli 2019
Ron Henkel
https://semsproject.github.io/

Implementierung Graph-basierter Ansätze für das Management systembiologischer Simulationsmodelle