E.Gombocz: Semantics in a Box (SemTech 2013-04-30)

“SEMANTICS-IN-A-BOX”
INTEGRATED DATA APPLIANCES TO CONTEXTUALIZE
EXPERIMENTS WITH A WORLD OF PUBLIC KNOWLEDGE
1
Erich Gombocz
IO Informatics, Berkeley, CA, USA
egombocz@io-informatics.com

OUTLINE
• STATE OF SEMANTIC INTEROPERABILITY
• ADOPTION IN LIFE SCIENCES ONGOING FOR YEARS … - WHY?
• LINKED LIFE DATA (LLD) / LINKED OPEN DATA (LOD)
• ROADBLOCKS, APPROACHES AND SOLUTIONS
• WHAT IS AN ‘INTEGRATED DATA APPLIANCE’ (IDA)?
• ‘SEMANTICS IN A BOX’: PERSISTENT, CURRENT KNOWLEDGEBASE(S)
• COMBINING APPLICATIONS AND RESOURCES – PRE-CONFIGURED, CONTROLLED VERSIONING
• KNOWLEDGEBASE EXAMPLES
• DRUG, TARGETS AND DISEASES; PROTEOMICS; METABOLOMICS; MICROBIAL PATHOGENS
• THE IDA EXPERIENCE
• FLY-THROUGH : USING KBS TO ENRICH EXPERIMENTAL DATA, ACTIONABLE QUERIES
• TAKE HOME
• PROS & CONS OF ‘SEMANTICS IN A BOX’, CONCLUSIONS
• ACKNOWLEDGEMENTS, REFERENCES
2© 2013 -

STATE OF SEMANTIC INTEROPERABILITY
LIFE SCIENCES ADOPTION RATE & REASONS
3© 2013 -

• RDF HAS EVOLVED AS ACCEPTED FRAMEWORK
• DYNAMIC, EXTENSIBLE, INTEROPERABLE SOLUTIONS NEEDED FOR BIG DATA
• ADVANTAGE: DON’T NEED TO KNOW A PRIORI WHICH QUESTIONS TO ASK
• THE LOD CLOUD IS GROWING …
• SPARQL 1.1 IS DE-FACTO STANDARD
• MARCH 21, 2013 W3C RECOMMENDATION
• LOTS OF POCS, PILOT STUDIES …
BUT
• TOO IDEALISTIC EXPECTATIONS:
***** LINKED (OPEN) DATA ≠ ***** COLLABORATIVE USABILITY !
• DIVERGING DIRECTIONS:
• DIFFERENT VOCABULARIES, REGISTRIES, OBJECTIVES, DESCRIPTORS
• DIFFERENT APPROACHES, PROVENANCE METADATA (VOID, PROV-O, PAV,
OPENPHACTS, BIO2RDF, BIODBCORE, SADI, MIRIAM)
• W3C HCLS TRIES TO RESOLVE THIS BY BUILDING CONSENT ON MAPPINGS
4

LINKED LIFE DATA / LINKED OPEN DATA
ROADBLOCKS, APPROACHES, SOLUTIONS
5© 2013 -

THINKING LLD / LOD
6
MYTH #1: PUBLIC SPARQL ENDPOINTS ARE EQUAL
• DIFFERENT VOCABULARIES, REGISTRIES, OBJECTIVES, DESCRIPTORS
• DIFFERENT CONCEPTUAL APPROACH (OPENPHACTS, BIO2RDF,
BIODBCORE, SADI, MIRIAM, …)
MYTH #2: PUBLIC SPARQL ENDPOINTS ARE INTEROPERABLE
• VERSIONING AND PROVENANCE ISSUES (PROV-O, VOID, SKOS, PAV)
• CLINICAL INTEROPERABILITY (HL7, MEDDRA, CDISC, MESH, ICD9/10 …)
MYTH #3: PUBLIC RESOURCES ARE ALWAYS AVAILABLE
• RELIABILITY CONCERNS FROM SERVICE-LEVEL TO URI PERSISTENCE
• MORE AND MORE “OPEN DATA” ARE CLOSED FOR COMMERCIAL USE
• ISSUES OF ACCESS TRACEABILITY ON CONFIDENTIAL DATA
• SERIOUS FUNDING UNEASE ABOUT AVAILABILITY OF GOVERNMENT-BACKED RESOURCES

NAVIGATING OBSTACLES
7
• OBJECTIVES NOT ALIGNED WITH USE CASES
• MISSING DOMAIN EXPERTISE: DATA RELATIONSHIP GUESSWORK
• NO PROVENANCE OR VERSIONING CONSIDERATIONS AT START
• INCONSISTENT NAMESPACE POLICIES AND MAPPING PRACTICES
• RELIANCE ON INTERNAL, NON-DESCRIPTIVE ONTOLOGIES WHICH
PREVENT INTEROPERABILITY
• MISALIGNMENT OF EXPERIMENTAL , CORPORATE AND PUBLIC
STANDARDS
• WAITING FOR THE ‘PERFECT’ ONTOLOGY – WILL IT EVER COME?
• IS ‘SAME AS’ IN A REALLY THE SAME IN B ?
• CONCEPTUALLY? CONTEXTUALLY? SEMANTICALLY?
• HANDLING CHANGES: TRADEOFFS IN SIMPLIFYING REDUNDANCY
© 2013 -

AVAILABILITY CHALLENGE
IS MY RESOURCE UP TODAY?

BEST PRACTICES CHECKLIST
• WHICH RESOURCES DO WE NEED?
• REVIEW BASICS (LICENSING, PROVENANCE, VERSIONING, HIGH INTERLINK
QUALITY, PERSISTENCE)
• BUILD GENERALLY APPLICABLE SOLUTIONS (VOCABULARIES, COMMON
PREDICATES)
• FOCUS ON TRUE ‘’ RESOURCES
• DYNAMIC “APPLICATIONS ONTOLOGY” FIRST!
• HAVE THE BIG PICTURE IN MIND, BUT DON’T WAIT FOR PERFECTION
• ALIGN WITH FORMAL ONTOLOGIES (OR PARTS OF)
WHENEVER POSSIBLE
• NCBO BIOPORTAL
• THINK INTEROPERABILITY FROM THE BEGINNING
9

10© 2013 -
WHAT IS AN IDA, AND WHY?
INTEGRATED DATA APPLIANCE

THE IDA CONCEPT
• INTEGRATED, PERSISTENT, CURRENT SEMANTIC KBS
• GOAL: READY TO USE FOR ENRICHMENT OF EXPERIMENTAL / INTERNAL DATASETS
• COMBINING APPLICATIONS AND RESOURCES
• WEB QUERY SERVER, KNOWLEDGE EXPLORER PRO, VIRTUOSO
• ALL NECESSARY TOOLS INCLUDED FOR MAPPING AND QUERY
• PRE-CONFIGURED KNOWLEDGEBASE(S), CONTROLLED VERSIONING, PERIODIC
UPDATES
• ENTERPRISE-READY APPLIANCE
• 64 GB RAM FOR FAST QUERY PERFORMANCE
• RAID-5 REDUNDANT ARCHIVING
11

KB EXAMPLE 1
DRUGS, TARGETS, DISEASES KNOWLEDGEBASE
12© 2013 -
RESOURCES
DRUGBANK
DISEASOME
SIDER
UNIPROT
REACTOME
NCBI BIOSYSTEMS

KB EXAMPLE 2
PROTEOMICS KNOWLEDGEBASE
22© 2013 -
RESOURCES
UNIPROT
GO
REACTOME
NCBI BIOSYSTEMS

KB EXAMPLE 3
METABOLOMICS KNOWLEDGEBASE
29© 2013 -
RESOURCES
HMDB
PUBCHEM
PUBCHEM ASSAY
BIOCYC

KB EXAMPLE 4
MICROBIAL PATHOGEN KNOWLEDGEBASE
36© 2013 -
RESOURCES
ICTV
MIST2
BIOCYC
PATRIC
NCBI TAXONOMY

42© 2013 -
‘SEMANTICS IN A BOX’ EXPERIENCE
CONTEXTUALIZING EXPERIMENTS WITH KB RESOURCES

43© 2013 -
USE CASE 1:
TOXICITY CLASSIFICATION
BIOLOGICAL QUALIFICATION OF COMBINATORIAL BIOMARKERS
WITH PHARMACOGENOMIC EXPERIMENTAL CORRELATIONS
RESOURCES
INTERNAL:
GENE EXPRESSION
QUANT. METABOLOMICS
KBS:
DRUGBANK
DISEASOME
SIDER
UNIPROT
GO
REACTOME
NCBI BIOSYSTEMS

RESULT
58
BIOLOGICALLY QUALIFIED SETS OF BIOMARKERS TO SCREEN FOR DIFFERENT
TYPES OF TOXICITY
• Benzene Toxicity 18 genes, 2 metabolites
• Ethanol Toxicity 16 genes, 6 metabolites
• Halogenated Toxicity 21 genes, 5 metabolites

60© 2013 -
USE CASE 2:
PATHOGEN IDENTIFICATION
IDENTIFICATION OF PATHOGENS IN SAMPLES USING
MULTIPLE PUBLIC MICROBIAL PATHOGEN RESOURCES
RESOURCES
INTERNAL:
MICROBIAL ASSAYS
MS SEQUENCING
KBS:
ICTV
MIST2
BIOCYC
PATRIC
NCBI TAXONOMY

‘SEMANTICS IN A BOX’
PROS
• READY-TO-GO: NO SETUP AND INTEGRATION TIME, NO INTEROPERABILITY ISSUES
• PRECONFIGURED ENTERPRISE-READY HARDWARE WITH SEMANTICALLY INTEGRATED SETS OF PUBLIC
KNOWLEDGEBASES OUT-OF-THE-BOX
• NO CONCERNS ABOUT UPTIME OF PUBLIC RESOURCES
• CONTROLLED VERSIONING AND MAINTENANCE CYCLES SOLVE RELIABILITY AND DATA
INTEGRITY ISSUES
• NO TRACEABILITY WORRIES ON CONFIDENTIAL DATA
• INTEGRATED CLIENT AND WEB APPLICATIONS FOR GRAPH VISUALIZATION, EXPLORATION
AND QUERY REDUCE BARRIERS TO ENTRY FOR END USERS AND FOCUS PRIMARILY ON ITS
SCIENTIFIC UTILITY
CONS
• LIVE PUBLIC RESOURCES MAY UPDATE IN-BETWEEN SCHEDULED MAINTENANCE
• SELECTION OF RESOURCES MAY NOT SUFFICE ALL USE CASES
65

CONCLUSIONS
• THE USE OF IDA-HOSTED PUBLIC RESOURCES COMBINED WITH EXPERIMENTAL DATA TO
PROVIDE MODELS FOR CLASSIFICATION OF TOXICITY TYPES IN PRE-CLINICAL SETTINGS
DEMONSTRATES A SUCCESSFUL AND FAST SEMANTIC INTEGRATION WHICH PROVIDED
BIOLOGICAL QUALIFICATION OF GENOMIC AND METABOLOMIC BIOMARKERS.
• AS RDF IS ALREADY PRE-ALIGNED AND CONTAINS PROVENANCE AND VERSIONING, A
BETTER A PRIORI DETERMINATION OF ADVERSE EFFECTS OF DRUG COMBINATIONS CAN BE
ACHIEVED MUCH FASTER AND AT MUCH LESS EFFORT. RICH SPARQL QUERIES CORRELATE
RESPONSES OF UNRELATED STUDIES WITH DIFFERENT EXPERIMENTAL MODELS, AND
VALIDATE SYSTEM CHANGES ASSOCIATED WITH KNOWN COMMON TOXICITY MECHANISMS.
• HAVING LINKED DATA AVAILABLE IN ONE APPLIANCE TOGETHER WITH EXPERIMENTAL
RESULTS MAKES IT EASY TO EMPLOY SEMANTIC TECHNOLOGIES WORRY FREE, AND, AS
SUCH, TO PROMOTE A BETTER UNDERSTANDING OF BIOLOGICAL SYSTEMS MORE READILY.
TIME AND MONEY SAVED HAS HUGE SOCIO-ECONOMIC BENEFITS IN DRUG DISCOVERY AND
HEALTHCARE.
66

ACKNOWLEDGEMENTS
67
SUPPORT FOR TOXICITY STUDIES
NIST ATP #70NANB2H3009
NIAAA #HHSN281200510008C
W3C
HCLS LLD / PHARMACOGENOMICS SIG
Scott Marshall, Michel Dumontier
PATHOGEN PROJECT
FDA NARMS
Sherry Ayers
PUBLIC RESOURCES
SIB / UNIPROT CONSORTIUM
Jerven Bolleman
WIKIMEDIA FOUNDATION
Anja Jentsch
BIO2RDF II
Michel Dumontier
BMIR / NCBO STANFORD
Mark Musen, Trish Whetzel
IDA DEVELOPMENT
SAGE-N
James Candlin, David Chiang
IO INFORMATICS
Andrea Splendiani, Jason Eshleman,
Robert Stanley
TOXICITY PROJECT
COGENICS
Pat Hurban, Alan Higgins, Imran Shah, Hongkang Mei,
Ed Lobenhofer
BOWLES CENTER FOR ALCOHOL STUDIES / UNC
Fulton Crews

REFERENCES
1) LDOW2012 Linked Data on the Web. Bizer C,Heath T, Berners-Lee T, Hausenblas M. WWW Workshop on Linked Data on the Web, 2012
Apr.16, Lyon, France.
2) The National Center for Biomedical Ontology. Musen MA, Noy NF, Shah NH, Whetzel PL, Chute CG, Story MA, Smith B. J Am Med Inform
Assoc. 2012 Mar-Apr; 19 (2): 190-5
3) Using SPARQL to Query BioPortal Ontologies and Metadata Salvadores M, Horridge M, Alexander PR, Fergerson RW, Musen MA, and Noy NF.
International Semantic Web Conference. Boston US. LNCS 7650, pp. 180195, 2012.
4) The Translational Medicine Ontology and Knowledge Base: driving personalized medicine by bridging the gap between bench and bedside.
Luciano JS, Andersson B, Batchelor C, Bodenreider O, Clark T, Denney CK, Domarew C, Gambet T, Harland L, Jentzsch A, Kashyap V, Kos P,
Kozlovsky J, Lebo T, Marshall SM, McCusker JP, McGuinness DL, Ogbuji C, Pichler E, Powers RL, Prud’hommeaux E, Samwald M, Schriml L,
Tonellato PJ, Whetzel PL, Zhao J, Stephens S, Dumontier M. J.Biomed.Semantics 2011; 2(Suppl 2):S1
5) VoID Vocabulary of Interlinked Datasets. Cyganiak R, Zhao J, Alexander K, Hausenblas M. DERI, W3C note 6-Mar-2011
6) PROV-O: The PROV Ontology. W3C Candidate Recommendation 11- Dec-2012
7) Does network analysis of integrated data help understanding how alcohol affects biological functions? - Results of a semantic approach to
biomarker discovery. Gombocz EA, A.J. Higgins AJ, Hurban P, Lobenhofer EK, Crews FT, Stanley RA, Rockey C, Nishimura T. 2008 Sept.29-
Oct.1.Biomarker Discovery Summit, Philadelphia, PA.
8) W3C Semantic Web Use Cases and Case Studies Case Study: Applied Semantic Knowledgebase for Detection of Patients at Risk of Organ
Failure through Immune Rejection Stanley R, McManus B, Ng R, Gombocz E, Eshleman J, Rockey C. Joint Case Study of IO Informatics and
University British Columbia (UBC), NCE CECR PROOF Centre of Excellence, James Hogg iCAPTURE Centre, Vancouver, BC, Canada, 2011
9) A Novel Approach to Recognize Peptide Functions in Microorganisms: Establishing Systems Biology-based Relationship Networks to Better
Understand Disease Causes and Prevention E. Gombocz E, Candlin J 8th Annual Conference US Human Proteome Organisation: The Future
of Proteomics (HUPO 2012) San Francisco, CA, March 4-7, 2012
10) Correlation Network Analysis and Knowledge Integration In: Applied Statistics for Network Biology: Methods in Systems Biology Plasterer TN,
Stanley R, Gombocz E; M. Dehmer, F. Emmert-Streib, A. Graber, A. Salvador (Eds.)
Wiley-VCH, Weinheim, ISBN: 978-3-527-32750-8 (2011)
11) Improved dataset coverage and interoperability with Bio2RDF Release 2. Callahan A, Cruz-Toledo J, Ansell P, Klassen D, Tumarello G,
Dumontier M. SWAT4LS Workshop. 2012 Nov.30, Paris, France.
12) Ontology-Based Querying with Bio2RDF’s Linked Open Data. Callahan A, Cruz-Toledo J, Dumontier M. 2013. Journal of Biomedical Semantics;
in press.
68

E.Gombocz: Semantics in a Box (SemTech 2013-04-30)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie E.Gombocz: Semantics in a Box (SemTech 2013-04-30)

Ähnlich wie E.Gombocz: Semantics in a Box (SemTech 2013-04-30) (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

E.Gombocz: Semantics in a Box (SemTech 2013-04-30)

Hinweis der Redaktion