Big data genómico
Presente y futuro en el manejo de datos genómicos en la práctica clínica
XXIII Jornadas Nacionales de Informática Sanitaria,
Málaga, 16 junio, 2016
http://www.seis.es/JornadasAndalucia16/
Familias más ricas de México en la historia (2024) .pdf
Big data genomico
1. Joaquín Dopazo
Computational Genomics Department,
Centro de Investigación Príncipe Felipe (CIPF),
Functional Genomics Node, (INB),
Bioinformatics in Rare Diseases (BiER-CIBERER),
Valencia, Spain.
Big data genómico
Presente y futuro en el manejo de datos genómicos en la práctica clínica
http://bioinfo.cipf.es
http://www.babelomics.org
@xdopazo
XXIII Jornadas Nacionales de Informática Sanitaria,
Málaga, 16 junio, 2016
2. La medicina de precisión (P4*) de basa en un mayor conocimiento
de las relaciones entre el genotipo y el fenotipo
Precisa de una forma mejor de definir las enfermedades
introduciendo tecnologías genómicas en los procedimientos
diagnósticos
*P4: Predictiva, Preventiva, Personalizada, Participativa
La transición a la medicina de precisión
Intuitiva y
basada en
ensayo y error
Reconocimiento
de patrones
probabilísticos
Decisiones y
acciones
basadas en el
conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
3. A pesar de la simplicidad de la Medicina Empírica, realmente
funciona: Los tratamientos personalizados aumentan la
supervivencia del paciente
4. Con exomas a 600-800€ y paneles a menos de 300€ los costes empiezan a ser
similares a los de otras pruebas clínicas
Mientras los costes se reducen, la cantidad de datos a manejar y su complejidad
crecen exponencialmente. La medicina se hace más computacional
Todo cambia con la aparición de las
nuevas tecnologías de secuenciación.http://www.genome.gov/sequencingcosts/
5. Los “1000 genomas” españoles
Iniciativa para secuenciar pacientes de
enfermedades raras
Enfermedades con:
• Genes desconocidos
• Genes conocidos/mutaciones descartadas
Búsqueda de:
• Nuevos genes
• Genes conocidos con genes modificadores desconocidos
• Genes de susceptibilidad
http://www.gbpa.es/
Producción de datos Plataformas de secuenciación Análisis de datos
6. Manejo, almacenamiento y análisis
de datos genómicos
http://www.gbpa.es/
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
ATTGCGATTG
GCAGAGCGGC
AAAGT
Raw files
(FastQ)
DB
Analysis
Pipeline
Storage
K-DB
Gene 1 ksdhkahcka
Gene 2 jckacsksda
Gene 3 lkkxkccj<jdc
Gene 4 ksfdjvjvlsdkvjd
Gene 5 kckcksñdksd
Gene 6 ldkdkcksdcldl
Gene x kcdlkclkldsklk
Gene Y jcdksdkcdks
Informe de
priorización
Diálogo con expertos en la
enfermedad + validaciones
Samples
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
GCGTATAGCA
CGGGTATCTGT
ATTATGGTGG
ATATCAGCGG
VCF BAM
Processed files
7. Descubrimiento de mutaciones y
genes por secuenciación exómica
En la iniciativa CIBERER se han encontrado nuevas 36 mutaciones en
genes asociados y 27 mutaciones en genes nuevos (13 genes).
WES
IRDs
arRP
(EYS)
BBS
arRParRP
(USH2)
3-MGA-
uria
(SERAC1)
NBD
(BCKDK )
9. Se ha realizado un proyecto
piloto instalando el sistema
en el IT4I supercomputing
center, donde se centralizará
el análisis de datos
genómicos del país
Manejo de datos genómicos
escalable al tamaño de un país de 10M de habitantes
Implementación del sistema de gestión de
datos genómicos en el centro de
supercomputación IT4I (República Checa)
10. Medicina genómica: transición de la
medicina empírica a la de precisión
Test marcador
momogénico
Therapy 1
Medicina
empírica
basada en
biomarcadores
Therapia 1
Therapia 2
Therapia 3
Medicina genómica
+
El análisis genómico permite asociar
biomarcadores de pacientes al resultado
de las terapias y aplicar ese conocimiento
desde el principio ahorrando tiempo,
costes e incrementando el éxito de los
tratamientosfeedback
Therapy 2
Therapy 3
Test marcador
multigénico
Ensayo clínico Resultado
11. Medicina genómica.
Fase I: generación de la base de datos de conocimiento
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
-----
Secuenciación
Paciente
Lista de
variantes
Database. Query
Terapia resultado
Retroalimentación
del sistema
Variantes genómicas (biomarcadores)
se asocian a diagnósticos precisos y al
resultado de terapias
Inicialmente el sistema va a
necesitar mucha
retroalimentación: Fase de
generación de conocimiento.
Crecimiento de la base de
datos de conocimiento
Medicina genómica
Knowledge
database
2011
12. Medicina genómica.
Fase II: aplicación de la base de datos de conocimiento
Paciente
1) Secuenciación
2) Base de datos de conocimiento
3) Sugerencia de terapia
Genomic core facility Fase II
El clínico recibe
recomendaciones
de tratamiento
basadas en
biomarcadores
+Otros factores
(riesgo, coste,
etc.)
Tratamiento
Análisis pre-sintomático:
• Diagnóstico temprano de enfermedades
genéticas
•Predisposición genética a enfermedades
adquiridas
Análisis sintomático
• Diagnóstico de enfermedades adquiridas
• Detección temprana de cáncer
• Recomendación de tratamientos
2011
13. Componente computacional de la medicina
genómica: Preparando el escenario para la introducción del
genoma en la práctica clínica
Paciente
Tratamiento
eHR
Técnicas de soporte de la
decisión: algoritmos que
relacionan biomarcadores
a tratamientos,
pronósticos, etc.
Integración
de datos en
el eHR
Presentación de los
datos al clínico:
listos para su
interpretación
Aceleración de
algoritmos de
procesamiento y
almacenamiento de
datos
feedback
Sistemas
corporativos
Orion clinic
Abucasis, Gaia,
etc.
14. ?
SIP
Diagnostico + descubrimiento de
biomarcadores: una aproximación integral
Proyecto CIBERER con la colaboration de: La Paz, FJD, Ramón y Cajal, CBM
(Madrid), Virgen del Rocio (Sevilla), Hospital del Mar (Barcelona), HU La Fe
(Valencia)
http://team.babelomics.org
http://BiERapp.babelomics.org
15. Diagnóstico con NGS y
paneles virtuales
Variante diagnóstica
Hallazgos secundarios
Informe médicoGeneración de paneles virtuales http://team.babelomics.org
16. 3-Methylglutaconic aciduria (3-
MGA-uria) is a heterogeneous
group of syndromes
characterized by an increased
excretion of 3-methylglutaconic
and 3-methylglutaric acids.
WES with a consecutive filter
approach is enough to detect
the new mutation in this case.
Heuristic Filtering approach
An example with 3-Methylglutaconic aciduria syndrome
17. Priorización de variantes
candidatas a causar enfermedad
Filtros para descartar
variantes candidatas por
- Impacto mutacional
- Segregación familiar
- Frecuencia poblacional
- Tipo de mutación
- Etc.
18. El efecto de la variación local
E1 E2 E3 E1 E3 E1 E2 E3 E1 E2
Control
Recurrencia
Hospital 1 Hospital 2 Hospital 3 Hospital 4
Y su uso sin
comprometer la
confidencialidad
de los datos
genómicos
19. Propuesta para integrar datos genómicos
dentro de un sistema sanitario
La integración de datos
genómicos en el sistema
sanitario es factible.
• Secuenciación para
diagnóstico (en el futuro
rutinaria)
• Trazabilidad de las
operaciones
• Almacenamiento basado
en OpenCGA (100KUK
project)
• Búsqueda de recurrencias
y uso de (pseudo)controles
• Medicina preventiva sobre
la base de datos de
pacientes
20. La transición a la medicina de precisión
Intuitiva y
basada en
ensayo y error
Reconocimiento
de patrones
probabilísticos
Decisiones y
acciones
basadas en el
conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
Grado de personalización
Aunque implementando prácticas de medicina genómica, aún estamos en la
era de la medicina empírica. Sin conocer la relación funcional entre el genotipo y
la enfermedad solo tenemos patrones probabilísticos más precisos
21. Future prospects:
Actionable models
The real advantage of models is that, the same way they can be used
to convert omics data into measurements of cell functionality that
provide information on disease mechanisms and drug MoA, they can
be used to test hypothesis such as “what if I suppress (or over-
express) this gen?” This lead to the concept of actionable models.
By simulating changes of gene expression/activity it is easy to:
• Direct study of the consequences of induced gene over-expressions
or KOs
• Reverse study of genes that need to be perturbed to change cell
functionalities, such as:
• Reverting the “normal” functional status of a cell
• Selectively kill diseased cells without affecting normal cells
• Enhancing or reducing cell functionalities (e.g., apoptosis or
proliferation, respectively, to fight cancer)
• Etc.
22. Actionable pathway models
KO in RAF1 geneDrugs that
target RAF1
Selected
drugs
extra
targets
Other
pathways
affected
by the KO
Specific
circuits
affected
Action
button
http://pathact.babelomics.org/
23. Precision personalized and individualized
treatments will soon be a reality
From: Dopazo, 2014, Genomics and transcriptomics in drug discovery. Drug Discovery Today
24. La transición a la medicina de precisión
Intuitiva y
basada en
ensayo y error
Reconocimiento
de patrones
probabilísticos
Decisiones y
acciones
basadas en el
conocimiento
Medicina Intuitiva Medicina Empírica Medicina de Precisión (P4)
Hoy Mañana
Medicina genómica
Biomarcadores moleculares
Grado de personalización
El uso de nuevos algoritmos que permitan hacer modelos que relacionen
funcionalmente el genotipo con la enfermedad o con los mecanismos de
acción de los fármacos permitirá una verdadera transición a la medicina de
precisión y a una mayor personalización de los tratamientos.
25. Software development at Computational
Genomics Department (CIPF)
See interactive map of for the last 24h use http://bioinfo.cipf.es/toolsusage
Babelomics is the third most cited tool
for functional analysis. Includes more
than 30 tools for advanced, systems-
biology based data analysis
More than 150.000 experiments were analyzed in our tools during the last year
HPC on CPU, SSE4,
GPUs on NGS data
processing
Speedups up to 40X
Genome maps is now part
of the ICGC data portal
Ultrafast
genome
viewer with
google
technology
Mapping
Visualization
Functional analysis
Variant annotation
CellBase Knowledge
database
Variant
prioritization
NGS
panels
Signaling network
Regulatory
network
Interaction
network
Diagnostic
Used in the
annotation of
GEL (UK100K)
Pilot
project in
seven
hospitals
26. The Computational Genomics Department at the Centro de
Investigación Príncipe Felipe (CIPF), Valencia, Spain, and…
...the INB, National Institute of Bioinformatics (Functional Genomics Node)
and the BiER (CIBERER Network of Centers for Research in Rare Diseases)
@xdopazo @bioinfocipfFollow us on twitter