How to use Redis with MuleSoft. A quick start presentation.
Introduccion a la bioinformatica
1. Introducción a la Bioinformática
Marta Cuadros, Carlos Cano
Departamento de Ciencias de la Computación e
Inteligencia Artificial
Universidad de Granada
2. De la Biología y la Informática a la
Bioinformática……
Historia de la Informatica
Historia de la Biología Molecular
3. De la Biología y la Informática a
la Bioinformática……
Bioinformática
4. ¿Que es Bioinformática?
La bioinformática es un campo de la ciencia donde se
integran con la biología diferentes disciplinas como:
Matemáticas
Estadística
Bioinformática
Teoría
Físca-química
de Control
Ciencias de Biología Biología
la Computación Molecular estructural
…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
Source: http://ccb.wustl.edu/
5. Interdisciplinaridad y problemas de
comunicación
El ADN es un polímero de
nucleótidos. Cada nucleótido está
formado por un grupo fosfato, Es una cadena / “string” de
una desoxiribosa y una base longitud variable y con un
nitrogenada. alfabeto de cuatro
caracteres A, T, C, G
Los nucleótidos se diferencian
por sus bases nitrogenadas
divididas en dos grupos: dos
purínicas denominadas adenina
GCCACATGTAGATAATTGAAACTGGATCCTCA
(A) y guanina (G) y dos TCCCTCGCCTTGTACAAAAATCAACTCCAGAT
pirimidínicas denominadas GGATCTAAGATTTAAATCTAACACCTGAAACC
ATAAAAATTCTAGGAGATAACACTGGCAAAGC
citosina (C) y timina (T). TATTCTAGACATTGGCTTAGGCAAAGAGTTCG
TGACCAAGAACCCAAAAGCAAATGCAACAAAA
ACAAAAATAAATAGGTGGGACCTGATTAAACT
GAAAAGCCTCTGCACAGCAAAAGAAATAATCA
GCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAA
AG
6. Bioinformatica: convergencia de dos
revoluciones
El crecimiento exponencial de datos y la era de la
información
10 Enero 2011:
225,047,396,161 bases
7. Hoy en día…
...las nuevas tecnologías
en biología están
cambiando la forma de
abordar los problemas
debido a:
-la gran cantidad de datos
- y las multiples tipologías
de estos
Ninguna persona o grupo puede tiene Se hace necesaria la aparición de
una visión general de todo lo conocido ciencias interdisciplinares como
la Bioinformatica
8. Ámbito de aplicación de la Bioinformática
Dogma Central de la Biología
Replicacion ADN
Trascripción
ARN ncRNAs
Traducción
Proteína
Modificaciones
post-transduccionales
Fenotipo
9. Bioinformatica: Omas y Omicas
Genomica
Secuencias primarias (DNA, RNA)
Replicacion ADN
Bases de datos (BD), algoritmos
Genomas
Estudios de evolución molecular
Trascripción
Transcriptomica(Genomica Funcional)
Datos de expresion (Microarray data) ARN
BDs, herramientas de analisis
Traducción
Proteomica
Secuencias de proteina y estructuras
espectometría de masas, rayos-X, Proteína
cristalografia
Modificaciones
post-transduccionales
Biologia de sistemas Fenotipo
(metabolòmica)
flujos metabólicos Interactómica
redes de interacción
10. Genómica y genomas
Es el estudio de la secuencia estructura y
funcion del genoma
Especies Conocidas Evolución de los genomas
secuenciados en los últimos
años
Año Numero de Geomas
secuenciados
1994 0
1995 1
Enero 2011 1780
Eucariotas 272 (41 mamiferos)
Bacterias 1518
Arqueobacterias 81
11. Projecto: Genoma Humano
Projecto Internacional 15 Febrero 2001
Determinar la secuencia genomica humana y de
otros oganismos modelo
Tiempo y coste
han sido los factores limitantes
12. Etapas en el proyecto genoma
1991..Human Genome Project begins
1994-1996..genetic maps
1995-1998..physical maps
1998..DNA sequencing begins
2000...Rough draft DNA sequence
2003…Complete DNA sequence
2005…...Gene map complete
13. Evolución del Coste y tiempo
necesario para la Secuenciación
2001: Human de Genomas
Genome Project
2.7G$,
11 years
10
2007: 454
8
Log10(price)
1M$, 3 months
2008: ABI SOLiD
6 60.000$, 2 weeks
2010: 5000$,
2001: Celera a few days?
4 2009: Illumina,
100M$, 3 years
Helicos
40-50000$
2
2012: 100$,
<24 hrs?
2000 2005 2010
Year 13
14. Transcriptomica
Desde la caracterización del genoma
humano, han surgido nuevas vías de
investigación sobre el análisis global
del material genético.
Es evidente que NO todo el genoma
es transcrito y traducido finalmente a
proteínas
Transcriptoma surge para
representar todo el mRNA transcrito
bajo unas circunstancias, de forma
global.
Cada organismo tiene infinidad de
transcriptomas dependiendo del tipo
tisular o las condiciones ambientales
que se estudien.
15. Transcriptomica
Muestra 1 Muestra 2 DNA chip technology
sano enfermo
Extracción
de ARN
RNA RNA
Sintesis de
cDNA cDNA cDNA
fluorescente
Interpretación
amarillo No especifico
DNA chip rojo Especifico Muestra 1
verde Especifico muestra 2
Source: deRisi et al., Science 1997
16. Proteoma y Proteomica
Proteoma. Es el set completo de proteinas y otros
productos génicos producidos por el genoma.
Proteomica. Es el estudio de las interacciones entre
proteinas, incluyendo diferencias en los distintos
estados del desarrollo, tejidos y organos.
17. Datos y ciencias utilizadas actualmente en estudios Bioinformáticos
18. ¿Para qué es necesaria la Bioinformática?
…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
Lo cual facilita la integración
de información y una mejor
comprensión de los sistemas
Biológicos
Establece puentes entre distintas
áreas de conocimiento
19. Tipos de estudios que han utilizado la
Bioinformática
Medicina Molecular Agricultura
◦ Nuevos medicamentos ◦ Cultivos
◦ Medicina personalizada ◦ Resistencia a los insectos
◦ Medicina preventiva ◦ Mejorar la calidad nutricional
◦ Terapia génica ◦ cultivos en suelos más pobres y que son
resistentes a la sequía
Aplicaciones genomas
microbiano Animales
◦ Residuos de limpieza
◦ El cambio climático Estudios comparativos
◦ Fuentes alternativas de energía
◦ Biotecnología
◦ Resistencia a los antibióticos
◦ Análisis forense de los microbios
◦ Estudios evolutivos
20. Bases de Datos Biológicas
¿Qué es una base de datos?
¿Qué tipos de datos hay disponibles?
¿Qué es el esquema Genbank ?
¿Cómo es una entrada de datos en una BD biologica?
¿Cómo se usan?
21. ¿Que es una base de datos?
Es una colección de datos que tiene que ser:
◦ estructurada
◦ buscable
◦ actualizaciones regulares
◦ links y referencias a otras colecciones de datos
23. Tipos de Bases de Datos
Database Types
Other
Hay muchas BD de Genomas
Gene Nucleotide
Expression Sequence
RNA Sequence
Disease La mayoria no son de secuencias
Protein
Genome
Sequence Hay muchas bases de datos especificas
(human)
Pathways Bases de datos especializadas en
Structure enfermedades
Genome (non-
human)
25. Tipos de Bases de Datos Biologicas
Primarias (almacenamiento)
GenBank/EMBL/DDB
UniProt (proteinas)
PDB (estructuras)
Medline (PubMed) Articulos
Secondary (curadas)
RefSeq
Taxon (taxonomia)
SwissProt (proteinas curadas)
OMIM (genes-enfermedades)
26. Formatos frecuentes de secuencias
de ADN y Proteinas
Genbank
ASN1
FASTA
GCG
>gi|1345098|gb|U30791.1|PCU30791
TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA
IG(Intelligenetics)
TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG
Text
GGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCC
AA
27. ¿Cómo averiguar si una secuencia ya existe
en una Base de datos?
¿Cómo averiguar si hay una secuencia
similar a la mia en otro genoma?
¿Cómo averiguar cual es la funcion de mi
secuencia desconocida?
28. La respuesta:
Busquedas de similaridad
Por homología (similaridad en la secuencia)
Requiere una
secuencia para Un Algoritmo para
buscar con mi
buscar Una base de datos
secuencia en la Base
de secuencias
>Mi_Secuencia_desconocida de datos
TGAATTCTAAATTTTATATT donde BUSCAR
TCTAATTGCATTTTATATTTT
TGATAATACTAGATTTATTC
CTGGAAACTTAAATTAGTT
ATTTTAAGTTATGGGATGTT
GTTTTTCTGCTACATATAAC
CAAGATACACTTCGTTCCA
A
29. BLAST (Basic Local Alignment Search Tool)
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Encuentra las regiones de similitud entre secuencias locales.
El programa compara secuencias de nucleótidos o proteínas con bases de datos de
secuencias y calcula la significancia estadística de concordancias. BLAST puede ser
usado para inferir relaciones funcionales y evolutivas entre las secuencias, así como
ayudar a identificar a miembros de familias de genes.
31. Distintos Tipos de BLAST
Tipo de Base Secuencia Tipo de
Programa
de datos desconocida Alineamiento
BLASTP Proteina Proteina Gapped
ADN ADN
BLASTN Gapped
(Nucleic) (Nucleic)
ADN
Frame
BLASTX Proteina Traducido a Gapped
Proteina
BD de ADN
Frame
TBLASTN Traducida a Protein
Gapped
Proteina
BD de ADN
Trans.
TBLASTX Traducida a Ungapped
Nucleic
Proteina
35. Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. El
doctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí.
Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero es
probable que ustedes se estén preguntando de donde viene nuestro ADN de
dinosaurio.
Es algo que me pasó por la cabeza, dijo Grant.
A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica de
anticuerpos de Loy, a veces podemos obtener ADN directamente de huesos de
dinosaurio.
¿Con qué rendimiento?, preguntó Grant.
Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero el
veinte por ciento de las proteínas es aún recuperable a través de la pulverización de
los huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy lo
empleó para obtener proteína de marsupiales australianos extinguidos, así como
células sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinada
que puede funcionar con una cantidad tan ínfima como cincuenta nanogramos de
material, es decir, cincuenta mil millonésimas de gramo.
¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.
36. Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento es
insuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosaurio
para poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedras
amarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró a
Ellie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendo
con la cabeza.
Sigo sin entenderlo , admitió Grant.
La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa.
Entonces, los insectos quedan perfectamente conservados dentro del fósil. Se
encuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadores
que succionaron sangre de animales más grandes.
Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quiere
decir «succionaron la sangre de los dinosaurios».
Con suerte, sí.
Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lo
hubiera pensado! Podría funcionar.
Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopios
estereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbar
que contenía una mosca bajo los objetivos dobles.
37. Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga a
través del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insecto
tiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas y
obtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está,
hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y lo
sometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sido
un proceso largo y lento, pero que rindió buenos resultados.
Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, el
gordo desaliñado, parecía carecer por completo de interés, como si ya supiera todo
eso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente.
Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómo
identificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes.
Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuerte
zumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro de
la sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a la
cintura de un hombre:
Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todas
las cajas que hay a lo largo de las paredes son secuenciadores automáticos de genes
Himachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta ,
que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran en
el centro de una fábrica increíblemente poderosa de productos genéticos.
45. 2.Haz un Blastx.
Busca proteínas usando la secuencia de nucleótidos
Si seguimos el link
La secuencia publicada en el libro de Michael Crichton “El mundo
perdido” ( The Lost World) la generó Mark Boguski, el experto en
biología molecular con el que trabajo Mr. Crichton para escribir la
clonación de los dinosaurios. Mark gastó una broma cuando hizo
esta secuencia.
46. ¿Como conseguimos más
informacion?
¿que podemos deducir?
1- Existe una proteina
que se parece mucho a la
nuestra, pero no tiene la
misma longitud
2- La proteina es un factor
de transcripcion de
eritrocitos, es decir una
proteina que activa la
expresion del un gen para
la produccion de globulos
rojos en pollo (Gallus
gallus)
47. ¿Y si buscamos en una base de datos de
secuencias nucleotidicas?
Vamos a hacer un Blastn con esta secuencia para buscar si hay
alguna/s secuencias de ADN similares
ADN ADN
BLASTN Gapped
(Nucleic) (Nucleic)
48. Selecciona el algoritmo adecuado
Copiar y pegar la
secuencia en el cuadro
Others Seleccionar la Base de Datos
Pincha en Blast
49. Resultados: ¿como interpetarlos?
Gallus gallus
GATA binding protein 1
(globin transcription factor 1)
Chicken erythroid-specific
transcription factor eryf1
mRNA, complete cds
Xenopus laevis
GATA-binding protein
Xenopus laevis (XGATA-2) gene,
GATA binding complete cds
protein 1 (globin
transcription factor
1) (gata1-b), mRNA
Nuestra secuencia de Dinosaurio
esta compuesta de 3 secuencias
actuales
50. ¿Que significa lo que hemos encontrado?
Nuestra secuencia desconocida
capturada en el ámbar hace
millones de años está compuesta
de 3 secuencias actuales de dos
especies distintas
1 de Gallus gallus (pollo)
2 de Xenopus laevis (la rana)
Podemos concluir que
nuestra secuencia es de
Dinosaurio
51. ¿Qué es Ensembl?
•Es un repositorio de genomas completos e información
adicional.
•Tiene múltiples niveles de acceso con una gran
flexibilidad.
Da acceso tanto al genoma humano como a otros
50 genomas.
Permite la realización de búsquedas de homología
Permite descargarse regiones completas del
genoma, genes, proteínas, ect..
Permite extraer todas las SNPs en un gen concreto,
así como sus consecuencias.
http://www.ensembl.org
53. ¿Cuál es la diferencia de estos
navegadores comparados con
Ensembl?
• Ensembl basa su anotación en evidencias experimentales:
mRNA y proteínas (más fiable)
• Permite realizar análisis comparativos de genes
• Permite la integración de datos procedentes de otras bases de
datos (DAS)
• Permite realizar minería de datos: BioMart (Data-mining tool)
55. ¿Qué datos podemos encontrar?
• ARNs (genes no codificadores de proteínas)
• Referencias a bases de datos externas
• Genes, proteínas, variaciones de un gen
• Otras características del genoma: elementos repetitivos,
islas CpG
• Secuencias similares y alineamientos de secuencias al
genoma completo
• Datos de regulación: promotores
• Datos de otras fuentes o usuarios(DAS)
56. Integración de la información
Exon Exon Exon
Untranslated+Coding Coding Untranslated
Genoma
cDNAs alineado
y proteínas
…. demasiada información y poco interpretable
58. ¿Qué significa una ID en
Ensembl?
ENSG### Ensembl Gen ID
ENST### Ensembl Transcrito ID
ENSP### Ensembl Proteína ID
ENSE### Ensembl Exon ID
Para las demás especies, se añade un código de tres
letras que la representa:
MUS (Mus musculus) for mouse: ENSMUSG###
DAR (Danio rerio) for zebrafish: ENSDARG###,
etc.
59. ¿Cómo está organizada toda la
información?¿Cómo accedo?
Ensembl Views • BioMart „DataMining tool‟
(Website)
60. Vamos a pasear por el genoma…
Nuestro ejemplo: el gen de la rodopsina humana (RHO)
• Vamos a obtener el resumen de datos para el gen y sus enlaces
relaccionados: (Gene Tab)
• ¿Cuántas variantes tiene el gen?
• Vamos a ver las secuencias genómicas para esas variaciones
• Vamos a encontrar secuencias con la misma función en otros
organismos
• Vamos a obtener los datos para cada transcrito: (Transcript Tab)
• ¿Cuál es la secuencia de la proteína que codifica?
• ¿Qué informaciones podemos encontrar en otras bases de
datos?
•¿En qué región del genoma, en qué cromosoma se encuentra el gen?:
(Location Tab)
64. Location Tab o ¿dónde está mi gen?
Genes que
rodean a
RHO
Variaciones
conocidas del
gen Rho
Todas las visualizaciones se pueden personalizar, añadiendo o retirando información.
Para ello usa el enlace Configure a tu izquierda.
65. ¿Qué son los enlaces en la ventana
de la izquierda?
Selecciona Gene Tab
¿Cómo veo la
secuencia en el
genoma?
66. ¿Cómo defino lo que quiero ver?
Para configurar la página haz
click aquí
Selecciona: Display variations
Determina el número
de líneas: Number of lines
67. ¿Cómo puedo extraer la secuencia?
Después de investigar las ventanas: Location/Gene display,
nos gustaría conseguir la secuencia genómica en la que se
encuentra el gen RHO.
Para ello ve a “Export data option” y haz click en “Next”
68. Genómica Comparativa: Alineamientos
genómicos
Para ver el alineamiento genómico a
nivel de nucleótidos
Selecciona “12 eutherian mammals
¿Cómo puedo ver los EPO”. EPO se refiere al flujo de
alineamientos genómicos programas detrás de los alineamientos
que hay de esta region? de genomas completos
Los residuos idénticos están
marcados
69. Tipos de secuencias Homólogas
Secuencias homólogas son secuencias muy parecidas
• Ortólogas: Son secuencias muy parecidas que
realizan la misma función en distintos organismos.
Normalmente comparten un ancestro común y se
identifican en los árboles por eventos de especiación.
• Parálogas: Cualquier secuencia parecida que
proviene de un proceso de duplicación. Normalmente
terminan desempeñando otra función.
70. Cómo ver secuencias Homológas en Ensembl:
Tree View
Haz click en Gene tree (image). Esta imagen te muestra todos los genes
parecidos a tu secuencia en el contexto de un árbol filogenético.
Este árbol sirve para identificar secuencias ortólogas y parálogas
Click en
Orthologues para
ver las
secuencias
ortólogas
identificadas por
el árbol
Click en cualquier nodo para extender o reducir el árbol.
71. Tabla de secuencias ortólogas
¿Qué es „1 to 1‟? one-to-one ortólogo:
En ambas especies sólo hay un ortológo.
¿Qué es „1 to many‟? one-to-many or many-to-many ortólogos:
en al menos una de las dos especies hay una
duplicación después de la separación de ambas
especies (especiación)
72. Cómo interpretar los árboles
Un cuadrado
azul es un
proceso de
especiación
(Orthologos)
Un cuadrado
rojo es un
proceso de
duplicación
(Paralogos)
73. Gene Tab: Información de un gen
Vuelve al Gene Tab.
Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parte
informativa).
Selecciona el transcrito más largo de la tabla (ENST00000296271).
Esto te llevará al resumen del transcrito Transcript Tab
En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres
ver.
74. Exones de un Transcrito
Selecciona Exons en el menú de la izquierda para visualizar las secuencias de
los exones. Esta vista te muestra flancos
(exones, intrones y las secuencias que flanquean al gen). (verde)
UTRs
(morado)
Intrones
(azul) Secuencias codificadoras de
proteínas (CDS)
Configure para cambiar la vista: (negro)
enseñar las secuencias de los intrones enteras,
mostrar sólo exones, ect..
75. ¿Hay información sobre mi
secuencia en otras bases de datos
biológicas? Aquí podrás ver todas las referencias
a bases de datos externas que se
conocen sobre tu secuencia.
General identifiers
76. ¿Cómo es la proteína que codifica m
gen?
Ensembl
proteína
Motivos
mapeados a la
secuencia
Haciendo
click en
Domains &
features se
muestran
todos los
motivos
que se han
encontrado
en la
proteína.
77. Variaciones Genómicas: SNP
• Polymorfismo: Es una variación del ADN que está presente en al
menos un 1% de la población
• El 90% de los polimorfismos son SNPs (Single Nucleotide
Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo)
en el ADN
Type Description Consequence
non-synonymous SNP SNPs en el ADN altera un Fibrosis cística(CFTR)
aa de la proteína Hemofilia (F8)
synonymous SNP SNPs en el ADN no altera Pero puede afectar a la
la secuencia de la proteína correcta producción del
transcrito
regulatory SNP SNPs está en una región Puede afectar el nivel de
reguladora de la expresión expresión
SNPs en otras regiones Útiles como marcadores “No tiene impacto”
78. Tabla de Variaciones Genómica
Mira la tabla de variaciones para RHO a partir de la
Gene Tab
79. Imagen de Variaciones Genómica
Muestra de una forma gráfica las variaciones sobre la secuencia del Transcrito
Selecciona en
Configure
“Consequence
Type”
Selecciona sólo
Non_Synonimo
us SNPs
81. GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA
¿Qué es el ADN?
GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGC
TTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTG
ATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATC
AGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGG
CCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT
Es un alfabeto de 4 caracteres
GCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGG
TGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAG
ATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA
Este alfabeto de 4 caracteres contiene suficiente información para
AAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGAT
ATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA
crear organismos complejos, mediante el uso de largas palabras
CTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAA
ATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAA
GGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT
Similitud con el código binario
ACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACT
TATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAAC
TCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGG
AATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTG
AAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAAC
AACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACT
AAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTT
TTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATG
AAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATT
CACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATAT
TCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCA
CAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA
87. Código genético
Un codón tiene 3 bases
Adenina Timina Guanina Citosina
4 * 4 * 4 = 64 combinaciones posibles (codon)
Codón de inicio: AUG
Codónes de parada o Stop: UAA, UAG, UGA
61 codones codifican el resto de los 20 amino ácidos (AUG también
20 aminoácidos
Metionina)
88. Organización del genoma humano
Distribución no uniforme de genes y repeticiones a
lo largo del GH.
5% es codificante
50% es copia única
50% DNA repetitivo
95. Mecanismos celulares de reparación
DURANTE LA REPLICACIÓN:
-Roturas de una de las hebras de DNA (DNA polimerasa
I/DNA Ligasa)
-Inserción de un nucleótido (DNA polimerasa
(exonucleasa3’-5’, actividad correctora de errores)
POR EXPOSICIÓN A RADIACIONES EXTERNAS:
-Formación de dimeros de timina (DNA polimerasa
I/endomnucleasa 5’-3’
96. Mecanismos de mutación
A C T G C T
DELECION
SUSTITUCION
A C G C
A C C G C T
T
INSERCION -T
TxC A C T T G C T
+T
97. Mutación neutra
His Lys Tyr His
C A C A A G U A U C A C
MUTACIÓN
C A C A A G U A G C A C
His Lys Tyr His
98. Mutación sin significado
(nonsense mutation)
His Lys Tyr His
C A C A A G U A U C A C
MUTACIÓN
His Lys
C A C A A G U A A
TRIPLETE DE
PARADA
99. Mutación de significado erróneo
(missense mutation)
His Lys Tyr His
C A C A A G U A U C A C
MUTACION
C A C A A G U G U C A C
His Lys Cis His
100. Métodos de detección de
mutaciones
La detección de mutaciones es esencial para la caracterización
molecular, diagnostico, prevención y tratamiento de enfermedades.
Los cambios en el DNA son responsables de fenotipos particulares
MÉTODO DE DETECCIÓN:
- SECUENCIACIÓN DIRECTA
- ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP)
- SSCP (Single-Strand Conformational Polymorphism)
- HA (Heterodúplex Analysis)
- CSGE (Conformation Sensitive Gel Electrophoresis)
101. Qué son los SNPs?
La secuencia nucleotídica de dos personas difiere
en un punto determinado de ésta
GAGAC
Transitiones: pu/pu (A y G) py/py (T y C) (~70%)
Transversiones: py/pu
GATAC
Ocurre muchas veces?
Es la variación genética más abundante en los genomas
y en especial en el Genoma Humano
Como media hablamos de 1 cambio cada 500 ó 1000 pares de bases
Actualmente se conocen más 2.25x106 validados
102. Qué son los SNPs?
Allele frecuency (1%)
Frecuencia alélica o frecuencia génica es la proporción que se
observa de un alelo específico respecto al conjunto de los que
pueden ocupar un locus determinado en la población.
103. Qué es un alelo?
Alelo es cada una de las formas alternativas que puede tener un
gen que se diferencian en su secuencia y que se puede manifestar
en modificaciones concretas de la función de ese gen.
104. Qué es un locus/loci?
Locus (plural loci) es una posición fija sobre un cromosoma,
como la posición de un gen o de un biomarcador (marcador
genético).
El locus cromosómico de un gen podría ser anotado, por ejemplo,
como 22p11.2:
105. Haplotipos
Combinación de alelos en diferente loci a lo largo de un
cromosoma los cuales son transmitidos juntos de una
generación a la siguiente
CG CG TG
CG TG TG
C/T G/A CG
CG CA TG
CG
TA TG CA
CA TA
TG TA CA CA
TA TA TA CA
haplotipos diplotipos
En general, en las diferentes regiones cromosómicas se observan
pocos haplotipos
Estos pocos haplotipos representan la mayoría de variación
existente entre distintas personas de una población
106. Qué es un haplotipo
Alelos posibles
o = LD
Gen +
disease
Haplotipo de
Uno de los posibles haplotipos riesgo
107. Qué son los SNPs?
• Polimorfismo: coexistencia de variante en la población sin
repercusión fenotípica.
• Presentes en un porcentaje superior al 1% de la población
general.
• Lo que hace que todo el mundo sea portador de varios
cambios respecto a sus vecinos.
• Diferentes tipos: genéticos, cromosómicos, proteínicos.
• Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA.....
• Responsables de la variabilidad humana.
108. Tipos de
Polimorfismos
SNP = single nucleotide polymorphism
Cambio simple de una base por otra
Pequeñas delecciones e inserciones
Large-scale copy-number variation/polymorphism
(LCV/CNP):
Delecciones e inserciones grandes que llevan a
variación en el número de repeticiones de una
secuencia
Alteraciones estructurales: inversiones,
translocaciones y aneuploidías
109. Papel de los SNPs en las
enfermedades compleja
Environmental
Common multifactorial
complex diseases
Cause Independently
from genetic
input
Genetic
Disease
Mendelian diseases
110. Papel de los SNPs
Gen A
Gen D
Gen A
Enfermedad monogénica Gen B Gen C
Enfermedad compleja
Herencia dominante, recesiva o Caso esporádico
ligada al X
100 100
30
Riesgo genético poblacional Riesgo genético poblacional
100 30
Riesgo genético en distintas familias Riesgo genético en distintos individuos
111. Modelo multilocus interactuando con factores
ambientales
Gen principal Genes modificadores Ambiente
Gen 1 Gen 2 Gen 3 Gen 4 Amb1 Amb 2
Fenotipo
112. Para qué sirven SNPs?
1. Como variación directamente asociada a fenotipo/enfermedad
SNPs causales (con función y efecto fenotípico)
Farmacogenética (enzimas con cambios funcionales en proteína o
promotor. Influyendo en la actividad o expresión y por tanto en la capacidad
de metabolizar)
SNPs que afectan la terapia contra
leucemias a | La mercaptopurina (MP) se
convierte en nucleotido tioguanina mediante
(HPRT) (metabolito activo),
Otro enzima, la TPMT convierte la MP en (MeMP),
el metabolito inactivo.
b | La frecuencia en la población de la actividad
de TPMT muestra un patrón trimodal.
--0.3% (mut/mut) for mutations in TPMT,
--10% (wt/mut) for mutations in TPMT,
-- 90% (wt/wt) TPMT.
c | TPMT genotipo esta correlacionado con el
fenotipo.
113. Para qué sirven SNPs?
2. Como marcadores genéticos en estudios de:
2.1. Asociación: Casos vs Controles no relacionados
REPRESENTATIVE BREAST REPRESENTATIVE CONTROL
CANCER POPULATION POPULATION
Clinical information of tumours
(histológical grade, tumor grade,
....)
Patient age/ diagnostico age
Environmental data:
(smoke, alcohol, diet, sport...)
........
Ej: 900 cases/900 controls
CNIO Human genetics Depart
114. Para qué sirven SNPs?
2. Como marcadores genéticos en estudios de:
2.2 Búsqueda de genes implicados en enfermedades: familias
1 2
Los Haplotipos se realizan para
A a a a
B b b b
confirmar la posición del locus de la
C c c c enfermedad.
D d d d
Seguimiento de los marcadores a traves
3 4 5 6 del pedigree observando los puntos de
reconbinación
A a a a a a
a a
B b b b b b
b b
C c c c c c
c c Tradicionalmente realizados con
D d d d d d
d D
microsatélites en enfermedades
monogénicas,
7 8 9 10
a a a A A a a a
B b b b B b b b Actualemente se pueden realizar con
C c c c C c c c
SNPs (menos informativos pero mucho
D d d d d d d D
más abundantes).
115. Para qué sirven SNPs?
2. Como marcadores genéticos en estudios de:
2.3 Genética de poblaciones
Otras aplicaciones:
Forense: Identificación individuos y/ relaciones de parentesco
clasificación de especies/subespecies (plantas y animales)
116. Cómo trabajar con los SNPs?
Directamente: SNPs (funcionales)
TFS Amino acid
change
Haplotipos: mirando desequilibrio de ligamiento
117. Desequilibrio de ligamiento
Alto LD.
Bajo LD.
Pocos Haplotipos
Muchos Haplotipos
>% de representación
<% de representación
LD = 0 LD = 1
118. Tag_SNP
Genotipar tag_SNPs en un bloque con alto desequilibrio de
ligamiento da la misma información que genotipando todos los
SNPs comunes presentes.
Ventaja: económica y tiempo en obtener resultados
119. Eficacia y poder
tag SNPs
Relative power (%)
~300,000 tag SNPs
needed to cover common
variation in whole genome
in CEU
random
SNPs
Average marker density (per kb)
121. Proyecto HapMap:
http://www.hapmap.org/index.html
• 270 DNAs from different
% sequencing among partners
populations
Canada China • 30 trios from Nigeria
10% 10% (Yoriba)
UK USA
24% 31%
• 30 trios from CEPH:
Japan -African_American
25% -European_American
• 45 Han Chinese (Beijing)-
chromosomes to be • 45 Japanese (Tokyo)
screened
2,4p 3,8p,21
8q,9,18q,22,X,
4q,7,18,Y,12
1,6,10,13,20
5,11,14,15,16,17,19
122. Proyecto HapMap
• Desarrollo tecnológico: plataformas/herramientas
análisis
• Definir patrones de variación genética a lo largo del
genoma humano
• Guiar la selección de SNPs eficientemente hacia
variantes comunes “tags”
• Acceso público de todos los datos (ensayos, genotipos,
ld, bloques, tags) via página web.
Phase I: 1.3 M markers in 270 people
Phase II: +2.8 M markers in 270 people
123. Proyecto HapMap
Variabilidad Humana (Proyecto Genoma Humano)
• A raíz del proyecto Genoma Humano se vio que el 0.1%
de nuestro genoma es variable, en gran parte debido a los
SNP ó polimorfismos de una sola base.
•Los SNP son muy frecuentes (se han descrito alrededor
de 8 millones a lo largo del genoma)
• Están localizados tanto en intrones como en exones (5-
10 SNPs/gen)
• Pueden producir ligeras alteraciones en la proteína que
van a ser responsables de nuestra variabilidad.
124. Como se detectan los SNPs?
G (wt)
LTA
Allele1 (A)
Allele2 (G)
A G (het)
TNF
Allele2 (A)
Allele1 (G)
Allele1 (A)
Allele2 (C)
LST
125. Técnicas clásicas de genotipado
1 muestra – 1 SNP
Desventajas: muestra, tiempo, dinero.
Secuenciación
CSGE
SSPC
DHPLC
126. Taqman
Permite genotipar 384 muestras para un único SNP.
Ventaja: mayor número de muestras.
127. DHPLC
Discriminates Heteroduplex fragments from homoduplexes
. Appropiated fragment melting t
. Specific ACN % according to size and GC content
2a. DHPLC results
Het A Het B (1st postion)
Hom atg
(2nd,3rd pos) Hom tgt
Hom tgt
Hom tgt Hom atg NME1 promotor fragment
129. DNA Genómico
Captura en soporte sólido
Plataforma Illumina
1536 tipos de Bead
Hibridación de oligos
Un solo tubo
Extensión alelo-específica
y Ligación
ASOs
P1
3’
Etiqueta
5’ P2 P3
5’ LSO
PCR con primers
Universales
P1 P3
P2
Etiqueta
Hibridación contra el array
Escaneo
T/T T/C C/C
130. SNPlex
1. Activación de los oligonucleótidos
2. Ligación de los oligonucleótidos
3. Purificación de los oligonucleótidos ligados
4. Amplificación con primers universales
5. Captura del DNA biotinilado
6. Hibridación con sondas ZipChute
7. Elución de las sondas ZipChute
8. Electroforesis capilar para la detección de las sondas ZipChute
9. Análisis de los resultados con GeneMapper
ZipCode1 ZipCode2
NNNNNNNNN NNNNNNNNN
electroforesis
A1A1 A1A2 A2A2
131. Sequenom
La tecnología de MassArray (Sequenom) se basa en la detección de los
productos de la reacción de discriminación alélica mediante MALDI-TOF.
El proceso de genotipado consta de dos reacciones.
• Amplificación de los fragmentos de ADN que contienen los SNPs de
interés mediante una PCR multiplex.
• Reacción de discriminación alélica, a través de una reacción de
minisecuenciación que bien terminará en la base polimórfica o bien
continuará por la región amplificada de cada SNP dependiendo de la
presencia o ausencia de uno de los dos alelos.
El uso de cebadores de minisecuenciación con distintas longitudes permite
identificar los picos de los productos de cada SNP. Las reacciones tienen lugar
en placas de 384 pocillos y los productos de dichas reacciones son
transferidos de forma automatizada mediante un robot a la superficie del chip
que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips
simultáneamente..
Capacidad aproximada: 45.000 genotipos / semana
132. NEXT SEQUENCING (NGS)
Plataforma Casa comercial Técnica DNA Longitud
lectura
454 Roche Síntesis Emulsión PCR 250-400pb
SOLID Applied Ligación Emulsión PCR 50pb
Biosystem
Helicoscope Helicos Síntesis No 25-25pb
amplificación
GenomeAnalyzer Illumina Síntesis Bridge PCR 32-40 (100)pb
Plataforma Capacidad Precio Error Errores
454 300 Mb/día 60$/Mb <1% Si hay muchas
bases iguales no
sabe cuantas
SOLID 600 Mb/día 1$/Mb <0,1% Sustituciones
Lee todo 2 veces
Lee en los 2 sentidos
Helicoscope 1200Mb/día 1$/Mb Alto 4% NC
90Gb
GenomeAnalyzer 400 Mb/día 2$/Mb 1%/Mb Sustituciones
Lee en los 2 sentidos
133. NEXT SEQUENCING (NGS)
Plataforma Casa comercial Ventajas/Inconve Ventajas/Inconveni
nientes entes
454 Roche
SOLID Applied Biosystem Si diferencia SNPs Lee 2 veces
Lee en los 2 sentidos
Helicoscope Helicos DNA directamente
GenomeAnalyzer Illumina No diferencia SNPs Lee en los 2 sentidos
Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic
139. dbSNPs
Contiene distintas fuentes de variación génica:
(1) SNPs
(2) short deletion and insertion polymorphisms (indels/DIPs),
(3) microsatellite markers or short tandem repeats (STRs)
(4) multinucleotide polymorphisms (MNPs)
(5) named variants
ss o submitted SNP : Todo centro privado o público puede enviar información
acerca de SNP (frecuencia, población,...) en concreto y para eso a cada centro
se le asigna un código.
Varios ss pueden hacer referencia a un único SNP y por tanto la información
general relativa a éste se guarda en un rs o reference SNP.
151. Ontologías
Secuenciación de genomas Enormes cantidades de
información biológica
Necesidad de extraer conocimiento de estos datos
Identificar funciones de genes
Papel fundamental de las Bio-ontologias para integración
automática de conocimiento.
1
5
1
152. Motivación
Resultados de los métodos estadísticos y algoritmos de aprendizaje
automático (clustering, clasificación):
Largas listas de genes
PROBLEMA: dar interpretación biológica a estos conjuntos de
genes (asignarles una función/rol biológico)
SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos
bioinformáticos disponibles
153. Anotación funcional
Para ayudar a la interpretación biológica de grandes listas de
genes:
◦ Consultar bases de datos de anotaciones como GO, KEGG,
FatiGo, PANTHER, DAVID, IPA
◦ Poner genes en contexto a partir de información extraída de
la literatura científica
◦ Identificar Pathways y Procesos enriquecidos
◦ Visualizar la red de interacciones y editarla.
◦ Estudiar si hay clases funcionales enriquecidas entre los
genes seleccionados
◦ Agrupar los genes por su similitud funcional
154. ¿Qué es GO?
GENE ONTOLOGY (GO) http://www.geneontology.org/
Ontología: un vocabulario estructurado y riguroso
Función: describir los roles de los genes y sus productos.
Utiliza: 3 ontologías independientes: Biological process,
molecular function y cellular component.
Los términos (nodos) de la ontología tienen relaciones entre sí
(es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).
155. Genes y términos GO
Términos más generales cuanto más cerca de la raiz
Los genes se anotan en el nivel más específico posible, pero
comparten los atributos de todos los nodos ancestros.
169. IL1 signalling
Accumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence was
generated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness and
angiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.