Introduccion a la bioinformatica

Introducción a la Bioinformática

Marta Cuadros, Carlos Cano

Departamento de Ciencias de la Computación e
Inteligencia Artificial
Universidad de Granada

De la Biología y la Informática a la
Bioinformática……
Historia de la Informatica

Historia de la Biología Molecular

De la Biología y la Informática a
la Bioinformática……

Bioinformática

¿Que es Bioinformática?
La bioinformática es un campo de la ciencia donde se
integran con la biología diferentes disciplinas como:

Matemáticas
Estadística
Bioinformática

Teoría
Físca-química
de Control

Ciencias de Biología Biología
la Computación Molecular estructural

…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
Source: http://ccb.wustl.edu/

Interdisciplinaridad y problemas de
comunicación
El ADN es un polímero de
nucleótidos. Cada nucleótido está
formado por un grupo fosfato, Es una cadena / “string” de
una desoxiribosa y una base longitud variable y con un
nitrogenada. alfabeto de cuatro
caracteres A, T, C, G
Los nucleótidos se diferencian
por sus bases nitrogenadas
divididas en dos grupos: dos
purínicas denominadas adenina
GCCACATGTAGATAATTGAAACTGGATCCTCA
(A) y guanina (G) y dos TCCCTCGCCTTGTACAAAAATCAACTCCAGAT
pirimidínicas denominadas GGATCTAAGATTTAAATCTAACACCTGAAACC
ATAAAAATTCTAGGAGATAACACTGGCAAAGC
citosina (C) y timina (T). TATTCTAGACATTGGCTTAGGCAAAGAGTTCG
TGACCAAGAACCCAAAAGCAAATGCAACAAAA
ACAAAAATAAATAGGTGGGACCTGATTAAACT
GAAAAGCCTCTGCACAGCAAAAGAAATAATCA
GCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAA
AG

Bioinformatica: convergencia de dos
revoluciones
El crecimiento exponencial de datos y la era de la
información

10 Enero 2011:
225,047,396,161 bases

Hoy en día…

...las nuevas tecnologías
en biología están
cambiando la forma de
abordar los problemas
debido a:

-la gran cantidad de datos

- y las multiples tipologías
de estos

Ninguna persona o grupo puede tiene Se hace necesaria la aparición de
una visión general de todo lo conocido ciencias interdisciplinares como
la Bioinformatica

Ámbito de aplicación de la Bioinformática

Dogma Central de la Biología

Replicacion ADN

Trascripción

ARN ncRNAs

Traducción

Proteína

Modificaciones
post-transduccionales
Fenotipo

Bioinformatica: Omas y Omicas
Genomica
Secuencias primarias (DNA, RNA)
Replicacion ADN
Bases de datos (BD), algoritmos
Genomas
Estudios de evolución molecular
Trascripción

Transcriptomica(Genomica Funcional)
Datos de expresion (Microarray data) ARN
BDs, herramientas de analisis
Traducción
Proteomica
Secuencias de proteina y estructuras
espectometría de masas, rayos-X, Proteína
cristalografia
Modificaciones
post-transduccionales
Biologia de sistemas Fenotipo
(metabolòmica)
flujos metabólicos Interactómica
redes de interacción

Genómica y genomas
Es el estudio de la secuencia estructura y
funcion del genoma

Especies Conocidas Evolución de los genomas
secuenciados en los últimos
años

Año Numero de Geomas
secuenciados
1994 0
1995 1
Enero 2011 1780
Eucariotas 272 (41 mamiferos)
Bacterias 1518
Arqueobacterias 81

Projecto: Genoma Humano
Projecto Internacional 15 Febrero 2001
Determinar la secuencia genomica humana y de
otros oganismos modelo

Tiempo y coste
han sido los factores limitantes

Etapas en el proyecto genoma
1991..Human Genome Project begins
1994-1996..genetic maps

1995-1998..physical maps

1998..DNA sequencing begins

2000...Rough draft DNA sequence

2003…Complete DNA sequence

2005…...Gene map complete

Evolución del Coste y tiempo
necesario para la Secuenciación
2001: Human de Genomas
Genome Project
2.7G$,
11 years
10

2007: 454
8
Log10(price)

1M$, 3 months
2008: ABI SOLiD
6 60.000$, 2 weeks
2010: 5000$,
2001: Celera a few days?
4 2009: Illumina,
100M$, 3 years
Helicos
40-50000$
2
2012: 100$,
<24 hrs?

2000 2005 2010
Year 13

Transcriptomica
Desde la caracterización del genoma
humano, han surgido nuevas vías de
investigación sobre el análisis global
del material genético.

Es evidente que NO todo el genoma
es transcrito y traducido finalmente a
proteínas

Transcriptoma surge para
representar todo el mRNA transcrito
bajo unas circunstancias, de forma
global.

Cada organismo tiene infinidad de
transcriptomas dependiendo del tipo
tisular o las condiciones ambientales
que se estudien.

Transcriptomica
Muestra 1 Muestra 2 DNA chip technology
sano enfermo

Extracción
de ARN
RNA RNA
Sintesis de
cDNA cDNA cDNA
fluorescente
Interpretación

amarillo No especifico
DNA chip rojo Especifico Muestra 1
verde Especifico muestra 2

Source: deRisi et al., Science 1997

Proteoma y Proteomica

Proteoma. Es el set completo de proteinas y otros
productos génicos producidos por el genoma.

Proteomica. Es el estudio de las interacciones entre
proteinas, incluyendo diferencias en los distintos
estados del desarrollo, tejidos y organos.

Datos y ciencias utilizadas actualmente en estudios Bioinformáticos

¿Para qué es necesaria la Bioinformática?
…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
Lo cual facilita la integración
de información y una mejor
comprensión de los sistemas
Biológicos

Establece puentes entre distintas
áreas de conocimiento

Tipos de estudios que han utilizado la
Bioinformática
 Medicina Molecular  Agricultura
◦ Nuevos medicamentos ◦ Cultivos
◦ Medicina personalizada ◦ Resistencia a los insectos
◦ Medicina preventiva ◦ Mejorar la calidad nutricional
◦ Terapia génica ◦ cultivos en suelos más pobres y que son
resistentes a la sequía

 Aplicaciones genomas
microbiano  Animales
◦ Residuos de limpieza
◦ El cambio climático  Estudios comparativos
◦ Fuentes alternativas de energía
◦ Biotecnología
◦ Resistencia a los antibióticos
◦ Análisis forense de los microbios
◦ Estudios evolutivos

Bases de Datos Biológicas

¿Qué es una base de datos?
¿Qué tipos de datos hay disponibles?
¿Qué es el esquema Genbank ?
¿Cómo es una entrada de datos en una BD biologica?
¿Cómo se usan?

¿Que es una base de datos?

Es una colección de datos que tiene que ser:
◦ estructurada
◦ buscable
◦ actualizaciones regulares
◦ links y referencias a otras colecciones de datos

Algunas Bases de datos Biológicas
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, OMIA, OMIM, OPD, ORDB, OWL, PAHdb,
ARR, AsDb, BBDB, BCGD, Beanref, PatBase, PDB,
Biolmage, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD
BioMagResBank, BIOMDB, BLOCKS, PPDB, PRESAGE, PRINTS, ProDom, Prolysis,
BovGBASE, PROSITE,
BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE
CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase
DictyDb, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D
Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE,
ECDC, SWISS-
ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, MODEL Repository, SWISS-PROT, TelDB, TGN,
EMD db, tmRDB,
ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, TOPS, TRANSFAC, TRR, UniGene, URNADB, V
GCRDB, GDB, GENATLAS, Genbank, GeneCards, BASE,
Genline, GenLink, GENOTK, GenProtEC, VDRR,VectorDB, WDCM, WIT, WormPep,YEPD
GIFTS, YPD,
Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol- YPM, etc .................. !!!!
R-Us,
MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-
lycBase,

Tipos de Bases de Datos
Database Types

Other
 Hay muchas BD de Genomas
Gene Nucleotide
Expression Sequence
RNA Sequence
Disease  La mayoria no son de secuencias

Protein
Genome
Sequence  Hay muchas bases de datos especificas
(human)

Pathways  Bases de datos especializadas en
Structure enfermedades
Genome (non-
human)

• Actualizaciones diarias entre
NIH (USA) Entrez •
los paises
DDBJ, GenBank and EMBL.

NCBI

•Submissions GenBank
•Submissions
•Updates •Updates
EMBL
DDBJ
CIB EBI

•Submissions
•Updates SRS

EMBL(Europa)
getentry

NIG (JAPON)

Tipos de Bases de Datos Biologicas

Primarias (almacenamiento)
GenBank/EMBL/DDB
UniProt (proteinas)
PDB (estructuras)
Medline (PubMed) Articulos

Secondary (curadas)
RefSeq
Taxon (taxonomia)
SwissProt (proteinas curadas)
OMIM (genes-enfermedades)

Formatos frecuentes de secuencias
de ADN y Proteinas
Genbank
ASN1
FASTA
GCG
>gi|1345098|gb|U30791.1|PCU30791
TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA
IG(Intelligenetics)
TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG
Text
GGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCC
AA

¿Cómo averiguar si una secuencia ya existe
en una Base de datos?

¿Cómo averiguar si hay una secuencia
similar a la mia en otro genoma?

¿Cómo averiguar cual es la funcion de mi
secuencia desconocida?

La respuesta:
Busquedas de similaridad
Por homología (similaridad en la secuencia)

Requiere una
secuencia para Un Algoritmo para
buscar con mi
buscar Una base de datos
secuencia en la Base
de secuencias
>Mi_Secuencia_desconocida de datos
TGAATTCTAAATTTTATATT donde BUSCAR
TCTAATTGCATTTTATATTTT
TGATAATACTAGATTTATTC
CTGGAAACTTAAATTAGTT
ATTTTAAGTTATGGGATGTT
GTTTTTCTGCTACATATAAC
CAAGATACACTTCGTTCCA
A

BLAST (Basic Local Alignment Search Tool)

http://blast.ncbi.nlm.nih.gov/Blast.cgi
Encuentra las regiones de similitud entre secuencias locales.
El programa compara secuencias de nucleótidos o proteínas con bases de datos de
secuencias y calcula la significancia estadística de concordancias. BLAST puede ser
usado para inferir relaciones funcionales y evolutivas entre las secuencias, así como
ayudar a identificar a miembros de familias de genes.

Distintos Tipos de BLAST
Tipo de Base Secuencia Tipo de
Programa
de datos desconocida Alineamiento

BLASTP Proteina Proteina Gapped

ADN ADN
BLASTN Gapped
(Nucleic) (Nucleic)
ADN
Frame
BLASTX Proteina Traducido a Gapped
Proteina
BD de ADN
Frame
TBLASTN Traducida a Protein
Gapped
Proteina
BD de ADN
Trans.
TBLASTX Traducida a Ungapped
Nucleic
Proteina

Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. El
doctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí.
Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero es
probable que ustedes se estén preguntando de donde viene nuestro ADN de
dinosaurio.
Es algo que me pasó por la cabeza, dijo Grant.
A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica de
anticuerpos de Loy, a veces podemos obtener ADN directamente de huesos de
dinosaurio.
¿Con qué rendimiento?, preguntó Grant.
Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero el
veinte por ciento de las proteínas es aún recuperable a través de la pulverización de
los huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy lo
empleó para obtener proteína de marsupiales australianos extinguidos, así como
células sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinada
que puede funcionar con una cantidad tan ínfima como cincuenta nanogramos de
material, es decir, cincuenta mil millonésimas de gramo.
¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.

Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento es
insuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosaurio
para poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedras
amarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró a
Ellie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendo
con la cabeza.
Sigo sin entenderlo , admitió Grant.
La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa.
Entonces, los insectos quedan perfectamente conservados dentro del fósil. Se
encuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadores
que succionaron sangre de animales más grandes.
Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quiere
decir «succionaron la sangre de los dinosaurios».
Con suerte, sí.
Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lo
hubiera pensado! Podría funcionar.
Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopios
estereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbar
que contenía una mosca bajo los objetivos dobles.

Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga a
través del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insecto
tiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas y
obtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está,
hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y lo
sometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sido
un proceso largo y lento, pero que rindió buenos resultados.
Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, el
gordo desaliñado, parecía carecer por completo de interés, como si ya supiera todo
eso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente.
Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómo
identificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes.
Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuerte
zumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro de
la sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a la
cintura de un hombre:
Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todas
las cajas que hay a lo largo de las paredes son secuenciadores automáticos de genes
Himachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta ,
que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran en
el centro de una fábrica increíblemente poderosa de productos genéticos.

Intentemos ayudar al Dr. Wu a identificar
su secuencia
>LostWorld DNA
gaattccgga agcgagcaag agataagtcc tggcatcaga tacagttgga gataaggacggacgtgtggc agctcccgca gaggattcac
tggaagtgca ttacctatcc catgggagccatggagttcg tggcgctggg ggggccggat gcgggctccc ccactccgtt
ccctgatgaagccggagcct tcctggggct gggggggggc gagaggacgg aggcgggggg gctgctggcctcctaccccc
cctcaggccg cgtgtccctg gtgccgtggg cagacacggg tactttggggaccccccagt gggtgccgcc cgccacccaa
atggagcccc cccactacct ggagctgctgcaaccccccc ggggcagccc cccccatccc tcctccgggc ccctactgcc
actcagcagcgggcccccac cctgcgaggc ccgtgagtgc gtcatggcca ggaagaactg cggagcgacggcaacgccgc
tgtggcgccg ggacggcacc gggcattacc tgtgcaactg ggcctcagcctgcgggctct accaccgcct caacggccag
aaccgcccgc tcatccgccc caaaaagcgcctgcgggtga gtaagcgcgc aggcacagtg tgcagccacg agcgtgaaaa
ctgccagacatccaccacca ctctgtggcg tcgcagcccc atgggggacc ccgtctgcaa caacattcacgcctgcggcc tctactacaa
actgcaccaa gtgaaccgcc ccctcacgat gcgcaaagacggaatccaaa cccgaaaccg caaagtttcc tccaagggta
aaaagcggcg ccccccgggggggggaaacc cctccgccac cgcgggaggg ggcgctccta tggggggagg
gggggacccctctatgcccc ccccgccgcc ccccccggcc gccgcccccc ctcaaagcga cgctctgtacgctctcggcc ccgtggtcct
ttcgggccat tttctgccct ttggaaactc cggagggttttttggggggg gggcgggggg ttacacggcc cccccggggc tgagcccgca
gatttaaataataactctga cgtgggcaag tgggccttgc tgagaagaca gtgtaacata ataatttgcacctcggcaat tgcagagggt
cgatctccac tttggacaca acagggctac tcggtaggaccagataagca ctttgctccc tggactgaaa aagaaaggat ttatctgttt
gcttcttgctgacaaatccc tgtgaaaggt aaaagtcgga cacagcaatc gattatttct cgcctgtgtgaaattactgt gaatattgta
aatatatata tatatatata tatatctgta tagaacagcctcggaggcgg catggaccca gcgtagatca tgctggattt gtactgccgg
aattc

¿Existe una proteína similar?

Vamos a hacer un Blastx con esta secuencia

ADN
Frame
BLASTx Proteina Traducido a Gapped
Proteina

Selecciona el algoritmo adecuado

Copiar y pegar la
secuencia en el cuadro

Seleccionar la Base de Datos

Pincha en Blast

Resultados: ¿como interpetarlos?

Resultados: ¿cómo interpretarlos?

Resultados: ¿como interpretarlos?

2.Haz un Blastx.
Busca proteínas usando la secuencia de nucleótidos
Si seguimos el link
La secuencia publicada en el libro de Michael Crichton “El mundo
perdido” ( The Lost World) la generó Mark Boguski, el experto en
biología molecular con el que trabajo Mr. Crichton para escribir la
clonación de los dinosaurios. Mark gastó una broma cuando hizo
esta secuencia.

¿Como conseguimos más
informacion?

¿que podemos deducir?

1- Existe una proteina
que se parece mucho a la
nuestra, pero no tiene la
misma longitud

2- La proteina es un factor
de transcripcion de
eritrocitos, es decir una
proteina que activa la
expresion del un gen para
la produccion de globulos
rojos en pollo (Gallus
gallus)

¿Y si buscamos en una base de datos de
secuencias nucleotidicas?

Vamos a hacer un Blastn con esta secuencia para buscar si hay
alguna/s secuencias de ADN similares

ADN ADN
BLASTN Gapped
(Nucleic) (Nucleic)

Selecciona el algoritmo adecuado

Copiar y pegar la
secuencia en el cuadro

Others Seleccionar la Base de Datos

Pincha en Blast

Resultados: ¿como interpetarlos?
Gallus gallus
GATA binding protein 1
(globin transcription factor 1)
Chicken erythroid-specific
transcription factor eryf1
mRNA, complete cds

Xenopus laevis
GATA-binding protein
Xenopus laevis (XGATA-2) gene,
GATA binding complete cds
protein 1 (globin
transcription factor
1) (gata1-b), mRNA
Nuestra secuencia de Dinosaurio
esta compuesta de 3 secuencias
actuales

¿Que significa lo que hemos encontrado?

Nuestra secuencia desconocida
capturada en el ámbar hace
millones de años está compuesta
de 3 secuencias actuales de dos
especies distintas

1 de Gallus gallus (pollo)

2 de Xenopus laevis (la rana)

Podemos concluir que
nuestra secuencia es de
Dinosaurio

¿Qué es Ensembl?
•Es un repositorio de genomas completos e información
adicional.
•Tiene múltiples niveles de acceso con una gran
flexibilidad.
 Da acceso tanto al genoma humano como a otros
50 genomas.
 Permite la realización de búsquedas de homología
 Permite descargarse regiones completas del
genoma, genes, proteínas, ect..
 Permite extraer todas las SNPs en un gen concreto,
así como sus consecuencias.

http://www.ensembl.org

¿Existen otros navegadores genómicos?

 NCBI Map Viewer
http://www.ncbi.nlm.nih.gov/mapview/

 UCSC Genome Browser
http://genome.ucsc.edu

¿Cuál es la diferencia de estos
navegadores comparados con
Ensembl?

• Ensembl basa su anotación en evidencias experimentales:
mRNA y proteínas (más fiable)

• Permite realizar análisis comparativos de genes

• Permite la integración de datos procedentes de otras bases de
datos (DAS)

• Permite realizar minería de datos: BioMart (Data-mining tool)

Genomas disponibles en Ensembl

50 especies la mayoría son vertebrados

¿Qué datos podemos encontrar?

• ARNs (genes no codificadores de proteínas)
• Referencias a bases de datos externas
• Genes, proteínas, variaciones de un gen
• Otras características del genoma: elementos repetitivos,
islas CpG
• Secuencias similares y alineamientos de secuencias al
genoma completo
• Datos de regulación: promotores
• Datos de otras fuentes o usuarios(DAS)

Integración de la información
Exon Exon Exon

Untranslated+Coding Coding Untranslated

Genoma

cDNAs alineado
y proteínas

…. demasiada información y poco interpretable

Ensembl muestra sólo transcritos
tipo

con evidencia subyacente

¿Qué significa una ID en
Ensembl?
 ENSG### Ensembl Gen ID
 ENST### Ensembl Transcrito ID
 ENSP### Ensembl Proteína ID
 ENSE### Ensembl Exon ID

 Para las demás especies, se añade un código de tres
letras que la representa:

MUS (Mus musculus) for mouse: ENSMUSG###
DAR (Danio rerio) for zebrafish: ENSDARG###,
etc.

¿Cómo está organizada toda la
información?¿Cómo accedo?

 Ensembl Views • BioMart „DataMining tool‟
(Website)

Vamos a pasear por el genoma…
Nuestro ejemplo: el gen de la rodopsina humana (RHO)

• Vamos a obtener el resumen de datos para el gen y sus enlaces
relaccionados: (Gene Tab)
• ¿Cuántas variantes tiene el gen?
• Vamos a ver las secuencias genómicas para esas variaciones
• Vamos a encontrar secuencias con la misma función en otros
organismos
• Vamos a obtener los datos para cada transcrito: (Transcript Tab)
• ¿Cuál es la secuencia de la proteína que codifica?
• ¿Qué informaciones podemos encontrar en otras bases de
datos?
•¿En qué región del genoma, en qué cromosoma se encuentra el gen?:
(Location Tab)

Vamos a empezar…
 Ve al navegador y accede a
www.ensembl.org

Vamos a buscar con el nombre del
gen
Escribe „gene RHO‟ en la barra de búsqueda como se muestra en la imagen y
presiona el botón „Go‟ .

¿Cómo encuentro lo que busco?

Selecciona el primer
resultado

Location Tab o ¿dónde está mi gen?

Genes que
rodean a
RHO

Variaciones
conocidas del
gen Rho

Todas las visualizaciones se pueden personalizar, añadiendo o retirando información.
Para ello usa el enlace Configure a tu izquierda.

¿Qué son los enlaces en la ventana
de la izquierda?

Selecciona Gene Tab

¿Cómo veo la
secuencia en el
genoma?

¿Cómo defino lo que quiero ver?
Para configurar la página haz
click aquí

Selecciona: Display variations
Determina el número
de líneas: Number of lines

¿Cómo puedo extraer la secuencia?
Después de investigar las ventanas: Location/Gene display,
nos gustaría conseguir la secuencia genómica en la que se
encuentra el gen RHO.
Para ello ve a “Export data option” y haz click en “Next”

Genómica Comparativa: Alineamientos
genómicos

Para ver el alineamiento genómico a
nivel de nucleótidos
Selecciona “12 eutherian mammals
¿Cómo puedo ver los EPO”. EPO se refiere al flujo de
alineamientos genómicos programas detrás de los alineamientos
que hay de esta region? de genomas completos

Los residuos idénticos están
marcados

Tipos de secuencias Homólogas

Secuencias homólogas son secuencias muy parecidas

• Ortólogas: Son secuencias muy parecidas que
realizan la misma función en distintos organismos.
Normalmente comparten un ancestro común y se
identifican en los árboles por eventos de especiación.

• Parálogas: Cualquier secuencia parecida que
proviene de un proceso de duplicación. Normalmente
terminan desempeñando otra función.

Cómo ver secuencias Homológas en Ensembl:
Tree View
Haz click en Gene tree (image). Esta imagen te muestra todos los genes
parecidos a tu secuencia en el contexto de un árbol filogenético.
Este árbol sirve para identificar secuencias ortólogas y parálogas

Click en
Orthologues para
ver las
secuencias
ortólogas
identificadas por
el árbol

Click en cualquier nodo para extender o reducir el árbol.

Tabla de secuencias ortólogas

¿Qué es „1 to 1‟? one-to-one ortólogo:
En ambas especies sólo hay un ortológo.

¿Qué es „1 to many‟? one-to-many or many-to-many ortólogos:
en al menos una de las dos especies hay una
duplicación después de la separación de ambas
especies (especiación)

Cómo interpretar los árboles
Un cuadrado
azul es un
proceso de
especiación
(Orthologos)

Un cuadrado
rojo es un
proceso de
duplicación
(Paralogos)

Gene Tab: Información de un gen
Vuelve al Gene Tab.
Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parte
informativa).
Selecciona el transcrito más largo de la tabla (ENST00000296271).
Esto te llevará al resumen del transcrito Transcript Tab

En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres
ver.

Exones de un Transcrito
Selecciona Exons en el menú de la izquierda para visualizar las secuencias de
los exones. Esta vista te muestra flancos
(exones, intrones y las secuencias que flanquean al gen). (verde)

UTRs
(morado)

Intrones
(azul) Secuencias codificadoras de
proteínas (CDS)
Configure para cambiar la vista: (negro)
enseñar las secuencias de los intrones enteras,
mostrar sólo exones, ect..

¿Hay información sobre mi
secuencia en otras bases de datos
biológicas? Aquí podrás ver todas las referencias
a bases de datos externas que se
conocen sobre tu secuencia.

General identifiers

¿Cómo es la proteína que codifica m
gen?
Ensembl
proteína

Motivos
mapeados a la
secuencia

Haciendo
click en
Domains &
features se
muestran
todos los
motivos
que se han
encontrado
en la
proteína.

Variaciones Genómicas: SNP
• Polymorfismo: Es una variación del ADN que está presente en al
menos un 1% de la población

• El 90% de los polimorfismos son SNPs (Single Nucleotide
Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo)
en el ADN
Type Description Consequence

non-synonymous SNP SNPs en el ADN altera un Fibrosis cística(CFTR)
aa de la proteína Hemofilia (F8)

synonymous SNP SNPs en el ADN no altera Pero puede afectar a la
la secuencia de la proteína correcta producción del
transcrito

regulatory SNP SNPs está en una región Puede afectar el nivel de
reguladora de la expresión expresión

SNPs en otras regiones Útiles como marcadores “No tiene impacto”

Tabla de Variaciones Genómica
Mira la tabla de variaciones para RHO a partir de la
Gene Tab

Imagen de Variaciones Genómica
Muestra de una forma gráfica las variaciones sobre la secuencia del Transcrito

Selecciona en
Configure
“Consequence
Type”
Selecciona sólo
Non_Synonimo
us SNPs

Conceptos básicos antes de empezar

GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA

¿Qué es el ADN?
GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGC
TTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTG
ATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATC
AGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGG
CCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT
Es un alfabeto de 4 caracteres
GCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGG
TGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAG
ATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA
Este alfabeto de 4 caracteres contiene suficiente información para
AAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGAT
ATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA
crear organismos complejos, mediante el uso de largas palabras
CTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAA
ATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAA
GGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT
Similitud con el código binario
ACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACT
TATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAAC
TCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGG
AATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTG
AAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAAC
AACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACT
AAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTT
TTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATG
AAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATT
CACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATAT
TCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCA
CAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA

¿Qué es el ADN?

Fosfato Base nitrogenada
• ADN: Deoxyribonucleic Acid
(ácido dexosiribonucleíco)

• 4 nucleotidos:
– Adenosina (A)
– Citosina (C)
– Guanina (G)
– Timina (T)
Azúcar

Nucleótido

Un Gen es un segmento de
DNA que da lugar a una
proteína

Adenina (A) Citosina (C)
Siempre se une a Siempre se une a
Timina (T) Guanina (G)

A G T A C T G C G

T C A T G A C G C

Ser Stop Arg

Proteína

Código genético
Un codón tiene 3 bases
Adenina Timina Guanina Citosina
4 * 4 * 4 = 64 combinaciones posibles (codon)
Codón de inicio: AUG
Codónes de parada o Stop: UAA, UAG, UGA
61 codones codifican el resto de los 20 amino ácidos (AUG también
20 aminoácidos
Metionina)

Organización del genoma humano

 Distribución no uniforme de genes y repeticiones a
lo largo del GH.
 5% es codificante

 50% es copia única

 50% DNA repetitivo

Cariotipo normal: 46, XX

Ejemplo de organización de una
región del GH

Introducción

93

Mutación

Cambios permanentes/heredables producidos durante la
replicación de DNA

Probabilidad de mutación en células humanas: 1 de cada 105

Mecanismos celulares de reparación
DURANTE LA REPLICACIÓN:

-Roturas de una de las hebras de DNA (DNA polimerasa
I/DNA Ligasa)

-Inserción de un nucleótido (DNA polimerasa
(exonucleasa3’-5’, actividad correctora de errores)

POR EXPOSICIÓN A RADIACIONES EXTERNAS:

-Formación de dimeros de timina (DNA polimerasa
I/endomnucleasa 5’-3’

Mecanismos de mutación
A C T G C T

DELECION
SUSTITUCION
A C G C
A C C G C T
T

INSERCION -T
TxC A C T T G C T

+T

Mutación neutra

His Lys Tyr His

C A C A A G U A U C A C

MUTACIÓN

C A C A A G U A G C A C

His Lys Tyr His

Mutación sin significado
(nonsense mutation)

His Lys Tyr His


MUTACIÓN
His Lys

C A C A A G U A A

TRIPLETE DE
PARADA

Mutación de significado erróneo
(missense mutation)
His Lys Tyr His


MUTACION

C A C A A G U G U C A C

His Lys Cis His

Métodos de detección de
mutaciones
La detección de mutaciones es esencial para la caracterización
molecular, diagnostico, prevención y tratamiento de enfermedades.

Los cambios en el DNA son responsables de fenotipos particulares

MÉTODO DE DETECCIÓN:

- SECUENCIACIÓN DIRECTA
- ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP)
- SSCP (Single-Strand Conformational Polymorphism)
- HA (Heterodúplex Analysis)
- CSGE (Conformation Sensitive Gel Electrophoresis)

Qué son los SNPs?
La secuencia nucleotídica de dos personas difiere
en un punto determinado de ésta
GAGAC
Transitiones: pu/pu (A y G) py/py (T y C) (~70%)
Transversiones: py/pu
GATAC

Ocurre muchas veces?

Es la variación genética más abundante en los genomas
y en especial en el Genoma Humano

Como media hablamos de 1 cambio cada 500 ó 1000 pares de bases
Actualmente se conocen más 2.25x106 validados

Qué son los SNPs?
Allele frecuency (1%)
Frecuencia alélica o frecuencia génica es la proporción que se
observa de un alelo específico respecto al conjunto de los que
pueden ocupar un locus determinado en la población.

Qué es un alelo?
Alelo es cada una de las formas alternativas que puede tener un
gen que se diferencian en su secuencia y que se puede manifestar
en modificaciones concretas de la función de ese gen.

Qué es un locus/loci?
Locus (plural loci) es una posición fija sobre un cromosoma,
como la posición de un gen o de un biomarcador (marcador
genético).

El locus cromosómico de un gen podría ser anotado, por ejemplo,
como 22p11.2:

Haplotipos
Combinación de alelos en diferente loci a lo largo de un
cromosoma los cuales son transmitidos juntos de una
generación a la siguiente
CG CG TG
CG TG TG
C/T G/A CG
CG CA TG
CG
TA TG CA
CA TA
TG TA CA CA
TA TA TA CA
haplotipos diplotipos

En general, en las diferentes regiones cromosómicas se observan
pocos haplotipos

Estos pocos haplotipos representan la mayoría de variación
existente entre distintas personas de una población

Qué es un haplotipo

Alelos posibles

o = LD

Gen +
disease

Haplotipo de
Uno de los posibles haplotipos riesgo

Qué son los SNPs?

• Polimorfismo: coexistencia de variante en la población sin
repercusión fenotípica.
• Presentes en un porcentaje superior al 1% de la población
general.
• Lo que hace que todo el mundo sea portador de varios
cambios respecto a sus vecinos.
• Diferentes tipos: genéticos, cromosómicos, proteínicos.
• Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA.....
• Responsables de la variabilidad humana.

Tipos de
Polimorfismos
SNP = single nucleotide polymorphism
Cambio simple de una base por otra

Pequeñas delecciones e inserciones

Large-scale copy-number variation/polymorphism
(LCV/CNP):
Delecciones e inserciones grandes que llevan a
variación en el número de repeticiones de una
secuencia

Alteraciones estructurales: inversiones,
translocaciones y aneuploidías

Papel de los SNPs en las
enfermedades compleja

Environmental

Common multifactorial
complex diseases

Cause Independently
from genetic
input
Genetic

Disease
Mendelian diseases

Papel de los SNPs
Gen A
Gen D
Gen A

Enfermedad monogénica Gen B Gen C
Enfermedad compleja

Herencia dominante, recesiva o Caso esporádico
ligada al X
100 100

30

Riesgo genético poblacional Riesgo genético poblacional

100 30

Riesgo genético en distintas familias Riesgo genético en distintos individuos

Modelo multilocus interactuando con factores
ambientales

Gen principal Genes modificadores Ambiente

Gen 1 Gen 2 Gen 3 Gen 4 Amb1 Amb 2

Fenotipo

Para qué sirven SNPs?
1. Como variación directamente asociada a fenotipo/enfermedad
SNPs causales (con función y efecto fenotípico)

Farmacogenética (enzimas con cambios funcionales en proteína o
promotor. Influyendo en la actividad o expresión y por tanto en la capacidad
de metabolizar)

SNPs que afectan la terapia contra
leucemias a | La mercaptopurina (MP) se
convierte en nucleotido tioguanina mediante
(HPRT) (metabolito activo),
Otro enzima, la TPMT convierte la MP en (MeMP),
el metabolito inactivo.

b | La frecuencia en la población de la actividad
de TPMT muestra un patrón trimodal.
--0.3% (mut/mut) for mutations in TPMT,
--10% (wt/mut) for mutations in TPMT,
-- 90% (wt/wt) TPMT.

c | TPMT genotipo esta correlacionado con el
fenotipo.

2. Como marcadores genéticos en estudios de:
2.1. Asociación: Casos vs Controles no relacionados

REPRESENTATIVE BREAST REPRESENTATIVE CONTROL
CANCER POPULATION POPULATION

Clinical information of tumours
(histológical grade, tumor grade,
....)
Patient age/ diagnostico age
Environmental data:
(smoke, alcohol, diet, sport...)

........
Ej: 900 cases/900 controls
CNIO Human genetics Depart

2.2 Búsqueda de genes implicados en enfermedades: familias
1 2

Los Haplotipos se realizan para
A a a a
B b b b
confirmar la posición del locus de la
C c c c enfermedad.
D d d d

Seguimiento de los marcadores a traves
3 4 5 6 del pedigree observando los puntos de
reconbinación
A a a a a a
a a
B b b b b b
b b
C c c c c c
c c Tradicionalmente realizados con
D d d d d d
d D
microsatélites en enfermedades
monogénicas,
7 8 9 10
a a a A A a a a
B b b b B b b b Actualemente se pueden realizar con
C c c c C c c c
SNPs (menos informativos pero mucho
D d d d d d d D
más abundantes).

2.3 Genética de poblaciones

Otras aplicaciones:
 Forense: Identificación individuos y/ relaciones de parentesco
 clasificación de especies/subespecies (plantas y animales)

Cómo trabajar con los SNPs?

Directamente: SNPs (funcionales)

TFS Amino acid
change

Haplotipos: mirando desequilibrio de ligamiento

Desequilibrio de ligamiento

Alto LD.
Bajo LD.
Pocos Haplotipos
Muchos Haplotipos
>% de representación
<% de representación

LD = 0 LD = 1

Tag_SNP

Genotipar tag_SNPs en un bloque con alto desequilibrio de
ligamiento da la misma información que genotipando todos los
SNPs comunes presentes.

Ventaja: económica y tiempo en obtener resultados

Eficacia y poder

tag SNPs
Relative power (%)

~300,000 tag SNPs
needed to cover common
variation in whole genome
in CEU
random
SNPs

Average marker density (per kb)

THE INTERNATIONAL HAPMAP PROJECT
A community resource for disease gene
discovery

Proyecto HapMap:
http://www.hapmap.org/index.html
• 270 DNAs from different
% sequencing among partners
populations

Canada China • 30 trios from Nigeria
10% 10% (Yoriba)
UK USA
24% 31%
• 30 trios from CEPH:
Japan -African_American
25% -European_American

• 45 Han Chinese (Beijing)-
chromosomes to be • 45 Japanese (Tokyo)
screened
2,4p 3,8p,21

8q,9,18q,22,X,
4q,7,18,Y,12
1,6,10,13,20

5,11,14,15,16,17,19

Proyecto HapMap
• Desarrollo tecnológico: plataformas/herramientas
análisis

• Definir patrones de variación genética a lo largo del
genoma humano

• Guiar la selección de SNPs eficientemente hacia
variantes comunes “tags”

• Acceso público de todos los datos (ensayos, genotipos,
ld, bloques, tags) via página web.

Phase I: 1.3 M markers in 270 people
Phase II: +2.8 M markers in 270 people

Proyecto HapMap
Variabilidad Humana (Proyecto Genoma Humano)

• A raíz del proyecto Genoma Humano se vio que el 0.1%
de nuestro genoma es variable, en gran parte debido a los
SNP ó polimorfismos de una sola base.
•Los SNP son muy frecuentes (se han descrito alrededor
de 8 millones a lo largo del genoma)
• Están localizados tanto en intrones como en exones (5-
10 SNPs/gen)
• Pueden producir ligeras alteraciones en la proteína que
van a ser responsables de nuestra variabilidad.

Como se detectan los SNPs?

G (wt)

LTA
Allele1 (A)
Allele2 (G)

A G (het)
TNF
Allele2 (A)
Allele1 (G)

Allele1 (A)
Allele2 (C)
LST

Técnicas clásicas de genotipado
1 muestra – 1 SNP

Desventajas: muestra, tiempo, dinero.

Secuenciación

CSGE
SSPC
DHPLC

Taqman

Permite genotipar 384 muestras para un único SNP.

Ventaja: mayor número de muestras.

DHPLC
Discriminates Heteroduplex fragments from homoduplexes
. Appropiated fragment melting t
. Specific ACN % according to size and GC content

2a. DHPLC results

Het A Het B (1st postion)
Hom atg
(2nd,3rd pos) Hom tgt
Hom tgt
Hom tgt Hom atg NME1 promotor fragment

Highthoughput

Illumina SNPlex Sequenom

Extensión
Amplificación Amplificación

Hibridación sondas Minisecuenciación
fluorescentes Análisis Espectrómetro
384 muestras/plexes 48 SNPs 384 muestras/plexes de 8
SNPs
+ Capacidad de genotipado -

DNA Genómico

Captura en soporte sólido
Plataforma Illumina
1536 tipos de Bead
Hibridación de oligos
Un solo tubo
Extensión alelo-específica
y Ligación

ASOs
P1
3’
Etiqueta
5’ P2 P3
5’ LSO

PCR con primers
Universales
P1 P3

P2

Etiqueta

Hibridación contra el array
Escaneo

T/T T/C C/C

SNPlex
1. Activación de los oligonucleótidos
2. Ligación de los oligonucleótidos
3. Purificación de los oligonucleótidos ligados
4. Amplificación con primers universales
5. Captura del DNA biotinilado
6. Hibridación con sondas ZipChute
7. Elución de las sondas ZipChute
8. Electroforesis capilar para la detección de las sondas ZipChute
9. Análisis de los resultados con GeneMapper

ZipCode1 ZipCode2
NNNNNNNNN NNNNNNNNN

electroforesis

A1A1 A1A2 A2A2

Sequenom
La tecnología de MassArray (Sequenom) se basa en la detección de los
productos de la reacción de discriminación alélica mediante MALDI-TOF.

El proceso de genotipado consta de dos reacciones.
• Amplificación de los fragmentos de ADN que contienen los SNPs de
interés mediante una PCR multiplex.
• Reacción de discriminación alélica, a través de una reacción de
minisecuenciación que bien terminará en la base polimórfica o bien
continuará por la región amplificada de cada SNP dependiendo de la
presencia o ausencia de uno de los dos alelos.
El uso de cebadores de minisecuenciación con distintas longitudes permite
identificar los picos de los productos de cada SNP. Las reacciones tienen lugar
en placas de 384 pocillos y los productos de dichas reacciones son
transferidos de forma automatizada mediante un robot a la superficie del chip
que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips
simultáneamente..

Capacidad aproximada: 45.000 genotipos / semana

NEXT SEQUENCING (NGS)
Plataforma Casa comercial Técnica DNA Longitud
lectura
454 Roche Síntesis Emulsión PCR 250-400pb
SOLID Applied Ligación Emulsión PCR 50pb
Biosystem
Helicoscope Helicos Síntesis No 25-25pb
amplificación
GenomeAnalyzer Illumina Síntesis Bridge PCR 32-40 (100)pb

Plataforma Capacidad Precio Error Errores
454 300 Mb/día 60$/Mb <1% Si hay muchas
bases iguales no
sabe cuantas
SOLID 600 Mb/día 1$/Mb <0,1% Sustituciones
Lee todo 2 veces
Lee en los 2 sentidos
Helicoscope 1200Mb/día 1$/Mb Alto 4% NC
90Gb
GenomeAnalyzer 400 Mb/día 2$/Mb 1%/Mb Sustituciones

NEXT SEQUENCING (NGS)
Plataforma Casa comercial Ventajas/Inconve Ventajas/Inconveni
nientes entes
454 Roche
SOLID Applied Biosystem Si diferencia SNPs Lee 2 veces
Helicoscope Helicos DNA directamente
GenomeAnalyzer Illumina No diferencia SNPs Lee en los 2 sentidos

Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic

Herramientas para la
búsqueda y selección
adecuada de SNPs

Herramientas SNPs
http://www.ncbi.nlm.nih.gov/projects/SNP/

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=sn
p
http://genome.ucsc.edu/

http://www.hapmap.org/index.html.en

http://pupasnp.bioinfo.ochoa.fib.e
s/
http://pupasview.bioinfo.ochoa.fib.e
s/

http://pga.mbt.washington.edu

http://snpeffect.vib.b
e/

http://bioinformatica.cegen.upf.es/public/principal/index.p
hp

Herramientas SNPs NCBI

dbSNP

Entrez System


http://www.ncbi.nlm.nih.gov

dbSNPs

1998


dbSNPs
Contiene distintas fuentes de variación génica:

(1) SNPs
(2) short deletion and insertion polymorphisms (indels/DIPs),
(3) microsatellite markers or short tandem repeats (STRs)
(4) multinucleotide polymorphisms (MNPs)
(5) named variants

ss o submitted SNP : Todo centro privado o público puede enviar información
acerca de SNP (frecuencia, población,...) en concreto y para eso a cada centro
se le asigna un código.

Varios ss pueden hacer referencia a un único SNP y por tanto la información
general relativa a éste se guarda en un rs o reference SNP.

http://www.ncbi.nlm.nih.gov/SNP/

http://genome.ucsc.edu/

http://genome.ucsc.edu

http://www.hapmap.org/index.html.en

Ontologías
Secuenciación de genomas Enormes cantidades de
información biológica

Necesidad de extraer conocimiento de estos datos

Identificar funciones de genes

Papel fundamental de las Bio-ontologias para integración
automática de conocimiento.

1
5
1

Motivación
Resultados de los métodos estadísticos y algoritmos de aprendizaje
automático (clustering, clasificación):

Largas listas de genes
 PROBLEMA: dar interpretación biológica a estos conjuntos de
genes (asignarles una función/rol biológico)
 SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos
bioinformáticos disponibles

Anotación funcional
Para ayudar a la interpretación biológica de grandes listas de
genes:
◦ Consultar bases de datos de anotaciones como GO, KEGG,
FatiGo, PANTHER, DAVID, IPA
◦ Poner genes en contexto a partir de información extraída de
la literatura científica
◦ Identificar Pathways y Procesos enriquecidos
◦ Visualizar la red de interacciones y editarla.
◦ Estudiar si hay clases funcionales enriquecidas entre los
genes seleccionados
◦ Agrupar los genes por su similitud funcional

¿Qué es GO?
GENE ONTOLOGY (GO) http://www.geneontology.org/

 Ontología: un vocabulario estructurado y riguroso
 Función: describir los roles de los genes y sus productos.
 Utiliza: 3 ontologías independientes: Biological process,
molecular function y cellular component.
 Los términos (nodos) de la ontología tienen relaciones entre sí
(es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).

Genes y términos GO

 Términos más generales cuanto más cerca de la raiz
 Los genes se anotan en el nivel más específico posible, pero
comparten los atributos de todos los nodos ancestros.

Redes genéticas
Poner en contexto nuestras listas de genes

PANTHER FATIGO

DAVID

Ingenuity Pathway Analysis ®(IPA)

Database for Annotation,Visualization
and Integrated Discovery (DAVID)

Protein ANalysis THrough Evolutionary
Relationships (PANTHER)

Caso práctico: estudio de arrays
de Cancer de Recto

IL1 signalling
Accumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence was
generated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness and
angiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.

Caso práctico de ontologías
PANTHER

http://www.pantherdb.org/

Interpretación lista de genes

Introduccion a la bioinformatica

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Introduccion a la bioinformatica

Ähnlich wie Introduccion a la bioinformatica (20)

Mehr von cursoNGS

Mehr von cursoNGS (9)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

Introduccion a la bioinformatica