SlideShare ist ein Scribd-Unternehmen logo
1 von 182
Downloaden Sie, um offline zu lesen
Introducción a la Bioinformática


         Marta Cuadros, Carlos Cano


Departamento de Ciencias de la Computación e
           Inteligencia Artificial
         Universidad de Granada
De la Biología y la Informática a la
Bioinformática……
                        Historia de la Informatica




                  Historia de la Biología Molecular
De la Biología y la Informática a
       la Bioinformática……




Bioinformática
¿Que es Bioinformática?
  La bioinformática es un campo de la ciencia donde se
   integran con la biología diferentes disciplinas como:


     Matemáticas
                                                                     Estadística
                           Bioinformática

                                                                      Teoría
     Físca-química
                                                                     de Control


        Ciencias de          Biología                                 Biología
      la Computación         Molecular                               estructural



…. para poder abordar el descubrimiento de nuevo conocimiento
biológico.
                                     Source: http://ccb.wustl.edu/
Interdisciplinaridad y problemas de
comunicación
El ADN es un polímero de
nucleótidos. Cada nucleótido está
formado por un grupo fosfato,       Es una cadena / “string” de
una desoxiribosa y una base         longitud variable y con un
nitrogenada.                        alfabeto de cuatro
                                    caracteres A, T, C, G
Los nucleótidos se diferencian
por sus bases nitrogenadas
divididas en dos grupos: dos
purínicas denominadas adenina
                                    GCCACATGTAGATAATTGAAACTGGATCCTCA
(A) y guanina (G) y dos             TCCCTCGCCTTGTACAAAAATCAACTCCAGAT
pirimidínicas         denominadas   GGATCTAAGATTTAAATCTAACACCTGAAACC
                                    ATAAAAATTCTAGGAGATAACACTGGCAAAGC
citosina (C) y timina (T).          TATTCTAGACATTGGCTTAGGCAAAGAGTTCG
                                    TGACCAAGAACCCAAAAGCAAATGCAACAAAA
                                    ACAAAAATAAATAGGTGGGACCTGATTAAACT
                                    GAAAAGCCTCTGCACAGCAAAAGAAATAATCA
                                    GCAGAGTAAACAGACAACCCACAGAATGAGAG
                                    AAAATATTTGCAAACCATGCATCTGATGACAA
                                    AG
Bioinformatica: convergencia de dos
revoluciones
   El crecimiento exponencial de datos y la era de la
                      información




                                             10 Enero 2011:
                                         225,047,396,161 bases
Hoy en día…

                                             ...las nuevas tecnologías
                                             en      biología    están
                                             cambiando la forma de
                                             abordar los problemas
                                             debido a:

                                             -la gran cantidad de datos

                                             - y las multiples tipologías
                                             de estos




 Ninguna persona o grupo puede tiene      Se hace necesaria la aparición de
 una visión general de todo lo conocido   ciencias interdisciplinares como
                                          la Bioinformatica
Ámbito de aplicación de la Bioinformática

                               Dogma Central de la Biología


     Replicacion     ADN


     Trascripción


                     ARN                     ncRNAs

     Traducción



                    Proteína

     Modificaciones
     post-transduccionales
                    Fenotipo
Bioinformatica: Omas y Omicas
Genomica
   Secuencias primarias (DNA, RNA)
                                                     Replicacion     ADN
   Bases de datos (BD), algoritmos
   Genomas
   Estudios de evolución molecular
                                                     Trascripción

Transcriptomica(Genomica Funcional)
   Datos de expresion (Microarray data)                              ARN
   BDs, herramientas de analisis
                                                     Traducción
Proteomica
   Secuencias de proteina y estructuras
   espectometría de masas, rayos-X,                                 Proteína
   cristalografia
                                                     Modificaciones
                                                     post-transduccionales
Biologia de sistemas                                                Fenotipo
(metabolòmica)
   flujos metabólicos     Interactómica
                              redes de interacción
Genómica y genomas
       Es el estudio de la secuencia estructura y
                  funcion del genoma

Especies Conocidas         Evolución de los genomas
                           secuenciados en los últimos
                           años

                              Año               Numero de Geomas
                                                  secuenciados
                              1994                       0
                              1995                       1
                              Enero 2011               1780
                              Eucariotas         272 (41 mamiferos)
                              Bacterias                1518
                              Arqueobacterias           81
Projecto: Genoma Humano
 Projecto Internacional          15 Febrero 2001
 Determinar la secuencia genomica humana y de
 otros oganismos modelo




 Tiempo y coste
 han sido los factores limitantes
Etapas en el proyecto genoma
  1991..Human Genome Project begins
  1994-1996..genetic maps

  1995-1998..physical maps

  1998..DNA sequencing begins

  2000...Rough draft DNA sequence

  2003…Complete DNA sequence


  2005…...Gene map complete
Evolución del Coste y tiempo
                                    necesario para la Secuenciación
                        2001: Human de Genomas
                        Genome Project
                        2.7G$,
                        11 years
          10

                                       2007: 454
               8
Log10(price)




                                       1M$, 3 months
                                                           2008: ABI SOLiD
               6                                           60.000$, 2 weeks
                                                                         2010: 5000$,
                      2001: Celera                                       a few days?
               4                                       2009: Illumina,
                      100M$, 3 years
                                                       Helicos
                                                       40-50000$
               2
                                                                         2012: 100$,
                                                                         <24 hrs?

               2000                    2005                              2010
                                       Year                                     13
Transcriptomica
                  Desde la caracterización del genoma
                  humano, han surgido nuevas vías de
                  investigación sobre el análisis global
                  del material genético.

                  Es evidente que NO todo el genoma
                  es transcrito y traducido finalmente a
                  proteínas

                  Transcriptoma       surge      para
                  representar todo el mRNA transcrito
                  bajo unas circunstancias, de forma
                  global.

                  Cada organismo tiene infinidad de
                  transcriptomas dependiendo del tipo
                  tisular o las condiciones ambientales
                  que se estudien.
Transcriptomica
            Muestra 1                Muestra 2            DNA chip technology
              sano                   enfermo


                        Extracción
                        de ARN
              RNA                      RNA
                   Sintesis de
              cDNA cDNA                cDNA
                   fluorescente
                                                  Interpretación


                                                   amarillo        No especifico
DNA chip                                           rojo            Especifico Muestra 1
                                                   verde           Especifico muestra 2




                                                 Source: deRisi et al., Science 1997
Proteoma y Proteomica

Proteoma. Es el set completo de proteinas y otros
productos génicos producidos por el genoma.

Proteomica. Es el estudio de las interacciones entre
proteinas, incluyendo diferencias en los distintos
estados del desarrollo, tejidos y organos.
Datos y ciencias utilizadas actualmente en estudios Bioinformáticos
¿Para qué es necesaria la Bioinformática?
 …. para poder abordar el descubrimiento de nuevo conocimiento
 biológico.
                                     Lo cual facilita la integración
                                     de información y una mejor
                                     comprensión de los sistemas
                                     Biológicos




 Establece puentes entre distintas
 áreas de conocimiento
Tipos de estudios que han utilizado la
Bioinformática
   Medicina Molecular                       Agricultura
    ◦ Nuevos medicamentos                     ◦ Cultivos
    ◦ Medicina personalizada                  ◦ Resistencia a los insectos
    ◦ Medicina preventiva                     ◦   Mejorar la calidad nutricional
    ◦ Terapia génica                          ◦ cultivos en suelos más pobres y que son
                                                resistentes a la sequía

   Aplicaciones genomas
    microbiano                               Animales
    ◦ Residuos de limpieza
    ◦ El cambio climático                    Estudios comparativos
    ◦ Fuentes alternativas de energía
    ◦ Biotecnología
    ◦ Resistencia a los antibióticos
    ◦ Análisis forense de los microbios
    ◦ Estudios evolutivos
Bases de Datos Biológicas

    ¿Qué es una base de datos?
    ¿Qué tipos de datos hay disponibles?
    ¿Qué es el esquema Genbank ?
    ¿Cómo es una entrada de datos en una BD biologica?
    ¿Cómo se usan?
¿Que es una base de datos?

 Es una colección de datos que tiene que ser:
    ◦ estructurada
    ◦ buscable
    ◦ actualizaciones regulares
    ◦ links y referencias a otras colecciones de datos
Algunas Bases de datos Biológicas
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb,     OMIA, OMIM, OPD, ORDB, OWL, PAHdb,
   ARR, AsDb,     BBDB, BCGD,     Beanref,                     PatBase, PDB,
                   Biolmage,                 PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD
   BioMagResBank,      BIOMDB, BLOCKS,          PPDB, PRESAGE, PRINTS, ProDom, Prolysis,
                  BovGBASE,                                      PROSITE,
BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE
 CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase
                   DictyDb,                   SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D
Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract,    SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE,
                     ECDC,                                        SWISS-
 ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL,       MODEL Repository, SWISS-PROT, TelDB, TGN,
                   EMD db,                                        tmRDB,
ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, TOPS, TRANSFAC, TRR, UniGene, URNADB, V
GCRDB, GDB, GENATLAS, Genbank, GeneCards,                          BASE,
 Genline, GenLink, GENOTK, GenProtEC, VDRR,VectorDB, WDCM, WIT, WormPep,YEPD
                     GIFTS,                                        YPD,
Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-            YPM, etc .................. !!!!
                      R-Us,
 MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-
                    lycBase,
Tipos de Bases de Datos
           Database Types

             Other
                                                Hay muchas BD de Genomas
      Gene           Nucleotide
    Expression       Sequence
                           RNA Sequence
   Disease                                      La mayoria no son de secuencias

                                   Protein
Genome
                                  Sequence      Hay muchas bases de datos especificas
(human)


Pathways                                        Bases de datos especializadas en
                            Structure            enfermedades
     Genome (non-
       human)
•   Actualizaciones diarias entre
     NIH (USA)             Entrez      •
                                           los paises
                                           DDBJ, GenBank and EMBL.




               NCBI

•Submissions            GenBank
                                                           •Submissions
•Updates                                                   •Updates
                                    EMBL
                         DDBJ
           CIB                                       EBI

                      •Submissions
                      •Updates              SRS


                                            EMBL(Europa)
         getentry

           NIG (JAPON)
Tipos de Bases de Datos Biologicas

 Primarias (almacenamiento)
    GenBank/EMBL/DDB
    UniProt (proteinas)
    PDB (estructuras)
    Medline (PubMed) Articulos

                                 Secondary (curadas)
                                   RefSeq
                                   Taxon (taxonomia)
                                   SwissProt (proteinas curadas)
                                   OMIM (genes-enfermedades)
Formatos frecuentes de secuencias
de ADN y Proteinas
          Genbank
          ASN1
          FASTA
          GCG
>gi|1345098|gb|U30791.1|PCU30791
TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA
          IG(Intelligenetics)
TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG
          Text
GGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCC
AA
¿Cómo averiguar si una secuencia ya existe
en una Base de datos?


¿Cómo averiguar si hay una secuencia
similar a la mia en otro genoma?

¿Cómo averiguar cual es la funcion de mi
secuencia desconocida?
La respuesta:
Busquedas de similaridad
        Por homología (similaridad en la secuencia)



Requiere una
secuencia para                                  Un Algoritmo para
                                                buscar con mi
buscar                      Una base de datos
                                                secuencia en la Base
                            de secuencias
>Mi_Secuencia_desconocida                       de datos
TGAATTCTAAATTTTATATT        donde BUSCAR
TCTAATTGCATTTTATATTTT
TGATAATACTAGATTTATTC
CTGGAAACTTAAATTAGTT
ATTTTAAGTTATGGGATGTT
GTTTTTCTGCTACATATAAC
CAAGATACACTTCGTTCCA
A
BLAST (Basic Local Alignment Search Tool)

            http://blast.ncbi.nlm.nih.gov/Blast.cgi
            Encuentra las regiones de similitud entre secuencias locales.
El programa compara secuencias de nucleótidos o proteínas con bases de datos de
secuencias y calcula la significancia estadística de concordancias. BLAST puede ser
usado para inferir relaciones funcionales y evolutivas entre las secuencias, así como
ayudar a identificar a miembros de familias de genes.
BLAST
Distintos Tipos de BLAST
             Tipo de Base    Secuencia       Tipo de
  Programa
               de datos     desconocida   Alineamiento

  BLASTP       Proteina      Proteina       Gapped

                ADN            ADN
  BLASTN                                    Gapped
              (Nucleic)      (Nucleic)
                               ADN
                                            Frame
  BLASTX       Proteina     Traducido a     Gapped
                              Proteina
             BD de ADN
                                            Frame
 TBLASTN      Traducida a     Protein
                                            Gapped
                Proteina
             BD de ADN
                             Trans.
  TBLASTX     Traducida a                 Ungapped
                             Nucleic
                Proteina
Basic BLAST
Specialized BLAST
Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. El
doctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí.
Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero es
probable que ustedes se estén preguntando de donde viene nuestro ADN de
dinosaurio.
Es algo que me pasó por la cabeza, dijo Grant.
A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica de
anticuerpos de Loy, a veces podemos obtener ADN directamente de huesos de
dinosaurio.
¿Con qué rendimiento?, preguntó Grant.
Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero el
veinte por ciento de las proteínas es aún recuperable a través de la pulverización de
los huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy lo
empleó para obtener proteína de marsupiales australianos extinguidos, así como
células sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinada
que puede funcionar con una cantidad tan ínfima como cincuenta nanogramos de
material, es decir, cincuenta mil millonésimas de gramo.
¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.
Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento es
insuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosaurio
para poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedras
amarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró a
Ellie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendo
con la cabeza.
Sigo sin entenderlo , admitió Grant.
La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa.
Entonces, los insectos quedan perfectamente conservados dentro del fósil. Se
encuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadores
que succionaron sangre de animales más grandes.
Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quiere
decir «succionaron la sangre de los dinosaurios».
Con suerte, sí.
Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lo
hubiera pensado! Podría funcionar.
Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopios
estereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbar
que contenía una mosca bajo los objetivos dobles.
Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga a
través del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insecto
tiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas y
obtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está,
hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y lo
sometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sido
un proceso largo y lento, pero que rindió buenos resultados.
Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, el
gordo desaliñado, parecía carecer por completo de interés, como si ya supiera todo
eso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente.
Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómo
identificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes.
Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuerte
zumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro de
la sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a la
cintura de un hombre:
Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todas
las cajas que hay a lo largo de las paredes son secuenciadores automáticos de genes
Himachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta ,
que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran en
el centro de una fábrica increíblemente poderosa de productos genéticos.
Intentemos ayudar al Dr. Wu a identificar
su secuencia
>LostWorld DNA
gaattccgga agcgagcaag agataagtcc tggcatcaga tacagttgga gataaggacggacgtgtggc agctcccgca gaggattcac
    tggaagtgca ttacctatcc catgggagccatggagttcg tggcgctggg ggggccggat gcgggctccc ccactccgtt
    ccctgatgaagccggagcct tcctggggct gggggggggc gagaggacgg aggcgggggg gctgctggcctcctaccccc
    cctcaggccg cgtgtccctg gtgccgtggg cagacacggg tactttggggaccccccagt gggtgccgcc cgccacccaa
    atggagcccc cccactacct ggagctgctgcaaccccccc ggggcagccc cccccatccc tcctccgggc ccctactgcc
    actcagcagcgggcccccac cctgcgaggc ccgtgagtgc gtcatggcca ggaagaactg cggagcgacggcaacgccgc
    tgtggcgccg ggacggcacc gggcattacc tgtgcaactg ggcctcagcctgcgggctct accaccgcct caacggccag
    aaccgcccgc tcatccgccc caaaaagcgcctgcgggtga gtaagcgcgc aggcacagtg tgcagccacg agcgtgaaaa
    ctgccagacatccaccacca ctctgtggcg tcgcagcccc atgggggacc ccgtctgcaa caacattcacgcctgcggcc tctactacaa
    actgcaccaa gtgaaccgcc ccctcacgat gcgcaaagacggaatccaaa cccgaaaccg caaagtttcc tccaagggta
    aaaagcggcg       ccccccgggggggggaaacc        cctccgccac   cgcgggaggg     ggcgctccta   tggggggagg
    gggggacccctctatgcccc ccccgccgcc ccccccggcc gccgcccccc ctcaaagcga cgctctgtacgctctcggcc ccgtggtcct
    ttcgggccat tttctgccct ttggaaactc cggagggttttttggggggg gggcgggggg ttacacggcc cccccggggc tgagcccgca
    gatttaaataataactctga cgtgggcaag tgggccttgc tgagaagaca gtgtaacata ataatttgcacctcggcaat tgcagagggt
    cgatctccac tttggacaca acagggctac tcggtaggaccagataagca ctttgctccc tggactgaaa aagaaaggat ttatctgttt
    gcttcttgctgacaaatccc tgtgaaaggt aaaagtcgga cacagcaatc gattatttct cgcctgtgtgaaattactgt gaatattgta
    aatatatata tatatatata tatatctgta tagaacagcctcggaggcgg catggaccca gcgtagatca tgctggattt gtactgccgg
    aattc
¿Existe una proteína similar?

  Vamos a hacer un Blastx con esta secuencia




                                    ADN
                                               Frame
    BLASTx          Proteina     Traducido a   Gapped
                                   Proteina
Selecciona el algoritmo adecuado




           Copiar    y   pegar    la
           secuencia en el cuadro



          Seleccionar la Base de Datos

Pincha en Blast
Resultados: ¿como interpetarlos?
Resultados: ¿cómo interpretarlos?
Resultados: ¿como interpetarlos?
Resultados: ¿como interpretarlos?
2.Haz un Blastx.
                             Busca proteínas usando la secuencia de nucleótidos
Si seguimos el link
       La secuencia publicada en el libro de Michael Crichton “El mundo
       perdido” ( The Lost World) la generó Mark Boguski, el experto en
       biología molecular con el que trabajo Mr. Crichton para escribir la
       clonación de los dinosaurios. Mark gastó una broma cuando hizo
       esta secuencia.
¿Como conseguimos más
informacion?

¿que podemos deducir?


1- Existe una proteina
que se parece mucho a la
nuestra, pero no tiene la
misma longitud

 2- La proteina es un factor
 de transcripcion de
 eritrocitos, es decir una
 proteina que activa la
 expresion del un gen para
 la produccion de globulos
 rojos en pollo (Gallus
 gallus)
¿Y si buscamos en una base de datos de
secuencias nucleotidicas?


Vamos a hacer un Blastn con esta secuencia para buscar si hay
alguna/s secuencias de ADN similares


                    ADN            ADN
  BLASTN                                         Gapped
                  (Nucleic)      (Nucleic)
Selecciona el algoritmo adecuado




                    Copiar    y   pegar    la
                    secuencia en el cuadro




Others             Seleccionar la Base de Datos

         Pincha en Blast
Resultados: ¿como interpetarlos?
                                    Gallus gallus
                                    GATA binding protein 1
                                    (globin transcription factor 1)
                                    Chicken erythroid-specific
                                    transcription factor eryf1
                                    mRNA, complete cds



                                    Xenopus laevis
                                    GATA-binding protein
Xenopus laevis                      (XGATA-2) gene,
GATA binding                        complete cds
protein 1 (globin
transcription factor
1) (gata1-b), mRNA
                         Nuestra secuencia de Dinosaurio
                         esta compuesta de 3 secuencias
                         actuales
¿Que significa lo que hemos encontrado?


                     Nuestra secuencia desconocida
                     capturada en el ámbar hace
                     millones de años está compuesta
                     de 3 secuencias actuales de dos
                     especies distintas

                       1 de Gallus gallus (pollo)

                       2 de Xenopus laevis (la rana)


                             Podemos concluir que
                             nuestra secuencia es de
                             Dinosaurio
¿Qué es Ensembl?
 •Es un repositorio de genomas completos e información
 adicional.
 •Tiene múltiples niveles de acceso con una gran
 flexibilidad.
     Da acceso tanto al genoma humano como a otros
      50 genomas.
     Permite la realización de búsquedas de homología
     Permite descargarse regiones completas del
      genoma, genes, proteínas, ect..
     Permite extraer todas las SNPs en un gen concreto,
      así como sus consecuencias.

http://www.ensembl.org
¿Existen otros navegadores genómicos?


     NCBI Map Viewer
      http://www.ncbi.nlm.nih.gov/mapview/

     UCSC Genome Browser
      http://genome.ucsc.edu
¿Cuál es la diferencia de estos
navegadores comparados con
Ensembl?

•   Ensembl basa su anotación en evidencias experimentales:
    mRNA y proteínas (más fiable)

•   Permite realizar análisis comparativos de genes

•   Permite la integración de datos procedentes de otras bases de
    datos (DAS)

•   Permite realizar minería de datos: BioMart (Data-mining tool)
Genomas disponibles en Ensembl

   50 especies la mayoría son vertebrados
¿Qué datos podemos encontrar?

 •   ARNs (genes no codificadores de proteínas)
 •   Referencias a bases de datos externas
 •   Genes, proteínas, variaciones de un gen
 •   Otras características del genoma: elementos repetitivos,
     islas CpG
 •   Secuencias similares y alineamientos de secuencias al
     genoma completo
 •   Datos de regulación: promotores
 •   Datos de otras fuentes o usuarios(DAS)
Integración de la información
                    Exon            Exon                 Exon



       Untranslated+Coding         Coding                 Untranslated

  Genoma




cDNAs alineado
  y proteínas




                             …. demasiada información y poco interpretable
Ensembl muestra sólo transcritos
tipo




      con evidencia subyacente
¿Qué significa una ID en
Ensembl?
    ENSG###               Ensembl Gen ID
    ENST###               Ensembl Transcrito ID
    ENSP###               Ensembl Proteína ID
    ENSE###               Ensembl Exon ID

   Para las demás especies, se añade un código de tres
 letras que la representa:

 MUS (Mus musculus) for mouse: ENSMUSG###
 DAR (Danio rerio) for zebrafish: ENSDARG###,
  etc.
¿Cómo está organizada toda la
información?¿Cómo accedo?

    Ensembl Views   • BioMart „DataMining tool‟
     (Website)
Vamos a pasear por el genoma…
  Nuestro ejemplo: el gen de la rodopsina humana (RHO)

• Vamos a obtener el resumen de datos para el gen y sus enlaces
relaccionados: (Gene Tab)
    • ¿Cuántas variantes tiene el gen?
    • Vamos a ver las secuencias genómicas para esas variaciones
    • Vamos a encontrar secuencias con la misma función en otros
       organismos
• Vamos a obtener los datos para cada transcrito: (Transcript Tab)
    • ¿Cuál es la secuencia de la proteína que codifica?
    • ¿Qué informaciones podemos encontrar en otras bases de
       datos?
•¿En qué región del genoma, en qué cromosoma se encuentra el gen?:
(Location Tab)
Vamos a empezar…
   Ve al navegador y accede a
    www.ensembl.org
Vamos a buscar con el nombre del
gen
Escribe „gene RHO‟ en la barra de búsqueda como se muestra en la imagen y
presiona el botón „Go‟ .
¿Cómo encuentro lo que busco?




                      Selecciona el primer
                      resultado
Location Tab o ¿dónde está mi gen?



                                                                      Genes que
                                                                      rodean a
                                                                      RHO




                                                                      Variaciones
                                                                      conocidas del
                                                                      gen Rho


Todas las visualizaciones se pueden personalizar, añadiendo o retirando información.
  Para ello usa el enlace Configure a tu izquierda.
¿Qué son los enlaces en la ventana
de la izquierda?

                              Selecciona Gene Tab




            ¿Cómo veo la
            secuencia en el
            genoma?
¿Cómo defino lo que quiero ver?
                                 Para configurar la página haz
                                 click aquí




Selecciona: Display variations
Determina el número
de líneas: Number of lines
¿Cómo puedo extraer la secuencia?
Después de investigar las ventanas: Location/Gene display,
nos gustaría conseguir la secuencia genómica en la que se
encuentra el gen RHO.
Para ello ve a “Export data option” y haz click en “Next”
Genómica Comparativa: Alineamientos
genómicos


                                  Para ver el alineamiento genómico a
                                  nivel de nucleótidos
                                  Selecciona “12 eutherian mammals
        ¿Cómo puedo ver los       EPO”. EPO se refiere al flujo de
        alineamientos genómicos   programas detrás de los alineamientos
        que hay de esta region?   de genomas completos

                Los residuos idénticos están
                marcados
Tipos de secuencias Homólogas

  Secuencias homólogas son secuencias muy parecidas




• Ortólogas: Son secuencias muy parecidas que
  realizan la misma función en distintos organismos.
  Normalmente comparten un ancestro común y se
  identifican en los árboles por eventos de especiación.


• Parálogas: Cualquier secuencia parecida que
  proviene de un proceso de duplicación. Normalmente
  terminan desempeñando otra función.
Cómo ver secuencias Homológas en Ensembl:
 Tree View
Haz click en Gene tree (image). Esta imagen te muestra todos los genes
parecidos a tu secuencia en el contexto de un árbol filogenético.
Este árbol sirve para identificar secuencias ortólogas y parálogas




                                                            Click en
                                                            Orthologues para
                                                            ver las
                                                            secuencias
                                                            ortólogas
                                                            identificadas por
                                                            el árbol




Click en cualquier nodo para extender o reducir el árbol.
Tabla de secuencias ortólogas

  ¿Qué es „1 to 1‟?    one-to-one ortólogo:
                       En ambas especies sólo hay un ortológo.


¿Qué es „1 to many‟?   one-to-many or many-to-many ortólogos:
                       en al menos una de las dos especies hay una
                       duplicación después de la separación de ambas
                       especies (especiación)
Cómo interpretar los árboles
                          Un cuadrado
                            azul es un
                           proceso de
                           especiación
                          (Orthologos)




                          Un cuadrado
                           rojo es un
                           proceso de
                          duplicación
                          (Paralogos)
Gene Tab: Información de un gen
Vuelve al Gene Tab.
Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parte
informativa).
Selecciona el transcrito más largo de la tabla (ENST00000296271).
Esto te llevará al resumen del transcrito Transcript Tab




 En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres
 ver.
Exones de un Transcrito
Selecciona Exons en el menú de la izquierda para visualizar las secuencias de
los exones. Esta vista te muestra                         flancos
(exones, intrones y las secuencias que flanquean al gen). (verde)




                               UTRs
                               (morado)




                                Intrones
                                (azul)             Secuencias codificadoras de
                                                   proteínas (CDS)
 Configure para cambiar la vista:                  (negro)
 enseñar las secuencias de los intrones enteras,
 mostrar sólo exones, ect..
¿Hay información sobre mi
secuencia en otras bases de datos
biológicas?                Aquí podrás ver todas las referencias
                           a bases de datos externas que se
                           conocen sobre tu secuencia.




     General identifiers
¿Cómo es la proteína que codifica m
        gen?
                                        Ensembl
                                        proteína



                                    Motivos
                                    mapeados a la
                                    secuencia


Haciendo
click en
Domains &
features se
muestran
todos los
motivos
que se han
encontrado
en la
proteína.
Variaciones Genómicas: SNP
 • Polymorfismo: Es una variación del ADN que está presente en al
  menos un 1% de la población

 • El 90% de los polimorfismos son SNPs (Single Nucleotide
  Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo)
  en el ADN
                 Type                   Description                 Consequence

        non-synonymous SNP       SNPs en el ADN altera un      Fibrosis cística(CFTR)
                                 aa de la proteína             Hemofilia (F8)


        synonymous SNP           SNPs en el ADN no altera      Pero puede afectar a la
                                 la secuencia de la proteína   correcta producción del
                                                               transcrito

        regulatory SNP           SNPs está en una región       Puede afectar el nivel de
                                 reguladora de la expresión    expresión


        SNPs en otras regiones   Útiles como marcadores        “No tiene impacto”
Tabla de Variaciones Genómica
 Mira la tabla de variaciones para RHO a partir de la
                        Gene Tab
Imagen de Variaciones Genómica
Muestra de una forma gráfica las variaciones sobre la secuencia del Transcrito




                                                           Selecciona en
                                                           Configure
                                                           “Consequence
                                                           Type”
                                                           Selecciona sólo
                                                           Non_Synonimo
                                                           us SNPs
Conceptos básicos antes de empezar
GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA

                      ¿Qué es el ADN?
GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGC
TTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTG
ATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAG
AAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATC
AGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGG
CCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT
                         Es un alfabeto de 4 caracteres
GCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGG
TGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAG
ATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA
      Este alfabeto de 4 caracteres contiene suficiente información para
AAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGAT
ATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA
      crear organismos complejos, mediante el uso de largas palabras
CTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAA
ATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAA
GGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT
                        Similitud con el código binario
ACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACT
TATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAAC
TCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGG
AATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTG
AAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAAC
AACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACT
AAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTT
TTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATG
AAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATT
CACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATAT
TCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCA
CAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA
¿Qué es el ADN?

                                 Fosfato      Base nitrogenada
•   ADN: Deoxyribonucleic Acid
    (ácido dexosiribonucleíco)

•   4 nucleotidos:
     – Adenosina (A)
     – Citosina (C)
     – Guanina (G)
     – Timina (T)
                        Azúcar

                                 Nucleótido
Un Gen es un segmento de
 DNA que da lugar a una
        proteína
Adenina (A)                           Citosina (C)
    Siempre se une a                       Siempre se une a
       Timina (T)                                  Guanina (G)

A     G          T      A       C      T       G          C      G




T     C          A      T       G      A       C          G      C


     Ser                       Stop                      Arg



                            Proteína
Estructura de un gen
Esquema de la transcripción
Código genético
Un codón tiene 3 bases
    Adenina           Timina            Guanina        Citosina
4 * 4 * 4 = 64 combinaciones posibles (codon)
Codón de inicio: AUG
Codónes de parada o Stop: UAA, UAG, UGA
61 codones codifican el resto de los 20 amino ácidos (AUG también
                          20 aminoácidos
    Metionina)
Organización del genoma humano

     Distribución no uniforme de genes y repeticiones a
  lo largo del GH.
     5% es codificante

     50% es copia única

     50% DNA repetitivo
Organización del genoma humano
                      Cariotipo normal: 46, XX
Organización del genoma humano
Ejemplo de organización de una
región del GH
Organización del genoma humano
Organización del genoma humano
                        Introducción




                                       93
Mutación

Cambios permanentes/heredables producidos durante la
               replicación de DNA



Probabilidad de mutación en células humanas: 1 de cada 105
Mecanismos celulares de reparación
DURANTE LA REPLICACIÓN:


-Roturas de una de las hebras de DNA (DNA polimerasa
I/DNA Ligasa)

-Inserción  de     un     nucleótido   (DNA     polimerasa
(exonucleasa3’-5’, actividad correctora de errores)


POR EXPOSICIÓN A RADIACIONES EXTERNAS:

-Formación de dimeros de timina (DNA polimerasa
I/endomnucleasa 5’-3’
Mecanismos de mutación
              A            C       T       G       C           T




                                                                   DELECION
    SUSTITUCION
                                                       A       C    G   C
A    C   C    G    C       T
                                                                              T

                                   INSERCION                       -T
             TxC       A       C   T   T       G   C       T


                                           +T
Mutación neutra

      His           Lys           Tyr            His


  C    A    C   A    A    G   U    A    U   C     A    C



                                            MUTACIÓN



  C    A    C   A    A    G   U    A    G    C    A    C



      His           Lys           Tyr            His
Mutación sin significado
(nonsense mutation)

        His           Lys           Tyr            His

    C    A    C   A    A    G   U    A    U    C    A    C


                                              MUTACIÓN
        His           Lys

    C    A    C   A    A    G   U    A    A

                                               TRIPLETE DE
                                                 PARADA
Mutación de significado erróneo
(missense mutation)
       His           Lys           Tyr            His


   C    A    C   A    A    G   U    A     U   C     A   C


                                         MUTACION


   C    A    C   A    A    G   U    G     U   C     A   C



       His           Lys           Cis            His
Métodos de detección de
mutaciones
La detección de mutaciones es esencial para la caracterización
molecular, diagnostico, prevención y tratamiento de enfermedades.

Los cambios en el DNA son responsables de fenotipos particulares


MÉTODO DE DETECCIÓN:

   - SECUENCIACIÓN DIRECTA
   - ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP)
   - SSCP (Single-Strand Conformational Polymorphism)
   - HA (Heterodúplex Analysis)
   - CSGE (Conformation Sensitive Gel Electrophoresis)
Qué son los SNPs?
 La secuencia nucleotídica de dos personas difiere
         en un punto determinado de ésta
          GAGAC
                   Transitiones: pu/pu (A y G) py/py (T y C) (~70%)
                   Transversiones: py/pu
          GATAC



Ocurre muchas veces?

Es la variación genética más abundante en los genomas
y en especial en el Genoma Humano

Como media hablamos de 1 cambio cada 500 ó 1000 pares de bases
Actualmente se conocen más 2.25x106 validados
Qué son los SNPs?
                     Allele frecuency (1%)
Frecuencia alélica o frecuencia génica es la proporción que se
observa de un alelo específico respecto al conjunto de los que
pueden ocupar un locus determinado en la población.
Qué es un alelo?
 Alelo es cada una de las formas alternativas que puede tener un
 gen que se diferencian en su secuencia y que se puede manifestar
 en modificaciones concretas de la función de ese gen.
Qué es un locus/loci?
 Locus (plural loci) es una posición fija sobre un cromosoma,
 como la posición de un gen o de un biomarcador (marcador
 genético).


 El locus cromosómico de un gen podría ser anotado, por ejemplo,
 como 22p11.2:
Haplotipos
 Combinación de alelos en diferente loci a lo largo de un
 cromosoma los cuales son transmitidos juntos de una
 generación a la siguiente
                                 CG        CG        TG
                                 CG        TG        TG
         C/T     G/A                    CG
                              CG        CA            TG
            CG
                              TA            TG        CA
            CA                              TA
            TG                   TA      CA          CA
            TA                   TA      TA          CA
         haplotipos                     diplotipos

En general, en las diferentes regiones cromosómicas se observan
pocos haplotipos

Estos pocos haplotipos representan la mayoría de variación
existente entre distintas personas de una población
Qué es un haplotipo

                   Alelos posibles



                                  o   = LD

  Gen                                                 +
                                                   disease




                                             Haplotipo de
 Uno de los posibles haplotipos                riesgo
Qué son los SNPs?

•   Polimorfismo: coexistencia de variante en la población sin
    repercusión fenotípica.
•   Presentes en un porcentaje superior al 1% de la población
    general.
•   Lo que hace que todo el mundo sea portador de varios
    cambios respecto a sus vecinos.
•   Diferentes tipos: genéticos, cromosómicos, proteínicos.
•   Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA.....
•   Responsables de la variabilidad humana.
Tipos de
        Polimorfismos
 SNP = single nucleotide polymorphism
   Cambio simple de una base por otra



 Pequeñas delecciones e inserciones




Large-scale copy-number variation/polymorphism
(LCV/CNP):
Delecciones e inserciones grandes que llevan a
variación en el número de repeticiones de una
secuencia


Alteraciones estructurales: inversiones,
translocaciones y aneuploidías
Papel de los SNPs en las
enfermedades compleja

                         Environmental

                                         Common multifactorial
                                           complex diseases

  Cause                                                Independently
                                                        from genetic
                                                           input
               Genetic




                         Disease
  Mendelian diseases
Papel de los SNPs
                                                 Gen A
                                                                 Gen D
            Gen A



           Enfermedad monogénica                    Gen B            Gen C
                                                     Enfermedad compleja




       Herencia dominante, recesiva o                    Caso esporádico
                 ligada al X
               100                                 100

                                                    30




          Riesgo genético poblacional              Riesgo genético poblacional


 100                                     30




 Riesgo genético en distintas familias        Riesgo genético en distintos individuos
Modelo multilocus interactuando con factores
                   ambientales


Gen principal     Genes modificadores    Ambiente




Gen 1     Gen 2      Gen 3 Gen 4        Amb1 Amb 2




                        Fenotipo
Para qué sirven SNPs?
1. Como variación directamente asociada a fenotipo/enfermedad
         SNPs causales (con función y efecto fenotípico)

Farmacogenética (enzimas con cambios funcionales en proteína o
promotor. Influyendo en la actividad o expresión y por tanto en la capacidad
de metabolizar)



                                               SNPs que afectan la terapia contra
                                               leucemias       a | La mercaptopurina (MP) se
                                               convierte en nucleotido tioguanina mediante
                                               (HPRT) (metabolito activo),
                                               Otro enzima, la TPMT convierte la MP en (MeMP),
                                               el metabolito inactivo.

                                               b | La frecuencia en la población de la actividad
                                               de TPMT muestra un patrón trimodal.
                                                  --0.3% (mut/mut) for mutations in TPMT,
                                                  --10% (wt/mut) for mutations in TPMT,
                                                  -- 90% (wt/wt) TPMT.

                                               c | TPMT genotipo esta correlacionado con el
                                               fenotipo.
Para qué sirven SNPs?
   2. Como marcadores genéticos en estudios de:
    2.1. Asociación: Casos vs Controles no relacionados



 REPRESENTATIVE BREAST                     REPRESENTATIVE CONTROL
   CANCER POPULATION                             POPULATION


                    Clinical information of tumours
                   (histológical grade, tumor grade,
                                   ....)
                      Patient age/ diagnostico age
                          Environmental data:
                     (smoke, alcohol, diet, sport...)

                          ........
               Ej: 900 cases/900 controls
              CNIO Human genetics Depart
Para qué sirven SNPs?
                            2. Como marcadores genéticos en estudios de:
                    2.2 Búsqueda de genes implicados en enfermedades: familias
                                    1                   2



                                                                                         Los Haplotipos se realizan para
                        A                       a   a           a
                        B                       b   b           b
                                                                                         confirmar la posición del locus de la
                        C                       c   c           c                        enfermedad.
                        D                       d   d           d

                                                                                         Seguimiento de los marcadores a traves
            3                   4                           5                    6       del pedigree observando los puntos de
                                                                                         reconbinación
    A           a   a                       a           a               a
                                                                            a        a
    B           b   b                       b           b               b
                                                                            b        b
    C           c   c                       c           c               c
                                                                            c        c   Tradicionalmente realizados con
    D           d   d                       d           d               d
                                                                            d        D
                                                                                         microsatélites    en     enfermedades
                                                                                         monogénicas,
        7                   8                       9                       10
a           a   a           A           A           a               a       a
B           b   b           b           B           b               b       b            Actualemente se pueden realizar con
C           c   c           c           C           c               c       c
                                                                                         SNPs (menos informativos pero mucho
D           d   d           d           d           d               d       D
                                                                                         más abundantes).
Para qué sirven SNPs?
            2. Como marcadores genéticos en estudios de:
                   2.3 Genética de poblaciones




Otras aplicaciones:
 Forense: Identificación individuos y/ relaciones de parentesco
 clasificación de especies/subespecies (plantas y animales)
Cómo trabajar con los SNPs?

            Directamente: SNPs (funcionales)



TFS                     Amino acid
                         change




      Haplotipos: mirando desequilibrio de ligamiento
Desequilibrio de ligamiento




Alto LD.
                          Bajo LD.
Pocos Haplotipos
                          Muchos Haplotipos
>% de representación
                          <% de representación




             LD = 0      LD = 1
Tag_SNP




Genotipar tag_SNPs en un bloque con alto desequilibrio de
ligamiento da la misma información que genotipando todos los
SNPs comunes presentes.

Ventaja: económica y tiempo en obtener resultados
Eficacia y poder

                     tag SNPs
Relative power (%)




                                         ~300,000 tag SNPs
                                      needed to cover common
                                      variation in whole genome
                                                 in CEU
                        random
                         SNPs



                      Average marker density (per kb)
THE INTERNATIONAL HAPMAP PROJECT
A community resource for disease gene
discovery
Proyecto HapMap:
           http://www.hapmap.org/index.html
                                                                  •   270 DNAs from different
                % sequencing among partners
                                                                      populations

                  Canada                 China                        •       30 trios from Nigeria
                   10%                   10%                                  (Yoriba)
                UK                                     USA
               24%                                     31%
                                                                          •   30 trios from CEPH:
                               Japan                                          -African_American
                                25%                                           -European_American

                                                                      •       45 Han Chinese (Beijing)-
                chromosomes to be                                     •       45 Japanese (Tokyo)
                    screened
                 2,4p          3,8p,21

                                                 8q,9,18q,22,X,
                                                 4q,7,18,Y,12
1,6,10,13,20


                 5,11,14,15,16,17,19
Proyecto HapMap
• Desarrollo tecnológico: plataformas/herramientas
  análisis

• Definir patrones de variación genética a lo largo del
  genoma humano

• Guiar la selección de SNPs eficientemente hacia
  variantes comunes “tags”

• Acceso público de todos los datos (ensayos, genotipos,
  ld, bloques, tags) via página web.

          Phase I:    1.3 M markers in 270 people
          Phase II: +2.8 M markers in 270 people
Proyecto HapMap
      Variabilidad Humana (Proyecto Genoma Humano)


• A raíz del proyecto Genoma Humano se vio que el 0.1%
de nuestro genoma es variable, en gran parte debido a los
SNP ó polimorfismos de una sola base.
•Los SNP son muy frecuentes (se han descrito alrededor
de 8 millones a lo largo del genoma)
• Están localizados tanto en intrones como en exones (5-
10 SNPs/gen)
• Pueden producir ligeras alteraciones en la proteína que
van a ser responsables de nuestra variabilidad.
Como se detectan los SNPs?




      G (wt)


                              LTA
                              Allele1 (A)
                              Allele2 (G)

     A   G (het)
                             TNF
                             Allele2 (A)
                             Allele1 (G)

                             Allele1 (A)
                             Allele2 (C)
                              LST
Técnicas clásicas de genotipado
1 muestra – 1 SNP

Desventajas: muestra, tiempo, dinero.




                                          Secuenciación




      CSGE
      SSPC
                                  DHPLC
Taqman




  Permite genotipar 384 muestras para un único SNP.

  Ventaja: mayor número de muestras.
DHPLC
   Discriminates Heteroduplex fragments from homoduplexes
      . Appropiated fragment melting t
      . Specific ACN % according to size and GC content




                          2a. DHPLC results




          Het A            Het B (1st postion)
Hom atg
          (2nd,3rd pos)    Hom tgt
Hom tgt
          Hom tgt          Hom atg               NME1 promotor fragment
Highthoughput

        Illumina                      SNPlex                    Sequenom




                              Extensión
                              Amplificación                 Amplificación

                              Hibridación sondas            Minisecuenciación
                              fluorescentes                 Análisis Espectrómetro
                              384 muestras/plexes 48 SNPs   384 muestras/plexes de 8
                                                            SNPs
+   Capacidad de genotipado                                                      -
DNA Genómico



Captura en soporte sólido
                                                          Plataforma Illumina
                                                                      1536 tipos de Bead
 Hibridación de oligos
                                                                         Un solo tubo
Extensión alelo-específica
        y Ligación


 ASOs
        P1
                                                   3’
                                    Etiqueta
 5’          P2                                    P3
  5’                                      LSO


   PCR con primers
     Universales
                         P1               P3

                         P2

                                               Etiqueta




Hibridación contra el array
         Escaneo




       T/T           T/C            C/C
SNPlex
    1.   Activación de los oligonucleótidos
    2.   Ligación de los oligonucleótidos
    3.   Purificación de los oligonucleótidos ligados
    4.   Amplificación con primers universales
    5.   Captura del DNA biotinilado
    6.   Hibridación con sondas ZipChute
    7.   Elución de las sondas ZipChute
    8.   Electroforesis capilar para la detección de las sondas ZipChute
    9.   Análisis de los resultados con GeneMapper


                  ZipCode1                      ZipCode2
                 NNNNNNNNN                    NNNNNNNNN


                                            electroforesis




     A1A1                         A1A2                       A2A2
Sequenom
 La tecnología de MassArray (Sequenom) se basa en la detección de los
 productos de la reacción de discriminación alélica mediante MALDI-TOF.

 El proceso de genotipado consta de dos reacciones.
      • Amplificación de los fragmentos de ADN que contienen los SNPs de
          interés mediante una PCR multiplex.
      • Reacción de discriminación alélica, a través de una reacción de
          minisecuenciación que bien terminará en la base polimórfica o bien
          continuará por la región amplificada de cada SNP dependiendo de la
          presencia o ausencia de uno de los dos alelos.
 El uso de cebadores de minisecuenciación con distintas longitudes permite
 identificar los picos de los productos de cada SNP. Las reacciones tienen lugar
 en placas de 384 pocillos y los productos de dichas reacciones son
 transferidos de forma automatizada mediante un robot a la superficie del chip
 que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips
 simultáneamente..

 Capacidad aproximada: 45.000 genotipos / semana
NEXT SEQUENCING (NGS)
       Plataforma       Casa comercial Técnica              DNA            Longitud
                                                                            lectura
 454                    Roche               Síntesis    Emulsión PCR     250-400pb
 SOLID                  Applied             Ligación    Emulsión PCR     50pb
                        Biosystem
 Helicoscope            Helicos             Síntesis    No               25-25pb
                                                        amplificación
 GenomeAnalyzer         Illumina            Síntesis    Bridge PCR       32-40 (100)pb

Plataforma                      Capacidad       Precio        Error          Errores
454                          300 Mb/día        60$/Mb       <1%         Si hay muchas
                                                                        bases iguales no
                                                                        sabe cuantas
SOLID                        600 Mb/día        1$/Mb        <0,1%       Sustituciones
Lee todo 2 veces
Lee en los 2 sentidos
Helicoscope                  1200Mb/día        1$/Mb        Alto 4%     NC
                             90Gb
GenomeAnalyzer               400 Mb/día        2$/Mb        1%/Mb       Sustituciones
Lee en los 2 sentidos
NEXT SEQUENCING (NGS)
   Plataforma        Casa comercial     Ventajas/Inconve Ventajas/Inconveni
                                            nientes            entes
 454                Roche
 SOLID              Applied Biosystem   Si diferencia SNPs   Lee 2 veces
                                                             Lee en los 2 sentidos
 Helicoscope        Helicos             DNA directamente
 GenomeAnalyzer Illumina                No diferencia SNPs Lee en los 2 sentidos


       Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic
Herramientas para la
búsqueda y selección
 adecuada de SNPs
Demasiada información
Herramientas SNPs
            http://www.ncbi.nlm.nih.gov/projects/SNP/


            http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=sn
            p
            http://genome.ucsc.edu/


            http://www.hapmap.org/index.html.en


            http://pupasnp.bioinfo.ochoa.fib.e
            s/
            http://pupasview.bioinfo.ochoa.fib.e
            s/

            http://pga.mbt.washington.edu



            http://snpeffect.vib.b
            e/

            http://bioinformatica.cegen.upf.es/public/principal/index.p
            hp
Herramientas SNPs NCBI

   dbSNP


   Entrez System



      http://www.ncbi.nlm.nih.gov/projects/SNP/




                                         http://www.ncbi.nlm.nih.gov
dbSNPs


         1998




                http://www.ncbi.nlm.nih.gov/projects/SNP/
dbSNPs
 Contiene distintas fuentes de variación génica:

 (1)   SNPs
 (2)   short deletion and insertion polymorphisms (indels/DIPs),
 (3)   microsatellite markers or short tandem repeats (STRs)
 (4)   multinucleotide polymorphisms (MNPs)
 (5)   named variants




ss o submitted SNP : Todo centro privado o público puede enviar información
acerca de SNP (frecuencia, población,...) en concreto y para eso a cada centro
se le asigna un código.

Varios ss pueden hacer referencia a un único SNP y por tanto la información
general relativa a éste se guarda en un rs o reference SNP.
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/SNP/
http://www.ncbi.nlm.nih.gov/SNP/
http://genome.ucsc.edu/




  http://genome.ucsc.edu
http://genome.ucsc.edu
http://www.hapmap.org/index.html.en
http://www.hapmap.org/index.html.en
http://pga.mbt.washington.edu
http://pga.mbt.washington.edu
http://snpeffect.vib.b
Ontologías
 Secuenciación de genomas         Enormes cantidades de
                  información biológica

    Necesidad de extraer conocimiento de estos datos

              Identificar funciones de genes



 Papel fundamental de las Bio-ontologias para integración
               automática de conocimiento.



                                                            1
                                                            5
                                                            1
Motivación
Resultados de los métodos estadísticos y algoritmos de aprendizaje
  automático (clustering, clasificación):


                        Largas listas de genes
   PROBLEMA: dar interpretación biológica a estos conjuntos de
    genes (asignarles una función/rol biológico)
   SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos
    bioinformáticos disponibles
Anotación funcional
Para ayudar a la interpretación biológica de grandes listas de
genes:
   ◦ Consultar bases de datos de anotaciones como GO, KEGG,
     FatiGo, PANTHER, DAVID, IPA
   ◦ Poner genes en contexto a partir de información extraída de
     la literatura científica
   ◦ Identificar Pathways y Procesos enriquecidos
   ◦ Visualizar la red de interacciones y editarla.
   ◦ Estudiar si hay clases funcionales enriquecidas entre los
     genes seleccionados
   ◦ Agrupar los genes por su similitud funcional
¿Qué es GO?
    GENE ONTOLOGY (GO) http://www.geneontology.org/

  Ontología: un vocabulario estructurado y riguroso
 Función: describir los roles de los genes y sus productos.
 Utiliza: 3 ontologías independientes: Biological process,
  molecular function y cellular component.
 Los términos (nodos) de la ontología tienen relaciones entre sí
  (es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).
Genes y términos GO




   Términos más generales cuanto más cerca de la raiz
    Los genes se anotan en el nivel más específico posible, pero
    comparten los atributos de todos los nodos ancestros.
Redes genéticas
Poner en contexto nuestras listas de genes



   PANTHER      FATIGO



                 DAVID
KEGG
Ingenuity Pathway Analysis ®(IPA)
Database for Annotation,Visualization
and Integrated Discovery (DAVID)
Protein ANalysis THrough Evolutionary
Relationships (PANTHER)
FATIGO
Caso práctico: estudio de arrays
     de Cancer de Recto
IL1 signalling
Accumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence was
generated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness and
angiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.
Cancer y
pirimidinas
Caso práctico de ontologías
        PANTHER

http://www.pantherdb.org/
Interpretación lista de genes
Interpretación lista de genes
Interpretación lista de genes
Interpretación lista de genes
Pathways
Pathways
Biological process
Molecular function
Go cellular component

Weitere ähnliche Inhalte

Was ist angesagt?

Historia de la Genética
Historia de la GenéticaHistoria de la Genética
Historia de la GenéticaTania Lomeli
 
Ensayo final
Ensayo finalEnsayo final
Ensayo finalElisaBere
 
Clase 11 ácidos grasos
Clase 11   ácidos grasosClase 11   ácidos grasos
Clase 11 ácidos grasosIgorVillalta
 
Ensayo el genoma humano o el libro de la vida
Ensayo el genoma humano o el libro de la vidaEnsayo el genoma humano o el libro de la vida
Ensayo el genoma humano o el libro de la vidaGloria Garcia Galindo
 
Extraccion de acidos nucleicos lab. Genetica UNAH
Extraccion de acidos nucleicos lab. Genetica UNAHExtraccion de acidos nucleicos lab. Genetica UNAH
Extraccion de acidos nucleicos lab. Genetica UNAHGlexi Vindel Rodriguez
 
Tema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓN
Tema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓNTema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓN
Tema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓNjosemanuel7160
 
Gen, Genoma, Transcriptoma, Proteoma
Gen, Genoma, Transcriptoma, ProteomaGen, Genoma, Transcriptoma, Proteoma
Gen, Genoma, Transcriptoma, ProteomaYomi S Mtz
 
Introducción a biologia molecular
Introducción a biologia molecularIntroducción a biologia molecular
Introducción a biologia molecularLACBiosafety
 
Bioinformática
BioinformáticaBioinformática
BioinformáticaNancyVegu
 
Extraccion purificacion dna
Extraccion purificacion dnaExtraccion purificacion dna
Extraccion purificacion dnaElkin Chaparro
 
Alelos multiples y herencia poligenica
Alelos multiples y herencia poligenicaAlelos multiples y herencia poligenica
Alelos multiples y herencia poligenicaBryan Fernando Reyes
 
Secuenciación de ADN
Secuenciación de ADNSecuenciación de ADN
Secuenciación de ADNRai Encalada
 
Marcadores moleculares
Marcadores molecularesMarcadores moleculares
Marcadores molecularesLACBiosafety
 

Was ist angesagt? (20)

Genoma Humano
Genoma HumanoGenoma Humano
Genoma Humano
 
Historia de la Genética
Historia de la GenéticaHistoria de la Genética
Historia de la Genética
 
Ensayo final
Ensayo finalEnsayo final
Ensayo final
 
Clase 11 ácidos grasos
Clase 11   ácidos grasosClase 11   ácidos grasos
Clase 11 ácidos grasos
 
2.genoma procariotico y eucariotico
2.genoma procariotico y eucariotico2.genoma procariotico y eucariotico
2.genoma procariotico y eucariotico
 
Ensayo el genoma humano o el libro de la vida
Ensayo el genoma humano o el libro de la vidaEnsayo el genoma humano o el libro de la vida
Ensayo el genoma humano o el libro de la vida
 
Extraccion de acidos nucleicos lab. Genetica UNAH
Extraccion de acidos nucleicos lab. Genetica UNAHExtraccion de acidos nucleicos lab. Genetica UNAH
Extraccion de acidos nucleicos lab. Genetica UNAH
 
Introduccion a la Genética
Introduccion a la GenéticaIntroduccion a la Genética
Introduccion a la Genética
 
Tema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓN
Tema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓNTema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓN
Tema 12. GENÉTICA MOLECULAR. REPLICACIÓN , TRANSCRIPCIÓN Y TRADUCCIÓN
 
cuantificacion de DNA
cuantificacion de DNAcuantificacion de DNA
cuantificacion de DNA
 
Gen, Genoma, Transcriptoma, Proteoma
Gen, Genoma, Transcriptoma, ProteomaGen, Genoma, Transcriptoma, Proteoma
Gen, Genoma, Transcriptoma, Proteoma
 
Introducción a biologia molecular
Introducción a biologia molecularIntroducción a biologia molecular
Introducción a biologia molecular
 
Bioinformática
BioinformáticaBioinformática
Bioinformática
 
Extraccion purificacion dna
Extraccion purificacion dnaExtraccion purificacion dna
Extraccion purificacion dna
 
Alelos multiples y herencia poligenica
Alelos multiples y herencia poligenicaAlelos multiples y herencia poligenica
Alelos multiples y herencia poligenica
 
9. bioinformatica bases de datos.
9. bioinformatica bases de datos.9. bioinformatica bases de datos.
9. bioinformatica bases de datos.
 
Dogma Central de la Biología Molecular
Dogma Central de la Biología MolecularDogma Central de la Biología Molecular
Dogma Central de la Biología Molecular
 
Secuenciación de ADN
Secuenciación de ADNSecuenciación de ADN
Secuenciación de ADN
 
El anabolismo
El anabolismoEl anabolismo
El anabolismo
 
Marcadores moleculares
Marcadores molecularesMarcadores moleculares
Marcadores moleculares
 

Andere mochten auch

Microarray de genes
Microarray de genesMicroarray de genes
Microarray de genesEddy Bellido
 
Por qué hay que estudiar ciencia, biotecnología y bioinformática
Por qué hay que estudiar ciencia, biotecnología y bioinformáticaPor qué hay que estudiar ciencia, biotecnología y bioinformática
Por qué hay que estudiar ciencia, biotecnología y bioinformáticajavijevi
 
Sistemas. presentacion bioinformática
Sistemas. presentacion bioinformáticaSistemas. presentacion bioinformática
Sistemas. presentacion bioinformáticaMariaAlejandraC23
 
Electroforesis, nb, sb y wb.
Electroforesis, nb, sb y wb.Electroforesis, nb, sb y wb.
Electroforesis, nb, sb y wb.tamaraalonsoperez
 
Expoquimia 2011: Forum Biotech - Oscar Salazar
Expoquimia 2011: Forum Biotech - Oscar SalazarExpoquimia 2011: Forum Biotech - Oscar Salazar
Expoquimia 2011: Forum Biotech - Oscar SalazarExpoquimia
 
Medicina nuclear
Medicina nuclearMedicina nuclear
Medicina nuclearalbertaray3
 
Nutrición integrativa y Homotoxicología
Nutrición integrativa y HomotoxicologíaNutrición integrativa y Homotoxicología
Nutrición integrativa y HomotoxicologíaNutriline SRL
 
Mapa conceptual de Proteínas
Mapa conceptual de ProteínasMapa conceptual de Proteínas
Mapa conceptual de ProteínasBioquimicagassos
 
Present. bioinformatica final
Present. bioinformatica finalPresent. bioinformatica final
Present. bioinformatica finalsirdamiano
 
HIBRIDACION FLUORESCENTE IN SITU (FISH)
 HIBRIDACION FLUORESCENTE IN SITU (FISH) HIBRIDACION FLUORESCENTE IN SITU (FISH)
HIBRIDACION FLUORESCENTE IN SITU (FISH)Lindsay Aguilar
 
Mutaciones Genéticas y Técnicas Moleculares para Detectarlas
Mutaciones Genéticas y Técnicas Moleculares para DetectarlasMutaciones Genéticas y Técnicas Moleculares para Detectarlas
Mutaciones Genéticas y Técnicas Moleculares para DetectarlasClaudette Alessandra
 
Elisa microarray inmuno
Elisa microarray inmunoElisa microarray inmuno
Elisa microarray inmunoMay
 
Clase 16 Resonancia Nuclear MagnéTica
Clase 16 Resonancia Nuclear MagnéTicaClase 16 Resonancia Nuclear MagnéTica
Clase 16 Resonancia Nuclear MagnéTicaDR. CARLOS Azañero
 
Pcr Y Electroforesis Biociencias 2010 Pdf
Pcr Y Electroforesis Biociencias 2010 PdfPcr Y Electroforesis Biociencias 2010 Pdf
Pcr Y Electroforesis Biociencias 2010 PdfCESI-DESAN
 

Andere mochten auch (20)

Textos de apoyo bioinformatica
Textos de apoyo bioinformaticaTextos de apoyo bioinformatica
Textos de apoyo bioinformatica
 
Microarray de genes
Microarray de genesMicroarray de genes
Microarray de genes
 
Pcr
PcrPcr
Pcr
 
Por qué hay que estudiar ciencia, biotecnología y bioinformática
Por qué hay que estudiar ciencia, biotecnología y bioinformáticaPor qué hay que estudiar ciencia, biotecnología y bioinformática
Por qué hay que estudiar ciencia, biotecnología y bioinformática
 
Sistemas. presentacion bioinformática
Sistemas. presentacion bioinformáticaSistemas. presentacion bioinformática
Sistemas. presentacion bioinformática
 
Electroforesis, nb, sb y wb.
Electroforesis, nb, sb y wb.Electroforesis, nb, sb y wb.
Electroforesis, nb, sb y wb.
 
Expoquimia 2011: Forum Biotech - Oscar Salazar
Expoquimia 2011: Forum Biotech - Oscar SalazarExpoquimia 2011: Forum Biotech - Oscar Salazar
Expoquimia 2011: Forum Biotech - Oscar Salazar
 
Medicina nuclear
Medicina nuclearMedicina nuclear
Medicina nuclear
 
Bioinformatica GeBiX
Bioinformatica GeBiXBioinformatica GeBiX
Bioinformatica GeBiX
 
Seminario t rflp
Seminario t rflpSeminario t rflp
Seminario t rflp
 
Nutrición integrativa y Homotoxicología
Nutrición integrativa y HomotoxicologíaNutrición integrativa y Homotoxicología
Nutrición integrativa y Homotoxicología
 
Lab enzimas restriccion y clonacion
Lab enzimas restriccion y clonacionLab enzimas restriccion y clonacion
Lab enzimas restriccion y clonacion
 
Mapa conceptual de Proteínas
Mapa conceptual de ProteínasMapa conceptual de Proteínas
Mapa conceptual de Proteínas
 
Present. bioinformatica final
Present. bioinformatica finalPresent. bioinformatica final
Present. bioinformatica final
 
HIBRIDACION FLUORESCENTE IN SITU (FISH)
 HIBRIDACION FLUORESCENTE IN SITU (FISH) HIBRIDACION FLUORESCENTE IN SITU (FISH)
HIBRIDACION FLUORESCENTE IN SITU (FISH)
 
Mutaciones Genéticas y Técnicas Moleculares para Detectarlas
Mutaciones Genéticas y Técnicas Moleculares para DetectarlasMutaciones Genéticas y Técnicas Moleculares para Detectarlas
Mutaciones Genéticas y Técnicas Moleculares para Detectarlas
 
Elisa microarray inmuno
Elisa microarray inmunoElisa microarray inmuno
Elisa microarray inmuno
 
Clase 16 Resonancia Nuclear MagnéTica
Clase 16 Resonancia Nuclear MagnéTicaClase 16 Resonancia Nuclear MagnéTica
Clase 16 Resonancia Nuclear MagnéTica
 
Enio
EnioEnio
Enio
 
Pcr Y Electroforesis Biociencias 2010 Pdf
Pcr Y Electroforesis Biociencias 2010 PdfPcr Y Electroforesis Biociencias 2010 Pdf
Pcr Y Electroforesis Biociencias 2010 Pdf
 

Ähnlich wie Introduccion a la bioinformatica

Métodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
Métodos y estrategias de secuenciamiento de alto rendimiento. AplicacionesMétodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
Métodos y estrategias de secuenciamiento de alto rendimiento. AplicacionesBiocientificaSA
 
B I O T E C N O L O GÓ A (97 2003)
B I O T E C N O L O GÓ A (97  2003)B I O T E C N O L O GÓ A (97  2003)
B I O T E C N O L O GÓ A (97 2003)jaival
 
Biotecnologa97 2003 090414021223 Phpapp02
Biotecnologa97 2003 090414021223 Phpapp02Biotecnologa97 2003 090414021223 Phpapp02
Biotecnologa97 2003 090414021223 Phpapp02stefanypineda
 
Biotecnologa v2.097 2003 090414021223 Phpapp02
Biotecnologa v2.097 2003 090414021223 Phpapp02Biotecnologa v2.097 2003 090414021223 Phpapp02
Biotecnologa v2.097 2003 090414021223 Phpapp02stefanypineda
 
Las multiples caras de la bioinformatica
Las multiples caras de la bioinformaticaLas multiples caras de la bioinformatica
Las multiples caras de la bioinformaticaAlberto Labarga
 
Bioinformática y RNAs pequeños
Bioinformática y RNAs pequeñosBioinformática y RNAs pequeños
Bioinformática y RNAs pequeñoslizbethfdz
 
Genetica Y Biologia Molecular
Genetica Y Biologia MolecularGenetica Y Biologia Molecular
Genetica Y Biologia Molecularcbcmutpl
 
Genetica Y Biologia Molecular
Genetica Y Biologia MolecularGenetica Y Biologia Molecular
Genetica Y Biologia Molecularcbcmutpl
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"NancyVegu
 
Introduccion a la Bioinformatica
Introduccion a la BioinformaticaIntroduccion a la Bioinformatica
Introduccion a la Bioinformaticaguestaaee08
 

Ähnlich wie Introduccion a la bioinformatica (20)

Métodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
Métodos y estrategias de secuenciamiento de alto rendimiento. AplicacionesMétodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
Métodos y estrategias de secuenciamiento de alto rendimiento. Aplicaciones
 
B I O T E C N O L O GÓ A (97 2003)
B I O T E C N O L O GÓ A (97  2003)B I O T E C N O L O GÓ A (97  2003)
B I O T E C N O L O GÓ A (97 2003)
 
Biotecnologa97 2003 090414021223 Phpapp02
Biotecnologa97 2003 090414021223 Phpapp02Biotecnologa97 2003 090414021223 Phpapp02
Biotecnologa97 2003 090414021223 Phpapp02
 
Biotecnologa v2.097 2003 090414021223 Phpapp02
Biotecnologa v2.097 2003 090414021223 Phpapp02Biotecnologa v2.097 2003 090414021223 Phpapp02
Biotecnologa v2.097 2003 090414021223 Phpapp02
 
Las multiples caras de la bioinformatica
Las multiples caras de la bioinformaticaLas multiples caras de la bioinformatica
Las multiples caras de la bioinformatica
 
Aplicación de la Biotecnología en Malas hierbas: Proteómica
Aplicación de la Biotecnología en Malas hierbas: ProteómicaAplicación de la Biotecnología en Malas hierbas: Proteómica
Aplicación de la Biotecnología en Malas hierbas: Proteómica
 
Nanotecnología y Nanomedicina. Tecnologías emergentes para mejorar la calidad...
Nanotecnología y Nanomedicina. Tecnologías emergentes para mejorar la calidad...Nanotecnología y Nanomedicina. Tecnologías emergentes para mejorar la calidad...
Nanotecnología y Nanomedicina. Tecnologías emergentes para mejorar la calidad...
 
Biotecnologia
BiotecnologiaBiotecnologia
Biotecnologia
 
Bioinformática y RNAs pequeños
Bioinformática y RNAs pequeñosBioinformática y RNAs pequeños
Bioinformática y RNAs pequeños
 
Genetica Y Biologia Molecular
Genetica Y Biologia MolecularGenetica Y Biologia Molecular
Genetica Y Biologia Molecular
 
Genetica Y Biologia Molecular
Genetica Y Biologia MolecularGenetica Y Biologia Molecular
Genetica Y Biologia Molecular
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"
 
Pagina 159
Pagina 159Pagina 159
Pagina 159
 
Biología Sintética
Biología SintéticaBiología Sintética
Biología Sintética
 
Trabajo I..
Trabajo I..Trabajo I..
Trabajo I..
 
Bioinformatica
BioinformaticaBioinformatica
Bioinformatica
 
Introduccion a la Bioinformatica
Introduccion a la BioinformaticaIntroduccion a la Bioinformatica
Introduccion a la Bioinformatica
 
Apertura de la plenaria: El algoritmo genético, la nueva generación del desar...
Apertura de la plenaria: El algoritmo genético, la nueva generación del desar...Apertura de la plenaria: El algoritmo genético, la nueva generación del desar...
Apertura de la plenaria: El algoritmo genético, la nueva generación del desar...
 
Clase1
Clase1Clase1
Clase1
 
Genetica Y Biologia Molecular
Genetica Y Biologia MolecularGenetica Y Biologia Molecular
Genetica Y Biologia Molecular
 

Mehr von cursoNGS

Towards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systemsTowards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systemscursoNGS
 
Utilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humanaUtilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humanacursoNGS
 
NGS analysis of micro-RNA
NGS analysis of micro-RNANGS analysis of micro-RNA
NGS analysis of micro-RNAcursoNGS
 
Differential expression in RNA-Seq
Differential expression in RNA-SeqDifferential expression in RNA-Seq
Differential expression in RNA-SeqcursoNGS
 
Discovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGSDiscovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGScursoNGS
 
NGS Data Preprocessing
NGS Data PreprocessingNGS Data Preprocessing
NGS Data PreprocessingcursoNGS
 
Computational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysisComputational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysiscursoNGS
 
Introduction to NGS
Introduction to NGSIntroduction to NGS
Introduction to NGScursoNGS
 
Linux for bioinformatics
Linux for bioinformaticsLinux for bioinformatics
Linux for bioinformaticscursoNGS
 

Mehr von cursoNGS (9)

Towards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systemsTowards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systems
 
Utilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humanaUtilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humana
 
NGS analysis of micro-RNA
NGS analysis of micro-RNANGS analysis of micro-RNA
NGS analysis of micro-RNA
 
Differential expression in RNA-Seq
Differential expression in RNA-SeqDifferential expression in RNA-Seq
Differential expression in RNA-Seq
 
Discovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGSDiscovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGS
 
NGS Data Preprocessing
NGS Data PreprocessingNGS Data Preprocessing
NGS Data Preprocessing
 
Computational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysisComputational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysis
 
Introduction to NGS
Introduction to NGSIntroduction to NGS
Introduction to NGS
 
Linux for bioinformatics
Linux for bioinformaticsLinux for bioinformatics
Linux for bioinformatics
 

Kürzlich hochgeladen

Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 

Kürzlich hochgeladen (11)

Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 

Introduccion a la bioinformatica

  • 1. Introducción a la Bioinformática Marta Cuadros, Carlos Cano Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad de Granada
  • 2. De la Biología y la Informática a la Bioinformática…… Historia de la Informatica Historia de la Biología Molecular
  • 3. De la Biología y la Informática a la Bioinformática…… Bioinformática
  • 4. ¿Que es Bioinformática? La bioinformática es un campo de la ciencia donde se integran con la biología diferentes disciplinas como: Matemáticas Estadística Bioinformática Teoría Físca-química de Control Ciencias de Biología Biología la Computación Molecular estructural …. para poder abordar el descubrimiento de nuevo conocimiento biológico. Source: http://ccb.wustl.edu/
  • 5. Interdisciplinaridad y problemas de comunicación El ADN es un polímero de nucleótidos. Cada nucleótido está formado por un grupo fosfato, Es una cadena / “string” de una desoxiribosa y una base longitud variable y con un nitrogenada. alfabeto de cuatro caracteres A, T, C, G Los nucleótidos se diferencian por sus bases nitrogenadas divididas en dos grupos: dos purínicas denominadas adenina GCCACATGTAGATAATTGAAACTGGATCCTCA (A) y guanina (G) y dos TCCCTCGCCTTGTACAAAAATCAACTCCAGAT pirimidínicas denominadas GGATCTAAGATTTAAATCTAACACCTGAAACC ATAAAAATTCTAGGAGATAACACTGGCAAAGC citosina (C) y timina (T). TATTCTAGACATTGGCTTAGGCAAAGAGTTCG TGACCAAGAACCCAAAAGCAAATGCAACAAAA ACAAAAATAAATAGGTGGGACCTGATTAAACT GAAAAGCCTCTGCACAGCAAAAGAAATAATCA GCAGAGTAAACAGACAACCCACAGAATGAGAG AAAATATTTGCAAACCATGCATCTGATGACAA AG
  • 6. Bioinformatica: convergencia de dos revoluciones El crecimiento exponencial de datos y la era de la información 10 Enero 2011: 225,047,396,161 bases
  • 7. Hoy en día… ...las nuevas tecnologías en biología están cambiando la forma de abordar los problemas debido a: -la gran cantidad de datos - y las multiples tipologías de estos Ninguna persona o grupo puede tiene Se hace necesaria la aparición de una visión general de todo lo conocido ciencias interdisciplinares como la Bioinformatica
  • 8. Ámbito de aplicación de la Bioinformática Dogma Central de la Biología Replicacion ADN Trascripción ARN ncRNAs Traducción Proteína Modificaciones post-transduccionales Fenotipo
  • 9. Bioinformatica: Omas y Omicas Genomica Secuencias primarias (DNA, RNA) Replicacion ADN Bases de datos (BD), algoritmos Genomas Estudios de evolución molecular Trascripción Transcriptomica(Genomica Funcional) Datos de expresion (Microarray data) ARN BDs, herramientas de analisis Traducción Proteomica Secuencias de proteina y estructuras espectometría de masas, rayos-X, Proteína cristalografia Modificaciones post-transduccionales Biologia de sistemas Fenotipo (metabolòmica) flujos metabólicos Interactómica redes de interacción
  • 10. Genómica y genomas Es el estudio de la secuencia estructura y funcion del genoma Especies Conocidas Evolución de los genomas secuenciados en los últimos años Año Numero de Geomas secuenciados 1994 0 1995 1 Enero 2011 1780 Eucariotas 272 (41 mamiferos) Bacterias 1518 Arqueobacterias 81
  • 11. Projecto: Genoma Humano Projecto Internacional 15 Febrero 2001 Determinar la secuencia genomica humana y de otros oganismos modelo Tiempo y coste han sido los factores limitantes
  • 12. Etapas en el proyecto genoma 1991..Human Genome Project begins 1994-1996..genetic maps 1995-1998..physical maps 1998..DNA sequencing begins 2000...Rough draft DNA sequence 2003…Complete DNA sequence 2005…...Gene map complete
  • 13. Evolución del Coste y tiempo necesario para la Secuenciación 2001: Human de Genomas Genome Project 2.7G$, 11 years 10 2007: 454 8 Log10(price) 1M$, 3 months 2008: ABI SOLiD 6 60.000$, 2 weeks 2010: 5000$, 2001: Celera a few days? 4 2009: Illumina, 100M$, 3 years Helicos 40-50000$ 2 2012: 100$, <24 hrs? 2000 2005 2010 Year 13
  • 14. Transcriptomica Desde la caracterización del genoma humano, han surgido nuevas vías de investigación sobre el análisis global del material genético. Es evidente que NO todo el genoma es transcrito y traducido finalmente a proteínas Transcriptoma surge para representar todo el mRNA transcrito bajo unas circunstancias, de forma global. Cada organismo tiene infinidad de transcriptomas dependiendo del tipo tisular o las condiciones ambientales que se estudien.
  • 15. Transcriptomica Muestra 1 Muestra 2 DNA chip technology sano enfermo Extracción de ARN RNA RNA Sintesis de cDNA cDNA cDNA fluorescente Interpretación amarillo No especifico DNA chip rojo Especifico Muestra 1 verde Especifico muestra 2 Source: deRisi et al., Science 1997
  • 16. Proteoma y Proteomica Proteoma. Es el set completo de proteinas y otros productos génicos producidos por el genoma. Proteomica. Es el estudio de las interacciones entre proteinas, incluyendo diferencias en los distintos estados del desarrollo, tejidos y organos.
  • 17. Datos y ciencias utilizadas actualmente en estudios Bioinformáticos
  • 18. ¿Para qué es necesaria la Bioinformática? …. para poder abordar el descubrimiento de nuevo conocimiento biológico. Lo cual facilita la integración de información y una mejor comprensión de los sistemas Biológicos Establece puentes entre distintas áreas de conocimiento
  • 19. Tipos de estudios que han utilizado la Bioinformática  Medicina Molecular  Agricultura ◦ Nuevos medicamentos ◦ Cultivos ◦ Medicina personalizada ◦ Resistencia a los insectos ◦ Medicina preventiva ◦ Mejorar la calidad nutricional ◦ Terapia génica ◦ cultivos en suelos más pobres y que son resistentes a la sequía  Aplicaciones genomas microbiano  Animales ◦ Residuos de limpieza ◦ El cambio climático  Estudios comparativos ◦ Fuentes alternativas de energía ◦ Biotecnología ◦ Resistencia a los antibióticos ◦ Análisis forense de los microbios ◦ Estudios evolutivos
  • 20. Bases de Datos Biológicas ¿Qué es una base de datos? ¿Qué tipos de datos hay disponibles? ¿Qué es el esquema Genbank ? ¿Cómo es una entrada de datos en una BD biologica? ¿Cómo se usan?
  • 21. ¿Que es una base de datos? Es una colección de datos que tiene que ser: ◦ estructurada ◦ buscable ◦ actualizaciones regulares ◦ links y referencias a otras colecciones de datos
  • 22. Algunas Bases de datos Biológicas AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, OMIA, OMIM, OPD, ORDB, OWL, PAHdb, ARR, AsDb, BBDB, BCGD, Beanref, PatBase, PDB, Biolmage, PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD BioMagResBank, BIOMDB, BLOCKS, PPDB, PRESAGE, PRINTS, ProDom, Prolysis, BovGBASE, PROSITE, BOVMAP, BSORF, BTKbase, CANSITE, CarbBank, PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase DictyDb, SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, ECDC, SWISS- ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, MODEL Repository, SWISS-PROT, TelDB, TGN, EMD db, tmRDB, ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, TOPS, TRANSFAC, TRR, UniGene, URNADB, V GCRDB, GDB, GENATLAS, Genbank, GeneCards, BASE, Genline, GenLink, GENOTK, GenProtEC, VDRR,VectorDB, WDCM, WIT, WormPep,YEPD GIFTS, YPD, Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol- YPM, etc .................. !!!! R-Us, MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0- lycBase,
  • 23. Tipos de Bases de Datos Database Types Other  Hay muchas BD de Genomas Gene Nucleotide Expression Sequence RNA Sequence Disease  La mayoria no son de secuencias Protein Genome Sequence  Hay muchas bases de datos especificas (human) Pathways  Bases de datos especializadas en Structure enfermedades Genome (non- human)
  • 24. Actualizaciones diarias entre NIH (USA) Entrez • los paises DDBJ, GenBank and EMBL. NCBI •Submissions GenBank •Submissions •Updates •Updates EMBL DDBJ CIB EBI •Submissions •Updates SRS EMBL(Europa) getentry NIG (JAPON)
  • 25. Tipos de Bases de Datos Biologicas Primarias (almacenamiento) GenBank/EMBL/DDB UniProt (proteinas) PDB (estructuras) Medline (PubMed) Articulos Secondary (curadas) RefSeq Taxon (taxonomia) SwissProt (proteinas curadas) OMIM (genes-enfermedades)
  • 26. Formatos frecuentes de secuencias de ADN y Proteinas Genbank ASN1 FASTA GCG >gi|1345098|gb|U30791.1|PCU30791 TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA IG(Intelligenetics) TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG Text GGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCC AA
  • 27. ¿Cómo averiguar si una secuencia ya existe en una Base de datos? ¿Cómo averiguar si hay una secuencia similar a la mia en otro genoma? ¿Cómo averiguar cual es la funcion de mi secuencia desconocida?
  • 28. La respuesta: Busquedas de similaridad Por homología (similaridad en la secuencia) Requiere una secuencia para Un Algoritmo para buscar con mi buscar Una base de datos secuencia en la Base de secuencias >Mi_Secuencia_desconocida de datos TGAATTCTAAATTTTATATT donde BUSCAR TCTAATTGCATTTTATATTTT TGATAATACTAGATTTATTC CTGGAAACTTAAATTAGTT ATTTTAAGTTATGGGATGTT GTTTTTCTGCTACATATAAC CAAGATACACTTCGTTCCA A
  • 29. BLAST (Basic Local Alignment Search Tool) http://blast.ncbi.nlm.nih.gov/Blast.cgi Encuentra las regiones de similitud entre secuencias locales. El programa compara secuencias de nucleótidos o proteínas con bases de datos de secuencias y calcula la significancia estadística de concordancias. BLAST puede ser usado para inferir relaciones funcionales y evolutivas entre las secuencias, así como ayudar a identificar a miembros de familias de genes.
  • 30. BLAST
  • 31. Distintos Tipos de BLAST Tipo de Base Secuencia Tipo de Programa de datos desconocida Alineamiento BLASTP Proteina Proteina Gapped ADN ADN BLASTN Gapped (Nucleic) (Nucleic) ADN Frame BLASTX Proteina Traducido a Gapped Proteina BD de ADN Frame TBLASTN Traducida a Protein Gapped Proteina BD de ADN Trans. TBLASTX Traducida a Ungapped Nucleic Proteina
  • 34.
  • 35. Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. El doctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí. Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero es probable que ustedes se estén preguntando de donde viene nuestro ADN de dinosaurio. Es algo que me pasó por la cabeza, dijo Grant. A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica de anticuerpos de Loy, a veces podemos obtener ADN directamente de huesos de dinosaurio. ¿Con qué rendimiento?, preguntó Grant. Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero el veinte por ciento de las proteínas es aún recuperable a través de la pulverización de los huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy lo empleó para obtener proteína de marsupiales australianos extinguidos, así como células sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinada que puede funcionar con una cantidad tan ínfima como cincuenta nanogramos de material, es decir, cincuenta mil millonésimas de gramo. ¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.
  • 36. Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento es insuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosaurio para poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedras amarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró a Ellie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendo con la cabeza. Sigo sin entenderlo , admitió Grant. La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa. Entonces, los insectos quedan perfectamente conservados dentro del fósil. Se encuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadores que succionaron sangre de animales más grandes. Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quiere decir «succionaron la sangre de los dinosaurios». Con suerte, sí. Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lo hubiera pensado! Podría funcionar. Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopios estereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbar que contenía una mosca bajo los objetivos dobles.
  • 37. Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga a través del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insecto tiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas y obtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está, hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y lo sometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sido un proceso largo y lento, pero que rindió buenos resultados. Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, el gordo desaliñado, parecía carecer por completo de interés, como si ya supiera todo eso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente. Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómo identificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes. Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuerte zumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro de la sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a la cintura de un hombre: Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todas las cajas que hay a lo largo de las paredes son secuenciadores automáticos de genes Himachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta , que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran en el centro de una fábrica increíblemente poderosa de productos genéticos.
  • 38. Intentemos ayudar al Dr. Wu a identificar su secuencia >LostWorld DNA gaattccgga agcgagcaag agataagtcc tggcatcaga tacagttgga gataaggacggacgtgtggc agctcccgca gaggattcac tggaagtgca ttacctatcc catgggagccatggagttcg tggcgctggg ggggccggat gcgggctccc ccactccgtt ccctgatgaagccggagcct tcctggggct gggggggggc gagaggacgg aggcgggggg gctgctggcctcctaccccc cctcaggccg cgtgtccctg gtgccgtggg cagacacggg tactttggggaccccccagt gggtgccgcc cgccacccaa atggagcccc cccactacct ggagctgctgcaaccccccc ggggcagccc cccccatccc tcctccgggc ccctactgcc actcagcagcgggcccccac cctgcgaggc ccgtgagtgc gtcatggcca ggaagaactg cggagcgacggcaacgccgc tgtggcgccg ggacggcacc gggcattacc tgtgcaactg ggcctcagcctgcgggctct accaccgcct caacggccag aaccgcccgc tcatccgccc caaaaagcgcctgcgggtga gtaagcgcgc aggcacagtg tgcagccacg agcgtgaaaa ctgccagacatccaccacca ctctgtggcg tcgcagcccc atgggggacc ccgtctgcaa caacattcacgcctgcggcc tctactacaa actgcaccaa gtgaaccgcc ccctcacgat gcgcaaagacggaatccaaa cccgaaaccg caaagtttcc tccaagggta aaaagcggcg ccccccgggggggggaaacc cctccgccac cgcgggaggg ggcgctccta tggggggagg gggggacccctctatgcccc ccccgccgcc ccccccggcc gccgcccccc ctcaaagcga cgctctgtacgctctcggcc ccgtggtcct ttcgggccat tttctgccct ttggaaactc cggagggttttttggggggg gggcgggggg ttacacggcc cccccggggc tgagcccgca gatttaaataataactctga cgtgggcaag tgggccttgc tgagaagaca gtgtaacata ataatttgcacctcggcaat tgcagagggt cgatctccac tttggacaca acagggctac tcggtaggaccagataagca ctttgctccc tggactgaaa aagaaaggat ttatctgttt gcttcttgctgacaaatccc tgtgaaaggt aaaagtcgga cacagcaatc gattatttct cgcctgtgtgaaattactgt gaatattgta aatatatata tatatatata tatatctgta tagaacagcctcggaggcgg catggaccca gcgtagatca tgctggattt gtactgccgg aattc
  • 39. ¿Existe una proteína similar? Vamos a hacer un Blastx con esta secuencia ADN Frame BLASTx Proteina Traducido a Gapped Proteina
  • 40. Selecciona el algoritmo adecuado Copiar y pegar la secuencia en el cuadro Seleccionar la Base de Datos Pincha en Blast
  • 45. 2.Haz un Blastx. Busca proteínas usando la secuencia de nucleótidos Si seguimos el link La secuencia publicada en el libro de Michael Crichton “El mundo perdido” ( The Lost World) la generó Mark Boguski, el experto en biología molecular con el que trabajo Mr. Crichton para escribir la clonación de los dinosaurios. Mark gastó una broma cuando hizo esta secuencia.
  • 46. ¿Como conseguimos más informacion? ¿que podemos deducir? 1- Existe una proteina que se parece mucho a la nuestra, pero no tiene la misma longitud 2- La proteina es un factor de transcripcion de eritrocitos, es decir una proteina que activa la expresion del un gen para la produccion de globulos rojos en pollo (Gallus gallus)
  • 47. ¿Y si buscamos en una base de datos de secuencias nucleotidicas? Vamos a hacer un Blastn con esta secuencia para buscar si hay alguna/s secuencias de ADN similares ADN ADN BLASTN Gapped (Nucleic) (Nucleic)
  • 48. Selecciona el algoritmo adecuado Copiar y pegar la secuencia en el cuadro Others Seleccionar la Base de Datos Pincha en Blast
  • 49. Resultados: ¿como interpetarlos? Gallus gallus GATA binding protein 1 (globin transcription factor 1) Chicken erythroid-specific transcription factor eryf1 mRNA, complete cds Xenopus laevis GATA-binding protein Xenopus laevis (XGATA-2) gene, GATA binding complete cds protein 1 (globin transcription factor 1) (gata1-b), mRNA Nuestra secuencia de Dinosaurio esta compuesta de 3 secuencias actuales
  • 50. ¿Que significa lo que hemos encontrado? Nuestra secuencia desconocida capturada en el ámbar hace millones de años está compuesta de 3 secuencias actuales de dos especies distintas 1 de Gallus gallus (pollo) 2 de Xenopus laevis (la rana) Podemos concluir que nuestra secuencia es de Dinosaurio
  • 51. ¿Qué es Ensembl? •Es un repositorio de genomas completos e información adicional. •Tiene múltiples niveles de acceso con una gran flexibilidad.  Da acceso tanto al genoma humano como a otros 50 genomas.  Permite la realización de búsquedas de homología  Permite descargarse regiones completas del genoma, genes, proteínas, ect..  Permite extraer todas las SNPs en un gen concreto, así como sus consecuencias. http://www.ensembl.org
  • 52. ¿Existen otros navegadores genómicos?  NCBI Map Viewer http://www.ncbi.nlm.nih.gov/mapview/  UCSC Genome Browser http://genome.ucsc.edu
  • 53. ¿Cuál es la diferencia de estos navegadores comparados con Ensembl? • Ensembl basa su anotación en evidencias experimentales: mRNA y proteínas (más fiable) • Permite realizar análisis comparativos de genes • Permite la integración de datos procedentes de otras bases de datos (DAS) • Permite realizar minería de datos: BioMart (Data-mining tool)
  • 54. Genomas disponibles en Ensembl 50 especies la mayoría son vertebrados
  • 55. ¿Qué datos podemos encontrar? • ARNs (genes no codificadores de proteínas) • Referencias a bases de datos externas • Genes, proteínas, variaciones de un gen • Otras características del genoma: elementos repetitivos, islas CpG • Secuencias similares y alineamientos de secuencias al genoma completo • Datos de regulación: promotores • Datos de otras fuentes o usuarios(DAS)
  • 56. Integración de la información Exon Exon Exon Untranslated+Coding Coding Untranslated Genoma cDNAs alineado y proteínas …. demasiada información y poco interpretable
  • 57. Ensembl muestra sólo transcritos tipo con evidencia subyacente
  • 58. ¿Qué significa una ID en Ensembl?  ENSG### Ensembl Gen ID  ENST### Ensembl Transcrito ID  ENSP### Ensembl Proteína ID  ENSE### Ensembl Exon ID  Para las demás especies, se añade un código de tres letras que la representa: MUS (Mus musculus) for mouse: ENSMUSG### DAR (Danio rerio) for zebrafish: ENSDARG###, etc.
  • 59. ¿Cómo está organizada toda la información?¿Cómo accedo?  Ensembl Views • BioMart „DataMining tool‟ (Website)
  • 60. Vamos a pasear por el genoma… Nuestro ejemplo: el gen de la rodopsina humana (RHO) • Vamos a obtener el resumen de datos para el gen y sus enlaces relaccionados: (Gene Tab) • ¿Cuántas variantes tiene el gen? • Vamos a ver las secuencias genómicas para esas variaciones • Vamos a encontrar secuencias con la misma función en otros organismos • Vamos a obtener los datos para cada transcrito: (Transcript Tab) • ¿Cuál es la secuencia de la proteína que codifica? • ¿Qué informaciones podemos encontrar en otras bases de datos? •¿En qué región del genoma, en qué cromosoma se encuentra el gen?: (Location Tab)
  • 61. Vamos a empezar…  Ve al navegador y accede a www.ensembl.org
  • 62. Vamos a buscar con el nombre del gen Escribe „gene RHO‟ en la barra de búsqueda como se muestra en la imagen y presiona el botón „Go‟ .
  • 63. ¿Cómo encuentro lo que busco? Selecciona el primer resultado
  • 64. Location Tab o ¿dónde está mi gen? Genes que rodean a RHO Variaciones conocidas del gen Rho Todas las visualizaciones se pueden personalizar, añadiendo o retirando información. Para ello usa el enlace Configure a tu izquierda.
  • 65. ¿Qué son los enlaces en la ventana de la izquierda? Selecciona Gene Tab ¿Cómo veo la secuencia en el genoma?
  • 66. ¿Cómo defino lo que quiero ver? Para configurar la página haz click aquí Selecciona: Display variations Determina el número de líneas: Number of lines
  • 67. ¿Cómo puedo extraer la secuencia? Después de investigar las ventanas: Location/Gene display, nos gustaría conseguir la secuencia genómica en la que se encuentra el gen RHO. Para ello ve a “Export data option” y haz click en “Next”
  • 68. Genómica Comparativa: Alineamientos genómicos Para ver el alineamiento genómico a nivel de nucleótidos Selecciona “12 eutherian mammals ¿Cómo puedo ver los EPO”. EPO se refiere al flujo de alineamientos genómicos programas detrás de los alineamientos que hay de esta region? de genomas completos Los residuos idénticos están marcados
  • 69. Tipos de secuencias Homólogas Secuencias homólogas son secuencias muy parecidas • Ortólogas: Son secuencias muy parecidas que realizan la misma función en distintos organismos. Normalmente comparten un ancestro común y se identifican en los árboles por eventos de especiación. • Parálogas: Cualquier secuencia parecida que proviene de un proceso de duplicación. Normalmente terminan desempeñando otra función.
  • 70. Cómo ver secuencias Homológas en Ensembl: Tree View Haz click en Gene tree (image). Esta imagen te muestra todos los genes parecidos a tu secuencia en el contexto de un árbol filogenético. Este árbol sirve para identificar secuencias ortólogas y parálogas Click en Orthologues para ver las secuencias ortólogas identificadas por el árbol Click en cualquier nodo para extender o reducir el árbol.
  • 71. Tabla de secuencias ortólogas ¿Qué es „1 to 1‟? one-to-one ortólogo: En ambas especies sólo hay un ortológo. ¿Qué es „1 to many‟? one-to-many or many-to-many ortólogos: en al menos una de las dos especies hay una duplicación después de la separación de ambas especies (especiación)
  • 72. Cómo interpretar los árboles Un cuadrado azul es un proceso de especiación (Orthologos) Un cuadrado rojo es un proceso de duplicación (Paralogos)
  • 73. Gene Tab: Información de un gen Vuelve al Gene Tab. Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parte informativa). Selecciona el transcrito más largo de la tabla (ENST00000296271). Esto te llevará al resumen del transcrito Transcript Tab En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres ver.
  • 74. Exones de un Transcrito Selecciona Exons en el menú de la izquierda para visualizar las secuencias de los exones. Esta vista te muestra flancos (exones, intrones y las secuencias que flanquean al gen). (verde) UTRs (morado) Intrones (azul) Secuencias codificadoras de proteínas (CDS) Configure para cambiar la vista: (negro) enseñar las secuencias de los intrones enteras, mostrar sólo exones, ect..
  • 75. ¿Hay información sobre mi secuencia en otras bases de datos biológicas? Aquí podrás ver todas las referencias a bases de datos externas que se conocen sobre tu secuencia. General identifiers
  • 76. ¿Cómo es la proteína que codifica m gen? Ensembl proteína Motivos mapeados a la secuencia Haciendo click en Domains & features se muestran todos los motivos que se han encontrado en la proteína.
  • 77. Variaciones Genómicas: SNP • Polymorfismo: Es una variación del ADN que está presente en al menos un 1% de la población • El 90% de los polimorfismos son SNPs (Single Nucleotide Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo) en el ADN Type Description Consequence non-synonymous SNP SNPs en el ADN altera un Fibrosis cística(CFTR) aa de la proteína Hemofilia (F8) synonymous SNP SNPs en el ADN no altera Pero puede afectar a la la secuencia de la proteína correcta producción del transcrito regulatory SNP SNPs está en una región Puede afectar el nivel de reguladora de la expresión expresión SNPs en otras regiones Útiles como marcadores “No tiene impacto”
  • 78. Tabla de Variaciones Genómica Mira la tabla de variaciones para RHO a partir de la Gene Tab
  • 79. Imagen de Variaciones Genómica Muestra de una forma gráfica las variaciones sobre la secuencia del Transcrito Selecciona en Configure “Consequence Type” Selecciona sólo Non_Synonimo us SNPs
  • 81. GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA ¿Qué es el ADN? GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGC TTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTG ATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAG AAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATC AGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGG CCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT Es un alfabeto de 4 caracteres GCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGG TGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAG ATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA Este alfabeto de 4 caracteres contiene suficiente información para AAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGAT ATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA crear organismos complejos, mediante el uso de largas palabras CTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAA ATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAA GGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT Similitud con el código binario ACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACT TATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAAC TCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGG AATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTG AAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAAC AACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACT AAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTT TTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATG AAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATT CACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATAT TCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCA CAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA
  • 82. ¿Qué es el ADN? Fosfato Base nitrogenada • ADN: Deoxyribonucleic Acid (ácido dexosiribonucleíco) • 4 nucleotidos: – Adenosina (A) – Citosina (C) – Guanina (G) – Timina (T) Azúcar Nucleótido
  • 83. Un Gen es un segmento de DNA que da lugar a una proteína
  • 84. Adenina (A) Citosina (C) Siempre se une a Siempre se une a Timina (T) Guanina (G) A G T A C T G C G T C A T G A C G C Ser Stop Arg Proteína
  • 86. Esquema de la transcripción
  • 87. Código genético Un codón tiene 3 bases Adenina Timina Guanina Citosina 4 * 4 * 4 = 64 combinaciones posibles (codon) Codón de inicio: AUG Codónes de parada o Stop: UAA, UAG, UGA 61 codones codifican el resto de los 20 amino ácidos (AUG también 20 aminoácidos Metionina)
  • 88. Organización del genoma humano  Distribución no uniforme de genes y repeticiones a lo largo del GH.  5% es codificante  50% es copia única  50% DNA repetitivo
  • 89. Organización del genoma humano Cariotipo normal: 46, XX
  • 91. Ejemplo de organización de una región del GH
  • 93. Organización del genoma humano Introducción 93
  • 94. Mutación Cambios permanentes/heredables producidos durante la replicación de DNA Probabilidad de mutación en células humanas: 1 de cada 105
  • 95. Mecanismos celulares de reparación DURANTE LA REPLICACIÓN: -Roturas de una de las hebras de DNA (DNA polimerasa I/DNA Ligasa) -Inserción de un nucleótido (DNA polimerasa (exonucleasa3’-5’, actividad correctora de errores) POR EXPOSICIÓN A RADIACIONES EXTERNAS: -Formación de dimeros de timina (DNA polimerasa I/endomnucleasa 5’-3’
  • 96. Mecanismos de mutación A C T G C T DELECION SUSTITUCION A C G C A C C G C T T INSERCION -T TxC A C T T G C T +T
  • 97. Mutación neutra His Lys Tyr His C A C A A G U A U C A C MUTACIÓN C A C A A G U A G C A C His Lys Tyr His
  • 98. Mutación sin significado (nonsense mutation) His Lys Tyr His C A C A A G U A U C A C MUTACIÓN His Lys C A C A A G U A A TRIPLETE DE PARADA
  • 99. Mutación de significado erróneo (missense mutation) His Lys Tyr His C A C A A G U A U C A C MUTACION C A C A A G U G U C A C His Lys Cis His
  • 100. Métodos de detección de mutaciones La detección de mutaciones es esencial para la caracterización molecular, diagnostico, prevención y tratamiento de enfermedades. Los cambios en el DNA son responsables de fenotipos particulares MÉTODO DE DETECCIÓN: - SECUENCIACIÓN DIRECTA - ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP) - SSCP (Single-Strand Conformational Polymorphism) - HA (Heterodúplex Analysis) - CSGE (Conformation Sensitive Gel Electrophoresis)
  • 101. Qué son los SNPs? La secuencia nucleotídica de dos personas difiere en un punto determinado de ésta GAGAC Transitiones: pu/pu (A y G) py/py (T y C) (~70%) Transversiones: py/pu GATAC Ocurre muchas veces? Es la variación genética más abundante en los genomas y en especial en el Genoma Humano Como media hablamos de 1 cambio cada 500 ó 1000 pares de bases Actualmente se conocen más 2.25x106 validados
  • 102. Qué son los SNPs? Allele frecuency (1%) Frecuencia alélica o frecuencia génica es la proporción que se observa de un alelo específico respecto al conjunto de los que pueden ocupar un locus determinado en la población.
  • 103. Qué es un alelo? Alelo es cada una de las formas alternativas que puede tener un gen que se diferencian en su secuencia y que se puede manifestar en modificaciones concretas de la función de ese gen.
  • 104. Qué es un locus/loci? Locus (plural loci) es una posición fija sobre un cromosoma, como la posición de un gen o de un biomarcador (marcador genético). El locus cromosómico de un gen podría ser anotado, por ejemplo, como 22p11.2:
  • 105. Haplotipos Combinación de alelos en diferente loci a lo largo de un cromosoma los cuales son transmitidos juntos de una generación a la siguiente CG CG TG CG TG TG C/T G/A CG CG CA TG CG TA TG CA CA TA TG TA CA CA TA TA TA CA haplotipos diplotipos En general, en las diferentes regiones cromosómicas se observan pocos haplotipos Estos pocos haplotipos representan la mayoría de variación existente entre distintas personas de una población
  • 106. Qué es un haplotipo Alelos posibles o = LD Gen + disease Haplotipo de Uno de los posibles haplotipos riesgo
  • 107. Qué son los SNPs? • Polimorfismo: coexistencia de variante en la población sin repercusión fenotípica. • Presentes en un porcentaje superior al 1% de la población general. • Lo que hace que todo el mundo sea portador de varios cambios respecto a sus vecinos. • Diferentes tipos: genéticos, cromosómicos, proteínicos. • Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA..... • Responsables de la variabilidad humana.
  • 108. Tipos de Polimorfismos SNP = single nucleotide polymorphism Cambio simple de una base por otra Pequeñas delecciones e inserciones Large-scale copy-number variation/polymorphism (LCV/CNP): Delecciones e inserciones grandes que llevan a variación en el número de repeticiones de una secuencia Alteraciones estructurales: inversiones, translocaciones y aneuploidías
  • 109. Papel de los SNPs en las enfermedades compleja Environmental Common multifactorial complex diseases Cause Independently from genetic input Genetic Disease Mendelian diseases
  • 110. Papel de los SNPs Gen A Gen D Gen A Enfermedad monogénica Gen B Gen C Enfermedad compleja Herencia dominante, recesiva o Caso esporádico ligada al X 100 100 30 Riesgo genético poblacional Riesgo genético poblacional 100 30 Riesgo genético en distintas familias Riesgo genético en distintos individuos
  • 111. Modelo multilocus interactuando con factores ambientales Gen principal Genes modificadores Ambiente Gen 1 Gen 2 Gen 3 Gen 4 Amb1 Amb 2 Fenotipo
  • 112. Para qué sirven SNPs? 1. Como variación directamente asociada a fenotipo/enfermedad SNPs causales (con función y efecto fenotípico) Farmacogenética (enzimas con cambios funcionales en proteína o promotor. Influyendo en la actividad o expresión y por tanto en la capacidad de metabolizar) SNPs que afectan la terapia contra leucemias a | La mercaptopurina (MP) se convierte en nucleotido tioguanina mediante (HPRT) (metabolito activo), Otro enzima, la TPMT convierte la MP en (MeMP), el metabolito inactivo. b | La frecuencia en la población de la actividad de TPMT muestra un patrón trimodal. --0.3% (mut/mut) for mutations in TPMT, --10% (wt/mut) for mutations in TPMT, -- 90% (wt/wt) TPMT. c | TPMT genotipo esta correlacionado con el fenotipo.
  • 113. Para qué sirven SNPs? 2. Como marcadores genéticos en estudios de: 2.1. Asociación: Casos vs Controles no relacionados REPRESENTATIVE BREAST REPRESENTATIVE CONTROL CANCER POPULATION POPULATION Clinical information of tumours (histológical grade, tumor grade, ....) Patient age/ diagnostico age Environmental data: (smoke, alcohol, diet, sport...) ........ Ej: 900 cases/900 controls CNIO Human genetics Depart
  • 114. Para qué sirven SNPs? 2. Como marcadores genéticos en estudios de: 2.2 Búsqueda de genes implicados en enfermedades: familias 1 2 Los Haplotipos se realizan para A a a a B b b b confirmar la posición del locus de la C c c c enfermedad. D d d d Seguimiento de los marcadores a traves 3 4 5 6 del pedigree observando los puntos de reconbinación A a a a a a a a B b b b b b b b C c c c c c c c Tradicionalmente realizados con D d d d d d d D microsatélites en enfermedades monogénicas, 7 8 9 10 a a a A A a a a B b b b B b b b Actualemente se pueden realizar con C c c c C c c c SNPs (menos informativos pero mucho D d d d d d d D más abundantes).
  • 115. Para qué sirven SNPs? 2. Como marcadores genéticos en estudios de: 2.3 Genética de poblaciones Otras aplicaciones:  Forense: Identificación individuos y/ relaciones de parentesco  clasificación de especies/subespecies (plantas y animales)
  • 116. Cómo trabajar con los SNPs? Directamente: SNPs (funcionales) TFS Amino acid change Haplotipos: mirando desequilibrio de ligamiento
  • 117. Desequilibrio de ligamiento Alto LD. Bajo LD. Pocos Haplotipos Muchos Haplotipos >% de representación <% de representación LD = 0 LD = 1
  • 118. Tag_SNP Genotipar tag_SNPs en un bloque con alto desequilibrio de ligamiento da la misma información que genotipando todos los SNPs comunes presentes. Ventaja: económica y tiempo en obtener resultados
  • 119. Eficacia y poder tag SNPs Relative power (%) ~300,000 tag SNPs needed to cover common variation in whole genome in CEU random SNPs Average marker density (per kb)
  • 120. THE INTERNATIONAL HAPMAP PROJECT A community resource for disease gene discovery
  • 121. Proyecto HapMap: http://www.hapmap.org/index.html • 270 DNAs from different % sequencing among partners populations Canada China • 30 trios from Nigeria 10% 10% (Yoriba) UK USA 24% 31% • 30 trios from CEPH: Japan -African_American 25% -European_American • 45 Han Chinese (Beijing)- chromosomes to be • 45 Japanese (Tokyo) screened 2,4p 3,8p,21 8q,9,18q,22,X, 4q,7,18,Y,12 1,6,10,13,20 5,11,14,15,16,17,19
  • 122. Proyecto HapMap • Desarrollo tecnológico: plataformas/herramientas análisis • Definir patrones de variación genética a lo largo del genoma humano • Guiar la selección de SNPs eficientemente hacia variantes comunes “tags” • Acceso público de todos los datos (ensayos, genotipos, ld, bloques, tags) via página web. Phase I: 1.3 M markers in 270 people Phase II: +2.8 M markers in 270 people
  • 123. Proyecto HapMap Variabilidad Humana (Proyecto Genoma Humano) • A raíz del proyecto Genoma Humano se vio que el 0.1% de nuestro genoma es variable, en gran parte debido a los SNP ó polimorfismos de una sola base. •Los SNP son muy frecuentes (se han descrito alrededor de 8 millones a lo largo del genoma) • Están localizados tanto en intrones como en exones (5- 10 SNPs/gen) • Pueden producir ligeras alteraciones en la proteína que van a ser responsables de nuestra variabilidad.
  • 124. Como se detectan los SNPs? G (wt) LTA Allele1 (A) Allele2 (G) A G (het) TNF Allele2 (A) Allele1 (G) Allele1 (A) Allele2 (C) LST
  • 125. Técnicas clásicas de genotipado 1 muestra – 1 SNP Desventajas: muestra, tiempo, dinero. Secuenciación CSGE SSPC DHPLC
  • 126. Taqman Permite genotipar 384 muestras para un único SNP. Ventaja: mayor número de muestras.
  • 127. DHPLC Discriminates Heteroduplex fragments from homoduplexes . Appropiated fragment melting t . Specific ACN % according to size and GC content 2a. DHPLC results Het A Het B (1st postion) Hom atg (2nd,3rd pos) Hom tgt Hom tgt Hom tgt Hom atg NME1 promotor fragment
  • 128. Highthoughput Illumina SNPlex Sequenom Extensión Amplificación Amplificación Hibridación sondas Minisecuenciación fluorescentes Análisis Espectrómetro 384 muestras/plexes 48 SNPs 384 muestras/plexes de 8 SNPs + Capacidad de genotipado -
  • 129. DNA Genómico Captura en soporte sólido Plataforma Illumina 1536 tipos de Bead Hibridación de oligos Un solo tubo Extensión alelo-específica y Ligación ASOs P1 3’ Etiqueta 5’ P2 P3 5’ LSO PCR con primers Universales P1 P3 P2 Etiqueta Hibridación contra el array Escaneo T/T T/C C/C
  • 130. SNPlex 1. Activación de los oligonucleótidos 2. Ligación de los oligonucleótidos 3. Purificación de los oligonucleótidos ligados 4. Amplificación con primers universales 5. Captura del DNA biotinilado 6. Hibridación con sondas ZipChute 7. Elución de las sondas ZipChute 8. Electroforesis capilar para la detección de las sondas ZipChute 9. Análisis de los resultados con GeneMapper ZipCode1 ZipCode2 NNNNNNNNN NNNNNNNNN electroforesis A1A1 A1A2 A2A2
  • 131. Sequenom La tecnología de MassArray (Sequenom) se basa en la detección de los productos de la reacción de discriminación alélica mediante MALDI-TOF. El proceso de genotipado consta de dos reacciones. • Amplificación de los fragmentos de ADN que contienen los SNPs de interés mediante una PCR multiplex. • Reacción de discriminación alélica, a través de una reacción de minisecuenciación que bien terminará en la base polimórfica o bien continuará por la región amplificada de cada SNP dependiendo de la presencia o ausencia de uno de los dos alelos. El uso de cebadores de minisecuenciación con distintas longitudes permite identificar los picos de los productos de cada SNP. Las reacciones tienen lugar en placas de 384 pocillos y los productos de dichas reacciones son transferidos de forma automatizada mediante un robot a la superficie del chip que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips simultáneamente.. Capacidad aproximada: 45.000 genotipos / semana
  • 132. NEXT SEQUENCING (NGS) Plataforma Casa comercial Técnica DNA Longitud lectura 454 Roche Síntesis Emulsión PCR 250-400pb SOLID Applied Ligación Emulsión PCR 50pb Biosystem Helicoscope Helicos Síntesis No 25-25pb amplificación GenomeAnalyzer Illumina Síntesis Bridge PCR 32-40 (100)pb Plataforma Capacidad Precio Error Errores 454 300 Mb/día 60$/Mb <1% Si hay muchas bases iguales no sabe cuantas SOLID 600 Mb/día 1$/Mb <0,1% Sustituciones Lee todo 2 veces Lee en los 2 sentidos Helicoscope 1200Mb/día 1$/Mb Alto 4% NC 90Gb GenomeAnalyzer 400 Mb/día 2$/Mb 1%/Mb Sustituciones Lee en los 2 sentidos
  • 133. NEXT SEQUENCING (NGS) Plataforma Casa comercial Ventajas/Inconve Ventajas/Inconveni nientes entes 454 Roche SOLID Applied Biosystem Si diferencia SNPs Lee 2 veces Lee en los 2 sentidos Helicoscope Helicos DNA directamente GenomeAnalyzer Illumina No diferencia SNPs Lee en los 2 sentidos Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic
  • 134. Herramientas para la búsqueda y selección adecuada de SNPs
  • 136. Herramientas SNPs http://www.ncbi.nlm.nih.gov/projects/SNP/ http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=sn p http://genome.ucsc.edu/ http://www.hapmap.org/index.html.en http://pupasnp.bioinfo.ochoa.fib.e s/ http://pupasview.bioinfo.ochoa.fib.e s/ http://pga.mbt.washington.edu http://snpeffect.vib.b e/ http://bioinformatica.cegen.upf.es/public/principal/index.p hp
  • 137. Herramientas SNPs NCBI dbSNP Entrez System http://www.ncbi.nlm.nih.gov/projects/SNP/ http://www.ncbi.nlm.nih.gov
  • 138. dbSNPs 1998 http://www.ncbi.nlm.nih.gov/projects/SNP/
  • 139. dbSNPs Contiene distintas fuentes de variación génica: (1) SNPs (2) short deletion and insertion polymorphisms (indels/DIPs), (3) microsatellite markers or short tandem repeats (STRs) (4) multinucleotide polymorphisms (MNPs) (5) named variants ss o submitted SNP : Todo centro privado o público puede enviar información acerca de SNP (frecuencia, población,...) en concreto y para eso a cada centro se le asigna un código. Varios ss pueden hacer referencia a un único SNP y por tanto la información general relativa a éste se guarda en un rs o reference SNP.
  • 151. Ontologías Secuenciación de genomas Enormes cantidades de información biológica Necesidad de extraer conocimiento de estos datos Identificar funciones de genes Papel fundamental de las Bio-ontologias para integración automática de conocimiento. 1 5 1
  • 152. Motivación Resultados de los métodos estadísticos y algoritmos de aprendizaje automático (clustering, clasificación): Largas listas de genes  PROBLEMA: dar interpretación biológica a estos conjuntos de genes (asignarles una función/rol biológico)  SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos bioinformáticos disponibles
  • 153. Anotación funcional Para ayudar a la interpretación biológica de grandes listas de genes: ◦ Consultar bases de datos de anotaciones como GO, KEGG, FatiGo, PANTHER, DAVID, IPA ◦ Poner genes en contexto a partir de información extraída de la literatura científica ◦ Identificar Pathways y Procesos enriquecidos ◦ Visualizar la red de interacciones y editarla. ◦ Estudiar si hay clases funcionales enriquecidas entre los genes seleccionados ◦ Agrupar los genes por su similitud funcional
  • 154. ¿Qué es GO? GENE ONTOLOGY (GO) http://www.geneontology.org/  Ontología: un vocabulario estructurado y riguroso  Función: describir los roles de los genes y sus productos.  Utiliza: 3 ontologías independientes: Biological process, molecular function y cellular component.  Los términos (nodos) de la ontología tienen relaciones entre sí (es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).
  • 155. Genes y términos GO  Términos más generales cuanto más cerca de la raiz  Los genes se anotan en el nivel más específico posible, pero comparten los atributos de todos los nodos ancestros.
  • 156. Redes genéticas Poner en contexto nuestras listas de genes PANTHER FATIGO DAVID
  • 157. KEGG
  • 159. Database for Annotation,Visualization and Integrated Discovery (DAVID)
  • 160. Protein ANalysis THrough Evolutionary Relationships (PANTHER)
  • 161. FATIGO
  • 162. Caso práctico: estudio de arrays de Cancer de Recto
  • 163.
  • 164.
  • 165.
  • 166.
  • 167.
  • 168.
  • 169. IL1 signalling Accumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence was generated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness and angiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.
  • 171.
  • 172.
  • 173. Caso práctico de ontologías PANTHER http://www.pantherdb.org/