SlideShare ist ein Scribd-Unternehmen logo
1 von 18
INSTITUTO DE MARINA MERCANTE ITSMEÑO
             DE VERAGUAS


            ASIGNATURA:
               Biología


            PROFESORA:
            Lourdes Castillo


            ESTUDIANTES:
             Gadiel Herrera
            Christian Campos
             Alejandra Him
            Brianth Magallon



                NIVEL:
                XII – B



                TEMA:
             Bioinformática




                 2011
Introducción:


Es una materia que se basa en la creación de vida artificial informática
como diferentes tipos de virus que se basan en el estudio de la
bioinformática.

Esta ciencia se basa en el estudio principal de lo que es un sistema
operador o una pagina Web o Internet esta materia se le puede
facilitar al estudiante por medio de este folleto que lleva
detalladamente desde su inicio hasta sus más grandes
descubrimientos en esta ciencia.

Esta es una de las materias mas osadas por los Jocker o Hacker que
se basan en la entrada a sistemas o privados o prohibidos por medio
de virus y claves que acceden a esta materia.
Bioinformática, según una de sus definiciones más sencillas, es la aplicación de tecnología
de computadores a la gestión y análisis de datos biológicos. Los términos bioinformática,
biología computacional y, en ocasiones, biocomputación, utilizados en muchas
situaciones como sinónimos, hacen referencia a campos de estudios interdisciplinarios muy
vinculados, que requieren el uso o el desarrollo de diferentes técnicas que incluyen
informática, matemática aplicada, estadística, ciencias de la computación, inteligencia
artificial, química y bioquímica para solucionar problemas, analizar datos, o simular sistemas
o mecanismos, todos ellos de índole biológica, y usualmente (pero no de forma exclusiva) en
el nivel molecular. El núcleo principal de estas técnicas se encuentra en la utilización de
recursos computacionales para solucionar o investigar problemas sobre escalas de tal
magnitud que sobrepasan el discernimiento humano. La investigación en biología
computacional se solapa a menudo con la biología de sistemas.

Los principales esfuerzos de investigación en estos campos incluyen el alineamiento de
secuencias, la predicción de genes, montaje del genoma, alineamiento estructural de
proteínas, predicción de estructura de proteínas, predicción de la expresión génica,
interacciones proteína-proteína, y modelado de la evolución.

Una constante en proyectos de bioinformática y biología computacional es el uso de
herramientas matemáticas para extraer información útil de datos producidos por técnicas
biológicas de alta productividad, como la secuenciación del genoma. En particular, el
montaje o ensamblado de secuencias genómicas de alta calidad desde fragmentos obtenidos
tras la secuenciación del ADN a gran escala es un área de alto interés. Otros objetivos
incluyen el estudio de la regulación genética para interpretar perfiles de expresión génica
utilizando datos de chips de ADN o espectrometría de masas.
Conceptos y alcance

Como se ha avanzado en la introducción, los términos bioinformática, biología
computacional y biocomputación son utilizados a menudo como sinónimos, apareciendo
con frecuencia en la literatura básica de forma indiferenciada en sus usos comunes. Sin
embargo, hay conformadas áreas de aplicación propias de cada término. El NIH (National
Institutes of Health, Institutos Nacionales de la Salud de los Estados Unidos), por ejemplo,
aún reconociendo previamente que ninguna definición podría eliminar completamente el
solapamiento entre actividades de las diferentes técnicas, define explícitamente los términos
bioinformática y biología computacional:

   •   Bioinformática es la investigación, desarrollo o aplicación de herramientas
       computacionales y aproximaciones para la expansión del uso de datos biológicos,
       médicos, conductuales o de salud, incluyendo aquellas herramientas que sirvan para
       adquirir, almacenar, organizar, analizar o visualizar tales datos.

   •   Biología computacional sería el desarrollo y aplicación de métodos teóricos y de
       análisis de datos, modelado matemático y técnicas de simulación computacional al
       estudio de sistemas biológicos, conductuales y sociales.

De esta forma, la bioinformática tendría más que ver con la información, mientras que la
biología computacional lo haría con las hipótesis. Por otra parte, el término biocomputación
suele enmarcarse en las actuales investigaciones con biocomputadores y, por ejemplo, T.
Kaminuma lo define de la siguiente forma:

   •   Biocomputación es la construcción y uso de computadores que contienen
       componentes biológicos o funcionan como organismos vivos.

Aparte de las definiciones formales de organismos o instituciones de referencia, los
manuales de esta materia aportan sus propias definiciones operativas, lógicamente
vinculadas en mayor o menor medida con las ya vistas. Como ejemplo, David W. Mount,
en su difundido texto sobre bioinformática, precisa que: …la bioinformática se centra más
en el desarrollo de herramientas prácticas para la gestión de datos y el análisis (por ejemplo,
la presentación de información genómica y análisis secuencial), pero con menor énfasis en
la eficiencia y en la precisión.
Por otra parte, y según el mismo autor: …la biología computacional generalmente se
relaciona con el desarrollo de algoritmos nuevos y eficientes, que se puede demostrar
funcionan sobre un problema difícil, tales como el alineamiento múltiple de secuencias o el
montaje (o ensamblado) de fragmentos de genoma.
Por último, se encuentra en ocasiones una categorización explícita de estos conceptos según
la cual la bioinformática es una subcategoría de la biología computacional. Por ejemplo, la
bióloga Cynthia Gibas anota que: La bioinformática es la ciencia del uso de la información
para entender la biología. (...) Hablando estrictamente, la bioinformática es un subconjunto
del campo mayor de la biología computacional, (siendo esta última) la aplicación de
técnicas analíticas cuantitativas en el modelado de sistemas biológicos.
No obstante, y refiriéndose a su propio texto (Developing Bioinformatics Computer Skills,
desarrollo de habilidades computacionales para bioinformática), enseguida pasa a aclarar
que: ...pasaremos de bioinformática a biología computacional y viceversa. Las distinciones
entre las dos no son importantes para nuestro propósito aquí.
En muchas ocasiones, por lo tanto, los términos serán intercambiables y, salvo en contextos
de cierta especialización, el significado último se mantendrá claro utilizando cualquiera de
ellos.
Historia

En lo que sigue, y además de los hechos relevantes directamente relacionados con el
desarrollo de la bioinformática, se mencionarán algunos hitos científicos y tecnológicos que
servirán para poner en un contexto adecuado tal desarrollo.
Arrancaremos esta breve historia en la década de los 50 del pasado siglo XX, años en los
que Watson y Crick proponen la estructura de doble hélice del ADN (1953), se secuencia la
primera proteína (insulina bovina) por F. Sanger (1955), o se construye el primer circuito
integrado por Jack Kilby en los laboratorios de Texas Instruments (1958).


                   Las primeras décadas: años 60 y 70 del siglo XX
En los años 60, L. Pauling elabora su teoría sobre evolución molecular (1962), y Margaret
Dayhoff, una de las pioneras de la bioinformática, publica el primero de los Atlas of Protein
Sequences (1965), que tendrá continuidad en años posteriores, se convertirá en una obra
básica en el desarrollo estadístico, algunos años más tarde, de las matrices de sustitución
PAM, y será precursor de las actuales bases de datos de proteínas. En el área de la tecnología
de computadores, se presentan en el ARPA (Advanced Research Projects Agency, agencia
de proyectos de investigación avanzados) los protocolos de conmutación de paquetes de
datos sobre redes de ordenadores (1968), que permitirán enlazar poco después varios
ordenadores de diferentes universidades en EE.UU.: había nacido ARPANET (1969),
embrión de lo que posteriormente será Internet.
En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias;[ se
establece el Brookhaven Protein Data Bank (1971), se crea la primera molécula de ADN
recombinante (Paul Berg, 1972), E. M. Southern desarrolla la técnica Southern blot de
localización de secuencias específicas de ADN (1976), comienza la secuenciación de ADN y
el desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977), y se publica
en 1978 la primera secuencia de genes completa de un organismo, el fago Φ-X174 (5.386
pares de bases que codifican 9 proteínas). En ámbitos tecnológicos vinculados, en estos años
se asiste al nacimiento del correo electrónico (Ray Tomlinson, BBN, 1971), al desarrollo de
Ethernet (protocolo de comunicaciones que facilitará la interconexión de ordenadores,
principalmente en redes de ámbito local) por Robert Metcalfe (1973), y al desarrollo del
protocolo TCP (Transmission Control Protocol, protocolo de control de transmisión) por
Vinton Cerf y Robert Kahn (1974), uno de los protocolos básicos para Internet.
Años 80
En la década de los 80 se asiste, en diversas áreas, a importantes avances:
Niveles de estructura de las proteínas. En los primeros ochenta se publica cómo investigar la
estructura terciaria mediante RMN; en la siguiente década se desarrollarán métodos para
predecir de novo algunas estructuras secundarias.
    • Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en
        1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda)
        utilizando una nueva técnica, la secuenciación shotgun (secuenciación por
        perdigonada), desarrollada por él mismo; también entre 1981 y 1982 K. Wüthrich
        publica el método de utilización de la RMN (Resonancia Magnética Nuclear) para
        determinar estructuras de proteínas;[37] Ford Doolittle trabaja con el concepto de
        secuencia motivo (similitudes supervivientes, según las denomina en el resumen de su
        artículo) en 1981; el descubrimiento en 1983 de la PCR (Polymerase Chain Reaction,
        reacción en cadena de la polimerasa) lleva a la multiplicación de muestras de ADN,
        lo que permitirá su análisis; en 1987, D. T. Burke et al. describen el uso de
        cromosomas artificiales de levadura (YAC, Yeast Artificial Chromosome), y Kulesh
        et al. sientan las bases de los chips de ADN.
    • Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y
        programas, aparece el algoritmo Smith-Waterman (1981),[ el algoritmo de búsqueda
        en bases de datos de secuencias (Wilbur-Lipman, 1983), FASTP/FASTN (búsqueda
        rápida de similitudes entre secuencias, 1985), el algoritmo FASTA para comparación
        de secuencias (Pearson y Lipman, 1988), y comienzan a utilizarse modelos ocultos de
        Márkov para analizar patrones y composición de las secuencias (Churchill, 1989), lo
        que permitirá más adelante localizar genes y predecir estructuras protéicas; aparecen
        importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986), redes
        que las interconectan (EMBnet en 1988), y se potencian o se crean diferentes
        organismos e instituciones (EMBL se constituye en 1974 pero se desarrolla durante
        la década de los 80, NCBI en 1988); también en estos años empieza a estudiarse la
        viabilidad de la Human Genome Initiative (First Santa Fe Conference, 1985), que
        será anunciada un año después por el DoE (Department of Energy, departamento de
        energía del gobierno de los EE.UU.) y que pondrá en marcha proyectos piloto para
        desarrollar recursos y tecnologías críticas; en 1987 el NIH (National Institutes of
        Health, institutos nacionales de la salud de EE.UU.) comienza aportar fondos a
        proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más
        conocida finalmente como Human Genome Project (Proyecto Genoma Humano).
    • Tecnológicos: 1983 verá la aparición del estándar Compact Disc (CD) en su versión
        para ser leído por un ordenador (Yellow Book); Jon Postel y Paul Mockapetris
        desarrollan en 1984 el sistema de nombres de dominio DNS, necesario para un
        direccionamiento correcto y ágil en Internet; en 1987 Larry Wall desarrolla el
        lenguaje de programación PERL, de amplio uso posterior en bioinformática; y a
        finales de la década se verán las primeras compañías privadas importantes con
        actividades vinculadas al genoma, proteínas, bioquímica, etc. (Genetics Computer
        Group – GCG, Oxford Molecular Group, Ltd.), y que, en general, experimentarán
        importantes transformaciones años más tarde.
Años 90
En los años 90 asistimos a los siguientes eventos:
   • Científicos: en 1991 comienza la secuenciación con EST (Expressed Sequence Tags,
        marcaje de secuencias expresadas); al año siguiente es publicado el mapa de
        ligamiento genético (en baja resolución) del genoma humano completo; en 1995 se
        consigue secuenciar completamente los primeros genomas de bacterias
        (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millones de pares de bases
        -Mbps- y 0,58 Mbps, respectivamente); en 1996, y en diferentes pasos (por
        cromosoma), se hace lo propio con el primer genoma eucariota, el de la levadura
        (Saccharomyces cerevisiae, con 12 Mbps), así como en 1997 con el genoma de
        Escherichia coli (4,7 Mbps), en 1998 con el primer genoma de un organismo
        multicelular (97 Mbp del Caenorhabditis elegans), para terminar la década con el
        primer cromosoma humano (el 22) completamente secuenciado en 1999 (33,4
        Mbps).
   • Bioinformáticos: búsqueda rápida de similitudes entre secuencias con BLAST
        (1990); base de datos de huellas de proteínas PRINTS, de Attwood y Beck (1994);
        ClustalW, orientado al alineamiento múltiple de secuencias, en 1994, y PSI-BLAST
        en 1997; a finales de la década se desarrolla T-Coffee, que se publica en 2000. Por lo
        que se refiere a actividades institucionales y nuevos organismos, tenemos la
        presentación por parte del DoE y NIH al Congreso de los EE.UU., en 1990, de un
        plan de esfuerzos conjuntos en el Human Genome Project para cinco años; se crean
        el Sanger Centre (Hinxton, UK, 1993; ahora Sanger Institute) y el European
        Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).[73] [74]
   • Tecnológicos: Tim Berners-Lee inventa la World Wide Web (1990) mediante
        aplicación de protocolos de red que explotan las características del hipertexto; en
        1991 aparecen los protocolos definitivos de Internet (CERN) y la primera versión del
        sistema operativo Linux, muy utilizado posteriormente en aplicaciones científicas; en
        1998 Craig Venter funda Celera, compañía que perfeccionará la secuenciación por
        perdigonada de F. Sanger y analizará los resultados con software propio.


                               Primeros años del siglo XXI
A destacar que en los años 2000 están culminando múltiples proyectos de secuenciación de
genomas de diferentes organismos: en 2000 se publican, entre otros, el genoma de
Arabidopsis thaliana (100 Mb) y el de Drosophila melanogaster (180 Mbp). Tras un
borrador operativo de la secuencia de ADN del genoma humano del año 2000, en 2001
aparece publicado el genoma humano (3 Gbp). Poco después, en 2003, y con dos años de
adelanto sobre lo previsto, se completa el Human Genome Project. Por mencionar algunos
de los genomas analizados en los años siguientes, anotaremos que en 2004 aparece el
borrador del genoma de Rattus norvegicus (rata), en 2005 el del chimpancé, en 2006 el del
macaco rhesus, en 2007 el del gato doméstico, y en 2008 se secuencia por primera vez el
genoma de una mujer. Gracias al desarrollo de las técnicas adecuadas, asistimos actualmente
a un aluvión de secuenciaciones de genomas de todo tipo de organismos.
En 2003 se funda en España el Instituto Nacional de Bioinformática, soportado por la
Fundación Genoma España (fundada, a su vez, un año antes y que pretende constituirse en
instrumento del estado para potenciar la investigación en este campo). En 2004, la
estadounidense FDA (Food and Drug Administration, agencia para la administración de
alimentos y fármacos) autoriza el uso de un chip de ADN por primera vez. En 2005 se
completa el proyecto HapMap (catalogación de variaciones genéticas en el ser humano). En
2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con más
de veinte mil entradas.
Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemos
versiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).
Principales áreas de investigación
Análisis de secuencias

Desde que el fago Φ-X174 fue secuenciado en 1977 (secuencia provisional: un año más tarde
se publicaría la secuencia completa definitiva), las secuencias de ADN de cientos de
organismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizados
para determinar los genes que codifican para ciertas proteínas, así como también secuencias
reguladoras. Una comparación de genes en una especie o entre especies puede mostrar
similitudes entre funciones de proteínas, o relaciones entre especies (uso de filogenética
molecular para construir árboles filogenéticos).[95]
Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizar
secuencias de ADN manualmente. Hoy se usan programas de computadora para estudiar el
genoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estos
programas pueden compensar mutaciones (con bases intercambiadas, borradas o insertadas)
en la secuencia de ADN, para identificar secuencias que están relacionadas, pero que no son
idénticas.[38] Una variante de este alineamiento de secuencias se usa en el proceso de
secuenciación.
La secuenciación conocida como "shotgun" (o por perdigonada: fue usada, por ejemplo, por
el Instituto de Investigación Genómica -The Institute for Genomic Research, TIGR, hoy J.
Craig Venter Institute- para secuenciar el primer genoma de bacteria, el Haemophilus
influenzae)[61] no da una lista secuencial de nucleótidos, pero en cambio nos ofrece las
secuencias de miles de pequeños fragmentos de ADN (cada uno de aproximadamente 600 a
800 nucleótidos de largo). Las terminaciones de estos fragmentos se superponen y, cuando
son alineados de la manera correcta, constituyen el genoma completo del organismo en
cuestión.[96]
El secuenciamiento shotgun proporciona datos de secuencia rápidamente, pero la tarea de
ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En el
caso del Proyecto Genoma Humano, llevó varios meses de tiempo de procesador (en una
estación DEC Alpha de alrededor del 2000) para ensamblar los fragmentos. El shotgun
sequencing es el método de elección para todos los genomas secuenciados hoy en día y los
algoritmos de ensamblado genómico son un área crítica de la investigación en bioinformática.
Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática de
genes y secuencias reguladoras dentro de un genoma.[97] No todos los nucleótidos dentro de
un genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes del
ADN no sirven a ningún propósito obvio. Este ADN, conocido como "ADN basura", puede,
sin embargo, contener elementos funcionales todavía no reconocidos. La bioinformática
sirve para estrechar la brecha entre los proyectos de genoma y proteoma (por ejemplo, en el
uso de secuencias de ADN para identificación de proteínas). Mapa del cromosoma X del
ser humano (extraído de la página web del NCBI). La transcripción del genoma humano es
uno de los mayores logros de la bioinformática.
Anotación de genomas
En el contexto de la genómica, anotación es el proceso de marcado de los genes y otras
características biológicas de la secuencia de ADN.[99] El primer sistema software de anotación
de genomas fue diseñado en 1995 por Owen White, quien fue miembro del equipo que
secuenció y analizó el primer genoma en ser descodificado de un organismo independiente,
la bacteria Haemophilus influenzae. White construyó un software para localizar los genes
(lugares en la secuencia de DNA que codifican una proteína), el ARN de transferencia, y
otras características, así como para realizar las primeras atribuciones de función a esos genes.
[61]
     La mayoría de los actuales sistemas de anotación genómica trabajan de forma similar,
pero los programas disponibles para el análisis del genoma se encuentran en continuo
cambio y mejora.

Biología evolutiva computacional
La Biología evolutiva es el estudio del origen ancestral de las especies, así como de su cambio
a través del tiempo.[100] La informática ha apoyado a los biólogos evolutivos en diferentes
campos clave. Ha permitido a los investigadores:
     • Seguir la evolución de un alto número de organismos midiendo cambios en su ADN,
        en lugar de hacerlo exclusivamente mediante su taxonomía física u observaciones
        fisiológicas.[38]
     • Más recientemente, comparar genomas completos, lo que permite el estudio de
        eventos evolutivos más complejos, tales como la duplicación de genes, la
        transferencia horizontal de genes, o la predicción de factores significativos en la
        especiación bacteriana.[101]
     • Construir modelos computacionales complejos de poblaciones para predecir el
        resultado del sistema a través del tiempo.
     • Seguir y compartir información sobre un amplio y creciente número de especies y
        organismos.
Los esfuerzos futuros se centrarán en reconstruir el cada vez más complejo árbol filogenético
de la vida.[103] El área de investigación de las ciencias de la computación denominada
computación evolutiva se confunde ocasionalmente con la Biología evolutiva computacional,
pero ambas áreas no guardan relación. Dicho campo se centra en el desarrollo de algoritmos
genéticos y otras estrategias de resolución de problemas con una marcada inspiración
evolutiva y genética.

Medición de la biodiversidad
La biodiversidad de un ecosistema puede definirse como el conjunto genómico completo de
todas las especies presentes en un medio ambiente particular,[104] sea este una biopelícula en
una mina abandonada, una gota de agua de mar, un puñado de tierra, o la biosfera completa
del planeta Tierra. Se utilizan bases de datos para recoger los nombres de las especies, así
como de sus descripciones, distribuciones, información genética, estado y tamaños de las
poblaciones, necesidades de su hábitat, y cómo cada organismo interactúa con otras especies.
Se usa software especializado para encontrar, visualizar y analizar la información; y, lo que es
más importante, para compartirla con otros interesados.[105] La simulación computacional
puede modelar cosas tales como dinámica poblacional, o calcular la mejora del acervo
genético de una variedad (en agricultura), o la población amenazada (en biología de la
conservación). Un potencial muy excitante en este campo es la posibilidad de preservar las
secuencias completas del ADN, o genomas, de especies amenazadas de extinción,
permitiendo registrar los resultados de la experimentación genética de la Naturaleza in silico
para su posible reutilización futura, aún si tales especies fueran finalmente perdidas.[106]
Pueden citarse, como ejemplos significativos, los proyectos Species 2000 o uBio.

Análisis de la expresión génica
La expresión génica de muchos genes puede determinarse por la medición de niveles de
mRNA mediante múltiples técnicas, incluyendo microarrays de ADN, secuenciación de EST
( Expressed Sequence Tag), análisis en serie de la expresión génica (Serial Analysis of Gene
Expression - SAGE), MPSS (Massively Parallel Signature Sequencing), o diversas
aplicaciones de hibridación in situ. Todas estas técnicas son extremadamente propensas al
ruido y/o sujetas a sesgos en la medición biológica, y una de las principales áreas de
investigación en la biología computacional trata del desarrollo de herramientas estadísticas
para separar la señal del ruido en los estudios de expresión génica con alto volumen de
procesamiento.[107] Estos estudios se usan a menudo para determinar los genes implicados en
un desorden: podrían, por ejemplo, compararse datos de microarrays de células epiteliales
cancerosas con datos de células no cancerosas para determinar las transcripciones que son
activadas o reprimidas en una población particular de células cancerosas.[108]

Análisis de la regulación
La regulación génica es la compleja orquestación de eventos que comienzan con una señal
extracelular tal como una hormona, que conducen a un incremento o decremento en la
actividad de una o más proteínas.[109] Se han aplicado técnicas bioinformáticas para explorar
varios pasos en este proceso. Por ejemplo, el análisis del promotor de un gen implica la
identificación y estudio de las secuencias motivo en los alrededores del ADN de la región
codificante de un gen.[110] Estos motivos influyen en el alcance según el cual esa región se
transcribe en ARNm. Los datos de expresión pueden usarse para inferir la regulación génica:
podrían compararse datos de microarrays provenientes de una amplia variedad de estados de
un organismo para formular hipótesis sobre los genes involucrados en cada estado. En un
organismo unicelular, podrían compararse etapas del ciclo celular a lo largo de variadas
condiciones de estrés (choque de calor, inanición, etc.). Podrían aplicarse, entonces,
algoritmos de agrupamiento (algoritmos de clustering, o análisis de cluster) a esa información
de expresión para determinar qué genes son expresados simultáneamente.[111] Por ejemplo,
los promotores de estos genes se pueden buscar según la abundancia de secuencias o
elementos regulatorios.

Análisis de la expresión de proteínas
Véase también: Expresión génica
Los microarrays de proteínas y la espectrometría de masas de alto rendimiento pueden
proporcionar una instantánea de las proteínas presentes en una muestra biológica. La
bioinformática está muy comprometida en dar soporte a ambos procedimientos. La
aproximación a los microarrays de proteínas encara similares problemas a los existentes para
microarrays destinados a ARNm,[112] mientras que para la espectrometría de masas el
problema es casar grandes cantidades de datos de masa contra masas predichas por bases de
datos de secuencias de proteínas, además del complicado análisis estadístico de muestras
donde se detectan múltiples, pero incompletos, péptidos de cada proteína.[113]
Análisis de mutaciones en el cáncer
En el cáncer, los genomas de las células afectadas son reordenados en complejas y/o aún
impredecibles maneras. Se realizan esfuerzos masivos de secuenciación para identificar
sustituciones individuales de bases (o puntos de mutación de nucleótidos) todavía
desconocidos en una variedad de genes en el cáncer.[114] Los bioinformáticos continúan
produciendo sistemas automatizados para gestionar el importante volumen de datos de
secuencias obtenido, y crean nuevos algoritmos y software para comparar los resultados de
secuenciación con la creciente colección de secuencias del genoma humano y de los
polimorfismos de la línea germinal. Se están utilizando nuevas tecnologías de detección
física, como los microarrays de oligonucleótidos para identificar pérdidas y ganancias
cromosómicas (técnica denominada hibridación genómica comparativa), y los arrays de
polimorfismos de nucleótido simple para detectar puntos de mutación conocidos. Estos
métodos de detección miden simultáneamente bastantes cientos de miles de posiciones a lo
largo del genoma, y cuando se usan con una alta productividad para analizar miles de
muestras, generan terabytes de datos por experimento. De esta forma las masivas cantidades
y nuevos tipos de datos proporcionan nuevas oportunidades para los bioinformáticos. A
menudo se encuentra en los datos una considerable variabilidad, o ruido, por lo que
métodos como el de los modelos ocultos de Márkov y el análisis de puntos de cambio están
siendo desarrollados para inferir cambios reales en el número de copias de los genes
(número de copias de un gen particular en el genotipo de un individuo, cuya magnitud puede
ser elevada en células cancerígenas).
Otro tipo de datos que requiere novedosos desarrollos informáticos es el análisis de las
lesiones encontradas de forma recurrente en buen número de tumores, principalmente por
análisis automatizado de imagen clínica.
Predicción de la estructura de las proteínas




Alineamiento estructural de tiorredoxinas del ser humano y de la mosca Drosophila
melanogaster. Las proteínas se muestran como cintas, con la proteína humana en rojo y la de
la mosca en amarillo. Generado con PDB 3TRX y 1XWC.
La predicción de la estructura de las proteínas es otra importante aplicación de la
bioinformática. La secuencia de aminoácidos de una proteína, también llamada estructura
primaria, puede ser determinada fácilmente desde la secuencia de nucleótidos sobre el gen
que la codifica.[119] En la inmensa mayoría de los casos, esta estructura primaria determina
únicamente una estructura de la proteína en su ambiente nativo. (Hay, por supuesto,
excepciones, como la encefalopatía espongiforme bovina, o "mal de las vacas locas"; ver,
también, prión.) El conocimiento de esta estructura es vital para entender la función de la
proteína.[120] En ausencia de mejores términos, la información estructural de las proteínas se
clasifica usualmente como estructura secundaria, terciaria y cuaternaria. Una solución general
viable para la predicción de tales estructuras permanece todavía como problema abierto. Por
ahora, la mayoría de los esfuerzos han sido dirigidos hacia heurísticas que funcionan la
mayoría de las veces.[121]
Una de las ideas clave en bioinformática es la noción de homología. En la rama genómica de
la bioinformática, se usa la homología para predecir la función de un gen: si la secuencia de
gen A, cuya función es conocida, es homóloga a la secuencia de gen B, cuya función es
desconocida, puede inferirse que B podría compartir la función de A.[122] En la rama
estructural de la bioinformática, la homología se usa para determinar qué partes de una
proteína son importantes en la formación de la estructura y en la interacción con otras
proteínas. En la técnica denominada modelado por homología, esta información se usa para
predecir la estructura de una proteína una vez conocida la estructura de una proteína
homóloga.[123] Esta es, actualmente, la única vía para predecir estructuras de proteínas de una
manera fiable.
Un ejemplo de lo anterior es la similar homología proteica entre la hemoglobina en humanos
y la hemoglobina en las legumbres (leghemoglobina). Ambas sirven al mismo propósito de
transportar oxígeno en el organismo. Aunque las dos tienen una secuencia de aminoácidos
completamente diferente, sus estructuras son virtualmente idénticas, lo que refleja sus
prácticamente idénticos propósitos.[124]
Otras técnicas para predecir la estructura de las proteínas incluyen el enhebrado de proteínas
(protein threading)[125] y el modelado de novo (desde cero), basado en las características
físicas y químicas.[126]
Al respecto, pueden verse también motivo estructural (structural motif) y dominio estructural
(structural domain).

Genómica comparativa
El núcleo del análisis comparativo del genoma es el establecimiento de la correspondencia
entre genes (análisis ortólogo) o entre otras características genómicas de diferentes
organismos. Estos mapas intergenómicos son los que hacen posible rastrear los procesos
evolutivos responsables de la divergencia entre dos genomas. Una multitud de eventos
evolutivos actuando a diferentes niveles organizativos conforman la evolución del genoma.[127]
Al nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. Al mayor
nivel, amplios segmentos cromosómicos experimentan duplicación, transferencia horizontal,
inversión, transposición, borrado e inserción. Finalmente, los genomas enteros están
involucrados en procesos de hibridación, poliploidía y endosimbiosis, conduciendo a
menudo a una súbita especiación.
La complejidad de la evolución del genoma plantea muchos desafíos excitantes a
desarrolladores de modelos matemáticos y algoritmos, quienes deben recurrir a un espectro
de técnicas algorítmicas, estadísticas y matemáticas que se extienden desde exactas,
heurísticas, con parámetros fijados, y mediante algoritmos de aproximación para problemas
basados en modelos de parsimonia, hasta algoritmos "Márkov Chain Monte Carlo" para
análisis Bayesiano de problemas basados en modelos probabilísticos.[128]
Muchos de estos estudios están basados en la detección de homología y la computación de
familias de proteínas.
Modelado de sistemas biológicos
La biología de sistemas implica el uso de simulaciones por ordenador de subsistemas
celulares (tales como redes de metabolitos y enzimas que comprenden el metabolismo,
caminos de transducción de señales, y redes de regulación genética), tanto para analizar
como para visualizar las complejas conexiones de estos procesos celulares.[129] La vida
artificial o la evolución virtual tratan de entender los procesos evolutivos por medio de la
simulación por ordenador de sencillas formas de vida (artificial).[130]

Análisis de imagen de alto rendimiento
Se están usando tecnologías de computación para acelerar o automatizar completamente el
procesamiento, cuantificación y análisis de grandes cantidades de imágenes biomédicas con
alto contenido en información. Los modernos sistemas de análisis de imagen incrementan la
habilidad del observador para realizar análisis sobre un amplio o complejo conjunto de
imágenes, mejorando la precisión, la objetividad (independencia de los resultados según el
observador), o la rapidez. Un sistema de análisis totalmente desarrollado podría reemplazar
completamente al observador. Aunque estos sistemas no son exclusivos del campo de las
imágenes biomédicas, cada vez son más importantes tanto para el diagnóstico como para la
investigación. Algunos ejemplos:
    • Cuantificación y localización subcelular con alta productividad y precisión (high-
        content screening, citohistopatología).[131]
    • Morfometría.[132]
    • Análisis y visualización de imágenes clínicas.[133]
    • Determinación de patrones en el flujo del aire en tiempo real de la respiración
        pulmonar de animales vivos.
    • Cuantificación del tamaño de la oclusión a través de imágenes en tiempo real, tanto
        por desarrollo como por recuperación, de lesiones arteriales.[134]
    • Realización de observaciones conductuales basadas en prolongadas grabaciones en
        vídeo de animales de laboratorio.
    • Observaciones en infrarrojo (espectroscopia infrarroja) para la determinación de la
        actividad metabólica.[135]

Acoplamiento proteína-proteína
En las últimas dos décadas, decenas de miles de estructuras tridimensionales de proteínas
han sido determinadas por cristalografía de rayos X y espectroscopía mediante resonancia
magnética nuclear de proteínas (RMN de proteínas). Una cuestión central para los científicos
es si resulta viable la predicción de posibles interacciones proteína-proteína solamente
basados en esas formas 3D, sin realizar experimentos identificativos de estas interacciones.
Se han desarrollado una variedad de métodos para enfrentarse al problema del acoplamiento
proteína-proteína, aunque parece que queda todavía mucho trabajo en este campo.[136
Herramientas de software

Las herramientas de software para bioinformática van desde simples herramientas de línea
de comandos hasta mucho más complejos programas gráficos y servicios web autónomos
situados en compañías de bioinformática o instituciones públicas. La más conocida
herramienta de biología computacional entre los los biólogos es, probablemente, BLAST, un
algoritmo para determinar la similitud de secuencias arbitrarias con otras secuencias,
probablemente residentes en bases de datos de proteínas o de secuencias de ADN. El NCBI
(National Center for Biotechnology Information, EE.UU.), por ejemplo, proporciona una
implementación muy utilizada, basada en web, y que trabaja sobre sus bases de datos.
Para alineamientos múltiples de secuencias, el clásico ClustalW, actualmente en su versión 2,
es el software de referencia. Puede trabajarse con una implementación del mismo en el EBI
(Instituto Europeo de Bioinformática).
BLAST y ClustalW son sólo dos ejemplos de los muchos programas de alineamiento de
secuencias disponibles. Existe, por otra parte, multitud de software bioinformático con otros
objetivos: alineamiento estructural de proteínas, predicción de genes y otros motivos,
predicción de estructura de proteínas, predicción de acoplamiento proteína-proteína, o
modelado de sistemas biológicos, entre otros. En Anexo:Software para alineamiento de
secuencias y Anexo:Software para alineamiento estructural pueden encontrarse sendas
relaciones de programas o servicios web adecuados para cada uno de estos dos objetivos en
particular.

                              Servicios Web en bioinformática
Se han desarrollado interfaces basadas en SOAP y en REST (Representational State
Transfer, transferencia de estado representacional) para una amplia variedad de aplicaciones
bioinformáticas, permitiendo que una aplicación, corriendo en un ordenador de cualquier
parte del mundo, pueda usar algoritmos, datos y recursos de computación alojados en
servidores en cualesquiera otras partes del planeta. Las principales ventajas radican en que el
usuario final se despreocupa de actualizaciones y modificaciones en el software o en las bases
de datos. Los servicios bioinformáticos básicos, de acuerdo a la clasificación implícita del
EBI, pueden clasificarse en:
    • Servicios de obtención de información en línea (consultas a bases de datos, por
        ejemplo).
    • Herramientas de análisis (por ejemplo, servicios que den acceso a EMBOSS).
    • Búsquedas de similitudes entre secuencias (servicios de acceso a FASTA o BLAST,
        por ejemplo).
    • Alineamientos múltiples de secuencias (acceso a ClustalW o T-Coffee).
    • Análisis estructural (acceso a servicios de alineamiento estructural de proteínas, por
        ejemplo).
    • Servicios de acceso a literatura especializada y ontologías.
La disponibilidad de estos servicios web basados en SOAP a través de sistemas tales como
los servicios de registro, (servicios de distribución y descubrimiento de datos a través de
servicios web) demuestra la aplicabilidad de soluciones bioinformáticas basadas en web. Estas
herramientas varían desde una colección de herramientas autónomas con un formato de
datos común, y bajo una única interface autónoma o basada en web, hasta sistemas
integradores y extensibles para la gestión del flujo de trabajo bioinformático.
Conclusión:


Es una ciencia basada en los estudios específicos del Internet muchos de los
biliosos la estudian para una mayor protección informática así también para
  crear diferentes clases de recursos biotecnológicos que puedan ayudar a
     desarrollar una mejor fracción o una mejor formación a lo que es la
                               Bioinformática.
Bibliografía:

Mozilla Firefox 3.6

www.google.com

www.altavista.com

www.wikipedia.org

www.Slideshare.net

WinWord 2003

Gracias.

Weitere ähnliche Inhalte

Was ist angesagt?

Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...Edgar Fernando Salcedo Ramirez
 
Introduccion a la bioinformatica
Introduccion a la bioinformaticaIntroduccion a la bioinformatica
Introduccion a la bioinformaticacursoNGS
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"NancyVegu
 
Introduccion a la Bioinformatica
Introduccion a la BioinformaticaIntroduccion a la Bioinformatica
Introduccion a la Bioinformaticaguestaaee08
 
Dialnet bioinformatica unaoportunidady-undesafio-2731617
Dialnet bioinformatica unaoportunidady-undesafio-2731617Dialnet bioinformatica unaoportunidady-undesafio-2731617
Dialnet bioinformatica unaoportunidady-undesafio-2731617Jaime Paredes
 
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignmentBioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignmentVictoria López
 
Usos de la informática
Usos  de la informáticaUsos  de la informática
Usos de la informáticabryan08
 
Proteomica y bioinformatica
Proteomica y bioinformaticaProteomica y bioinformatica
Proteomica y bioinformaticaMichelle Santos
 
Bioinformatica1
Bioinformatica1Bioinformatica1
Bioinformatica1CarolNav
 
Nº1 analisis de secuencias ayrton soto
Nº1 analisis de secuencias ayrton sotoNº1 analisis de secuencias ayrton soto
Nº1 analisis de secuencias ayrton sotoayrtonsotoparedes
 
Informe practica n1 emily cusilayme romero
Informe practica n1 emily cusilayme romeroInforme practica n1 emily cusilayme romero
Informe practica n1 emily cusilayme romeroEmilyCusilayme
 
Impacto de las tendencias informaticas
Impacto de las tendencias informaticasImpacto de las tendencias informaticas
Impacto de las tendencias informaticasRoiner Hernandez
 

Was ist angesagt? (19)

Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMIC...
 
Bio-informatica
Bio-informaticaBio-informatica
Bio-informatica
 
Introduccion a la bioinformatica
Introduccion a la bioinformaticaIntroduccion a la bioinformatica
Introduccion a la bioinformatica
 
Ensayo "Bioinformatica"
Ensayo "Bioinformatica"Ensayo "Bioinformatica"
Ensayo "Bioinformatica"
 
Introduccion a la Bioinformatica
Introduccion a la BioinformaticaIntroduccion a la Bioinformatica
Introduccion a la Bioinformatica
 
Textos de apoyo bioinformatica
Textos de apoyo bioinformaticaTextos de apoyo bioinformatica
Textos de apoyo bioinformatica
 
Dialnet bioinformatica unaoportunidady-undesafio-2731617
Dialnet bioinformatica unaoportunidady-undesafio-2731617Dialnet bioinformatica unaoportunidady-undesafio-2731617
Dialnet bioinformatica unaoportunidady-undesafio-2731617
 
Biologia computacional
Biologia computacionalBiologia computacional
Biologia computacional
 
Bioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignmentBioinformatics Biostatistics with dynamic programming and sequence alignment
Bioinformatics Biostatistics with dynamic programming and sequence alignment
 
Usos de la informática
Usos  de la informáticaUsos  de la informática
Usos de la informática
 
Bioinformatica
BioinformaticaBioinformatica
Bioinformatica
 
Proteomica y bioinformatica
Proteomica y bioinformaticaProteomica y bioinformatica
Proteomica y bioinformatica
 
Bioinformatica
BioinformaticaBioinformatica
Bioinformatica
 
Actividad 3
Actividad 3Actividad 3
Actividad 3
 
Bioinformatica1
Bioinformatica1Bioinformatica1
Bioinformatica1
 
Molinari ana
Molinari anaMolinari ana
Molinari ana
 
Nº1 analisis de secuencias ayrton soto
Nº1 analisis de secuencias ayrton sotoNº1 analisis de secuencias ayrton soto
Nº1 analisis de secuencias ayrton soto
 
Informe practica n1 emily cusilayme romero
Informe practica n1 emily cusilayme romeroInforme practica n1 emily cusilayme romero
Informe practica n1 emily cusilayme romero
 
Impacto de las tendencias informaticas
Impacto de las tendencias informaticasImpacto de las tendencias informaticas
Impacto de las tendencias informaticas
 

Ähnlich wie Bioinformática XII-B

Usos de la informática
Usos de la informáticaUsos de la informática
Usos de la informáticaDarlingAF
 
Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)
Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)
Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)elioaaronespinozafar
 
Diccionario inglés español de bioquímica y biología
Diccionario inglés español de bioquímica y biologíaDiccionario inglés español de bioquímica y biología
Diccionario inglés español de bioquímica y biologíaJimena Gil
 
Ppt0000004
Ppt0000004Ppt0000004
Ppt0000004jano
 
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...Mikel Egaña Aranguren, Ph.D.
 
Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación
Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación
Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación Arantxa Muñoz Pérez del Pulgar
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesJoselu Marina
 
Tecnologias de Información aplicada a la docencia e investigación en salud II...
Tecnologias de Información aplicada a la docencia e investigación en salud II...Tecnologias de Información aplicada a la docencia e investigación en salud II...
Tecnologias de Información aplicada a la docencia e investigación en salud II...saludgestionaperu
 
Software for systems biology
Software for systems biologySoftware for systems biology
Software for systems biologyCarlos Rodriguez
 
PROGRAMA BIOINFORMATICO MEGA DNA.pdf
PROGRAMA BIOINFORMATICO MEGA DNA.pdfPROGRAMA BIOINFORMATICO MEGA DNA.pdf
PROGRAMA BIOINFORMATICO MEGA DNA.pdfSalmaAnco1
 
Informe MEGA BIOTECNOLOGIA (1).pdf
Informe MEGA BIOTECNOLOGIA (1).pdfInforme MEGA BIOTECNOLOGIA (1).pdf
Informe MEGA BIOTECNOLOGIA (1).pdfEduardCapia
 
Los cuatros pilares de la convergencia
Los cuatros pilares de la convergenciaLos cuatros pilares de la convergencia
Los cuatros pilares de la convergenciaAngelica Rodriguez
 
Características de innovación
Características de innovaciónCaracterísticas de innovación
Características de innovaciónJonathanRmz32
 

Ähnlich wie Bioinformática XII-B (20)

Usos de la informática
Usos de la informáticaUsos de la informática
Usos de la informática
 
Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)
Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)
Dialnet tecnologias bioinformaticasparaelanalisisdesecuenci-4321929 (1)
 
Diccionario inglés español de bioquímica y biología
Diccionario inglés español de bioquímica y biologíaDiccionario inglés español de bioquímica y biología
Diccionario inglés español de bioquímica y biología
 
Gen 16 s
Gen 16 sGen 16 s
Gen 16 s
 
Pagina 159
Pagina 159Pagina 159
Pagina 159
 
Ppt0000004
Ppt0000004Ppt0000004
Ppt0000004
 
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
Métodos y Resultados Actuales en Bioinformática: know-how y know-what de las ...
 
Breve análisis histórico-bibliométrico de la Biología computacional
Breve análisis histórico-bibliométrico de la Biología computacionalBreve análisis histórico-bibliométrico de la Biología computacional
Breve análisis histórico-bibliométrico de la Biología computacional
 
Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación
Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación
Canube. Ciencia abierta en la nube. Tarea 3.2 biocomputación
 
Taller de columnas
Taller de columnasTaller de columnas
Taller de columnas
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de Genes
 
Tecnologias de Información aplicada a la docencia e investigación en salud II...
Tecnologias de Información aplicada a la docencia e investigación en salud II...Tecnologias de Información aplicada a la docencia e investigación en salud II...
Tecnologias de Información aplicada a la docencia e investigación en salud II...
 
Taller de columnas
Taller de columnasTaller de columnas
Taller de columnas
 
Software for systems biology
Software for systems biologySoftware for systems biology
Software for systems biology
 
Tallerdecolumnas 140829190356-phpapp02
Tallerdecolumnas 140829190356-phpapp02Tallerdecolumnas 140829190356-phpapp02
Tallerdecolumnas 140829190356-phpapp02
 
Tallerdecolumnas 140829190356-phpapp02
Tallerdecolumnas 140829190356-phpapp02Tallerdecolumnas 140829190356-phpapp02
Tallerdecolumnas 140829190356-phpapp02
 
PROGRAMA BIOINFORMATICO MEGA DNA.pdf
PROGRAMA BIOINFORMATICO MEGA DNA.pdfPROGRAMA BIOINFORMATICO MEGA DNA.pdf
PROGRAMA BIOINFORMATICO MEGA DNA.pdf
 
Informe MEGA BIOTECNOLOGIA (1).pdf
Informe MEGA BIOTECNOLOGIA (1).pdfInforme MEGA BIOTECNOLOGIA (1).pdf
Informe MEGA BIOTECNOLOGIA (1).pdf
 
Los cuatros pilares de la convergencia
Los cuatros pilares de la convergenciaLos cuatros pilares de la convergencia
Los cuatros pilares de la convergencia
 
Características de innovación
Características de innovaciónCaracterísticas de innovación
Características de innovación
 

Kürzlich hochgeladen

Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..RobertoGumucio2
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 

Kürzlich hochgeladen (20)

Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 

Bioinformática XII-B

  • 1. INSTITUTO DE MARINA MERCANTE ITSMEÑO DE VERAGUAS ASIGNATURA: Biología PROFESORA: Lourdes Castillo ESTUDIANTES: Gadiel Herrera Christian Campos Alejandra Him Brianth Magallon NIVEL: XII – B TEMA: Bioinformática 2011
  • 2. Introducción: Es una materia que se basa en la creación de vida artificial informática como diferentes tipos de virus que se basan en el estudio de la bioinformática. Esta ciencia se basa en el estudio principal de lo que es un sistema operador o una pagina Web o Internet esta materia se le puede facilitar al estudiante por medio de este folleto que lleva detalladamente desde su inicio hasta sus más grandes descubrimientos en esta ciencia. Esta es una de las materias mas osadas por los Jocker o Hacker que se basan en la entrada a sistemas o privados o prohibidos por medio de virus y claves que acceden a esta materia.
  • 3. Bioinformática, según una de sus definiciones más sencillas, es la aplicación de tecnología de computadores a la gestión y análisis de datos biológicos. Los términos bioinformática, biología computacional y, en ocasiones, biocomputación, utilizados en muchas situaciones como sinónimos, hacen referencia a campos de estudios interdisciplinarios muy vinculados, que requieren el uso o el desarrollo de diferentes técnicas que incluyen informática, matemática aplicada, estadística, ciencias de la computación, inteligencia artificial, química y bioquímica para solucionar problemas, analizar datos, o simular sistemas o mecanismos, todos ellos de índole biológica, y usualmente (pero no de forma exclusiva) en el nivel molecular. El núcleo principal de estas técnicas se encuentra en la utilización de recursos computacionales para solucionar o investigar problemas sobre escalas de tal magnitud que sobrepasan el discernimiento humano. La investigación en biología computacional se solapa a menudo con la biología de sistemas. Los principales esfuerzos de investigación en estos campos incluyen el alineamiento de secuencias, la predicción de genes, montaje del genoma, alineamiento estructural de proteínas, predicción de estructura de proteínas, predicción de la expresión génica, interacciones proteína-proteína, y modelado de la evolución. Una constante en proyectos de bioinformática y biología computacional es el uso de herramientas matemáticas para extraer información útil de datos producidos por técnicas biológicas de alta productividad, como la secuenciación del genoma. En particular, el montaje o ensamblado de secuencias genómicas de alta calidad desde fragmentos obtenidos tras la secuenciación del ADN a gran escala es un área de alto interés. Otros objetivos incluyen el estudio de la regulación genética para interpretar perfiles de expresión génica utilizando datos de chips de ADN o espectrometría de masas.
  • 4. Conceptos y alcance Como se ha avanzado en la introducción, los términos bioinformática, biología computacional y biocomputación son utilizados a menudo como sinónimos, apareciendo con frecuencia en la literatura básica de forma indiferenciada en sus usos comunes. Sin embargo, hay conformadas áreas de aplicación propias de cada término. El NIH (National Institutes of Health, Institutos Nacionales de la Salud de los Estados Unidos), por ejemplo, aún reconociendo previamente que ninguna definición podría eliminar completamente el solapamiento entre actividades de las diferentes técnicas, define explícitamente los términos bioinformática y biología computacional: • Bioinformática es la investigación, desarrollo o aplicación de herramientas computacionales y aproximaciones para la expansión del uso de datos biológicos, médicos, conductuales o de salud, incluyendo aquellas herramientas que sirvan para adquirir, almacenar, organizar, analizar o visualizar tales datos. • Biología computacional sería el desarrollo y aplicación de métodos teóricos y de análisis de datos, modelado matemático y técnicas de simulación computacional al estudio de sistemas biológicos, conductuales y sociales. De esta forma, la bioinformática tendría más que ver con la información, mientras que la biología computacional lo haría con las hipótesis. Por otra parte, el término biocomputación suele enmarcarse en las actuales investigaciones con biocomputadores y, por ejemplo, T. Kaminuma lo define de la siguiente forma: • Biocomputación es la construcción y uso de computadores que contienen componentes biológicos o funcionan como organismos vivos. Aparte de las definiciones formales de organismos o instituciones de referencia, los manuales de esta materia aportan sus propias definiciones operativas, lógicamente vinculadas en mayor o menor medida con las ya vistas. Como ejemplo, David W. Mount, en su difundido texto sobre bioinformática, precisa que: …la bioinformática se centra más en el desarrollo de herramientas prácticas para la gestión de datos y el análisis (por ejemplo, la presentación de información genómica y análisis secuencial), pero con menor énfasis en la eficiencia y en la precisión. Por otra parte, y según el mismo autor: …la biología computacional generalmente se relaciona con el desarrollo de algoritmos nuevos y eficientes, que se puede demostrar funcionan sobre un problema difícil, tales como el alineamiento múltiple de secuencias o el montaje (o ensamblado) de fragmentos de genoma. Por último, se encuentra en ocasiones una categorización explícita de estos conceptos según la cual la bioinformática es una subcategoría de la biología computacional. Por ejemplo, la bióloga Cynthia Gibas anota que: La bioinformática es la ciencia del uso de la información para entender la biología. (...) Hablando estrictamente, la bioinformática es un subconjunto del campo mayor de la biología computacional, (siendo esta última) la aplicación de técnicas analíticas cuantitativas en el modelado de sistemas biológicos.
  • 5. No obstante, y refiriéndose a su propio texto (Developing Bioinformatics Computer Skills, desarrollo de habilidades computacionales para bioinformática), enseguida pasa a aclarar que: ...pasaremos de bioinformática a biología computacional y viceversa. Las distinciones entre las dos no son importantes para nuestro propósito aquí. En muchas ocasiones, por lo tanto, los términos serán intercambiables y, salvo en contextos de cierta especialización, el significado último se mantendrá claro utilizando cualquiera de ellos.
  • 6. Historia En lo que sigue, y además de los hechos relevantes directamente relacionados con el desarrollo de la bioinformática, se mencionarán algunos hitos científicos y tecnológicos que servirán para poner en un contexto adecuado tal desarrollo. Arrancaremos esta breve historia en la década de los 50 del pasado siglo XX, años en los que Watson y Crick proponen la estructura de doble hélice del ADN (1953), se secuencia la primera proteína (insulina bovina) por F. Sanger (1955), o se construye el primer circuito integrado por Jack Kilby en los laboratorios de Texas Instruments (1958). Las primeras décadas: años 60 y 70 del siglo XX En los años 60, L. Pauling elabora su teoría sobre evolución molecular (1962), y Margaret Dayhoff, una de las pioneras de la bioinformática, publica el primero de los Atlas of Protein Sequences (1965), que tendrá continuidad en años posteriores, se convertirá en una obra básica en el desarrollo estadístico, algunos años más tarde, de las matrices de sustitución PAM, y será precursor de las actuales bases de datos de proteínas. En el área de la tecnología de computadores, se presentan en el ARPA (Advanced Research Projects Agency, agencia de proyectos de investigación avanzados) los protocolos de conmutación de paquetes de datos sobre redes de ordenadores (1968), que permitirán enlazar poco después varios ordenadores de diferentes universidades en EE.UU.: había nacido ARPANET (1969), embrión de lo que posteriormente será Internet. En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias;[ se establece el Brookhaven Protein Data Bank (1971), se crea la primera molécula de ADN recombinante (Paul Berg, 1972), E. M. Southern desarrolla la técnica Southern blot de localización de secuencias específicas de ADN (1976), comienza la secuenciación de ADN y el desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977), y se publica en 1978 la primera secuencia de genes completa de un organismo, el fago Φ-X174 (5.386 pares de bases que codifican 9 proteínas). En ámbitos tecnológicos vinculados, en estos años se asiste al nacimiento del correo electrónico (Ray Tomlinson, BBN, 1971), al desarrollo de Ethernet (protocolo de comunicaciones que facilitará la interconexión de ordenadores, principalmente en redes de ámbito local) por Robert Metcalfe (1973), y al desarrollo del protocolo TCP (Transmission Control Protocol, protocolo de control de transmisión) por Vinton Cerf y Robert Kahn (1974), uno de los protocolos básicos para Internet.
  • 7. Años 80 En la década de los 80 se asiste, en diversas áreas, a importantes avances: Niveles de estructura de las proteínas. En los primeros ochenta se publica cómo investigar la estructura terciaria mediante RMN; en la siguiente década se desarrollarán métodos para predecir de novo algunas estructuras secundarias. • Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en 1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda) utilizando una nueva técnica, la secuenciación shotgun (secuenciación por perdigonada), desarrollada por él mismo; también entre 1981 y 1982 K. Wüthrich publica el método de utilización de la RMN (Resonancia Magnética Nuclear) para determinar estructuras de proteínas;[37] Ford Doolittle trabaja con el concepto de secuencia motivo (similitudes supervivientes, según las denomina en el resumen de su artículo) en 1981; el descubrimiento en 1983 de la PCR (Polymerase Chain Reaction, reacción en cadena de la polimerasa) lleva a la multiplicación de muestras de ADN, lo que permitirá su análisis; en 1987, D. T. Burke et al. describen el uso de cromosomas artificiales de levadura (YAC, Yeast Artificial Chromosome), y Kulesh et al. sientan las bases de los chips de ADN. • Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y programas, aparece el algoritmo Smith-Waterman (1981),[ el algoritmo de búsqueda en bases de datos de secuencias (Wilbur-Lipman, 1983), FASTP/FASTN (búsqueda rápida de similitudes entre secuencias, 1985), el algoritmo FASTA para comparación de secuencias (Pearson y Lipman, 1988), y comienzan a utilizarse modelos ocultos de Márkov para analizar patrones y composición de las secuencias (Churchill, 1989), lo que permitirá más adelante localizar genes y predecir estructuras protéicas; aparecen importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986), redes que las interconectan (EMBnet en 1988), y se potencian o se crean diferentes organismos e instituciones (EMBL se constituye en 1974 pero se desarrolla durante la década de los 80, NCBI en 1988); también en estos años empieza a estudiarse la viabilidad de la Human Genome Initiative (First Santa Fe Conference, 1985), que será anunciada un año después por el DoE (Department of Energy, departamento de energía del gobierno de los EE.UU.) y que pondrá en marcha proyectos piloto para desarrollar recursos y tecnologías críticas; en 1987 el NIH (National Institutes of Health, institutos nacionales de la salud de EE.UU.) comienza aportar fondos a proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más conocida finalmente como Human Genome Project (Proyecto Genoma Humano). • Tecnológicos: 1983 verá la aparición del estándar Compact Disc (CD) en su versión para ser leído por un ordenador (Yellow Book); Jon Postel y Paul Mockapetris desarrollan en 1984 el sistema de nombres de dominio DNS, necesario para un direccionamiento correcto y ágil en Internet; en 1987 Larry Wall desarrolla el lenguaje de programación PERL, de amplio uso posterior en bioinformática; y a finales de la década se verán las primeras compañías privadas importantes con actividades vinculadas al genoma, proteínas, bioquímica, etc. (Genetics Computer Group – GCG, Oxford Molecular Group, Ltd.), y que, en general, experimentarán importantes transformaciones años más tarde.
  • 8. Años 90 En los años 90 asistimos a los siguientes eventos: • Científicos: en 1991 comienza la secuenciación con EST (Expressed Sequence Tags, marcaje de secuencias expresadas); al año siguiente es publicado el mapa de ligamiento genético (en baja resolución) del genoma humano completo; en 1995 se consigue secuenciar completamente los primeros genomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millones de pares de bases -Mbps- y 0,58 Mbps, respectivamente); en 1996, y en diferentes pasos (por cromosoma), se hace lo propio con el primer genoma eucariota, el de la levadura (Saccharomyces cerevisiae, con 12 Mbps), así como en 1997 con el genoma de Escherichia coli (4,7 Mbps), en 1998 con el primer genoma de un organismo multicelular (97 Mbp del Caenorhabditis elegans), para terminar la década con el primer cromosoma humano (el 22) completamente secuenciado en 1999 (33,4 Mbps). • Bioinformáticos: búsqueda rápida de similitudes entre secuencias con BLAST (1990); base de datos de huellas de proteínas PRINTS, de Attwood y Beck (1994); ClustalW, orientado al alineamiento múltiple de secuencias, en 1994, y PSI-BLAST en 1997; a finales de la década se desarrolla T-Coffee, que se publica en 2000. Por lo que se refiere a actividades institucionales y nuevos organismos, tenemos la presentación por parte del DoE y NIH al Congreso de los EE.UU., en 1990, de un plan de esfuerzos conjuntos en el Human Genome Project para cinco años; se crean el Sanger Centre (Hinxton, UK, 1993; ahora Sanger Institute) y el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).[73] [74] • Tecnológicos: Tim Berners-Lee inventa la World Wide Web (1990) mediante aplicación de protocolos de red que explotan las características del hipertexto; en 1991 aparecen los protocolos definitivos de Internet (CERN) y la primera versión del sistema operativo Linux, muy utilizado posteriormente en aplicaciones científicas; en 1998 Craig Venter funda Celera, compañía que perfeccionará la secuenciación por perdigonada de F. Sanger y analizará los resultados con software propio. Primeros años del siglo XXI A destacar que en los años 2000 están culminando múltiples proyectos de secuenciación de genomas de diferentes organismos: en 2000 se publican, entre otros, el genoma de Arabidopsis thaliana (100 Mb) y el de Drosophila melanogaster (180 Mbp). Tras un borrador operativo de la secuencia de ADN del genoma humano del año 2000, en 2001 aparece publicado el genoma humano (3 Gbp). Poco después, en 2003, y con dos años de adelanto sobre lo previsto, se completa el Human Genome Project. Por mencionar algunos de los genomas analizados en los años siguientes, anotaremos que en 2004 aparece el borrador del genoma de Rattus norvegicus (rata), en 2005 el del chimpancé, en 2006 el del macaco rhesus, en 2007 el del gato doméstico, y en 2008 se secuencia por primera vez el genoma de una mujer. Gracias al desarrollo de las técnicas adecuadas, asistimos actualmente a un aluvión de secuenciaciones de genomas de todo tipo de organismos. En 2003 se funda en España el Instituto Nacional de Bioinformática, soportado por la Fundación Genoma España (fundada, a su vez, un año antes y que pretende constituirse en instrumento del estado para potenciar la investigación en este campo). En 2004, la
  • 9. estadounidense FDA (Food and Drug Administration, agencia para la administración de alimentos y fármacos) autoriza el uso de un chip de ADN por primera vez. En 2005 se completa el proyecto HapMap (catalogación de variaciones genéticas en el ser humano). En 2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con más de veinte mil entradas. Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemos versiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).
  • 10. Principales áreas de investigación Análisis de secuencias Desde que el fago Φ-X174 fue secuenciado en 1977 (secuencia provisional: un año más tarde se publicaría la secuencia completa definitiva), las secuencias de ADN de cientos de organismos han sido decodificadas y guardadas en bases de datos. Esos datos son analizados para determinar los genes que codifican para ciertas proteínas, así como también secuencias reguladoras. Una comparación de genes en una especie o entre especies puede mostrar similitudes entre funciones de proteínas, o relaciones entre especies (uso de filogenética molecular para construir árboles filogenéticos).[95] Con la creciente cantidad de datos, desde hace mucho se ha vuelto poco práctico analizar secuencias de ADN manualmente. Hoy se usan programas de computadora para estudiar el genoma de miles de organismos, conteniendo miles de millones de nucleótidos. Estos programas pueden compensar mutaciones (con bases intercambiadas, borradas o insertadas) en la secuencia de ADN, para identificar secuencias que están relacionadas, pero que no son idénticas.[38] Una variante de este alineamiento de secuencias se usa en el proceso de secuenciación. La secuenciación conocida como "shotgun" (o por perdigonada: fue usada, por ejemplo, por el Instituto de Investigación Genómica -The Institute for Genomic Research, TIGR, hoy J. Craig Venter Institute- para secuenciar el primer genoma de bacteria, el Haemophilus influenzae)[61] no da una lista secuencial de nucleótidos, pero en cambio nos ofrece las secuencias de miles de pequeños fragmentos de ADN (cada uno de aproximadamente 600 a 800 nucleótidos de largo). Las terminaciones de estos fragmentos se superponen y, cuando son alineados de la manera correcta, constituyen el genoma completo del organismo en cuestión.[96] El secuenciamiento shotgun proporciona datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas muy grandes. En el caso del Proyecto Genoma Humano, llevó varios meses de tiempo de procesador (en una estación DEC Alpha de alrededor del 2000) para ensamblar los fragmentos. El shotgun sequencing es el método de elección para todos los genomas secuenciados hoy en día y los algoritmos de ensamblado genómico son un área crítica de la investigación en bioinformática. Otro aspecto de la bioinformática en análisis de secuencias es la búsqueda automática de genes y secuencias reguladoras dentro de un genoma.[97] No todos los nucleótidos dentro de un genoma son genes. Dentro del genoma de organismos más avanzados, grandes partes del ADN no sirven a ningún propósito obvio. Este ADN, conocido como "ADN basura", puede, sin embargo, contener elementos funcionales todavía no reconocidos. La bioinformática sirve para estrechar la brecha entre los proyectos de genoma y proteoma (por ejemplo, en el uso de secuencias de ADN para identificación de proteínas). Mapa del cromosoma X del ser humano (extraído de la página web del NCBI). La transcripción del genoma humano es uno de los mayores logros de la bioinformática.
  • 11. Anotación de genomas En el contexto de la genómica, anotación es el proceso de marcado de los genes y otras características biológicas de la secuencia de ADN.[99] El primer sistema software de anotación de genomas fue diseñado en 1995 por Owen White, quien fue miembro del equipo que secuenció y analizó el primer genoma en ser descodificado de un organismo independiente, la bacteria Haemophilus influenzae. White construyó un software para localizar los genes (lugares en la secuencia de DNA que codifican una proteína), el ARN de transferencia, y otras características, así como para realizar las primeras atribuciones de función a esos genes. [61] La mayoría de los actuales sistemas de anotación genómica trabajan de forma similar, pero los programas disponibles para el análisis del genoma se encuentran en continuo cambio y mejora. Biología evolutiva computacional La Biología evolutiva es el estudio del origen ancestral de las especies, así como de su cambio a través del tiempo.[100] La informática ha apoyado a los biólogos evolutivos en diferentes campos clave. Ha permitido a los investigadores: • Seguir la evolución de un alto número de organismos midiendo cambios en su ADN, en lugar de hacerlo exclusivamente mediante su taxonomía física u observaciones fisiológicas.[38] • Más recientemente, comparar genomas completos, lo que permite el estudio de eventos evolutivos más complejos, tales como la duplicación de genes, la transferencia horizontal de genes, o la predicción de factores significativos en la especiación bacteriana.[101] • Construir modelos computacionales complejos de poblaciones para predecir el resultado del sistema a través del tiempo. • Seguir y compartir información sobre un amplio y creciente número de especies y organismos. Los esfuerzos futuros se centrarán en reconstruir el cada vez más complejo árbol filogenético de la vida.[103] El área de investigación de las ciencias de la computación denominada computación evolutiva se confunde ocasionalmente con la Biología evolutiva computacional, pero ambas áreas no guardan relación. Dicho campo se centra en el desarrollo de algoritmos genéticos y otras estrategias de resolución de problemas con una marcada inspiración evolutiva y genética. Medición de la biodiversidad La biodiversidad de un ecosistema puede definirse como el conjunto genómico completo de todas las especies presentes en un medio ambiente particular,[104] sea este una biopelícula en una mina abandonada, una gota de agua de mar, un puñado de tierra, o la biosfera completa del planeta Tierra. Se utilizan bases de datos para recoger los nombres de las especies, así como de sus descripciones, distribuciones, información genética, estado y tamaños de las poblaciones, necesidades de su hábitat, y cómo cada organismo interactúa con otras especies. Se usa software especializado para encontrar, visualizar y analizar la información; y, lo que es más importante, para compartirla con otros interesados.[105] La simulación computacional puede modelar cosas tales como dinámica poblacional, o calcular la mejora del acervo genético de una variedad (en agricultura), o la población amenazada (en biología de la conservación). Un potencial muy excitante en este campo es la posibilidad de preservar las secuencias completas del ADN, o genomas, de especies amenazadas de extinción,
  • 12. permitiendo registrar los resultados de la experimentación genética de la Naturaleza in silico para su posible reutilización futura, aún si tales especies fueran finalmente perdidas.[106] Pueden citarse, como ejemplos significativos, los proyectos Species 2000 o uBio. Análisis de la expresión génica La expresión génica de muchos genes puede determinarse por la medición de niveles de mRNA mediante múltiples técnicas, incluyendo microarrays de ADN, secuenciación de EST ( Expressed Sequence Tag), análisis en serie de la expresión génica (Serial Analysis of Gene Expression - SAGE), MPSS (Massively Parallel Signature Sequencing), o diversas aplicaciones de hibridación in situ. Todas estas técnicas son extremadamente propensas al ruido y/o sujetas a sesgos en la medición biológica, y una de las principales áreas de investigación en la biología computacional trata del desarrollo de herramientas estadísticas para separar la señal del ruido en los estudios de expresión génica con alto volumen de procesamiento.[107] Estos estudios se usan a menudo para determinar los genes implicados en un desorden: podrían, por ejemplo, compararse datos de microarrays de células epiteliales cancerosas con datos de células no cancerosas para determinar las transcripciones que son activadas o reprimidas en una población particular de células cancerosas.[108] Análisis de la regulación La regulación génica es la compleja orquestación de eventos que comienzan con una señal extracelular tal como una hormona, que conducen a un incremento o decremento en la actividad de una o más proteínas.[109] Se han aplicado técnicas bioinformáticas para explorar varios pasos en este proceso. Por ejemplo, el análisis del promotor de un gen implica la identificación y estudio de las secuencias motivo en los alrededores del ADN de la región codificante de un gen.[110] Estos motivos influyen en el alcance según el cual esa región se transcribe en ARNm. Los datos de expresión pueden usarse para inferir la regulación génica: podrían compararse datos de microarrays provenientes de una amplia variedad de estados de un organismo para formular hipótesis sobre los genes involucrados en cada estado. En un organismo unicelular, podrían compararse etapas del ciclo celular a lo largo de variadas condiciones de estrés (choque de calor, inanición, etc.). Podrían aplicarse, entonces, algoritmos de agrupamiento (algoritmos de clustering, o análisis de cluster) a esa información de expresión para determinar qué genes son expresados simultáneamente.[111] Por ejemplo, los promotores de estos genes se pueden buscar según la abundancia de secuencias o elementos regulatorios. Análisis de la expresión de proteínas Véase también: Expresión génica Los microarrays de proteínas y la espectrometría de masas de alto rendimiento pueden proporcionar una instantánea de las proteínas presentes en una muestra biológica. La bioinformática está muy comprometida en dar soporte a ambos procedimientos. La aproximación a los microarrays de proteínas encara similares problemas a los existentes para microarrays destinados a ARNm,[112] mientras que para la espectrometría de masas el problema es casar grandes cantidades de datos de masa contra masas predichas por bases de datos de secuencias de proteínas, además del complicado análisis estadístico de muestras donde se detectan múltiples, pero incompletos, péptidos de cada proteína.[113]
  • 13. Análisis de mutaciones en el cáncer En el cáncer, los genomas de las células afectadas son reordenados en complejas y/o aún impredecibles maneras. Se realizan esfuerzos masivos de secuenciación para identificar sustituciones individuales de bases (o puntos de mutación de nucleótidos) todavía desconocidos en una variedad de genes en el cáncer.[114] Los bioinformáticos continúan produciendo sistemas automatizados para gestionar el importante volumen de datos de secuencias obtenido, y crean nuevos algoritmos y software para comparar los resultados de secuenciación con la creciente colección de secuencias del genoma humano y de los polimorfismos de la línea germinal. Se están utilizando nuevas tecnologías de detección física, como los microarrays de oligonucleótidos para identificar pérdidas y ganancias cromosómicas (técnica denominada hibridación genómica comparativa), y los arrays de polimorfismos de nucleótido simple para detectar puntos de mutación conocidos. Estos métodos de detección miden simultáneamente bastantes cientos de miles de posiciones a lo largo del genoma, y cuando se usan con una alta productividad para analizar miles de muestras, generan terabytes de datos por experimento. De esta forma las masivas cantidades y nuevos tipos de datos proporcionan nuevas oportunidades para los bioinformáticos. A menudo se encuentra en los datos una considerable variabilidad, o ruido, por lo que métodos como el de los modelos ocultos de Márkov y el análisis de puntos de cambio están siendo desarrollados para inferir cambios reales en el número de copias de los genes (número de copias de un gen particular en el genotipo de un individuo, cuya magnitud puede ser elevada en células cancerígenas). Otro tipo de datos que requiere novedosos desarrollos informáticos es el análisis de las lesiones encontradas de forma recurrente en buen número de tumores, principalmente por análisis automatizado de imagen clínica. Predicción de la estructura de las proteínas Alineamiento estructural de tiorredoxinas del ser humano y de la mosca Drosophila melanogaster. Las proteínas se muestran como cintas, con la proteína humana en rojo y la de la mosca en amarillo. Generado con PDB 3TRX y 1XWC. La predicción de la estructura de las proteínas es otra importante aplicación de la bioinformática. La secuencia de aminoácidos de una proteína, también llamada estructura primaria, puede ser determinada fácilmente desde la secuencia de nucleótidos sobre el gen que la codifica.[119] En la inmensa mayoría de los casos, esta estructura primaria determina únicamente una estructura de la proteína en su ambiente nativo. (Hay, por supuesto, excepciones, como la encefalopatía espongiforme bovina, o "mal de las vacas locas"; ver, también, prión.) El conocimiento de esta estructura es vital para entender la función de la
  • 14. proteína.[120] En ausencia de mejores términos, la información estructural de las proteínas se clasifica usualmente como estructura secundaria, terciaria y cuaternaria. Una solución general viable para la predicción de tales estructuras permanece todavía como problema abierto. Por ahora, la mayoría de los esfuerzos han sido dirigidos hacia heurísticas que funcionan la mayoría de las veces.[121] Una de las ideas clave en bioinformática es la noción de homología. En la rama genómica de la bioinformática, se usa la homología para predecir la función de un gen: si la secuencia de gen A, cuya función es conocida, es homóloga a la secuencia de gen B, cuya función es desconocida, puede inferirse que B podría compartir la función de A.[122] En la rama estructural de la bioinformática, la homología se usa para determinar qué partes de una proteína son importantes en la formación de la estructura y en la interacción con otras proteínas. En la técnica denominada modelado por homología, esta información se usa para predecir la estructura de una proteína una vez conocida la estructura de una proteína homóloga.[123] Esta es, actualmente, la única vía para predecir estructuras de proteínas de una manera fiable. Un ejemplo de lo anterior es la similar homología proteica entre la hemoglobina en humanos y la hemoglobina en las legumbres (leghemoglobina). Ambas sirven al mismo propósito de transportar oxígeno en el organismo. Aunque las dos tienen una secuencia de aminoácidos completamente diferente, sus estructuras son virtualmente idénticas, lo que refleja sus prácticamente idénticos propósitos.[124] Otras técnicas para predecir la estructura de las proteínas incluyen el enhebrado de proteínas (protein threading)[125] y el modelado de novo (desde cero), basado en las características físicas y químicas.[126] Al respecto, pueden verse también motivo estructural (structural motif) y dominio estructural (structural domain). Genómica comparativa El núcleo del análisis comparativo del genoma es el establecimiento de la correspondencia entre genes (análisis ortólogo) o entre otras características genómicas de diferentes organismos. Estos mapas intergenómicos son los que hacen posible rastrear los procesos evolutivos responsables de la divergencia entre dos genomas. Una multitud de eventos evolutivos actuando a diferentes niveles organizativos conforman la evolución del genoma.[127] Al nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. Al mayor nivel, amplios segmentos cromosómicos experimentan duplicación, transferencia horizontal, inversión, transposición, borrado e inserción. Finalmente, los genomas enteros están involucrados en procesos de hibridación, poliploidía y endosimbiosis, conduciendo a menudo a una súbita especiación. La complejidad de la evolución del genoma plantea muchos desafíos excitantes a desarrolladores de modelos matemáticos y algoritmos, quienes deben recurrir a un espectro de técnicas algorítmicas, estadísticas y matemáticas que se extienden desde exactas, heurísticas, con parámetros fijados, y mediante algoritmos de aproximación para problemas basados en modelos de parsimonia, hasta algoritmos "Márkov Chain Monte Carlo" para análisis Bayesiano de problemas basados en modelos probabilísticos.[128] Muchos de estos estudios están basados en la detección de homología y la computación de familias de proteínas.
  • 15. Modelado de sistemas biológicos La biología de sistemas implica el uso de simulaciones por ordenador de subsistemas celulares (tales como redes de metabolitos y enzimas que comprenden el metabolismo, caminos de transducción de señales, y redes de regulación genética), tanto para analizar como para visualizar las complejas conexiones de estos procesos celulares.[129] La vida artificial o la evolución virtual tratan de entender los procesos evolutivos por medio de la simulación por ordenador de sencillas formas de vida (artificial).[130] Análisis de imagen de alto rendimiento Se están usando tecnologías de computación para acelerar o automatizar completamente el procesamiento, cuantificación y análisis de grandes cantidades de imágenes biomédicas con alto contenido en información. Los modernos sistemas de análisis de imagen incrementan la habilidad del observador para realizar análisis sobre un amplio o complejo conjunto de imágenes, mejorando la precisión, la objetividad (independencia de los resultados según el observador), o la rapidez. Un sistema de análisis totalmente desarrollado podría reemplazar completamente al observador. Aunque estos sistemas no son exclusivos del campo de las imágenes biomédicas, cada vez son más importantes tanto para el diagnóstico como para la investigación. Algunos ejemplos: • Cuantificación y localización subcelular con alta productividad y precisión (high- content screening, citohistopatología).[131] • Morfometría.[132] • Análisis y visualización de imágenes clínicas.[133] • Determinación de patrones en el flujo del aire en tiempo real de la respiración pulmonar de animales vivos. • Cuantificación del tamaño de la oclusión a través de imágenes en tiempo real, tanto por desarrollo como por recuperación, de lesiones arteriales.[134] • Realización de observaciones conductuales basadas en prolongadas grabaciones en vídeo de animales de laboratorio. • Observaciones en infrarrojo (espectroscopia infrarroja) para la determinación de la actividad metabólica.[135] Acoplamiento proteína-proteína En las últimas dos décadas, decenas de miles de estructuras tridimensionales de proteínas han sido determinadas por cristalografía de rayos X y espectroscopía mediante resonancia magnética nuclear de proteínas (RMN de proteínas). Una cuestión central para los científicos es si resulta viable la predicción de posibles interacciones proteína-proteína solamente basados en esas formas 3D, sin realizar experimentos identificativos de estas interacciones. Se han desarrollado una variedad de métodos para enfrentarse al problema del acoplamiento proteína-proteína, aunque parece que queda todavía mucho trabajo en este campo.[136
  • 16. Herramientas de software Las herramientas de software para bioinformática van desde simples herramientas de línea de comandos hasta mucho más complejos programas gráficos y servicios web autónomos situados en compañías de bioinformática o instituciones públicas. La más conocida herramienta de biología computacional entre los los biólogos es, probablemente, BLAST, un algoritmo para determinar la similitud de secuencias arbitrarias con otras secuencias, probablemente residentes en bases de datos de proteínas o de secuencias de ADN. El NCBI (National Center for Biotechnology Information, EE.UU.), por ejemplo, proporciona una implementación muy utilizada, basada en web, y que trabaja sobre sus bases de datos. Para alineamientos múltiples de secuencias, el clásico ClustalW, actualmente en su versión 2, es el software de referencia. Puede trabajarse con una implementación del mismo en el EBI (Instituto Europeo de Bioinformática). BLAST y ClustalW son sólo dos ejemplos de los muchos programas de alineamiento de secuencias disponibles. Existe, por otra parte, multitud de software bioinformático con otros objetivos: alineamiento estructural de proteínas, predicción de genes y otros motivos, predicción de estructura de proteínas, predicción de acoplamiento proteína-proteína, o modelado de sistemas biológicos, entre otros. En Anexo:Software para alineamiento de secuencias y Anexo:Software para alineamiento estructural pueden encontrarse sendas relaciones de programas o servicios web adecuados para cada uno de estos dos objetivos en particular. Servicios Web en bioinformática Se han desarrollado interfaces basadas en SOAP y en REST (Representational State Transfer, transferencia de estado representacional) para una amplia variedad de aplicaciones bioinformáticas, permitiendo que una aplicación, corriendo en un ordenador de cualquier parte del mundo, pueda usar algoritmos, datos y recursos de computación alojados en servidores en cualesquiera otras partes del planeta. Las principales ventajas radican en que el usuario final se despreocupa de actualizaciones y modificaciones en el software o en las bases de datos. Los servicios bioinformáticos básicos, de acuerdo a la clasificación implícita del EBI, pueden clasificarse en: • Servicios de obtención de información en línea (consultas a bases de datos, por ejemplo). • Herramientas de análisis (por ejemplo, servicios que den acceso a EMBOSS). • Búsquedas de similitudes entre secuencias (servicios de acceso a FASTA o BLAST, por ejemplo). • Alineamientos múltiples de secuencias (acceso a ClustalW o T-Coffee). • Análisis estructural (acceso a servicios de alineamiento estructural de proteínas, por ejemplo). • Servicios de acceso a literatura especializada y ontologías. La disponibilidad de estos servicios web basados en SOAP a través de sistemas tales como los servicios de registro, (servicios de distribución y descubrimiento de datos a través de servicios web) demuestra la aplicabilidad de soluciones bioinformáticas basadas en web. Estas herramientas varían desde una colección de herramientas autónomas con un formato de datos común, y bajo una única interface autónoma o basada en web, hasta sistemas integradores y extensibles para la gestión del flujo de trabajo bioinformático.
  • 17. Conclusión: Es una ciencia basada en los estudios específicos del Internet muchos de los biliosos la estudian para una mayor protección informática así también para crear diferentes clases de recursos biotecnológicos que puedan ayudar a desarrollar una mejor fracción o una mejor formación a lo que es la Bioinformática.