SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
Data analysis workshop for massive
           sequencing data
Analysis of deep-sequencing experiments for
                small RNAs




Michael Hackenberg
Computational Genomics and Bioinformatics Group
Genetics Department
University of Granada
http://bioinfo2.ugr.es
Overview

 Introducción
 •   Función y procesamiento
 •   Secuenciación

 Detectar microRNAs conocidos
 •   Preprocesamiento de los reads (control de calidad, formato read/count)
 •   Eliminar los adaptadores 3’
 •   Mapear los reads a las librerías de referencia (microRNA de miRBase, Rfam, genoma, etc)
 •   Detectar IsomiRs
 •   Detectar expresión diferencia

 Detectar/predecir nuevos microRNA
 • Homología
 • Aprendizaje automatizado

 Sesión práctica (miRanalyzer)
 • Preprocesar los datos con groupReads.pl
 • Detectar microRNAs conocidos y expresión diferencial
Función                                                                       Introducción


     Un microRNA es un RNA corto de entre 19 y 25 nt de longitud. Están
                                             post-
          implicados en la regulación génica post-transcripcional y
             probablemente también en la metilación del ADN.


 •   Los microRNA se transcriben a partir de genes de ADN pero no se traducen a proteína (genes
     no-codificantes)
 •   Son presentes en un amplio rango de especies tanto en plantas como en animales.
 •   Muchos de ellos son altamente conservados
 •   La mayoría de los genes de microRNA se ubican en regiones intergénicas y tienen su propio
     promotor y elementos regulatorios
 •   Aprox. 40% de los genes de microRNA están ubicado en intrones se transcriben
     conjuntamente con el gen hospedador.
 •   Están involucrados en muchos procesos básicos (metabolismo, desarrollo, sistema
     inmunológico, etc.)
 •   Algunos microRNA están implicados en el desarrollo de patológicas como el cáncer
Procesamiento                                Introducción


• La mayoría se transcriben mediante
  polimerasa II (algunos mediante pol III)
  como largos transcritos primarios (pre-
  microRNA)
• El pri-miRNA se procesa mediante la
  proteína Drosha pre-miRNA
• El pre-miRNA se exporta al citoplasma
  mediante Exportin 5
• Dicer procesa el pre-miRNA en el
  citoplasma y genera el microRNA
  maduro
• El microRNA maduro se asocia con el
  complejo proteico RISC (RNA-induced
  silencing complex )
• RISK inicia o la inhibición de la
  traducción o la degradación del mRNA
Secuenciación                                                       Introducción

Preparación de la librería

•   Extracción del RNA total
•   Purificar RNA corto (electroforesis en gel) normalmente entre 17 y 30 bp
•   Añadir adaptadores 5’ y 3’. Existen adaptadores que reconocen específicamente el
    grupo 3’ hidroxilo que es el resultado del procesamiento por Dicer
•   RT-PCR para generar la librería de cDNA




Punto de partida: resultado de la secuenciación en
formato fastq

@SRR037876 GSM522374_1:1:148:931:861                               Secuencia/read
TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC
+
BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#                               Calidad del read
                                                                   Phred Score
Programas disponibles                                                                              Análisis

DSAP (servidor web): http://dsap.cgu.edu.tw/dsap.html
Expresión diferencial, isomiRs, comparación entre especies, filtrado por Rfam, representación gráfica.

mirTools (servidor web): http://centre.bioinformatics.zj.cn/mirtools/
Predicción de microRNA nuevos, expresión diferencial, representación gráfica, limitado a 10 Mb

SeqBuster (servidor web & local): http://estivill_lab.crg.es/seqbuster/
Expresión diferencial, isomiRs, representación gráfica

miRanalyzer (servidor web & local):
http://bioinfo2.ugr.es/miRanalyzer/miRanalyzer.php
Predicción de nuevos microRNA, expresión diferencial (también de nuevos microRNAs), color space,


Los programas comparten muchos pasos de análisis

Difieren en:
    • la manera exacta o el orden en el que se llevan a cabo.
    • número de análisis disponibles (expresión diferencial, detectar IsoMirs, predecir
      microRNA nuevo, etc.)
    • Sevidor web / aplicación local
Diferentes pasos del análisis                                                 Análisis


Un típico flujo de trabajo de los programas

• Preprocesamiento de los datos: filtrar reads con calidad baja, convertir formato
  fastq en read/count
• Detección del adaptador 5’: los moléculas de RNA que se secuencia suelen ser mas
  cortos que el read (número de ciclos) que conlleva la secuenciación parcial de
  adaptador.
• Alineamiento de los reads frente a librerías de referencia: microRNAs conocidos
  de miRBase, Rfam, transcritos & conteo de los reads
• IsomiRs: Detectar, clasificar y cuantificar la existencia de IsomiRs
• Expresión diferencial: Detectar aquellos microRNAs conocidos (y nuevos
  microRNAs) que se expresan de forma diferencial entre dos condiciones
Preprocesamiento                                                               Análisis

Convertir fastq en read/count que es la entrada para virtualmente todos los
programas

@SRR037876 GSM522374_1:1:148:931:861
TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC
+
BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#
@SRR037876 GSM522374_1:1:148:931:517
AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT
                                              • Filtrar reads con calidad baja
+                                             • Recortar los reads
BBC@3<1=872661.@C;@A93+?:;.2.?386<;>          • (Eliminar los adaptadores)
@SRR037876 GSM522374_1:1:148:931:648          • Agrupar las secuencias únicas y contar su
TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT            número de copias
+                                             • Establecer un número mínimo de copias
5@059)@6?':9>0<@@)@=BA8)99@3258?####
@SRR037876GSM522374_1:1:148:931:770
GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT
+


                       sequence                                count
                       GCTATGACGGTTACACTCTCCGGTCG              2.0
                       TAGGTCAAGGTGTAGCCCATGAGGTG              14.0
                       AAAGGGATTTTTGGAGCAGGGAGATG              2.0
                       GGCTGCCTGCGGATGAAGTCGTATGG              1.0
Detectar los adaptadores                                                              Análisis
Debido a la longitud de los microRNA         se secuencia parcialmente el adaptador 3’
TCGTATGCCGTCCTGCTTGT

• Conviene buscar y eliminar el adaptador ya que este no alineará con las referencias
  (microRNAs conocidos, genoma, etc).
• Hay que establecer el número de desemparejamientos y longitud mínima
• Equilibrio entre sensibilidad (número alto de MM y longitud corta) y especificidad (longitud
  baja y número alto de desemparejamientos permitidos)

>16#1.0                                             >16#1.0
TGATAGAATGCTCGACACGGTTCGTATGCCGTCTTC                TGATAGAATGCTCGACACGGT
>17#1.0                                             >17#1.0
CGCTCCTACCGTTGATCGTATGCCGTCTTCTGCTTG                CGCTCCTACCGTTGA
>18#1.0                                             >18#1.0
GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT                GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT
>19#1.0                                             >19#1.0
AGATTGAATGAAAGTAAAGGACGGTCGTATGCCGTC                AGATTGAATGAAAGTAAAGGACGG
>20#308.0                                           >20#308.0
TCGGACCAGGCTTCAATCCCTCGTATGCCGTCTTCT                TCGGACCAGGCTTCAATCCC
>21#1.0                                             >21#1.0
CATAGTCCTATATGGAGAACCGGATCGTATGCCGTC                CATAGTCCTATATGGAGAACCGGA
>22#21.0                                            >22#21.0
TAATTCATGATCTGGCATCGTATGCCTTCTTCTGCT                TAATTCATGATCTGGCA
>23#1.0                                             >23#1.0
AGGATGGCTCGGCTGCTCGTATGCCGTTTTCTGCTT                AGGATGGCTCGGCTGC
Mapear sin adaptador                                                          Análisis
                         Alinear los reads con parámetros:
Reads sin adaptador      • Max. Número de desemparejamientos
                         • Longitud mínima (cubertura)
>2001#208764
TGGCTCAGTTCAGCAGGAACA                              microRNA librería de miRBase
>5078#102
CAAAGTGCTCATAGTGCAGGTA                             >hsa-miR-16
>6099#19                                           TAGCAGCACGTAAATATTGGC
AACACACCTGGTTAACCTCTTT                             >hsa-miR-24
>8101#208764                                       TGGCTCAGTTCAGCAGGAACA
TGGCTCAGTTCAGCAGGAACA                              >hsa-miR-20b
>9601#2087                                         CAAAGTGCTCATAGTGCAGGTA
TGGCTCAGTTCAGCAGGAACA                              >hsa-miR-329
>10003#2000                                        AACACACCTGGTTAACCTCTTT
TAGCAGCAGGTAAATATTGGC




                                                   microRNA           count
                                                   hsa-miR-16         2
                                                   hsa-miR-24         2
                                                   hsa-miR-20b        1
                                                   hsa-miR-329        1
Mapear con adaptador                                                                           Análisis
 miRanalyzer se basa en Bowtie usando un seed-alignment que no requiere la detección previa del adaptador

                                                               microRNA librería de miRBase
   Reads con adaptador
                                                     1
                                                               >hsa-let-7a
   >251#20864                                                  TGAGGTAGTAGGTTGTATAGTT
   TGAGGTAGTAGGTTGTATAGTT                                      >hsa-let-7b
                                                               TGAGGTAGTAGGTTGTGTGGTT                   2
                                                               >hsa-let-7c
1: Alinear primero la región del seed (17 bp)                  TGAGGTAGTAGGTTGTATGGTT
                                                               >hsa-let-7d
      El read mapea con let-7a y let-7b con 0MM                AGAGGTAGTAGGTTGCATAGTT
2: Extender el alineamiento manteniendo el                     >hsa-let-7e
   número de MM observados en el seed                          TGAGGTAGGAGGTTGTATAGTT
                                                               >hsa-let-7f
  Alineamiento mas largo al let-7a                             TGAGGTAGTAGATTGTATAGTT
  Se asigna el read a let-7a
IsomiRs                                                                         Análisis

Mediante las nuevas técnicas de secuenciación se ha podido observar diferentes
variantes llamados IsomiRs

• Diferentes longitudes (errores de Dicer o cleavage alternativo): para detectar
  variaciones en la longitud hay que mapear los reads frente a una librería de pre-
  microRNA
• Extensión de un solo nucleótido (single-nucleotide 3′ extensions): Solo se puede
  detectar si los adaptadores han sido eliminados del read previamente
• RNA editing: Difícil de detectar debido a la existencia de errores de secuenciación.

Todavía no está de todo claro si estos cambios son funcionales o se deben a errores
(secuenciación & Dicer)

El programa SeqBuster ofrece los análisis mas completos para estudiar los IsomiRs
Expresión diferencial                                                          Análisis

El objetivo final de muchos análisis es la detección de microRNAs que se expresan de
forma diferencial entre dos condiciones (enfermo/sano, tratado/no-tratado, etc.)

Se ha desarrollado métodos específicos para la ‘expresión digital’ (digital expression)

• RNA-seq (Marioni, et al., 2008)
• DEGseq (Wang, et al., 2010):
  http://www.bioconductor.org/packages/2.6/bioc/html/DEGseq.html,
• edgeR (Robinson, et al., 2010):
  http://www.bioconductor.org/packages/release/bioc/html/edgeR.html
• DESeq (Anders and Huber, 2010):
  http://www.bioconductor.org/packages/2.6/bioc/html/DESeq.html


miRanalyzer utiliza DESeq para detectar expresión diferencial

• Procesar todas las muestras con miRanalyzer
• Mediante las IDs de cada proceso se pueden formar los dos grupos
Detectar microRNA nuevos                                                        Análisis


Una posibilidad es usar la homología

•   Mapear los reads frente a un conjunto ‘exógeno’ de microRNAs
•   Detectar la posición cromosómica de los mapeados
•   Extraer una secuencia alrededor de la posición cromosómica
•   Determinar la estructura secundaria: ¿Existe un hairpin (horquilla)?, ¿La fold energy
    es mayor que un umbral dado?



El programa miRExpress (http://mirexpress.mbc.nctu.edu.tw/) predice nuevos
microRNAs de esta forma
Aprendizaje automatizada                                                   Análisis


Otra posibilidad es usar aprendizaje automatizada

Los pasos comunes en todos los métodos son:

• Mapear los reads al genoma
• Agrupar los reads que mapean en la misma posición
• Extraer la secuencia genómica de la posición añadiendo secuencias flanking con tal
  de incluir totalmente la posible secuencia pre-microRNA
• Determinar la estructura secundaria rechazando aquellas con no presentan un
  hairpin
• Calcular propiedades basadas en la estructura, composición de secuencia, expresión
  o signaturas especificas de Dicer (existencia del microRNA*, etc)
• Entrenar un modelo (SVM, Random Forest, etc.)
• Predecir la probabilidad de un candidato de ser un nuevo microRNA
Overview                                                        Sesión práctica


Para la sesión practica vamos a usar la herramienta miRanalyzer
En siguiente página (http://donau.ugr.es) encontramos los detalles

Weitere ähnliche Inhalte

Andere mochten auch

Neurofibromatosis. Genes implicados. Deteccion
Neurofibromatosis. Genes implicados. Deteccion Neurofibromatosis. Genes implicados. Deteccion
Neurofibromatosis. Genes implicados. Deteccion bettinacolos
 
BITS - Search engines for mass spec data
BITS - Search engines for mass spec dataBITS - Search engines for mass spec data
BITS - Search engines for mass spec dataBITS
 
Emerging challenges in data-intensive genomics
Emerging challenges in data-intensive genomicsEmerging challenges in data-intensive genomics
Emerging challenges in data-intensive genomicsmikaelhuss
 
Introduction to Linux for bioinformatics
Introduction to Linux for bioinformaticsIntroduction to Linux for bioinformatics
Introduction to Linux for bioinformaticsBITS
 
Towards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systemsTowards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systemscursoNGS
 
Data analytics challenges in genomics
Data analytics challenges in genomicsData analytics challenges in genomics
Data analytics challenges in genomicsmikaelhuss
 
RNA-seq for DE analysis: the biology behind observed changes - part 6
RNA-seq for DE analysis: the biology behind observed changes - part 6RNA-seq for DE analysis: the biology behind observed changes - part 6
RNA-seq for DE analysis: the biology behind observed changes - part 6BITS
 
BITS - Introduction to comparative genomics
BITS - Introduction to comparative genomicsBITS - Introduction to comparative genomics
BITS - Introduction to comparative genomicsBITS
 
Linked Data in Healthcare and Life Sciences
Linked Data in Healthcare and Life SciencesLinked Data in Healthcare and Life Sciences
Linked Data in Healthcare and Life SciencesJames G. Boram Kim
 
RNA-seq for DE analysis: extracting counts and QC - part 4
RNA-seq for DE analysis: extracting counts and QC - part 4RNA-seq for DE analysis: extracting counts and QC - part 4
RNA-seq for DE analysis: extracting counts and QC - part 4BITS
 
Text mining on the command line - Introduction to linux for bioinformatics
Text mining on the command line - Introduction to linux for bioinformaticsText mining on the command line - Introduction to linux for bioinformatics
Text mining on the command line - Introduction to linux for bioinformaticsBITS
 
Utilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humanaUtilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humanacursoNGS
 
Secuenciación de DNA
Secuenciación de DNASecuenciación de DNA
Secuenciación de DNAMike Elh
 
SPARQL - Basic and Federated Queries
SPARQL - Basic and Federated QueriesSPARQL - Basic and Federated Queries
SPARQL - Basic and Federated QueriesKnud Möller
 
NGS Data Preprocessing
NGS Data PreprocessingNGS Data Preprocessing
NGS Data PreprocessingcursoNGS
 
Managing your data - Introduction to Linux for bioinformatics
Managing your data - Introduction to Linux for bioinformaticsManaging your data - Introduction to Linux for bioinformatics
Managing your data - Introduction to Linux for bioinformaticsBITS
 
RNA-seq: Mapping and quality control - part 3
RNA-seq: Mapping and quality control - part 3RNA-seq: Mapping and quality control - part 3
RNA-seq: Mapping and quality control - part 3BITS
 
Deep learning with Tensorflow in R
Deep learning with Tensorflow in RDeep learning with Tensorflow in R
Deep learning with Tensorflow in Rmikaelhuss
 

Andere mochten auch (20)

Introduction of Linked Data for Science
Introduction of Linked Data for ScienceIntroduction of Linked Data for Science
Introduction of Linked Data for Science
 
Neurofibromatosis. Genes implicados. Deteccion
Neurofibromatosis. Genes implicados. Deteccion Neurofibromatosis. Genes implicados. Deteccion
Neurofibromatosis. Genes implicados. Deteccion
 
BITS - Search engines for mass spec data
BITS - Search engines for mass spec dataBITS - Search engines for mass spec data
BITS - Search engines for mass spec data
 
Emerging challenges in data-intensive genomics
Emerging challenges in data-intensive genomicsEmerging challenges in data-intensive genomics
Emerging challenges in data-intensive genomics
 
Introduction to Linux for bioinformatics
Introduction to Linux for bioinformaticsIntroduction to Linux for bioinformatics
Introduction to Linux for bioinformatics
 
Towards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systemsTowards an understanding of diversity in biological and biomedical systems
Towards an understanding of diversity in biological and biomedical systems
 
Data analytics challenges in genomics
Data analytics challenges in genomicsData analytics challenges in genomics
Data analytics challenges in genomics
 
RNA-seq for DE analysis: the biology behind observed changes - part 6
RNA-seq for DE analysis: the biology behind observed changes - part 6RNA-seq for DE analysis: the biology behind observed changes - part 6
RNA-seq for DE analysis: the biology behind observed changes - part 6
 
BITS - Introduction to comparative genomics
BITS - Introduction to comparative genomicsBITS - Introduction to comparative genomics
BITS - Introduction to comparative genomics
 
Linked Data in Healthcare and Life Sciences
Linked Data in Healthcare and Life SciencesLinked Data in Healthcare and Life Sciences
Linked Data in Healthcare and Life Sciences
 
RNA-seq for DE analysis: extracting counts and QC - part 4
RNA-seq for DE analysis: extracting counts and QC - part 4RNA-seq for DE analysis: extracting counts and QC - part 4
RNA-seq for DE analysis: extracting counts and QC - part 4
 
Text mining on the command line - Introduction to linux for bioinformatics
Text mining on the command line - Introduction to linux for bioinformaticsText mining on the command line - Introduction to linux for bioinformatics
Text mining on the command line - Introduction to linux for bioinformatics
 
Utilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humanaUtilidad de la genómica en la salud humana
Utilidad de la genómica en la salud humana
 
Exome Sequencing
Exome SequencingExome Sequencing
Exome Sequencing
 
Secuenciación de DNA
Secuenciación de DNASecuenciación de DNA
Secuenciación de DNA
 
SPARQL - Basic and Federated Queries
SPARQL - Basic and Federated QueriesSPARQL - Basic and Federated Queries
SPARQL - Basic and Federated Queries
 
NGS Data Preprocessing
NGS Data PreprocessingNGS Data Preprocessing
NGS Data Preprocessing
 
Managing your data - Introduction to Linux for bioinformatics
Managing your data - Introduction to Linux for bioinformaticsManaging your data - Introduction to Linux for bioinformatics
Managing your data - Introduction to Linux for bioinformatics
 
RNA-seq: Mapping and quality control - part 3
RNA-seq: Mapping and quality control - part 3RNA-seq: Mapping and quality control - part 3
RNA-seq: Mapping and quality control - part 3
 
Deep learning with Tensorflow in R
Deep learning with Tensorflow in RDeep learning with Tensorflow in R
Deep learning with Tensorflow in R
 

Ähnlich wie NGS analysis of micro-RNA

Ähnlich wie NGS analysis of micro-RNA (20)

Universidad nacional de chimborazo tópicos
Universidad nacional de chimborazo tópicosUniversidad nacional de chimborazo tópicos
Universidad nacional de chimborazo tópicos
 
1982 microprocesador 80286
1982 microprocesador 802861982 microprocesador 80286
1982 microprocesador 80286
 
Procesadores
Procesadores Procesadores
Procesadores
 
4 Microprocesadores
4 Microprocesadores4 Microprocesadores
4 Microprocesadores
 
Microprocesadores
MicroprocesadoresMicroprocesadores
Microprocesadores
 
Atmega
AtmegaAtmega
Atmega
 
Microprocesadores
MicroprocesadoresMicroprocesadores
Microprocesadores
 
Microprocesadores
MicroprocesadoresMicroprocesadores
Microprocesadores
 
Dispositivos de interconexión de
Dispositivos de interconexión deDispositivos de interconexión de
Dispositivos de interconexión de
 
El microprocesador
El microprocesadorEl microprocesador
El microprocesador
 
Introducción
IntroducciónIntroducción
Introducción
 
Introducción
IntroducciónIntroducción
Introducción
 
Microprocesador
MicroprocesadorMicroprocesador
Microprocesador
 
INFOSAN Mantenimiento 1
INFOSAN Mantenimiento 1INFOSAN Mantenimiento 1
INFOSAN Mantenimiento 1
 
Promocion NanoDrop y Biología Molecular
Promocion NanoDrop y Biología MolecularPromocion NanoDrop y Biología Molecular
Promocion NanoDrop y Biología Molecular
 
1. microcontrolador
1. microcontrolador1. microcontrolador
1. microcontrolador
 
Curso de microcontroladores capitulo 03
Curso de microcontroladores capitulo 03Curso de microcontroladores capitulo 03
Curso de microcontroladores capitulo 03
 
Arquitectura de un microprocesador
Arquitectura de un microprocesadorArquitectura de un microprocesador
Arquitectura de un microprocesador
 
Palabra de configuración
Palabra de configuraciónPalabra de configuración
Palabra de configuración
 
Palabra de configuración
Palabra de configuraciónPalabra de configuración
Palabra de configuración
 

Mehr von cursoNGS

Differential expression in RNA-Seq
Differential expression in RNA-SeqDifferential expression in RNA-Seq
Differential expression in RNA-SeqcursoNGS
 
Discovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGSDiscovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGScursoNGS
 
Computational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysisComputational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysiscursoNGS
 
Introduction to NGS
Introduction to NGSIntroduction to NGS
Introduction to NGScursoNGS
 
Linux for bioinformatics
Linux for bioinformaticsLinux for bioinformatics
Linux for bioinformaticscursoNGS
 
Introduccion a la bioinformatica
Introduccion a la bioinformaticaIntroduccion a la bioinformatica
Introduccion a la bioinformaticacursoNGS
 

Mehr von cursoNGS (6)

Differential expression in RNA-Seq
Differential expression in RNA-SeqDifferential expression in RNA-Seq
Differential expression in RNA-Seq
 
Discovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGSDiscovery and annotation of variants by exome analysis using NGS
Discovery and annotation of variants by exome analysis using NGS
 
Computational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysisComputational infrastructure for NGS data analysis
Computational infrastructure for NGS data analysis
 
Introduction to NGS
Introduction to NGSIntroduction to NGS
Introduction to NGS
 
Linux for bioinformatics
Linux for bioinformaticsLinux for bioinformatics
Linux for bioinformatics
 
Introduccion a la bioinformatica
Introduccion a la bioinformaticaIntroduccion a la bioinformatica
Introduccion a la bioinformatica
 

Kürzlich hochgeladen

El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 

Kürzlich hochgeladen (20)

El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 

NGS analysis of micro-RNA

  • 1. Data analysis workshop for massive sequencing data Analysis of deep-sequencing experiments for small RNAs Michael Hackenberg Computational Genomics and Bioinformatics Group Genetics Department University of Granada http://bioinfo2.ugr.es
  • 2. Overview Introducción • Función y procesamiento • Secuenciación Detectar microRNAs conocidos • Preprocesamiento de los reads (control de calidad, formato read/count) • Eliminar los adaptadores 3’ • Mapear los reads a las librerías de referencia (microRNA de miRBase, Rfam, genoma, etc) • Detectar IsomiRs • Detectar expresión diferencia Detectar/predecir nuevos microRNA • Homología • Aprendizaje automatizado Sesión práctica (miRanalyzer) • Preprocesar los datos con groupReads.pl • Detectar microRNAs conocidos y expresión diferencial
  • 3. Función Introducción Un microRNA es un RNA corto de entre 19 y 25 nt de longitud. Están post- implicados en la regulación génica post-transcripcional y probablemente también en la metilación del ADN. • Los microRNA se transcriben a partir de genes de ADN pero no se traducen a proteína (genes no-codificantes) • Son presentes en un amplio rango de especies tanto en plantas como en animales. • Muchos de ellos son altamente conservados • La mayoría de los genes de microRNA se ubican en regiones intergénicas y tienen su propio promotor y elementos regulatorios • Aprox. 40% de los genes de microRNA están ubicado en intrones se transcriben conjuntamente con el gen hospedador. • Están involucrados en muchos procesos básicos (metabolismo, desarrollo, sistema inmunológico, etc.) • Algunos microRNA están implicados en el desarrollo de patológicas como el cáncer
  • 4. Procesamiento Introducción • La mayoría se transcriben mediante polimerasa II (algunos mediante pol III) como largos transcritos primarios (pre- microRNA) • El pri-miRNA se procesa mediante la proteína Drosha pre-miRNA • El pre-miRNA se exporta al citoplasma mediante Exportin 5 • Dicer procesa el pre-miRNA en el citoplasma y genera el microRNA maduro • El microRNA maduro se asocia con el complejo proteico RISC (RNA-induced silencing complex ) • RISK inicia o la inhibición de la traducción o la degradación del mRNA
  • 5. Secuenciación Introducción Preparación de la librería • Extracción del RNA total • Purificar RNA corto (electroforesis en gel) normalmente entre 17 y 30 bp • Añadir adaptadores 5’ y 3’. Existen adaptadores que reconocen específicamente el grupo 3’ hidroxilo que es el resultado del procesamiento por Dicer • RT-PCR para generar la librería de cDNA Punto de partida: resultado de la secuenciación en formato fastq @SRR037876 GSM522374_1:1:148:931:861 Secuencia/read TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# Calidad del read Phred Score
  • 6. Programas disponibles Análisis DSAP (servidor web): http://dsap.cgu.edu.tw/dsap.html Expresión diferencial, isomiRs, comparación entre especies, filtrado por Rfam, representación gráfica. mirTools (servidor web): http://centre.bioinformatics.zj.cn/mirtools/ Predicción de microRNA nuevos, expresión diferencial, representación gráfica, limitado a 10 Mb SeqBuster (servidor web & local): http://estivill_lab.crg.es/seqbuster/ Expresión diferencial, isomiRs, representación gráfica miRanalyzer (servidor web & local): http://bioinfo2.ugr.es/miRanalyzer/miRanalyzer.php Predicción de nuevos microRNA, expresión diferencial (también de nuevos microRNAs), color space, Los programas comparten muchos pasos de análisis Difieren en: • la manera exacta o el orden en el que se llevan a cabo. • número de análisis disponibles (expresión diferencial, detectar IsoMirs, predecir microRNA nuevo, etc.) • Sevidor web / aplicación local
  • 7. Diferentes pasos del análisis Análisis Un típico flujo de trabajo de los programas • Preprocesamiento de los datos: filtrar reads con calidad baja, convertir formato fastq en read/count • Detección del adaptador 5’: los moléculas de RNA que se secuencia suelen ser mas cortos que el read (número de ciclos) que conlleva la secuenciación parcial de adaptador. • Alineamiento de los reads frente a librerías de referencia: microRNAs conocidos de miRBase, Rfam, transcritos & conteo de los reads • IsomiRs: Detectar, clasificar y cuantificar la existencia de IsomiRs • Expresión diferencial: Detectar aquellos microRNAs conocidos (y nuevos microRNAs) que se expresan de forma diferencial entre dos condiciones
  • 8. Preprocesamiento Análisis Convertir fastq en read/count que es la entrada para virtualmente todos los programas @SRR037876 GSM522374_1:1:148:931:861 TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# @SRR037876 GSM522374_1:1:148:931:517 AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT • Filtrar reads con calidad baja + • Recortar los reads BBC@3<1=872661.@C;@A93+?:;.2.?386<;> • (Eliminar los adaptadores) @SRR037876 GSM522374_1:1:148:931:648 • Agrupar las secuencias únicas y contar su TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT número de copias + • Establecer un número mínimo de copias 5@059)@6?':9>0<@@)@=BA8)99@3258?#### @SRR037876GSM522374_1:1:148:931:770 GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT + sequence count GCTATGACGGTTACACTCTCCGGTCG 2.0 TAGGTCAAGGTGTAGCCCATGAGGTG 14.0 AAAGGGATTTTTGGAGCAGGGAGATG 2.0 GGCTGCCTGCGGATGAAGTCGTATGG 1.0
  • 9. Detectar los adaptadores Análisis Debido a la longitud de los microRNA se secuencia parcialmente el adaptador 3’ TCGTATGCCGTCCTGCTTGT • Conviene buscar y eliminar el adaptador ya que este no alineará con las referencias (microRNAs conocidos, genoma, etc). • Hay que establecer el número de desemparejamientos y longitud mínima • Equilibrio entre sensibilidad (número alto de MM y longitud corta) y especificidad (longitud baja y número alto de desemparejamientos permitidos) >16#1.0 >16#1.0 TGATAGAATGCTCGACACGGTTCGTATGCCGTCTTC TGATAGAATGCTCGACACGGT >17#1.0 >17#1.0 CGCTCCTACCGTTGATCGTATGCCGTCTTCTGCTTG CGCTCCTACCGTTGA >18#1.0 >18#1.0 GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT >19#1.0 >19#1.0 AGATTGAATGAAAGTAAAGGACGGTCGTATGCCGTC AGATTGAATGAAAGTAAAGGACGG >20#308.0 >20#308.0 TCGGACCAGGCTTCAATCCCTCGTATGCCGTCTTCT TCGGACCAGGCTTCAATCCC >21#1.0 >21#1.0 CATAGTCCTATATGGAGAACCGGATCGTATGCCGTC CATAGTCCTATATGGAGAACCGGA >22#21.0 >22#21.0 TAATTCATGATCTGGCATCGTATGCCTTCTTCTGCT TAATTCATGATCTGGCA >23#1.0 >23#1.0 AGGATGGCTCGGCTGCTCGTATGCCGTTTTCTGCTT AGGATGGCTCGGCTGC
  • 10. Mapear sin adaptador Análisis Alinear los reads con parámetros: Reads sin adaptador • Max. Número de desemparejamientos • Longitud mínima (cubertura) >2001#208764 TGGCTCAGTTCAGCAGGAACA microRNA librería de miRBase >5078#102 CAAAGTGCTCATAGTGCAGGTA >hsa-miR-16 >6099#19 TAGCAGCACGTAAATATTGGC AACACACCTGGTTAACCTCTTT >hsa-miR-24 >8101#208764 TGGCTCAGTTCAGCAGGAACA TGGCTCAGTTCAGCAGGAACA >hsa-miR-20b >9601#2087 CAAAGTGCTCATAGTGCAGGTA TGGCTCAGTTCAGCAGGAACA >hsa-miR-329 >10003#2000 AACACACCTGGTTAACCTCTTT TAGCAGCAGGTAAATATTGGC microRNA count hsa-miR-16 2 hsa-miR-24 2 hsa-miR-20b 1 hsa-miR-329 1
  • 11. Mapear con adaptador Análisis miRanalyzer se basa en Bowtie usando un seed-alignment que no requiere la detección previa del adaptador microRNA librería de miRBase Reads con adaptador 1 >hsa-let-7a >251#20864 TGAGGTAGTAGGTTGTATAGTT TGAGGTAGTAGGTTGTATAGTT >hsa-let-7b TGAGGTAGTAGGTTGTGTGGTT 2 >hsa-let-7c 1: Alinear primero la región del seed (17 bp) TGAGGTAGTAGGTTGTATGGTT >hsa-let-7d El read mapea con let-7a y let-7b con 0MM AGAGGTAGTAGGTTGCATAGTT 2: Extender el alineamiento manteniendo el >hsa-let-7e número de MM observados en el seed TGAGGTAGGAGGTTGTATAGTT >hsa-let-7f Alineamiento mas largo al let-7a TGAGGTAGTAGATTGTATAGTT Se asigna el read a let-7a
  • 12. IsomiRs Análisis Mediante las nuevas técnicas de secuenciación se ha podido observar diferentes variantes llamados IsomiRs • Diferentes longitudes (errores de Dicer o cleavage alternativo): para detectar variaciones en la longitud hay que mapear los reads frente a una librería de pre- microRNA • Extensión de un solo nucleótido (single-nucleotide 3′ extensions): Solo se puede detectar si los adaptadores han sido eliminados del read previamente • RNA editing: Difícil de detectar debido a la existencia de errores de secuenciación. Todavía no está de todo claro si estos cambios son funcionales o se deben a errores (secuenciación & Dicer) El programa SeqBuster ofrece los análisis mas completos para estudiar los IsomiRs
  • 13. Expresión diferencial Análisis El objetivo final de muchos análisis es la detección de microRNAs que se expresan de forma diferencial entre dos condiciones (enfermo/sano, tratado/no-tratado, etc.) Se ha desarrollado métodos específicos para la ‘expresión digital’ (digital expression) • RNA-seq (Marioni, et al., 2008) • DEGseq (Wang, et al., 2010): http://www.bioconductor.org/packages/2.6/bioc/html/DEGseq.html, • edgeR (Robinson, et al., 2010): http://www.bioconductor.org/packages/release/bioc/html/edgeR.html • DESeq (Anders and Huber, 2010): http://www.bioconductor.org/packages/2.6/bioc/html/DESeq.html miRanalyzer utiliza DESeq para detectar expresión diferencial • Procesar todas las muestras con miRanalyzer • Mediante las IDs de cada proceso se pueden formar los dos grupos
  • 14. Detectar microRNA nuevos Análisis Una posibilidad es usar la homología • Mapear los reads frente a un conjunto ‘exógeno’ de microRNAs • Detectar la posición cromosómica de los mapeados • Extraer una secuencia alrededor de la posición cromosómica • Determinar la estructura secundaria: ¿Existe un hairpin (horquilla)?, ¿La fold energy es mayor que un umbral dado? El programa miRExpress (http://mirexpress.mbc.nctu.edu.tw/) predice nuevos microRNAs de esta forma
  • 15. Aprendizaje automatizada Análisis Otra posibilidad es usar aprendizaje automatizada Los pasos comunes en todos los métodos son: • Mapear los reads al genoma • Agrupar los reads que mapean en la misma posición • Extraer la secuencia genómica de la posición añadiendo secuencias flanking con tal de incluir totalmente la posible secuencia pre-microRNA • Determinar la estructura secundaria rechazando aquellas con no presentan un hairpin • Calcular propiedades basadas en la estructura, composición de secuencia, expresión o signaturas especificas de Dicer (existencia del microRNA*, etc) • Entrenar un modelo (SVM, Random Forest, etc.) • Predecir la probabilidad de un candidato de ser un nuevo microRNA
  • 16. Overview Sesión práctica Para la sesión practica vamos a usar la herramienta miRanalyzer En siguiente página (http://donau.ugr.es) encontramos los detalles