EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
NGS analysis of micro-RNA
1. Data analysis workshop for massive
sequencing data
Analysis of deep-sequencing experiments for
small RNAs
Michael Hackenberg
Computational Genomics and Bioinformatics Group
Genetics Department
University of Granada
http://bioinfo2.ugr.es
2. Overview
Introducción
• Función y procesamiento
• Secuenciación
Detectar microRNAs conocidos
• Preprocesamiento de los reads (control de calidad, formato read/count)
• Eliminar los adaptadores 3’
• Mapear los reads a las librerías de referencia (microRNA de miRBase, Rfam, genoma, etc)
• Detectar IsomiRs
• Detectar expresión diferencia
Detectar/predecir nuevos microRNA
• Homología
• Aprendizaje automatizado
Sesión práctica (miRanalyzer)
• Preprocesar los datos con groupReads.pl
• Detectar microRNAs conocidos y expresión diferencial
3. Función Introducción
Un microRNA es un RNA corto de entre 19 y 25 nt de longitud. Están
post-
implicados en la regulación génica post-transcripcional y
probablemente también en la metilación del ADN.
• Los microRNA se transcriben a partir de genes de ADN pero no se traducen a proteína (genes
no-codificantes)
• Son presentes en un amplio rango de especies tanto en plantas como en animales.
• Muchos de ellos son altamente conservados
• La mayoría de los genes de microRNA se ubican en regiones intergénicas y tienen su propio
promotor y elementos regulatorios
• Aprox. 40% de los genes de microRNA están ubicado en intrones se transcriben
conjuntamente con el gen hospedador.
• Están involucrados en muchos procesos básicos (metabolismo, desarrollo, sistema
inmunológico, etc.)
• Algunos microRNA están implicados en el desarrollo de patológicas como el cáncer
4. Procesamiento Introducción
• La mayoría se transcriben mediante
polimerasa II (algunos mediante pol III)
como largos transcritos primarios (pre-
microRNA)
• El pri-miRNA se procesa mediante la
proteína Drosha pre-miRNA
• El pre-miRNA se exporta al citoplasma
mediante Exportin 5
• Dicer procesa el pre-miRNA en el
citoplasma y genera el microRNA
maduro
• El microRNA maduro se asocia con el
complejo proteico RISC (RNA-induced
silencing complex )
• RISK inicia o la inhibición de la
traducción o la degradación del mRNA
5. Secuenciación Introducción
Preparación de la librería
• Extracción del RNA total
• Purificar RNA corto (electroforesis en gel) normalmente entre 17 y 30 bp
• Añadir adaptadores 5’ y 3’. Existen adaptadores que reconocen específicamente el
grupo 3’ hidroxilo que es el resultado del procesamiento por Dicer
• RT-PCR para generar la librería de cDNA
Punto de partida: resultado de la secuenciación en
formato fastq
@SRR037876 GSM522374_1:1:148:931:861 Secuencia/read
TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC
+
BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# Calidad del read
Phred Score
6. Programas disponibles Análisis
DSAP (servidor web): http://dsap.cgu.edu.tw/dsap.html
Expresión diferencial, isomiRs, comparación entre especies, filtrado por Rfam, representación gráfica.
mirTools (servidor web): http://centre.bioinformatics.zj.cn/mirtools/
Predicción de microRNA nuevos, expresión diferencial, representación gráfica, limitado a 10 Mb
SeqBuster (servidor web & local): http://estivill_lab.crg.es/seqbuster/
Expresión diferencial, isomiRs, representación gráfica
miRanalyzer (servidor web & local):
http://bioinfo2.ugr.es/miRanalyzer/miRanalyzer.php
Predicción de nuevos microRNA, expresión diferencial (también de nuevos microRNAs), color space,
Los programas comparten muchos pasos de análisis
Difieren en:
• la manera exacta o el orden en el que se llevan a cabo.
• número de análisis disponibles (expresión diferencial, detectar IsoMirs, predecir
microRNA nuevo, etc.)
• Sevidor web / aplicación local
7. Diferentes pasos del análisis Análisis
Un típico flujo de trabajo de los programas
• Preprocesamiento de los datos: filtrar reads con calidad baja, convertir formato
fastq en read/count
• Detección del adaptador 5’: los moléculas de RNA que se secuencia suelen ser mas
cortos que el read (número de ciclos) que conlleva la secuenciación parcial de
adaptador.
• Alineamiento de los reads frente a librerías de referencia: microRNAs conocidos
de miRBase, Rfam, transcritos & conteo de los reads
• IsomiRs: Detectar, clasificar y cuantificar la existencia de IsomiRs
• Expresión diferencial: Detectar aquellos microRNAs conocidos (y nuevos
microRNAs) que se expresan de forma diferencial entre dos condiciones
8. Preprocesamiento Análisis
Convertir fastq en read/count que es la entrada para virtualmente todos los
programas
@SRR037876 GSM522374_1:1:148:931:861
TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC
+
BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#
@SRR037876 GSM522374_1:1:148:931:517
AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT
• Filtrar reads con calidad baja
+ • Recortar los reads
BBC@3<1=872661.@C;@A93+?:;.2.?386<;> • (Eliminar los adaptadores)
@SRR037876 GSM522374_1:1:148:931:648 • Agrupar las secuencias únicas y contar su
TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT número de copias
+ • Establecer un número mínimo de copias
5@059)@6?':9>0<@@)@=BA8)99@3258?####
@SRR037876GSM522374_1:1:148:931:770
GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT
+
sequence count
GCTATGACGGTTACACTCTCCGGTCG 2.0
TAGGTCAAGGTGTAGCCCATGAGGTG 14.0
AAAGGGATTTTTGGAGCAGGGAGATG 2.0
GGCTGCCTGCGGATGAAGTCGTATGG 1.0
9. Detectar los adaptadores Análisis
Debido a la longitud de los microRNA se secuencia parcialmente el adaptador 3’
TCGTATGCCGTCCTGCTTGT
• Conviene buscar y eliminar el adaptador ya que este no alineará con las referencias
(microRNAs conocidos, genoma, etc).
• Hay que establecer el número de desemparejamientos y longitud mínima
• Equilibrio entre sensibilidad (número alto de MM y longitud corta) y especificidad (longitud
baja y número alto de desemparejamientos permitidos)
>16#1.0 >16#1.0
TGATAGAATGCTCGACACGGTTCGTATGCCGTCTTC TGATAGAATGCTCGACACGGT
>17#1.0 >17#1.0
CGCTCCTACCGTTGATCGTATGCCGTCTTCTGCTTG CGCTCCTACCGTTGA
>18#1.0 >18#1.0
GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT
>19#1.0 >19#1.0
AGATTGAATGAAAGTAAAGGACGGTCGTATGCCGTC AGATTGAATGAAAGTAAAGGACGG
>20#308.0 >20#308.0
TCGGACCAGGCTTCAATCCCTCGTATGCCGTCTTCT TCGGACCAGGCTTCAATCCC
>21#1.0 >21#1.0
CATAGTCCTATATGGAGAACCGGATCGTATGCCGTC CATAGTCCTATATGGAGAACCGGA
>22#21.0 >22#21.0
TAATTCATGATCTGGCATCGTATGCCTTCTTCTGCT TAATTCATGATCTGGCA
>23#1.0 >23#1.0
AGGATGGCTCGGCTGCTCGTATGCCGTTTTCTGCTT AGGATGGCTCGGCTGC
10. Mapear sin adaptador Análisis
Alinear los reads con parámetros:
Reads sin adaptador • Max. Número de desemparejamientos
• Longitud mínima (cubertura)
>2001#208764
TGGCTCAGTTCAGCAGGAACA microRNA librería de miRBase
>5078#102
CAAAGTGCTCATAGTGCAGGTA >hsa-miR-16
>6099#19 TAGCAGCACGTAAATATTGGC
AACACACCTGGTTAACCTCTTT >hsa-miR-24
>8101#208764 TGGCTCAGTTCAGCAGGAACA
TGGCTCAGTTCAGCAGGAACA >hsa-miR-20b
>9601#2087 CAAAGTGCTCATAGTGCAGGTA
TGGCTCAGTTCAGCAGGAACA >hsa-miR-329
>10003#2000 AACACACCTGGTTAACCTCTTT
TAGCAGCAGGTAAATATTGGC
microRNA count
hsa-miR-16 2
hsa-miR-24 2
hsa-miR-20b 1
hsa-miR-329 1
11. Mapear con adaptador Análisis
miRanalyzer se basa en Bowtie usando un seed-alignment que no requiere la detección previa del adaptador
microRNA librería de miRBase
Reads con adaptador
1
>hsa-let-7a
>251#20864 TGAGGTAGTAGGTTGTATAGTT
TGAGGTAGTAGGTTGTATAGTT >hsa-let-7b
TGAGGTAGTAGGTTGTGTGGTT 2
>hsa-let-7c
1: Alinear primero la región del seed (17 bp) TGAGGTAGTAGGTTGTATGGTT
>hsa-let-7d
El read mapea con let-7a y let-7b con 0MM AGAGGTAGTAGGTTGCATAGTT
2: Extender el alineamiento manteniendo el >hsa-let-7e
número de MM observados en el seed TGAGGTAGGAGGTTGTATAGTT
>hsa-let-7f
Alineamiento mas largo al let-7a TGAGGTAGTAGATTGTATAGTT
Se asigna el read a let-7a
12. IsomiRs Análisis
Mediante las nuevas técnicas de secuenciación se ha podido observar diferentes
variantes llamados IsomiRs
• Diferentes longitudes (errores de Dicer o cleavage alternativo): para detectar
variaciones en la longitud hay que mapear los reads frente a una librería de pre-
microRNA
• Extensión de un solo nucleótido (single-nucleotide 3′ extensions): Solo se puede
detectar si los adaptadores han sido eliminados del read previamente
• RNA editing: Difícil de detectar debido a la existencia de errores de secuenciación.
Todavía no está de todo claro si estos cambios son funcionales o se deben a errores
(secuenciación & Dicer)
El programa SeqBuster ofrece los análisis mas completos para estudiar los IsomiRs
13. Expresión diferencial Análisis
El objetivo final de muchos análisis es la detección de microRNAs que se expresan de
forma diferencial entre dos condiciones (enfermo/sano, tratado/no-tratado, etc.)
Se ha desarrollado métodos específicos para la ‘expresión digital’ (digital expression)
• RNA-seq (Marioni, et al., 2008)
• DEGseq (Wang, et al., 2010):
http://www.bioconductor.org/packages/2.6/bioc/html/DEGseq.html,
• edgeR (Robinson, et al., 2010):
http://www.bioconductor.org/packages/release/bioc/html/edgeR.html
• DESeq (Anders and Huber, 2010):
http://www.bioconductor.org/packages/2.6/bioc/html/DESeq.html
miRanalyzer utiliza DESeq para detectar expresión diferencial
• Procesar todas las muestras con miRanalyzer
• Mediante las IDs de cada proceso se pueden formar los dos grupos
14. Detectar microRNA nuevos Análisis
Una posibilidad es usar la homología
• Mapear los reads frente a un conjunto ‘exógeno’ de microRNAs
• Detectar la posición cromosómica de los mapeados
• Extraer una secuencia alrededor de la posición cromosómica
• Determinar la estructura secundaria: ¿Existe un hairpin (horquilla)?, ¿La fold energy
es mayor que un umbral dado?
El programa miRExpress (http://mirexpress.mbc.nctu.edu.tw/) predice nuevos
microRNAs de esta forma
15. Aprendizaje automatizada Análisis
Otra posibilidad es usar aprendizaje automatizada
Los pasos comunes en todos los métodos son:
• Mapear los reads al genoma
• Agrupar los reads que mapean en la misma posición
• Extraer la secuencia genómica de la posición añadiendo secuencias flanking con tal
de incluir totalmente la posible secuencia pre-microRNA
• Determinar la estructura secundaria rechazando aquellas con no presentan un
hairpin
• Calcular propiedades basadas en la estructura, composición de secuencia, expresión
o signaturas especificas de Dicer (existencia del microRNA*, etc)
• Entrenar un modelo (SVM, Random Forest, etc.)
• Predecir la probabilidad de un candidato de ser un nuevo microRNA
16. Overview Sesión práctica
Para la sesión practica vamos a usar la herramienta miRanalyzer
En siguiente página (http://donau.ugr.es) encontramos los detalles