NGS analysis of micro-RNA

Data analysis workshop for massive
sequencing data
Analysis of deep-sequencing experiments for
small RNAs

Michael Hackenberg
Computational Genomics and Bioinformatics Group
Genetics Department
University of Granada
http://bioinfo2.ugr.es

Overview

Introducción
• Función y procesamiento
• Secuenciación

Detectar microRNAs conocidos
• Preprocesamiento de los reads (control de calidad, formato read/count)
• Eliminar los adaptadores 3’
• Mapear los reads a las librerías de referencia (microRNA de miRBase, Rfam, genoma, etc)
• Detectar IsomiRs
• Detectar expresión diferencia

Detectar/predecir nuevos microRNA
• Homología
• Aprendizaje automatizado

Sesión práctica (miRanalyzer)
• Preprocesar los datos con groupReads.pl
• Detectar microRNAs conocidos y expresión diferencial

Función Introducción

Un microRNA es un RNA corto de entre 19 y 25 nt de longitud. Están
post-
implicados en la regulación génica post-transcripcional y
probablemente también en la metilación del ADN.

• Los microRNA se transcriben a partir de genes de ADN pero no se traducen a proteína (genes
no-codificantes)
• Son presentes en un amplio rango de especies tanto en plantas como en animales.
• Muchos de ellos son altamente conservados
• La mayoría de los genes de microRNA se ubican en regiones intergénicas y tienen su propio
promotor y elementos regulatorios
• Aprox. 40% de los genes de microRNA están ubicado en intrones se transcriben
conjuntamente con el gen hospedador.
• Están involucrados en muchos procesos básicos (metabolismo, desarrollo, sistema
inmunológico, etc.)
• Algunos microRNA están implicados en el desarrollo de patológicas como el cáncer

Procesamiento Introducción

• La mayoría se transcriben mediante
polimerasa II (algunos mediante pol III)
como largos transcritos primarios (pre-
microRNA)
• El pri-miRNA se procesa mediante la
proteína Drosha pre-miRNA
• El pre-miRNA se exporta al citoplasma
mediante Exportin 5
• Dicer procesa el pre-miRNA en el
citoplasma y genera el microRNA
maduro
• El microRNA maduro se asocia con el
complejo proteico RISC (RNA-induced
silencing complex )
• RISK inicia o la inhibición de la
traducción o la degradación del mRNA

Secuenciación Introducción

Preparación de la librería

• Extracción del RNA total
• Purificar RNA corto (electroforesis en gel) normalmente entre 17 y 30 bp
• Añadir adaptadores 5’ y 3’. Existen adaptadores que reconocen específicamente el
grupo 3’ hidroxilo que es el resultado del procesamiento por Dicer
• RT-PCR para generar la librería de cDNA

Punto de partida: resultado de la secuenciación en
formato fastq

@SRR037876 GSM522374_1:1:148:931:861 Secuencia/read
TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC
+
BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# Calidad del read
Phred Score

Programas disponibles Análisis

DSAP (servidor web): http://dsap.cgu.edu.tw/dsap.html
Expresión diferencial, isomiRs, comparación entre especies, filtrado por Rfam, representación gráfica.

mirTools (servidor web): http://centre.bioinformatics.zj.cn/mirtools/
Predicción de microRNA nuevos, expresión diferencial, representación gráfica, limitado a 10 Mb

SeqBuster (servidor web & local): http://estivill_lab.crg.es/seqbuster/
Expresión diferencial, isomiRs, representación gráfica

miRanalyzer (servidor web & local):
http://bioinfo2.ugr.es/miRanalyzer/miRanalyzer.php
Predicción de nuevos microRNA, expresión diferencial (también de nuevos microRNAs), color space,

Los programas comparten muchos pasos de análisis

Difieren en:
• la manera exacta o el orden en el que se llevan a cabo.
• número de análisis disponibles (expresión diferencial, detectar IsoMirs, predecir
microRNA nuevo, etc.)
• Sevidor web / aplicación local

Diferentes pasos del análisis Análisis

Un típico flujo de trabajo de los programas

• Preprocesamiento de los datos: filtrar reads con calidad baja, convertir formato
fastq en read/count
• Detección del adaptador 5’: los moléculas de RNA que se secuencia suelen ser mas
cortos que el read (número de ciclos) que conlleva la secuenciación parcial de
adaptador.
• Alineamiento de los reads frente a librerías de referencia: microRNAs conocidos
de miRBase, Rfam, transcritos & conteo de los reads
• IsomiRs: Detectar, clasificar y cuantificar la existencia de IsomiRs
• Expresión diferencial: Detectar aquellos microRNAs conocidos (y nuevos
microRNAs) que se expresan de forma diferencial entre dos condiciones

Preprocesamiento Análisis

Convertir fastq en read/count que es la entrada para virtualmente todos los
programas

@SRR037876 GSM522374_1:1:148:931:861
TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC
+
BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#
@SRR037876 GSM522374_1:1:148:931:517
AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT
• Filtrar reads con calidad baja
+ • Recortar los reads
BBC@3<1=872661.@C;@A93+?:;.2.?386<;> • (Eliminar los adaptadores)
@SRR037876 GSM522374_1:1:148:931:648 • Agrupar las secuencias únicas y contar su
TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT número de copias
+ • Establecer un número mínimo de copias
5@059)@6?':9>0<@@)@=BA8)99@3258?####
@SRR037876GSM522374_1:1:148:931:770
GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT
+

sequence count
GCTATGACGGTTACACTCTCCGGTCG 2.0
TAGGTCAAGGTGTAGCCCATGAGGTG 14.0
AAAGGGATTTTTGGAGCAGGGAGATG 2.0
GGCTGCCTGCGGATGAAGTCGTATGG 1.0

Detectar los adaptadores Análisis
Debido a la longitud de los microRNA se secuencia parcialmente el adaptador 3’
TCGTATGCCGTCCTGCTTGT

• Conviene buscar y eliminar el adaptador ya que este no alineará con las referencias
(microRNAs conocidos, genoma, etc).
• Hay que establecer el número de desemparejamientos y longitud mínima
• Equilibrio entre sensibilidad (número alto de MM y longitud corta) y especificidad (longitud
baja y número alto de desemparejamientos permitidos)

>16#1.0 >16#1.0
TGATAGAATGCTCGACACGGTTCGTATGCCGTCTTC TGATAGAATGCTCGACACGGT
>17#1.0 >17#1.0
CGCTCCTACCGTTGATCGTATGCCGTCTTCTGCTTG CGCTCCTACCGTTGA
>18#1.0 >18#1.0
GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT
>19#1.0 >19#1.0
AGATTGAATGAAAGTAAAGGACGGTCGTATGCCGTC AGATTGAATGAAAGTAAAGGACGG
>20#308.0 >20#308.0
TCGGACCAGGCTTCAATCCCTCGTATGCCGTCTTCT TCGGACCAGGCTTCAATCCC
>21#1.0 >21#1.0
CATAGTCCTATATGGAGAACCGGATCGTATGCCGTC CATAGTCCTATATGGAGAACCGGA
>22#21.0 >22#21.0
TAATTCATGATCTGGCATCGTATGCCTTCTTCTGCT TAATTCATGATCTGGCA
>23#1.0 >23#1.0
AGGATGGCTCGGCTGCTCGTATGCCGTTTTCTGCTT AGGATGGCTCGGCTGC

Mapear sin adaptador Análisis
Alinear los reads con parámetros:
Reads sin adaptador • Max. Número de desemparejamientos
• Longitud mínima (cubertura)
>2001#208764
TGGCTCAGTTCAGCAGGAACA microRNA librería de miRBase
>5078#102
CAAAGTGCTCATAGTGCAGGTA >hsa-miR-16
>6099#19 TAGCAGCACGTAAATATTGGC
AACACACCTGGTTAACCTCTTT >hsa-miR-24
>8101#208764 TGGCTCAGTTCAGCAGGAACA
TGGCTCAGTTCAGCAGGAACA >hsa-miR-20b
>9601#2087 CAAAGTGCTCATAGTGCAGGTA
TGGCTCAGTTCAGCAGGAACA >hsa-miR-329
>10003#2000 AACACACCTGGTTAACCTCTTT
TAGCAGCAGGTAAATATTGGC

microRNA count
hsa-miR-16 2
hsa-miR-24 2
hsa-miR-20b 1
hsa-miR-329 1

Mapear con adaptador Análisis
miRanalyzer se basa en Bowtie usando un seed-alignment que no requiere la detección previa del adaptador

microRNA librería de miRBase
Reads con adaptador
1
>hsa-let-7a
>251#20864 TGAGGTAGTAGGTTGTATAGTT
TGAGGTAGTAGGTTGTATAGTT >hsa-let-7b
TGAGGTAGTAGGTTGTGTGGTT 2
>hsa-let-7c
1: Alinear primero la región del seed (17 bp) TGAGGTAGTAGGTTGTATGGTT
>hsa-let-7d
El read mapea con let-7a y let-7b con 0MM AGAGGTAGTAGGTTGCATAGTT
2: Extender el alineamiento manteniendo el >hsa-let-7e
número de MM observados en el seed TGAGGTAGGAGGTTGTATAGTT
>hsa-let-7f
Alineamiento mas largo al let-7a TGAGGTAGTAGATTGTATAGTT
Se asigna el read a let-7a

IsomiRs Análisis

Mediante las nuevas técnicas de secuenciación se ha podido observar diferentes
variantes llamados IsomiRs

• Diferentes longitudes (errores de Dicer o cleavage alternativo): para detectar
variaciones en la longitud hay que mapear los reads frente a una librería de pre-
microRNA
• Extensión de un solo nucleótido (single-nucleotide 3′ extensions): Solo se puede
detectar si los adaptadores han sido eliminados del read previamente
• RNA editing: Difícil de detectar debido a la existencia de errores de secuenciación.

Todavía no está de todo claro si estos cambios son funcionales o se deben a errores
(secuenciación & Dicer)

El programa SeqBuster ofrece los análisis mas completos para estudiar los IsomiRs

Expresión diferencial Análisis

El objetivo final de muchos análisis es la detección de microRNAs que se expresan de
forma diferencial entre dos condiciones (enfermo/sano, tratado/no-tratado, etc.)

Se ha desarrollado métodos específicos para la ‘expresión digital’ (digital expression)

• RNA-seq (Marioni, et al., 2008)
• DEGseq (Wang, et al., 2010):
http://www.bioconductor.org/packages/2.6/bioc/html/DEGseq.html,
• edgeR (Robinson, et al., 2010):
http://www.bioconductor.org/packages/release/bioc/html/edgeR.html
• DESeq (Anders and Huber, 2010):
http://www.bioconductor.org/packages/2.6/bioc/html/DESeq.html

miRanalyzer utiliza DESeq para detectar expresión diferencial

• Procesar todas las muestras con miRanalyzer
• Mediante las IDs de cada proceso se pueden formar los dos grupos

Detectar microRNA nuevos Análisis

Una posibilidad es usar la homología

• Mapear los reads frente a un conjunto ‘exógeno’ de microRNAs
• Detectar la posición cromosómica de los mapeados
• Extraer una secuencia alrededor de la posición cromosómica
• Determinar la estructura secundaria: ¿Existe un hairpin (horquilla)?, ¿La fold energy
es mayor que un umbral dado?

El programa miRExpress (http://mirexpress.mbc.nctu.edu.tw/) predice nuevos
microRNAs de esta forma

Aprendizaje automatizada Análisis

Otra posibilidad es usar aprendizaje automatizada

Los pasos comunes en todos los métodos son:

• Mapear los reads al genoma
• Agrupar los reads que mapean en la misma posición
• Extraer la secuencia genómica de la posición añadiendo secuencias flanking con tal
de incluir totalmente la posible secuencia pre-microRNA
• Determinar la estructura secundaria rechazando aquellas con no presentan un
hairpin
• Calcular propiedades basadas en la estructura, composición de secuencia, expresión
o signaturas especificas de Dicer (existencia del microRNA*, etc)
• Entrenar un modelo (SVM, Random Forest, etc.)
• Predecir la probabilidad de un candidato de ser un nuevo microRNA

Overview Sesión práctica

Para la sesión practica vamos a usar la herramienta miRanalyzer
En siguiente página (http://donau.ugr.es) encontramos los detalles

NGS analysis of micro-RNA

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie NGS analysis of micro-RNA

Ähnlich wie NGS analysis of micro-RNA (20)

Mehr von cursoNGS

Mehr von cursoNGS (6)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

NGS analysis of micro-RNA