O documento descreve um método para montar genomas bacterianos a partir de dados de sequenciamento de célula única. O método combina a correção de erros do EULER-SR com a montagem do Velvet-SC para lidar com a cobertura altamente não uniforme. Isso permitiu a montagem de genomas de referência de E. coli e S. aureus, bem como um genoma desconhecido de uma Deltaproteobacteria.
4. Introdução
● Metagenômica
● MDA (Multiple Displacement Amplification)
● Amplificação de viés e formação de Chimeras
● Cobertura do sequenciamento ajuda aliviar o
problema
5. Introdução
● O total potencial de montagens single-cell ainda
não foi alcançado
● Desafios são mais computacionais do que
experimentais
6. Introdução
● Cobertura não uniformes
● Necessidade de adaptar as ferramentas de
montagens
Velvet Velvet-SC
7. Introdução
● Aplicado à 2 genomas conhecidos e 1
desconhecido
● Identificando a maioria dos genes com nenhum
esforço no fechamento de gaps e resolução de
repeats
SILVA[2012]
9. Velvet-SC improves assembly of
short reads with highly nonuniform
coverage
● Velvet poda regiões de baixa cobertura
● Velvet-SC
● EULER+Velvet-SC
10. Characteristics of single-cell
sequences
● DNA amplificado: Escherichia coli (lane 1 e lane
6) e Staphylococcus aureus
● Chimeras: 2% E. coli read pairs e 5% S. aureus
read pairs
11. Characteristics of single-cell
sequences
● Alta não uniformidade de cobertura
● Blackout
● As regiões de blackout podem ser eliminadas por
combinação de reads de múltiplas single-cell
12. Characteristics of single-cell
sequences
Data sets ~600x
(Blackout)
0x ou 1x
(kbp)
~2,300x
(Blackout)
0x ou 1x
(bases)
E. coli lane 1 94 ~116 - -
E. coli lane 6 50 ~13 - -
S. aureus - - 2 143
13. De novo single-cell assembly of E.
coli and S. aureus
● Velvet, Velvet-SC e EULER+Velvet-SC foram
comparados
● Fração selecionada aleatoriamente de reads de
entrada variando de 0.1 à 0.9 do total e montado
com EULER+Velvet-SC e Velvet
14. De novo single-cell assembly of E.
coli and S. aureus
● Aumento da cobertura gerou os melhores resultados
● EULER+Velvet-SC superou o Velvet para o total
de pb montadas em todas as coberturas
16. Single-cell assembly of an
uncultured Deltaproteobacterium
● La Jolla, California
● Análise filogenética de sequencias (16S) revelou
que esse organismo é membro da não cultivável
Deltaproteobacteria, chamada SAR324
17. Single-cell assembly of an
uncultured Deltaproteobacterium
● SAR324_MDA reads
● 57,816,790 de 67,995,232 reads passaram pelo
filtro de pureza do Illumina
19. Assembly statistic
● MetaGene
● Rendeu ao EULER+Velvet-SC um conjunto mais
robusto para a anotação
20. Assembly purity
● A contaminação no SAR324_MDA foi analisada
pelo conteúdo GC, frequências de nucleotídeos das
reads e contigs comparando com as referências de
genomas bacteriabacteriano e o BLAST
21. Assembly purity
● Árvore filogenética para cada ORF (Open Reading
Frame) usando o APIS (Automated Phylogenetic
Inference System)
22. Assembly purity
● APIS pode ser usado para a identificação de
contigs contaminantes
● SAR324 possui dados filogenéticos inconsistentes
23. Insights from the SAR324_MDA
Deltaproteobacterium genome
● Características mais marcantes da montagem
SAR324 é a presença de 18 Phytanoyl
Dioxygenase
● Catalisam a degradação da cadeia lipídica em
clorofila
24. Insights from the SAR324_MDA
Deltaproteobacterium genome
● Características metabólicas de SAR324 sugerem
que elas rastreiam e degradam afundando
biomassa fotossintética
● Deixa a superfície do oceano iluminado pelo sol
25. Insights from the SAR324_MDA
Deltaproteobacterium genome
● SAR324
– Cosmopolita
– Aeróbico – ATP através de O2 e C6H12O6
– Móvel – utiliza flagelos
– Quimiotáxico – processo de locomoção de células em
direção a um gradiente químico
27. Discussão
● Não uniformidade da cobertura
● Validação do EULER-SR + Velvet-SC com
genomas de referência
● Método apresentou sucesso
28. Discussão
● O rápido desenvolvimento de tecnologias de
sequenciamento e a redução dos custos também
prometem acelerar o processo
29. Discussão
● Maior meta da genômica única célula é
complementar o seu largo volume da dados
metagenômicos com montagens de genomas de
organismos não cultiváveis que suportam a
anotação da maioria dos genes
30. Discussão
● Essa tecnologia guiará estudos de organismos não
cultiváveis para o microbioma humano e para o
marinho e ambientes de solo
31. Discussão
● O custo-benefício da abordagem contribui para
exploração da taxonomia microbiana, evolução e
extração de organismos ambientais
● Biotecnologia e biomedicina
32. Discussão
● Prever um maior desenvolvimento de EULER +
Velvet-SC
● Metagenômica e transcriptoma, que também são
caracterizadas por uma cobertura altamente não
uniforme
34. Velvet-SC: modifications to Velvet
assembly algorithm
● Sequências mescladas em um contig maior
● Normalmente funde regiões de baixa cobertura com
as de altas coberturas, resgatando assim, regiões de
baixa cobertura da eliminação
35. EULER+Velvet-SC is EULER-SR's
error correction combined with
Velvet-SC
● Geradas reads de MDAs feitas nas células (E. coli e
S. aureus)
● 600x e 2,300x de cobertura
● 100-bp
● Executando no Illumina Genome Analyzer IIx
36. Single-cell isolation
● E. coli e S. aureus foram isoladas por
micromanipulação
● Amostra de célula marinha (La Jolla, Califórnia) foi
filtrada, rapidamente congeladas e armazenadas a
-80 ° C em 30% de glicerol
37. MDA and selection of candidate
marine amplified DNA
● Reagente GenomiPhi HY
● O gene rRNA 16S foi amplificado e sequenciado e
MDA marinho de interesse foi selecionado por
análises BLAST de suas sequências 16S
38. Library generation and sequencing
● Illumina Genome Analyzer IIx usando reagentes
padrões
Data sets Library
E. coli lane 1 Paired-end
E. coli lane 6 Paired-end
S. aureus PCR-free paired-end
Deltaproteobacteria PCR-free paired-end
39. Analysis and annotation of the
single-cell assembly
● Contigs analizadas pelo BLAST contra um banco
de dados de sequência de nucleotídeos com entrada
de GenBank e RefSeq
● Anotação de genes ORFs, tRNAs, rRNA foi
realizado usando o pipeline de anotação
metagenômica JCVI ( J. Craig Venter Institute)
40. Analysis and annotation of the
single-cell assembly
● Análises filogenéticas de seleção de proteínas
foram conduzidas no Bosque (Integrated
phylogenetic analysis software)
● Identificadores de genes utilizados em KEGG
(Kyoto Encyclopedia of Genes and Genomes)
Automatic Annotation Server (KAAS)
Foi descrito um algoritmo para dados de curtas leituras para single-cells que melhora a montagem por utilizar um cutoff progressivo e incremental da cobertura
Alguns teste e comparações foram feitas com leituras de single-cells da Escherichia coli e Staphylococcus aureus
O método foi aplicado para a montagem de genoma de uma single-cell não cultivável chamada SAR324 que faz parte do grupo da Deltaproteobacteria, bactéria marinha
MDA: métofdo que pode rapidamente amplificar em minutos amostras de DNA e gera produtos de grande tamanho com baixa frequências de erros
Usado constantemente no whole genome amplification
A cobertura não pode ser nem tão alta e nem tão baixa para não comprometer a montagem. Essa variação, a não uniformidade de cobertura são efeitos produzidos por erros nos contigs, ou seja, baixa qualidade em alguns nucleotídeos identificados
A cobertura não pode ser nem tão alta e nem tão baixa para não comprometer a montagem. Essa variação, a não uniformidade de cobertura são efeitos produzidos por erros nos contigs, ou seja, baixa qualidade em alguns nucleotídeos identificados
OLC: muito utilizado em projetos que utilizam longas leituras para o sequenciamento Sanger
DBG: muito utilizado em projetos da NGS, baseados em tecnologias que geram pequenas leituras
As duas abordagens podem ser utilizadas em um mesmo projeto, o OLC corrige os erros e o DBG ler os erros corrigidos
Loci: local fixo no cromossomo onde se localiza determinado gene/marcador
Chimeras: partes não lidas ou identificadas por criarem “grampos” nas leituras
MetaGene: ferramenta para anotação de sequências metagenômicas
Conteúdo GC: mede a estabilidade do genoma. DNA com maior conteúdo GC é mais estável do que DNA com menor conteúdo GC
Conteúdo GC: mede a estabilidade do genoma. DNA com maior conteúdo GC é mais estável do que DNA com menor conteúdo GC
OLC: muito utilizado em projetos que utilizam longas leituras para o sequenciamento Sanger
DBG: muito utilizado em projetos da NGS, baseados em tecnologias que geram pequenas leituras
As duas abordagens podem ser utilizadas em um mesmo projeto, o OLC corrige os erros e o DBG ler os erros corrigidos