SlideShare ist ein Scribd-Unternehmen logo
1 von 102
AnotaçãoAnotação
MolecularMolecular
DRA. ADRIANA DANTAS | BIOINFORMÁTICADRA. ADRIANA DANTAS | BIOINFORMÁTICA
Introdução
 A bioinformática:
 Imprescindível para a manipulação dos dados biológicos.
 Definida como uma modalidade que abrange todos os aspectos de
aquisição, processamento, armazenamento, distribuição, análise e
interpretação da informação biológica.
 Combinação de procedimentos e técnicas da matemática, estatística
e ciência da computação
 Elaboradas várias ferramentas que nos auxiliam a compreender o
significado biológico representado nos dados genômicos.
 Criação de bancos de dados com as informações já processadas,
acelera a investigação em outras áreas como a medicina, a
biotecnologia, a agronomia, etc
DEFINIÇÕES DE GENOMA
 A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘
GENes e cromossOMASGENes e cromossOMAS’
 O termo GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi proposta a
criação de uma nova disciplina e de uma nova revista cientifica
 Definições:
 Coleção de genes de um organismo
 Casamento entre a biologia celular coma genética clássica e a adoção da ciência de
computação
 Biologia molecular em grande escala
 Rol de tecnologias capazes de decodificar a sequencia de DNA de qualquer organismo
 Uma nova ciência que estuda todo o genoma
 Integra disciplinas tradicionais como citologia, genética mendeliana, quantitativa, de
populações e molecular com novas tecnologias derivadas da informática e de sistemas
robóticos automatizados
Bancos de dados Genômicos
 Grande quantidade de dados gerados em inúmeros laboratórios
de todo o mundo, faz-se necessário organizá-los de maneira
acessível, de modo a evitar redundância na pesquisa científica e
possibilitar a análise por um maior número possível de cientistas.
 A construção de bancos de dados para armazenamento de
informações de sequencias de DNA e genomas inteiros, proteínas e
suas estruturas tridimensionais, bem como vários outros produtos da
era genômica, tem sido um grande desafio, mas simultaneamente
extremamente importante.
GenBankGenBank
 O NCBI, ou Centro Nacional para Informação Biotecnológica
dos EUA, é considerado o banco de dados central sobre
informações genômicas.
 Vários outros bancos de dados similares estão distribuídos por
países da Europa e Japão, mas todos trocam dados em um
intervalo de 24 horas com o NCBI.
 O GenBank é o principal banco de dados do NCBI e armazena
todas sequencias disponíveis publicamente de DNA (de
seqüências pequenas a genomas inteiros), RNA e proteínas.
Bancos de dados secundários do NCBI
 UniGene
 agrupa todas as sequencias parciais do transcriptoma de um organismo
em aglomerados ou clusters, onde cada aglomerado representa a
sequencia consenso de um gene.
 Banco de dados RefSeq
 reúne somente as sequencias de referência, ou seja, a mais
representativa sequencia de um transcrito, editada e inspecionada por
um curador. É, frequentemente, o melhor banco de dados para se
evitar a redundância natural num universo com tantas informações.
 OMIM (Online Mendelian Inheritance in Man)
 que foi criado para catalogar todos genes e alelos relacionados a
doenças e outras características humanas, bem como proporcionar um
detalhamento técnico e bibliografia referente a cada característica.
Ferramentas para analise de dados no GenBank
 A ferramenta mais popular de comparação de sequencias de DNA com os bancos
de dados genômicos é o BLASTBLAST ou Basic Local Alignment Search Tool.
 Através deste algoritmo podemos comparar uma sequencia de DNA ou proteína
(Query) qualquer com todas sequencias genômicas de domínio público.
 O programa BLAST não procura conduzir uma comparação da extensão total dasO programa BLAST não procura conduzir uma comparação da extensão total das
moléculas comparadas, mas apenas identificar, no banco de dados, a presença demoléculas comparadas, mas apenas identificar, no banco de dados, a presença de
uma sequencia suficientemente parecida com a pesquisada.uma sequencia suficientemente parecida com a pesquisada.
 Descarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança daDescarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança da
região de homologia detectada até não mais conseguir.região de homologia detectada até não mais conseguir.
 O resultado desta busca, que é feita no GenBank ou em várias de suas subdivisões
(pode-se facilmente limitar a pesquisa a sequencias de um dado organismo, por
exemplo), retorna aquelas sequencias (DNA ou proteínas) depositadas (depositadas (Subject)Subject) com
maior homologia.
Banco de Genes
 Um dos grandes desafios é o desenvolvimento de procedimentos
pelos quais esses dados podem ser “inseridos” e "extraídos" em
bancos de dados secundários.
 Ferramentas desenvolvidas recentemente incluem:
 Bancos de genes classificados de acordo com sua história evolutiva
(COG-NCBICOG-NCBI),
 Algoritmos de comparação de genomas inteiros (ACT - ArtemisACT - Artemis
Comparison ToolComparison Tool),
 Ferramentas de busca de similaridade estrutural de proteínas,
independentemente da sequencia primária (VAST-NCBIVAST-NCBI), etc.
Mapas genômicos
 Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do
sequenciamento da bactériada bactéria Haemophilus influenzaeHaemophilus influenzae utilizando uma
metodologia de “tiro no escuro" (do inglês shotgunshotgun).
 Esta estratégia envolve o sequenciamento totalmente ao acaso, para posterior
montagem numa sequencia contígua, ou contigcontig (figura 2)
 Tem-se mostrado extremamente útil para o sequenciamento de genomas simples,
como o de bactérias e em genomas complexos, como o da drosófila (Adams et al.
2000) e do homem (Venter et al. 2001).
 O sequenciamento executado pelo consórcio público do genoma humano
também teve uma porção shotgun.
 Fragmentos grandes de DNA clonados em BAC (cromossomos artificial decromossomos artificial de
bactériabactéria), de cerca de 150 mil pb, previamente mapeados em lugares
específicos dos cromossomos (figura 3).
 Enviados para centros de sequenciamento ao redor do planeta e, em cada centro,
fragmentos pequenos eram gerados por quebras físicas e sequenciados no escuro,
com uma cobertura de até dez vezes.
Figura 2
Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC
Processo Shotgun
 Contigs são montados e geram a sequencia do grande fragmento e a informação é
devolvida para a montagem final do genoma.
 Processo Shotgun utilizado pela empresa Celera foi diferente:
 o genoma é fragmentado em pedaços de 2 mil, 10 mil e 50 mil nucleotídeos,
após são clonados, sequenciados as extremidades das moléculas.
 Cada extremidade sequenciada encontra alguma sobreposição com alguma outra
sequencia da coleção, mas sabendo-se a sequencia das outras extremidades destas
duas moléculas, é possível conferir duplamente o resultado das sobreposições.
 As moléculas longas funcionam como âncoras, onde as extremidades das moléculas
maiores podem ser utilizadas não apenas para comprovar a montagem mas
também para ligar e ordenar contigs bem como direcionar o sequenciamento para
algumas áreas de descontinuidade entre os contigs.
Análise e Montagem das Sequencias
Sequencias shotgun analisadas Phred, Phrap e Consed
 Resultado: Sequencias ordenadas com consenso formam um “CONTIG”
Obtenção de Sequencias geradas
pelo MegaBace 10
 Base calling -Base calling - Dados brutos (medidas analógicas) de saída do seqüênciamento
 PHRED:PHRED: Transforma os dados brutos em sequencias de bases, atribuí valores de
qualidade a cada base na sequencia e gera arquivos de saída FASTA e PHD
 PHRAP:PHRAP: Leitura Montagem dos pequenos fragmentos de DNA sequenciados em
seqüências maiores: CONTIG
 CONSED:CONSED: Visualização e edição das montagens das seqüências de alta
qualidade
Base CallingBase Calling
Phred : http://www.phrap.com/phred/
 Lê o arquivo do cromatograma da sequencia de DNA e analisa os picos para
descrever as bases, associando um valor de qualidade para cada base descrita
Valores de qualidade gerados pelo PHRED
 Arquivos de sequencias de DNA analisados pelo phred:
 Cada base é assinada um valor de qualidade, o qual é uma estimativa da
probabilidade de erro para essa base.
 Bases com um valor de qualidade de 20 são consideradas com um alto valor de
qualidade:
 q = -10 log10(pe) onde pe= erro estimado
 q20 = 1/100 probabilidade de erro
 q30= 1/1000 probabilidade de erro
 q40= 1/10000 probabilidade de erro
PHRAP (agrupamento) e Consed
Anotação de Genes
 Anotar é postular a
função ao produto de
um ORF
 Utilizam-se diversos
programas de
comparação de dados
genéticos conhecidos
Montagem de DNA
 Ordenação dos
trechos de DNA
sequenciados para
obtenção da
sequencia original
 Inclui verificação de
qualidade de bases,
marcação de
vetores,
comparação entre
clones e formação
de contíguos ate se
obter o final
Mascaramento de Vetores
 Mascaramento das regiões que representam, normalmente, partes dos vetores de
clonagem onde as sequencias de interesse foram inseridas ou pedaços de DNA
adaptadores utilizados durante a construção das bibliotecas
Montagem feita pela superposição
 Para executar essa montagem feita pela superposição das sequencias dos
vários clones, novas ferramentas da bioinformática foram construídas.
 Duas dessas ferramentas, o PHRED e o PHRAPPHRED e o PHRAP, possibilitam a análise das
milhares de sequencias de DNA geradas pelo sequenciador automático
(Figura 4).
 PHRED - verifica a qualidade do sequenciamento de cada base das várias
sequencias e junto ao PHRAP faz o alinhamento de todos os clones,
construindo uma sequencia contínua, ou contig.
 No final, váriosvários contigscontigs irão compor um grandeirão compor um grande contigcontig que pode ser a fita de
DNA completa de um cromossomo de bactéria, que é na maioria dos casos o
seu genoma completo.
 Para a montagem final várias outras ferramentas foram desenvolvidas para
manipulação e ordenamento de grandes contigs, bem como a visualização
do mapa final com toda a anotação funcional (Ex: Mummy e Assembler do
TIGR).
 Nos eucariotos, cada
cromossomo possui uma
molécula de DNA e, como
humanos têm 24 tipos de
cromossomos (1 a 22, X e Y),
deve-se sequenciar
completamente 24 dessas
moléculas, avançando-se
muitas vezes por longos
trechos de DNA repetitivo,
que são praticamente
impossíveis de sequenciar
com perfeição.
Alinhamento de Sequencias
 Determinar se as sequencias apresentam similaridade.
 Uma similaridade significativa é um forte argumento para homologia.
 Definição dos termos :
 SimilaridadeSimilaridade : é uma medida da qualidade do alinhamento entre as
sequencias, baseada em algum critério de comparação.
 HomologiaHomologia : refere-se à relação evolutiva entre as sequencias.
 Genes Homólogos :Genes Homólogos :pode ser divididos em: ortólogos e parálogos
Genes Homólogos
Figura 2. Representação dos genes Hox em
drosófila com seu posicionamento no DNA
e seus respectivos locais de expressão
Cada animal possui um "Kit de ferramentas" que, quando unidos, são capazes
de construir um animal. Não importa seu tamanho nem sua complexidade,
todos animais são definidos a partir de um pool gênico compartilhado, com
pequenas alterações, cuja expressão diferencia-se por sua ativação ou
desativação em determinadas espécies, e por pequenas mutações que
podem ocorrer durante a história evolutiva. 
Distinção entre ortólogos e parólogosDistinção entre ortólogos e parólogos
Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007
© The Author(s) 2012. Published by Oxford University Press.
Anotação
 Postular função para produto de gene
 Predizer estruturas do genoma e suas funções
 Anotam-se:
 Genes que codificam proteinas
 tRNAs
 rRNAs
 ORFs hipotéticos
 Clusters de GC
 Repetições
 GCsKew
 Codon usage
 Promotores
Para que serve o pacote BLAST?
 São utilizados para buscas por similaridade de sequencias efetuadas contras bancos
de dados de DNA e proteína;
 Comparam proteínas com proteínas, DNA com DNA,
 Proteína com DNA ou DNA com proteínas;
 As sequencias de DNA utilizadas na comparação usualmente são traduzidas antes da
comparação;
 Utilizam valores limites (thresholds) que podem ser ajustados para alterar a velocidade e
probabilidade;
 O pacote pode utilizar várias matrizes de substituição como Blosum( Blocks Substitution
Matrix) 62 ou PAM (Percent Accept Mutation) 250.
BLAST
Basic Local Alignment Search Tool - Ferramenta utilizada para realização
de alinhamento local entre sequencias;
 É um algoritmo heurístico baseado no algoritmo de Smith-Waterman;
 É a ferramenta mais utilizada para realizar busca de sequencias contra banco de
dados.
 • Quais as estratégias utilizadas pelo BLAST ?
 Calcula similaridade de sequencias;
 Executa alinhamento local;
 Utiliza busca por palavras (“words”) ao invés de buscas por caracteres individuais (N ou P);
 Utiliza cálculos estatísticos para validação do resultado.
Anotação BLAST
Basic Local Aligment Search Tool
 Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410)
 Implementações: NCBIBLAST e WU-BLAST
 Acesso via web / local
 Consulta de sequencias em BDs biológicos
 Alinhamento, similaridade e homologia
Bancos de dados BLAST
www.ncbi.nlm.nih.gov/BLAST/
 De acordo com o tipo de dados em que se esteja interessado existem vários
bancos de dados contra os quais a sequencia de busca pode ser comparada :
 Sequencias caracterizadas de DNA ou proteína;
 Sub-DBs especializados;
 Genomas completos ou cromossomos;
 DBs definidos pelo usuário (cópia local).
BLASTBLAST
 Várias regiões de DNA podem ser anotadas através do BLAST, cujo resultado
pode servir para atribuir uma função a qualquer segmento de DNA que
apresenta homologia significativa a outras sequencias de DNA ou proteínas
previamente depositadas no GenBank com função conhecida
experimentalmente (figura 1).
Figura 1 - Resultado da busca por similaridade
com o programa BLAST. O segmento de DNA
sequenciado (Query) demonstrou alta
homologia (100%) com o gene da Insulina
humana (Sbjct).
BLASTBLAST
 É interessante verificar que se utilizássemos um nucleotídeo, "A" por
exemplo, para pesquisar sequencias humanas, a chance de
encontrarmos uma região homóloga seria igual a 1 (100%).
 Se a nossa sequencia pesquisada fosse mais complexa, 144 bases
por exemplo, a chance de encontrarmos uma sequencia
perfeitamente idêntica seria pequena.
 O valor de "E"O valor de "E" , um parâmetro calculado pelo BLAST, expressa essa
dificuldade e, quanto menor seu valor, menor a chance de tal
comparação ter sido encontrada por pura coincidência.
Modalidades de BLAST
 A mais curiosa e de grande importância na descoberta gênica é aquela onde
tanto a Query como a base de dados (Subject) são sequencias detanto a Query como a base de dados (Subject) são sequencias de
nucleotídios.nucleotídios.
 Antes de verificar a homologia, são feitas as seis traduções possíveis de cada
sequencia de nucleotídeos, ou seja, tanto a sequencia pesquisada quanto
cada uma das presentes na base de dados são transformadas em seis
proteínas (iniciando pela base 1, 2 ou 3 de cada fita).
 tBLASTxtBLASTx, permite que seja retornado o par proteína Query - proteína Subject e é
muito válida pois as proteínas de dois organismos são mais parecidas entre si
que os nucleotídios que as codificam.
 Nesta análise, apenas uma das seis leituras é de significado biológico, as demais
geram resultados que são desprezados. conservadas.
Modalidades do BLAST
 tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como por
exemplo na identificação da subunidade catalítica da telomerase
humana assim que tal enzima foi identificada no protozoário Euplotes
(Meyerson et al. 1997).
 BLASTn,BLASTn, buscam homologia entre sequencias de nucleotídeos
 BLASTpBLASTp, buscam homologia entre sequencias de proteínas
 BLASTxBLASTx, Buscam homologia entre sequencias de nucleotídeos e proteínas
 PSI-BLASTPSI-BLAST, que em uma primeira busca encontra as proteínas mais
homólogas à pesquisada - Query; procede identificando as regiões
conservadas dentre os melhores resultados da pesquisa e, em buscas
subsequentes, mascara as regiões não conservadas da Query e pesquisa
levando em conta apenas as regiões conservadas.
Anotação BLAST
 BDs – nucleotídeos, proteínas, domínios, genomas,
específicos, dados particulares
 BLASTp – proteina / proteina (distantes)
 Blastn – nt / nt (próximos)
 Blastx – nt traduzido / proteínas (novas sequencias)
 Tblastn – proteína / nt traduzido( regiões não anotadas)
 Tblastx – nt trad / nt traduzido (ESTs)
Modalidades do BLAST
 Input (Entrada do Programa)
 Query sequence (sequencia de busca)
 Subject (Banco de dados de sequencias biológicas)
 • Output (Saída do Programa)
 Uma lista ordenada de “hits” contendo sequencias do banco de
dados que possuem similaridade local com a
 sequencia de busca (da qual a função desconhecida da
sequencia de busca pode ser inferida).
 Significância estatística de cada “hit”
 Query= formato da seq de entrada;
 BD= formato das seqs do BD;
 nt (trad)= seq em nt traduzida pelo programa;
 Compara= o que é comparado, nt (nucleotídeo) ou aa (aminoácido);
 Programa= um dos cinco principais tipos de blast.
Anotação BLAST nts (nucleotídeos)
 Vs. ntVs. nt
 MEGABLAST – identifica as sequencias
 BLASTn – identifica a sequencia ou encontra similaridade
 Tblastx – comparação de proteínas (nts traduzidos)
 Vs. ProteínaVs. Proteína
 Blastx – comparação de proteinas (nts traduzidas)
 Pequenas sequencias de nt
 Search for short, nearly exact matches – busca para primers ou
motivos
Anotação BLAST aas (aminoácidos)
 Vs. ProteínasVs. Proteínas
 Blastp – identifica a sequencia ou encontra similares
 PSI-BLAST – encontra membros da família da proteína
 PHI-BLAST – encontra proteínas similares a padrão
 Domínio ConservadoDomínio Conservado
 CD-search – encontra query
 CDART – encontra query e busca outras
Anotação BLAST aas (aminoácidos)
 Vs. ntVs. nt
 Tblastn – busca proteínas similares
 Pequenas sequencia s de proteínas
 Search for short, nearly exact matches – busca para
motivos
 Especializadas (nt ou proteínas)Especializadas (nt ou proteínas)
 Blast 2 sequences
 BDs específicos (genomas)
PSI-BLAST
Position-Specific Iterated BLAST
 Executa um BLAST normal para encontrar no DB um conjunto de sequencias
relacionadas (um critério de corte de E-value é utilizado);
 Alinha essas sequencias para criar uma nova matriz de substituição P1 que é
chamada de “Position Specific Scoring Matrices” (PSSMs);
 Depois utiliza interativamente a nova matriz para encontrar novas seqüências, construir
uma matriz P2 e executar a etapa 2 novamente;
 O número de iterações é definido pelo usuário.
PHI-BLAST (Pattern-Hit Initiated BLAST)
 Pesquisa que combina a busca por expressões regulares com
alinhamento local em torno da expressão regular encontrada.
 – Procura por sequencias em um banco de dados que contenham o
motivo estrutural dado pela expressão e, ao mesmo tempo, são
homólogas à sequencia query nas vizinhas do motivo estrutural.
 – Muito similar ao PSI-BLAST, exceto que a sequencia query é primeiro
pesquisada por um padrão fornecido pelo pesquisador.
Anotação BLAST Alinhamentos
 Query / subject
 Low escore filter
 Gráfico
 Lista de alinhamentos
 Score e E-value
 Alinhamentos
 Identities
 Posição de inicio e fim
Anotação BLAST Alinhamentos
BLAST Alinhamentos
BLAST Alinhamentos
BLAST Alinhamentos
BLAST Alinhamentos
Anotação inicial
Anotação Metabólica
Anotação de tRNAs
 Programa tRNAscan-SE
 tRNAscan – COVE
 Show Structure
 TRNAscan-SE
 Servidor Web: http://www.genetics.wustl.edu/eddy/tRNAscan-SE/
 Lowe, T.M. & Eddy, S.R. (1997). tRNAscan-SE: a program for improved detection of
transfers RNA genes in genomic sequence. Nucleic Acids Research 25: 955-964.
Anotação rRNAs
rRNAs
Blast n
Estrutura secundaria
Anotação repetições
 Programa Tandem Repeat FinderPrograma Tandem Repeat Finder
 Programa REPuter
 Foward vs. Foward (F) – tandem
 Forward vs. Reverse (R)
 Forward vs. Complemt (C)
 Forward vs. Reverse complemet (P)
Anotação Conteúdo GC
 GC
 Clusters de GC
 Porcentagem de GC
 GC skew – (G-c) / (G + C)
 GC skew cumulativo
Anotação Genômica e Predição de GenesAnotação Genômica e Predição de Genes
 O processo de anotação genômica envolve a atribuição de
funções e identificação de padrões e de genes na sequencia
linear do DNA obtida do sequenciamento.
 Para se fazer a predição de genes vários parâmetros podem
ser avaliados tais como a existência de sequencias no DNA
que possam funcionar como promotores seguidas por
sequencias que possam gerar uma proteína funcional, ou que
tenham similaridade com genes conhecidos, etc.
Anotação Genômica e PrediçãoAnotação Genômica e Predição
de Genesde Genes
 Diferentes algoritmos (Ex: GenScan) empregam processos estatísticos diversos para se fazer
a busca por ORFsORFs (Open Reading Frames) ou fases de leitura aberta do código genético,
identificadas por um códon iniciador e um terminador, que correspondem a sequencias
com possíveis regiões codificadoras.
 Oorrência no genoma de ORFs superiores a 100 bases é um evento raro, já que um dos 64
códons (ATG) abre a fase de leitura e três são os terminadores (TAA, TAG e TGA), com alta
probabilidade (3/64)
 Programas que detectam o uso não aleatório de códons (codon usagecodon usage), o qual é típico
para cada organismo.
 Nos projetos de análise do transcriptoma frequentemente o códon iniciador nãonão está
presente e programas de análise do codon usage podem auxiliar no reconhecimento da
fase de leitura da porção codificadora.
 O programa ESTScan é um dos mais usados para esses fins.
Genes Hipotéticos
 O conhecimento prévio da proteína e a sua função em qualquer outra espécie
facilita bastante o processo de anotação de genes.
 Grande parte dos genes são ainda hipotéticos, isto é, não se conhece a funçãonão se conhece a função
biológica destas sequencias.biológica destas sequencias.
 Exemplo, na bactéria Escherichia coli, na planta Arabidopsis thaliana e na mosca
das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados não
possuem produto gênico ou função conhecida.
 Muitos dos supostos "genes hipotéticos" serão futuramente descartados enquanto
outros segmentos gênicos serão identificados após terem passado
desapercebidos pelos atuais algoritmos de predição gênica.
 Aparente paradoxo resulta do fato de que não existe umaAparente paradoxo resulta do fato de que não existe uma
identificação inequívoca de um gene.identificação inequívoca de um gene.
Genoma Humano
 Para o genoma humano acreditava-se até bem pouco
tempo em um número estimado ao redor de 70-100 mil genes
que foi reduzido para 30-40 mil genes com a publicação dos
primeiros rascunhos de nosso genoma em 2001 (Lander et al.
2001 e Venter et al. 2001).
 Para facilitar a identificação e classificação funcional dos
genes foi criado o consórcio Gene OntologyGene Ontology que pretende
fornecer um vocabulário padronizado para a descrição dos
produtos gênicos.
Análise de Transcriptomas
 O estudo do transcriptoma de cada organismo é de grande importância para a
identificação de genes, mas também incorpora informações sobre o
funcionamento do seu genoma.
 As sequencias produzidas pelos projetos de sequenciamento do transcriptoma
constituem-se em evidência direta da existência de genes com sua determinada
ordem de éxons.
 A análise de transcriptomas de diferentes espécies, inclusive a humana, tem
evidenciado uma altíssima frequência de processamentos (splicing) diferenciaisaltíssima frequência de processamentos (splicing) diferenciais
dos transcritos primários.dos transcritos primários.
 Neste caso, um gene pode apresentar uma grande variação funcional devido
simplesmente ao sorteio de éxons promovido pelo processamento diferencial.
Análise de Transcriptomas
 É necessário sequenciar completamente todos os genes de um tecido ou
organismo.
 Grande parte dos genes podem ser identificados através da análise deGrande parte dos genes podem ser identificados através da análise de
pequenas sequencias que funcionam como etiquetas.pequenas sequencias que funcionam como etiquetas.
 Chamadas ESTs, ou Expressed Seqüence Tags, são resultado do sequenciamento
parcial de cDNAs (figura 6).
 O objetivo das ESTsESTs é identificar a presença de genes expressos em um
transcriptoma, associando a etiqueta ao gene (e sua função) através um
programa tal como o BLAST que faz busca por homologias.
 As sequencias parciais (ESTs) se originam de ambas as extremidades do cDNA,
embora alguns projetos prefiram a extremidade 3' por facilitar a geração de
sequencias consenso através do agrupamento de vários ESTs, enquanto outros
escolhem a extremidade 5' por estar mais próxima da região codificadora da
proteína, o que facilita a identificação por homologia.
ORESTES, deORESTES, de Open Reading frames ESTsOpen Reading frames ESTs
 Tecnologia desenvolvida no Brasil (Dias-Neto et al. 2000) permite o
sequenciamento da região central dos mRNAs.sequenciamento da região central dos mRNAs.
 A tecnologia, denominada ORESTES, de Open Reading frames ESTsORESTES, de Open Reading frames ESTs (figura 6)
baseia-se na amplificação de cDNAs por PCR aleatório cujos produtos são
utilizados para gerar uma biblioteca.
 O sequenciamento desta biblioteca, contendo fragmentos aleatórios derivados
de diferentes regiões de cada mRNA, favorece o reconhecimento da função do
transcrito por pesquisa de homologia, pois incorpora mais frequentemente a ORF
no transcrito do que as ESTs convencionais (figura 6).
 Os ORESTES foram responsáveis pela identificação de 219 novos genes no
cromossomo 22 humano (Souza et al. 2000) que não haviam sido detectados
previamente por outras análises bioinformáticas.
 Agrupamento de sequencias para geração de consensos é facilitado quando
são utilizados ESTs convencionais associados aos ORESTES.
 O transcriptoma pode revelar padrões
distintos de expressão gênica.
 Uma das maneiras de se evidenciar a
expressão gênica diferencial é analisar
a freqüência de ocorrência de um
determinado transcrito numa
preparação de cDNA de um tecido ou
fase de desenvolvimento.
 Apesar da construção de bibliotecas
de cDNA sempre trazer um viés,
incorrendo na redundância de alguns
transcritos, a análise de várias
bibliotecas permite alguma
aproximação do padrão de expressão
de um tecido ou fase de
desenvolvimento de um organismo.
Microarranjos
 Todavia, nada se compara à inversão introduzida pelos microarranjos
(microarrays ou biochips) na análise da expressão gênica.
 Em uma lâmina de microscópio podem ser depositados por um robô cerca de
10 a 100 mil sequencias de genes conhecidos.
 Sondas com fluorescências distintas podem ser preparadas a partir de mRNA
isolado de duas populações de células, normais ou transformadas por
exemplo, e através da análise da intensidade de hibridização pode-se
comparar a expressão gênica diferencial desses múltiplos genes em um tempo
extremamente reduzido.
 Ferramentas bioinformáticas, voltadas ao processamento de imagens em uma
escala micro e nanométrica, estão surgindo para analisar a expressão conjunta
de genes, detectadas em microarranjos.
SAGE
 Metodologia que incorpora um nova técnica de biologia molecular e
ferramentas de bioinformática para análise de expressão gênica diferencial.
 O SAGE, ou Serial Analysis of Gene ExpressionSAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), se
baseia no uso de pequenas sequencias chamadas tagschamadas tags (10 a 14 pb), únicas
de cada gene, que são obtidas por etapas de clivagens e ligações com o
cDNA e posteriormente co-amplificadas por PCR, formando um
concatâmero de tags.
 A quantificação da expressão gênica se dá pela análise do
sequenciamento dos concatâmeros através ferramentas específicas de
bioinformática.
 Desta forma puderam ser identificados vários genes provavelmente
relacionados ao processo de transformação celular nos tumores.
RNA-seq
 RNA-seq é uma abordagem recentemente desenvolvida,
para analisar o perfil de transcriptoma, que utiliza
tecnologias de deep-sequencing.
 O transcriptoma é o conjunto completo de transcritos
(RNAs) em uma célula, e sua quantidade, para um
estágio de desenvolvimento específico ou condição
fisiológica.
 * deep-sequencing = indica que a cobertura do processo é muito maior que o
comprimento da sequencia em estudo.
O entendimento do transcriptoma é essencialO entendimento do transcriptoma é essencial
para:para:
 Interpretar os elementos funcionais do genoma
 Revelar os constituintes moleculares de células e tecidos nos
diferentes estágios de desenvolvimento
 Compreender os elementos presentes no desenvolvimento
de doenças
 O transcriptoma pretende catalogar todos os tipos de
transcritos:
 mRNAs
 RNAs não codificadores
 pequenos RNAs.
Porquê estudar o transcriptoma?
 Para determinar a estrutura transcripcional dos genes, em termos de
seus sítios de início 5’ e final 3’;
 Padrões de splicing e outras modificações pós-traducionais;
 Quantificar os níveis de mudanças de expressão de cada transcrito
durante o desenvolvimento e sob condições diferentes.
 Encontrar microRNAs que possuem função reguladora
 Metagenômica
* Splicing = é um processo que remove os íntrons e junta os éxons depois
da transcrição do RNA. O splicing só ocorre em células eucarióticas, já
que o DNA das células eucarióticas não possui íntrons.
Criação da BibliotecaCriação da Biblioteca
Pode-se utilizar:
Todo o RNA da célula
Possui 90-95% de rRNA
Apenas mRNA selecionado pela cauda de poli-A
Perde-se microRNAs e mRNAs sem poli-A
Retirando o rRNA
Por hibridização com sequencias específicas ligadas a biotina que
são retiradas com esferas ligadas a streptovidina
Quebra por uma exonuclease que age sobre RNAs que possuem
fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato)
A remoção de rRNAs aumenta a detecção e a montagem de transcritos
raros.
Mas se o objetivo do estudo é a quantificação, é necessário uma
biblioteca não depletada.
Criação da BibliotecaCriação da Biblioteca
 Para a criação da biblioteca o RNA é transformado em cDNA
por uma transcriptase reversa
 Para não se perder a direcionalidade do transcrito podem ser
acrescentados adaptadores a uma extremidade do RNA
isso é muito importante no estudo de espécies de
genoma muito compactado onde o transcrito pode se
sobrepor em fitas opostas
 O RNA pode ser fragmentado antes da formação de cDNA
evitando a formação de estrutura secundária
 Cada molécula de cDNA, com ou sem amplificação, é
então sequenciada com um método de alto rendimento
para obter sequências curtas de um final (sequenciamento
single-end) ou de ambos os lados (sequenciamento pair-
end).
 As leituras são tipicamente 30 – 400 bp, dependendo da
tecnologia usada para sequenciamento do DNA.
 Para esse método tem se usado plataformas tipo: Illumina IG,
SOLiD e 454.
Considerações Prioritárias na montagemConsiderações Prioritárias na montagem
Para garantir uma alta qualidade na montagem do
transcriptoma, cuidados particulares devem ser
tomados nos experimentos de RNA-Seq.
• Na fase de análise de dados, as leituras curtas são pré-
processadas para remover erros de sequenciamento e
outros artefatos.
• As leituras são subsequentemente montadas nos RNAs
originais e então sua abundância é avaliada.
 Para evitar erros na montagem de RNA, é necessário
retirar o passo de amplificação por PCR
 Na etapa de amplificação por PCR alguns fragmentos
podem ser melhor amplificados que outros prejudicando os
dados
 Já é possível fazer o sequenciamento sem amplificação
usando as plataformas Helicos e Pacific Biosciences,
 O sequenciamento através de uma única molécula é
possível, porém essas tecnologias ainda sofrem com a
alta taxa de erro
Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma
 Baseado em três categorias :
- Etratégia baseada em referência
- Estratégia de novo
- Estratégia combinada
Estratégia baseada em ReferênciaEstratégia baseada em Referência
 Quando existe um genoma de referência o transcriptoma pode ser
construido a partir dele.
 Esse método inclui três passos:
 Alinhamento das leituras sobre o genoma de referência
 As leituras sobrepostas em cada locus são agrupadas para
construir um gráfico de todas as isoformas possíveis.
 O gráfico é analisado para resolver isoformas individuais.
 Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
 Após as leituras serem alinhadas ao genoma, dois métodos são
usados para a construção dos gráficos:
- Cufflinks - cria um gráfico de sobreposição de todas as leituras
que alinham com um único locus para montar isoformas
encontrando o mínimo de transcritos que explicam os introns
dentro da leitura.
- é mais conservativo na escolha de quais os transcritos são re-
construidos
- Scripture - cria um gráfico que une cada base de um
cromossomo e adiciona nas laterais (conexões) entre as bases se
existe uma leitura que liga duas bases.
- pode produzir um grande conjunto de transcritos de um locus.
Vantagens
 Pode montar transcritos de baixa abundância;
 Pode usar computação paralela
 Pode ser feita em máquinas com poucos gb de RAM;
 Descobrir novos transcritos que não estão em anotações já
existentes;
 Descarta artefatos e contaminantes (que não alinham)
 Usado para transcriptomas simples:
 bactérias, archeaeal, eucarióticos simples
 com poucos introns
 pouco splicing alternativo
Desvantagens
 Não é possível sem um genoma de referência;
 Depende da qualidade do genoma de referência ;
 Genomas podem não ser completos, ter regiões não agrupadas e
parcialmente montadas.
 Genes que se encontram muito próximos ou sobrepostos podem
ser interpretados com um único transcrito
 Não une leituras que esteja muito distantes no genoma ou em
cromossomos diferentes
EstratégiaEstratégia de novode novo
 Não utiliza um genoma de referência;
 Se utiliza da redundância das leituras para encontrar sobreposições
entre as leituras
 Programas usam o gráfico De Brujin para reconstruir transcritos de
uma ampla faixa de níveis de expressão e então processar a
montagem de contigs e remover redundancias.
 Semelhante à montagem de genoma
Vantagens
Não depende de um genoma de referência;
Pode providenciar um novo conjunto de dados de transcritos para
genomas que não apresenta alta qualidade;
Pode ser usado para encontrar transcritos exógenos ou que estão
faltando no genoma;
Não é influenciado por longos introns
Encontra transcritos trans-spliced, resultantes de rearranjos
cromossomais
Pode ser utilizado para o transcriptoma de organismos complexos
Desvantagens
 A montagem de organismos eucariotos complexos pode consumir muita
memória RAM
 Grande quantidade de dados
 Complexidade dos gráficos de Brujin nescessários para analizar os possíveis
splicings
 Consome dias ou semanasde processamento
 Exige maior cobertura(30x)
 Suscetível a erros de leitura, pode não diferenciar um erro do
sequenciamento de um splicing
 Trechos similares(como parálogos) ainda podem ser considerados um só
transcrito
Estratégia combinadaEstratégia combinada
• A combinação dos dois métodos pode ser utilizada
• O alinhamento tem a vantagem da sensibilidade
• O De Novo para encontrar transcritos novos e trans-spliced
• Realizando o alinhamento primeiro podemos descartar as sequências já
conhecidas
• Fazendo a montagem De Novo com uma quantidade muito menor de dados
• Quando o genoma de referência tem baixa qualidade a montagem De
Novo pode ser feita primeiro
• Os contigs e singlets são alinhados no genoma e as lacunas podem ser
preenchidas com informações do genoma
 Uma questão importante é a cobertura da sequência ou
a porcentagem dos transcritos pesquisados, os quais
implicam no custo.
 Grandes coberturas requerem mais sequenciamento.
 Em transcriptomas simples, como da levedura S.
cerevisiae, que não tem evidência de splicing
alternativo, 30 milhões de leituras de 35 nucleotídeos são
suficientes para observar a transcrição de mais de 90%
dos genes de células em crescimento sob uma condição
unica
RNA-seqRNA-seq
RNA-Seq revela a localização precisa dos limites da transcrição,
com a resolução base a base.
Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra
informação como 2 exons estão conectados, enquanto leituras
longas ou leituras curtas por pair-ends poderiam revelar
conectividade entre exons múltiplos.
Os resultados de RNA-Seq também mostram alto nível de
reprodutibilidade, para ambas as técnicas e replicatas biológicas.
Aplicações
 Descoberta de pequenos RNAs
 Quantificação da expressão em diferentes
momentos
 Fusão de genes em câncer
 Identificação de mutações
 Metagenômica
Nova Geração de Sequenciadores de DNA
Melhorias para o futuroMelhorias para o futuro
 Melhorias na anotação automática
 Embora não seja possível nem desejável eliminar a anotação
manual. Há alguns passos que podem ser melhorados na
anotação automática:
 Deteção de erros ortográficos comuns por exemplo ou inclusão de mais
informação disponível ou anotação com os termos GO
 Novos tipos de dados
 Dados de expressão de micro-arrays e RNA-Seq.
 Melhorias nos sofwares que permitam a visualização e
integração de todos estes dados são fundamentais.

Weitere ähnliche Inhalte

Was ist angesagt?

Código genético
Código genéticoCódigo genético
Código genéticoMARCIAMP
 
IMUNOLOGIA Celular e Molecular - Abbas 8.ed..pdf
IMUNOLOGIA  Celular e Molecular - Abbas 8.ed..pdfIMUNOLOGIA  Celular e Molecular - Abbas 8.ed..pdf
IMUNOLOGIA Celular e Molecular - Abbas 8.ed..pdfUnicesumar
 
Biotecnologia
BiotecnologiaBiotecnologia
BiotecnologiaURCA
 
Genética de populações - genética animal básica
Genética de populações - genética animal básicaGenética de populações - genética animal básica
Genética de populações - genética animal básicaMarília Gomes
 
Introducao à Biotecnologia I
Introducao à Biotecnologia IIntroducao à Biotecnologia I
Introducao à Biotecnologia IKelton Silva Sena
 
A herança autossômica monogênica
A herança autossômica monogênica A herança autossômica monogênica
A herança autossômica monogênica SEMED de Santarém/PA
 
Mutações do material genético
Mutações do material genéticoMutações do material genético
Mutações do material genéticoUERGS
 
Métodos e tipos de pesquisa
Métodos e tipos de pesquisaMétodos e tipos de pesquisa
Métodos e tipos de pesquisaIsabella Marra
 
Heranca e sexo
Heranca e sexoHeranca e sexo
Heranca e sexoURCA
 
Aula 7 Genetica De Populacoes
Aula 7 Genetica De PopulacoesAula 7 Genetica De Populacoes
Aula 7 Genetica De Populacoesaivilsilveira
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a geneticaUERGS
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcrlidypvh
 
Bases cromossômicasa da herança
Bases cromossômicasa da herançaBases cromossômicasa da herança
Bases cromossômicasa da herançaMerieli Araújo
 
Entomologia e fotografia forense
Entomologia e  fotografia forenseEntomologia e  fotografia forense
Entomologia e fotografia forenseThais Rodrigues
 
Conjugação e transdução
Conjugação e transduçãoConjugação e transdução
Conjugação e transduçãoUERGS
 
Trabalho de biologia aneuploidias sexuais,
Trabalho de biologia   aneuploidias sexuais,Trabalho de biologia   aneuploidias sexuais,
Trabalho de biologia aneuploidias sexuais,Elisa Mitye Akiyama
 
Orgãos Linfóides Primários e Secundários
Orgãos Linfóides Primários e SecundáriosOrgãos Linfóides Primários e Secundários
Orgãos Linfóides Primários e SecundáriosLABIMUNO UFBA
 
Herança Não Mendeliana
Herança Não MendelianaHerança Não Mendeliana
Herança Não MendelianaRodrigo Vianna
 

Was ist angesagt? (20)

Código genético
Código genéticoCódigo genético
Código genético
 
IMUNOLOGIA Celular e Molecular - Abbas 8.ed..pdf
IMUNOLOGIA  Celular e Molecular - Abbas 8.ed..pdfIMUNOLOGIA  Celular e Molecular - Abbas 8.ed..pdf
IMUNOLOGIA Celular e Molecular - Abbas 8.ed..pdf
 
Biotecnologia
BiotecnologiaBiotecnologia
Biotecnologia
 
Genética de populações - genética animal básica
Genética de populações - genética animal básicaGenética de populações - genética animal básica
Genética de populações - genética animal básica
 
Introducao à Biotecnologia I
Introducao à Biotecnologia IIntroducao à Biotecnologia I
Introducao à Biotecnologia I
 
A herança autossômica monogênica
A herança autossômica monogênica A herança autossômica monogênica
A herança autossômica monogênica
 
Mutações do material genético
Mutações do material genéticoMutações do material genético
Mutações do material genético
 
Métodos e tipos de pesquisa
Métodos e tipos de pesquisaMétodos e tipos de pesquisa
Métodos e tipos de pesquisa
 
Heranca e sexo
Heranca e sexoHeranca e sexo
Heranca e sexo
 
Aula 7 Genetica De Populacoes
Aula 7 Genetica De PopulacoesAula 7 Genetica De Populacoes
Aula 7 Genetica De Populacoes
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a genetica
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcr
 
Bases cromossômicasa da herança
Bases cromossômicasa da herançaBases cromossômicasa da herança
Bases cromossômicasa da herança
 
Entomologia e fotografia forense
Entomologia e  fotografia forenseEntomologia e  fotografia forense
Entomologia e fotografia forense
 
Conjugação e transdução
Conjugação e transduçãoConjugação e transdução
Conjugação e transdução
 
Aula 12 virus
Aula   12 virusAula   12 virus
Aula 12 virus
 
Trabalho de biologia aneuploidias sexuais,
Trabalho de biologia   aneuploidias sexuais,Trabalho de biologia   aneuploidias sexuais,
Trabalho de biologia aneuploidias sexuais,
 
Orgãos Linfóides Primários e Secundários
Orgãos Linfóides Primários e SecundáriosOrgãos Linfóides Primários e Secundários
Orgãos Linfóides Primários e Secundários
 
BIOLOGIA FORENSE - TC(1).pdf
BIOLOGIA FORENSE - TC(1).pdfBIOLOGIA FORENSE - TC(1).pdf
BIOLOGIA FORENSE - TC(1).pdf
 
Herança Não Mendeliana
Herança Não MendelianaHerança Não Mendeliana
Herança Não Mendeliana
 

Ähnlich wie Anotação molecular

Utilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularUtilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularRosane Teresinha Nascimento da Rosa
 
Codigo genético "aula prática"
Codigo genético "aula prática"Codigo genético "aula prática"
Codigo genético "aula prática"rucadoida
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptxUnid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptxHellendosAnjos
 
ERBASE 2019 - Renato Puga
ERBASE 2019 - Renato PugaERBASE 2019 - Renato Puga
ERBASE 2019 - Renato PugaRenato Puga
 
Sequenciamento de ultima geracao na identificacao de inversoes e translocacoes
Sequenciamento de ultima geracao na identificacao de inversoes e translocacoesSequenciamento de ultima geracao na identificacao de inversoes e translocacoes
Sequenciamento de ultima geracao na identificacao de inversoes e translocacoesRinaldo Pereira
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 
Apresentação 2.pptx
Apresentação 2.pptxApresentação 2.pptx
Apresentação 2.pptxAmaliaLobato
 
Apresentação 2_doc.pptx
Apresentação 2_doc.pptxApresentação 2_doc.pptx
Apresentação 2_doc.pptxAmaliaLobato
 
Código Genético e Síntese Proteica
Código Genético e Síntese ProteicaCódigo Genético e Síntese Proteica
Código Genético e Síntese Proteicaguestdb5b7a
 
Fundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaFundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaPedro Veiga
 
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptxAULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptxAmaroAlmeidaChimbala
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Beta Campos
 

Ähnlich wie Anotação molecular (20)

Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularUtilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Codigo genético "aula prática"
Codigo genético "aula prática"Codigo genético "aula prática"
Codigo genético "aula prática"
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptxUnid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
 
ERBASE 2019 - Renato Puga
ERBASE 2019 - Renato PugaERBASE 2019 - Renato Puga
ERBASE 2019 - Renato Puga
 
Sequenciamento de ultima geracao na identificacao de inversoes e translocacoes
Sequenciamento de ultima geracao na identificacao de inversoes e translocacoesSequenciamento de ultima geracao na identificacao de inversoes e translocacoes
Sequenciamento de ultima geracao na identificacao de inversoes e translocacoes
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 
Ácidos nucleicos
Ácidos nucleicos Ácidos nucleicos
Ácidos nucleicos
 
Td 05 bio i síntese proteica
Td 05 bio i síntese proteicaTd 05 bio i síntese proteica
Td 05 bio i síntese proteica
 
Apresentação 2.pptx
Apresentação 2.pptxApresentação 2.pptx
Apresentação 2.pptx
 
Apresentação 2_doc.pptx
Apresentação 2_doc.pptxApresentação 2_doc.pptx
Apresentação 2_doc.pptx
 
Genoma Humano.pptx
Genoma Humano.pptxGenoma Humano.pptx
Genoma Humano.pptx
 
GenéTico e Síntese Proteica
GenéTico e Síntese ProteicaGenéTico e Síntese Proteica
GenéTico e Síntese Proteica
 
Código Genético e Síntese Proteica
Código Genético e Síntese ProteicaCódigo Genético e Síntese Proteica
Código Genético e Síntese Proteica
 
BDsBiologicos.ppt
BDsBiologicos.pptBDsBiologicos.ppt
BDsBiologicos.ppt
 
Fundamentos de Engenharia Genética
Fundamentos de Engenharia GenéticaFundamentos de Engenharia Genética
Fundamentos de Engenharia Genética
 
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptxAULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
 

Mehr von UERGS

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxUERGS
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaUERGS
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosUERGS
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2UERGS
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturasUERGS
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frioUERGS
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodieselUERGS
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteasesUERGS
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutasUERGS
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosUERGS
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticosUERGS
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnéticaUERGS
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesUERGS
 
Enzimas
EnzimasEnzimas
EnzimasUERGS
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadasUERGS
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogmsUERGS
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscosUERGS
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisUERGS
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriaisUERGS
 
Meio ambiente – as 17 leis ambientais do
Meio ambiente – as 17 leis ambientais doMeio ambiente – as 17 leis ambientais do
Meio ambiente – as 17 leis ambientais doUERGS
 

Mehr von UERGS (20)

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenética
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentos
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturas
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frio
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodiesel
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteases
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutas
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutos
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticos
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnética
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - Carboidrases
 
Enzimas
EnzimasEnzimas
Enzimas
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
 
Meio ambiente – as 17 leis ambientais do
Meio ambiente – as 17 leis ambientais doMeio ambiente – as 17 leis ambientais do
Meio ambiente – as 17 leis ambientais do
 

Kürzlich hochgeladen

Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfHELENO FAVACHO
 
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...DirceuNascimento5
 
Seminário Biologia e desenvolvimento da matrinxa.pptx
Seminário Biologia e desenvolvimento da matrinxa.pptxSeminário Biologia e desenvolvimento da matrinxa.pptx
Seminário Biologia e desenvolvimento da matrinxa.pptxReinaldoMuller1
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMHELENO FAVACHO
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticash5kpmr7w7
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxAntonioVieira539017
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptxJssicaCassiano2
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxLuizHenriquedeAlmeid6
 
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVAEDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVAssuser2ad38b
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmicolourivalcaburite
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfamarianegodoi
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxMarcosLemes28
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfFrancisco Márcio Bezerra Oliveira
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPaulaYaraDaasPedro
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfHELENO FAVACHO
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...Francisco Márcio Bezerra Oliveira
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.denisecompasso2
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaHELENO FAVACHO
 
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2Maria Teresa Thomaz
 
About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéisines09cachapa
 

Kürzlich hochgeladen (20)

Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
 
Seminário Biologia e desenvolvimento da matrinxa.pptx
Seminário Biologia e desenvolvimento da matrinxa.pptxSeminário Biologia e desenvolvimento da matrinxa.pptx
Seminário Biologia e desenvolvimento da matrinxa.pptx
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVAEDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmico
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptx
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
 
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
 
About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéis
 

Anotação molecular

  • 1. AnotaçãoAnotação MolecularMolecular DRA. ADRIANA DANTAS | BIOINFORMÁTICADRA. ADRIANA DANTAS | BIOINFORMÁTICA
  • 2. Introdução  A bioinformática:  Imprescindível para a manipulação dos dados biológicos.  Definida como uma modalidade que abrange todos os aspectos de aquisição, processamento, armazenamento, distribuição, análise e interpretação da informação biológica.  Combinação de procedimentos e técnicas da matemática, estatística e ciência da computação  Elaboradas várias ferramentas que nos auxiliam a compreender o significado biológico representado nos dados genômicos.  Criação de bancos de dados com as informações já processadas, acelera a investigação em outras áreas como a medicina, a biotecnologia, a agronomia, etc
  • 3. DEFINIÇÕES DE GENOMA  A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘ GENes e cromossOMASGENes e cromossOMAS’  O termo GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi proposta a criação de uma nova disciplina e de uma nova revista cientifica  Definições:  Coleção de genes de um organismo  Casamento entre a biologia celular coma genética clássica e a adoção da ciência de computação  Biologia molecular em grande escala  Rol de tecnologias capazes de decodificar a sequencia de DNA de qualquer organismo  Uma nova ciência que estuda todo o genoma  Integra disciplinas tradicionais como citologia, genética mendeliana, quantitativa, de populações e molecular com novas tecnologias derivadas da informática e de sistemas robóticos automatizados
  • 4. Bancos de dados Genômicos  Grande quantidade de dados gerados em inúmeros laboratórios de todo o mundo, faz-se necessário organizá-los de maneira acessível, de modo a evitar redundância na pesquisa científica e possibilitar a análise por um maior número possível de cientistas.  A construção de bancos de dados para armazenamento de informações de sequencias de DNA e genomas inteiros, proteínas e suas estruturas tridimensionais, bem como vários outros produtos da era genômica, tem sido um grande desafio, mas simultaneamente extremamente importante.
  • 5. GenBankGenBank  O NCBI, ou Centro Nacional para Informação Biotecnológica dos EUA, é considerado o banco de dados central sobre informações genômicas.  Vários outros bancos de dados similares estão distribuídos por países da Europa e Japão, mas todos trocam dados em um intervalo de 24 horas com o NCBI.  O GenBank é o principal banco de dados do NCBI e armazena todas sequencias disponíveis publicamente de DNA (de seqüências pequenas a genomas inteiros), RNA e proteínas.
  • 6. Bancos de dados secundários do NCBI  UniGene  agrupa todas as sequencias parciais do transcriptoma de um organismo em aglomerados ou clusters, onde cada aglomerado representa a sequencia consenso de um gene.  Banco de dados RefSeq  reúne somente as sequencias de referência, ou seja, a mais representativa sequencia de um transcrito, editada e inspecionada por um curador. É, frequentemente, o melhor banco de dados para se evitar a redundância natural num universo com tantas informações.  OMIM (Online Mendelian Inheritance in Man)  que foi criado para catalogar todos genes e alelos relacionados a doenças e outras características humanas, bem como proporcionar um detalhamento técnico e bibliografia referente a cada característica.
  • 7. Ferramentas para analise de dados no GenBank  A ferramenta mais popular de comparação de sequencias de DNA com os bancos de dados genômicos é o BLASTBLAST ou Basic Local Alignment Search Tool.  Através deste algoritmo podemos comparar uma sequencia de DNA ou proteína (Query) qualquer com todas sequencias genômicas de domínio público.  O programa BLAST não procura conduzir uma comparação da extensão total dasO programa BLAST não procura conduzir uma comparação da extensão total das moléculas comparadas, mas apenas identificar, no banco de dados, a presença demoléculas comparadas, mas apenas identificar, no banco de dados, a presença de uma sequencia suficientemente parecida com a pesquisada.uma sequencia suficientemente parecida com a pesquisada.  Descarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança daDescarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança da região de homologia detectada até não mais conseguir.região de homologia detectada até não mais conseguir.  O resultado desta busca, que é feita no GenBank ou em várias de suas subdivisões (pode-se facilmente limitar a pesquisa a sequencias de um dado organismo, por exemplo), retorna aquelas sequencias (DNA ou proteínas) depositadas (depositadas (Subject)Subject) com maior homologia.
  • 8. Banco de Genes  Um dos grandes desafios é o desenvolvimento de procedimentos pelos quais esses dados podem ser “inseridos” e "extraídos" em bancos de dados secundários.  Ferramentas desenvolvidas recentemente incluem:  Bancos de genes classificados de acordo com sua história evolutiva (COG-NCBICOG-NCBI),  Algoritmos de comparação de genomas inteiros (ACT - ArtemisACT - Artemis Comparison ToolComparison Tool),  Ferramentas de busca de similaridade estrutural de proteínas, independentemente da sequencia primária (VAST-NCBIVAST-NCBI), etc.
  • 9. Mapas genômicos  Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do sequenciamento da bactériada bactéria Haemophilus influenzaeHaemophilus influenzae utilizando uma metodologia de “tiro no escuro" (do inglês shotgunshotgun).  Esta estratégia envolve o sequenciamento totalmente ao acaso, para posterior montagem numa sequencia contígua, ou contigcontig (figura 2)  Tem-se mostrado extremamente útil para o sequenciamento de genomas simples, como o de bactérias e em genomas complexos, como o da drosófila (Adams et al. 2000) e do homem (Venter et al. 2001).  O sequenciamento executado pelo consórcio público do genoma humano também teve uma porção shotgun.  Fragmentos grandes de DNA clonados em BAC (cromossomos artificial decromossomos artificial de bactériabactéria), de cerca de 150 mil pb, previamente mapeados em lugares específicos dos cromossomos (figura 3).  Enviados para centros de sequenciamento ao redor do planeta e, em cada centro, fragmentos pequenos eram gerados por quebras físicas e sequenciados no escuro, com uma cobertura de até dez vezes.
  • 11. Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC
  • 12. Processo Shotgun  Contigs são montados e geram a sequencia do grande fragmento e a informação é devolvida para a montagem final do genoma.  Processo Shotgun utilizado pela empresa Celera foi diferente:  o genoma é fragmentado em pedaços de 2 mil, 10 mil e 50 mil nucleotídeos, após são clonados, sequenciados as extremidades das moléculas.  Cada extremidade sequenciada encontra alguma sobreposição com alguma outra sequencia da coleção, mas sabendo-se a sequencia das outras extremidades destas duas moléculas, é possível conferir duplamente o resultado das sobreposições.  As moléculas longas funcionam como âncoras, onde as extremidades das moléculas maiores podem ser utilizadas não apenas para comprovar a montagem mas também para ligar e ordenar contigs bem como direcionar o sequenciamento para algumas áreas de descontinuidade entre os contigs.
  • 13.
  • 14. Análise e Montagem das Sequencias Sequencias shotgun analisadas Phred, Phrap e Consed  Resultado: Sequencias ordenadas com consenso formam um “CONTIG”
  • 15. Obtenção de Sequencias geradas pelo MegaBace 10  Base calling -Base calling - Dados brutos (medidas analógicas) de saída do seqüênciamento  PHRED:PHRED: Transforma os dados brutos em sequencias de bases, atribuí valores de qualidade a cada base na sequencia e gera arquivos de saída FASTA e PHD  PHRAP:PHRAP: Leitura Montagem dos pequenos fragmentos de DNA sequenciados em seqüências maiores: CONTIG  CONSED:CONSED: Visualização e edição das montagens das seqüências de alta qualidade
  • 16.
  • 17. Base CallingBase Calling Phred : http://www.phrap.com/phred/  Lê o arquivo do cromatograma da sequencia de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita
  • 18. Valores de qualidade gerados pelo PHRED  Arquivos de sequencias de DNA analisados pelo phred:  Cada base é assinada um valor de qualidade, o qual é uma estimativa da probabilidade de erro para essa base.  Bases com um valor de qualidade de 20 são consideradas com um alto valor de qualidade:  q = -10 log10(pe) onde pe= erro estimado  q20 = 1/100 probabilidade de erro  q30= 1/1000 probabilidade de erro  q40= 1/10000 probabilidade de erro
  • 19.
  • 21. Anotação de Genes  Anotar é postular a função ao produto de um ORF  Utilizam-se diversos programas de comparação de dados genéticos conhecidos
  • 22.
  • 23.
  • 24. Montagem de DNA  Ordenação dos trechos de DNA sequenciados para obtenção da sequencia original  Inclui verificação de qualidade de bases, marcação de vetores, comparação entre clones e formação de contíguos ate se obter o final
  • 25.
  • 26.
  • 27. Mascaramento de Vetores  Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as sequencias de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante a construção das bibliotecas
  • 28. Montagem feita pela superposição  Para executar essa montagem feita pela superposição das sequencias dos vários clones, novas ferramentas da bioinformática foram construídas.  Duas dessas ferramentas, o PHRED e o PHRAPPHRED e o PHRAP, possibilitam a análise das milhares de sequencias de DNA geradas pelo sequenciador automático (Figura 4).  PHRED - verifica a qualidade do sequenciamento de cada base das várias sequencias e junto ao PHRAP faz o alinhamento de todos os clones, construindo uma sequencia contínua, ou contig.  No final, váriosvários contigscontigs irão compor um grandeirão compor um grande contigcontig que pode ser a fita de DNA completa de um cromossomo de bactéria, que é na maioria dos casos o seu genoma completo.  Para a montagem final várias outras ferramentas foram desenvolvidas para manipulação e ordenamento de grandes contigs, bem como a visualização do mapa final com toda a anotação funcional (Ex: Mummy e Assembler do TIGR).
  • 29.  Nos eucariotos, cada cromossomo possui uma molécula de DNA e, como humanos têm 24 tipos de cromossomos (1 a 22, X e Y), deve-se sequenciar completamente 24 dessas moléculas, avançando-se muitas vezes por longos trechos de DNA repetitivo, que são praticamente impossíveis de sequenciar com perfeição.
  • 30. Alinhamento de Sequencias  Determinar se as sequencias apresentam similaridade.  Uma similaridade significativa é um forte argumento para homologia.  Definição dos termos :  SimilaridadeSimilaridade : é uma medida da qualidade do alinhamento entre as sequencias, baseada em algum critério de comparação.  HomologiaHomologia : refere-se à relação evolutiva entre as sequencias.  Genes Homólogos :Genes Homólogos :pode ser divididos em: ortólogos e parálogos
  • 31. Genes Homólogos Figura 2. Representação dos genes Hox em drosófila com seu posicionamento no DNA e seus respectivos locais de expressão Cada animal possui um "Kit de ferramentas" que, quando unidos, são capazes de construir um animal. Não importa seu tamanho nem sua complexidade, todos animais são definidos a partir de um pool gênico compartilhado, com pequenas alterações, cuja expressão diferencia-se por sua ativação ou desativação em determinadas espécies, e por pequenas mutações que podem ocorrer durante a história evolutiva. 
  • 32. Distinção entre ortólogos e parólogosDistinção entre ortólogos e parólogos Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007 © The Author(s) 2012. Published by Oxford University Press.
  • 33. Anotação  Postular função para produto de gene  Predizer estruturas do genoma e suas funções  Anotam-se:  Genes que codificam proteinas  tRNAs  rRNAs  ORFs hipotéticos  Clusters de GC  Repetições  GCsKew  Codon usage  Promotores
  • 34.
  • 35. Para que serve o pacote BLAST?  São utilizados para buscas por similaridade de sequencias efetuadas contras bancos de dados de DNA e proteína;  Comparam proteínas com proteínas, DNA com DNA,  Proteína com DNA ou DNA com proteínas;  As sequencias de DNA utilizadas na comparação usualmente são traduzidas antes da comparação;  Utilizam valores limites (thresholds) que podem ser ajustados para alterar a velocidade e probabilidade;  O pacote pode utilizar várias matrizes de substituição como Blosum( Blocks Substitution Matrix) 62 ou PAM (Percent Accept Mutation) 250.
  • 36. BLAST Basic Local Alignment Search Tool - Ferramenta utilizada para realização de alinhamento local entre sequencias;  É um algoritmo heurístico baseado no algoritmo de Smith-Waterman;  É a ferramenta mais utilizada para realizar busca de sequencias contra banco de dados.  • Quais as estratégias utilizadas pelo BLAST ?  Calcula similaridade de sequencias;  Executa alinhamento local;  Utiliza busca por palavras (“words”) ao invés de buscas por caracteres individuais (N ou P);  Utiliza cálculos estatísticos para validação do resultado.
  • 37. Anotação BLAST Basic Local Aligment Search Tool  Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410)  Implementações: NCBIBLAST e WU-BLAST  Acesso via web / local  Consulta de sequencias em BDs biológicos  Alinhamento, similaridade e homologia
  • 38. Bancos de dados BLAST www.ncbi.nlm.nih.gov/BLAST/  De acordo com o tipo de dados em que se esteja interessado existem vários bancos de dados contra os quais a sequencia de busca pode ser comparada :  Sequencias caracterizadas de DNA ou proteína;  Sub-DBs especializados;  Genomas completos ou cromossomos;  DBs definidos pelo usuário (cópia local).
  • 39. BLASTBLAST  Várias regiões de DNA podem ser anotadas através do BLAST, cujo resultado pode servir para atribuir uma função a qualquer segmento de DNA que apresenta homologia significativa a outras sequencias de DNA ou proteínas previamente depositadas no GenBank com função conhecida experimentalmente (figura 1). Figura 1 - Resultado da busca por similaridade com o programa BLAST. O segmento de DNA sequenciado (Query) demonstrou alta homologia (100%) com o gene da Insulina humana (Sbjct).
  • 40. BLASTBLAST  É interessante verificar que se utilizássemos um nucleotídeo, "A" por exemplo, para pesquisar sequencias humanas, a chance de encontrarmos uma região homóloga seria igual a 1 (100%).  Se a nossa sequencia pesquisada fosse mais complexa, 144 bases por exemplo, a chance de encontrarmos uma sequencia perfeitamente idêntica seria pequena.  O valor de "E"O valor de "E" , um parâmetro calculado pelo BLAST, expressa essa dificuldade e, quanto menor seu valor, menor a chance de tal comparação ter sido encontrada por pura coincidência.
  • 41. Modalidades de BLAST  A mais curiosa e de grande importância na descoberta gênica é aquela onde tanto a Query como a base de dados (Subject) são sequencias detanto a Query como a base de dados (Subject) são sequencias de nucleotídios.nucleotídios.  Antes de verificar a homologia, são feitas as seis traduções possíveis de cada sequencia de nucleotídeos, ou seja, tanto a sequencia pesquisada quanto cada uma das presentes na base de dados são transformadas em seis proteínas (iniciando pela base 1, 2 ou 3 de cada fita).  tBLASTxtBLASTx, permite que seja retornado o par proteína Query - proteína Subject e é muito válida pois as proteínas de dois organismos são mais parecidas entre si que os nucleotídios que as codificam.  Nesta análise, apenas uma das seis leituras é de significado biológico, as demais geram resultados que são desprezados. conservadas.
  • 42. Modalidades do BLAST  tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como por exemplo na identificação da subunidade catalítica da telomerase humana assim que tal enzima foi identificada no protozoário Euplotes (Meyerson et al. 1997).  BLASTn,BLASTn, buscam homologia entre sequencias de nucleotídeos  BLASTpBLASTp, buscam homologia entre sequencias de proteínas  BLASTxBLASTx, Buscam homologia entre sequencias de nucleotídeos e proteínas  PSI-BLASTPSI-BLAST, que em uma primeira busca encontra as proteínas mais homólogas à pesquisada - Query; procede identificando as regiões conservadas dentre os melhores resultados da pesquisa e, em buscas subsequentes, mascara as regiões não conservadas da Query e pesquisa levando em conta apenas as regiões conservadas.
  • 43. Anotação BLAST  BDs – nucleotídeos, proteínas, domínios, genomas, específicos, dados particulares  BLASTp – proteina / proteina (distantes)  Blastn – nt / nt (próximos)  Blastx – nt traduzido / proteínas (novas sequencias)  Tblastn – proteína / nt traduzido( regiões não anotadas)  Tblastx – nt trad / nt traduzido (ESTs)
  • 44. Modalidades do BLAST  Input (Entrada do Programa)  Query sequence (sequencia de busca)  Subject (Banco de dados de sequencias biológicas)  • Output (Saída do Programa)  Uma lista ordenada de “hits” contendo sequencias do banco de dados que possuem similaridade local com a  sequencia de busca (da qual a função desconhecida da sequencia de busca pode ser inferida).  Significância estatística de cada “hit”
  • 45.  Query= formato da seq de entrada;  BD= formato das seqs do BD;  nt (trad)= seq em nt traduzida pelo programa;  Compara= o que é comparado, nt (nucleotídeo) ou aa (aminoácido);  Programa= um dos cinco principais tipos de blast.
  • 46. Anotação BLAST nts (nucleotídeos)  Vs. ntVs. nt  MEGABLAST – identifica as sequencias  BLASTn – identifica a sequencia ou encontra similaridade  Tblastx – comparação de proteínas (nts traduzidos)  Vs. ProteínaVs. Proteína  Blastx – comparação de proteinas (nts traduzidas)  Pequenas sequencias de nt  Search for short, nearly exact matches – busca para primers ou motivos
  • 47. Anotação BLAST aas (aminoácidos)  Vs. ProteínasVs. Proteínas  Blastp – identifica a sequencia ou encontra similares  PSI-BLAST – encontra membros da família da proteína  PHI-BLAST – encontra proteínas similares a padrão  Domínio ConservadoDomínio Conservado  CD-search – encontra query  CDART – encontra query e busca outras
  • 48. Anotação BLAST aas (aminoácidos)  Vs. ntVs. nt  Tblastn – busca proteínas similares  Pequenas sequencia s de proteínas  Search for short, nearly exact matches – busca para motivos  Especializadas (nt ou proteínas)Especializadas (nt ou proteínas)  Blast 2 sequences  BDs específicos (genomas)
  • 49. PSI-BLAST Position-Specific Iterated BLAST  Executa um BLAST normal para encontrar no DB um conjunto de sequencias relacionadas (um critério de corte de E-value é utilizado);  Alinha essas sequencias para criar uma nova matriz de substituição P1 que é chamada de “Position Specific Scoring Matrices” (PSSMs);  Depois utiliza interativamente a nova matriz para encontrar novas seqüências, construir uma matriz P2 e executar a etapa 2 novamente;  O número de iterações é definido pelo usuário.
  • 50. PHI-BLAST (Pattern-Hit Initiated BLAST)  Pesquisa que combina a busca por expressões regulares com alinhamento local em torno da expressão regular encontrada.  – Procura por sequencias em um banco de dados que contenham o motivo estrutural dado pela expressão e, ao mesmo tempo, são homólogas à sequencia query nas vizinhas do motivo estrutural.  – Muito similar ao PSI-BLAST, exceto que a sequencia query é primeiro pesquisada por um padrão fornecido pelo pesquisador.
  • 51. Anotação BLAST Alinhamentos  Query / subject  Low escore filter  Gráfico  Lista de alinhamentos  Score e E-value  Alinhamentos  Identities  Posição de inicio e fim
  • 59. Anotação de tRNAs  Programa tRNAscan-SE  tRNAscan – COVE  Show Structure  TRNAscan-SE  Servidor Web: http://www.genetics.wustl.edu/eddy/tRNAscan-SE/  Lowe, T.M. & Eddy, S.R. (1997). tRNAscan-SE: a program for improved detection of transfers RNA genes in genomic sequence. Nucleic Acids Research 25: 955-964.
  • 61. Anotação repetições  Programa Tandem Repeat FinderPrograma Tandem Repeat Finder  Programa REPuter  Foward vs. Foward (F) – tandem  Forward vs. Reverse (R)  Forward vs. Complemt (C)  Forward vs. Reverse complemet (P)
  • 62. Anotação Conteúdo GC  GC  Clusters de GC  Porcentagem de GC  GC skew – (G-c) / (G + C)  GC skew cumulativo
  • 63. Anotação Genômica e Predição de GenesAnotação Genômica e Predição de Genes  O processo de anotação genômica envolve a atribuição de funções e identificação de padrões e de genes na sequencia linear do DNA obtida do sequenciamento.  Para se fazer a predição de genes vários parâmetros podem ser avaliados tais como a existência de sequencias no DNA que possam funcionar como promotores seguidas por sequencias que possam gerar uma proteína funcional, ou que tenham similaridade com genes conhecidos, etc.
  • 64. Anotação Genômica e PrediçãoAnotação Genômica e Predição de Genesde Genes  Diferentes algoritmos (Ex: GenScan) empregam processos estatísticos diversos para se fazer a busca por ORFsORFs (Open Reading Frames) ou fases de leitura aberta do código genético, identificadas por um códon iniciador e um terminador, que correspondem a sequencias com possíveis regiões codificadoras.  Oorrência no genoma de ORFs superiores a 100 bases é um evento raro, já que um dos 64 códons (ATG) abre a fase de leitura e três são os terminadores (TAA, TAG e TGA), com alta probabilidade (3/64)  Programas que detectam o uso não aleatório de códons (codon usagecodon usage), o qual é típico para cada organismo.  Nos projetos de análise do transcriptoma frequentemente o códon iniciador nãonão está presente e programas de análise do codon usage podem auxiliar no reconhecimento da fase de leitura da porção codificadora.  O programa ESTScan é um dos mais usados para esses fins.
  • 65. Genes Hipotéticos  O conhecimento prévio da proteína e a sua função em qualquer outra espécie facilita bastante o processo de anotação de genes.  Grande parte dos genes são ainda hipotéticos, isto é, não se conhece a funçãonão se conhece a função biológica destas sequencias.biológica destas sequencias.  Exemplo, na bactéria Escherichia coli, na planta Arabidopsis thaliana e na mosca das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados não possuem produto gênico ou função conhecida.  Muitos dos supostos "genes hipotéticos" serão futuramente descartados enquanto outros segmentos gênicos serão identificados após terem passado desapercebidos pelos atuais algoritmos de predição gênica.  Aparente paradoxo resulta do fato de que não existe umaAparente paradoxo resulta do fato de que não existe uma identificação inequívoca de um gene.identificação inequívoca de um gene.
  • 66. Genoma Humano  Para o genoma humano acreditava-se até bem pouco tempo em um número estimado ao redor de 70-100 mil genes que foi reduzido para 30-40 mil genes com a publicação dos primeiros rascunhos de nosso genoma em 2001 (Lander et al. 2001 e Venter et al. 2001).  Para facilitar a identificação e classificação funcional dos genes foi criado o consórcio Gene OntologyGene Ontology que pretende fornecer um vocabulário padronizado para a descrição dos produtos gênicos.
  • 67.
  • 68. Análise de Transcriptomas  O estudo do transcriptoma de cada organismo é de grande importância para a identificação de genes, mas também incorpora informações sobre o funcionamento do seu genoma.  As sequencias produzidas pelos projetos de sequenciamento do transcriptoma constituem-se em evidência direta da existência de genes com sua determinada ordem de éxons.  A análise de transcriptomas de diferentes espécies, inclusive a humana, tem evidenciado uma altíssima frequência de processamentos (splicing) diferenciaisaltíssima frequência de processamentos (splicing) diferenciais dos transcritos primários.dos transcritos primários.  Neste caso, um gene pode apresentar uma grande variação funcional devido simplesmente ao sorteio de éxons promovido pelo processamento diferencial.
  • 69. Análise de Transcriptomas  É necessário sequenciar completamente todos os genes de um tecido ou organismo.  Grande parte dos genes podem ser identificados através da análise deGrande parte dos genes podem ser identificados através da análise de pequenas sequencias que funcionam como etiquetas.pequenas sequencias que funcionam como etiquetas.  Chamadas ESTs, ou Expressed Seqüence Tags, são resultado do sequenciamento parcial de cDNAs (figura 6).  O objetivo das ESTsESTs é identificar a presença de genes expressos em um transcriptoma, associando a etiqueta ao gene (e sua função) através um programa tal como o BLAST que faz busca por homologias.  As sequencias parciais (ESTs) se originam de ambas as extremidades do cDNA, embora alguns projetos prefiram a extremidade 3' por facilitar a geração de sequencias consenso através do agrupamento de vários ESTs, enquanto outros escolhem a extremidade 5' por estar mais próxima da região codificadora da proteína, o que facilita a identificação por homologia.
  • 70. ORESTES, deORESTES, de Open Reading frames ESTsOpen Reading frames ESTs  Tecnologia desenvolvida no Brasil (Dias-Neto et al. 2000) permite o sequenciamento da região central dos mRNAs.sequenciamento da região central dos mRNAs.  A tecnologia, denominada ORESTES, de Open Reading frames ESTsORESTES, de Open Reading frames ESTs (figura 6) baseia-se na amplificação de cDNAs por PCR aleatório cujos produtos são utilizados para gerar uma biblioteca.  O sequenciamento desta biblioteca, contendo fragmentos aleatórios derivados de diferentes regiões de cada mRNA, favorece o reconhecimento da função do transcrito por pesquisa de homologia, pois incorpora mais frequentemente a ORF no transcrito do que as ESTs convencionais (figura 6).  Os ORESTES foram responsáveis pela identificação de 219 novos genes no cromossomo 22 humano (Souza et al. 2000) que não haviam sido detectados previamente por outras análises bioinformáticas.  Agrupamento de sequencias para geração de consensos é facilitado quando são utilizados ESTs convencionais associados aos ORESTES.
  • 71.  O transcriptoma pode revelar padrões distintos de expressão gênica.  Uma das maneiras de se evidenciar a expressão gênica diferencial é analisar a freqüência de ocorrência de um determinado transcrito numa preparação de cDNA de um tecido ou fase de desenvolvimento.  Apesar da construção de bibliotecas de cDNA sempre trazer um viés, incorrendo na redundância de alguns transcritos, a análise de várias bibliotecas permite alguma aproximação do padrão de expressão de um tecido ou fase de desenvolvimento de um organismo.
  • 72. Microarranjos  Todavia, nada se compara à inversão introduzida pelos microarranjos (microarrays ou biochips) na análise da expressão gênica.  Em uma lâmina de microscópio podem ser depositados por um robô cerca de 10 a 100 mil sequencias de genes conhecidos.  Sondas com fluorescências distintas podem ser preparadas a partir de mRNA isolado de duas populações de células, normais ou transformadas por exemplo, e através da análise da intensidade de hibridização pode-se comparar a expressão gênica diferencial desses múltiplos genes em um tempo extremamente reduzido.  Ferramentas bioinformáticas, voltadas ao processamento de imagens em uma escala micro e nanométrica, estão surgindo para analisar a expressão conjunta de genes, detectadas em microarranjos.
  • 73. SAGE  Metodologia que incorpora um nova técnica de biologia molecular e ferramentas de bioinformática para análise de expressão gênica diferencial.  O SAGE, ou Serial Analysis of Gene ExpressionSAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), se baseia no uso de pequenas sequencias chamadas tagschamadas tags (10 a 14 pb), únicas de cada gene, que são obtidas por etapas de clivagens e ligações com o cDNA e posteriormente co-amplificadas por PCR, formando um concatâmero de tags.  A quantificação da expressão gênica se dá pela análise do sequenciamento dos concatâmeros através ferramentas específicas de bioinformática.  Desta forma puderam ser identificados vários genes provavelmente relacionados ao processo de transformação celular nos tumores.
  • 74. RNA-seq  RNA-seq é uma abordagem recentemente desenvolvida, para analisar o perfil de transcriptoma, que utiliza tecnologias de deep-sequencing.  O transcriptoma é o conjunto completo de transcritos (RNAs) em uma célula, e sua quantidade, para um estágio de desenvolvimento específico ou condição fisiológica.  * deep-sequencing = indica que a cobertura do processo é muito maior que o comprimento da sequencia em estudo.
  • 75. O entendimento do transcriptoma é essencialO entendimento do transcriptoma é essencial para:para:  Interpretar os elementos funcionais do genoma  Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de desenvolvimento  Compreender os elementos presentes no desenvolvimento de doenças  O transcriptoma pretende catalogar todos os tipos de transcritos:  mRNAs  RNAs não codificadores  pequenos RNAs.
  • 76. Porquê estudar o transcriptoma?  Para determinar a estrutura transcripcional dos genes, em termos de seus sítios de início 5’ e final 3’;  Padrões de splicing e outras modificações pós-traducionais;  Quantificar os níveis de mudanças de expressão de cada transcrito durante o desenvolvimento e sob condições diferentes.  Encontrar microRNAs que possuem função reguladora  Metagenômica * Splicing = é um processo que remove os íntrons e junta os éxons depois da transcrição do RNA. O splicing só ocorre em células eucarióticas, já que o DNA das células eucarióticas não possui íntrons.
  • 77. Criação da BibliotecaCriação da Biblioteca Pode-se utilizar: Todo o RNA da célula Possui 90-95% de rRNA Apenas mRNA selecionado pela cauda de poli-A Perde-se microRNAs e mRNAs sem poli-A Retirando o rRNA Por hibridização com sequencias específicas ligadas a biotina que são retiradas com esferas ligadas a streptovidina Quebra por uma exonuclease que age sobre RNAs que possuem fosfato na extremidade 5' (apenas rRNAs possuem esse fosfato) A remoção de rRNAs aumenta a detecção e a montagem de transcritos raros. Mas se o objetivo do estudo é a quantificação, é necessário uma biblioteca não depletada.
  • 78. Criação da BibliotecaCriação da Biblioteca  Para a criação da biblioteca o RNA é transformado em cDNA por uma transcriptase reversa  Para não se perder a direcionalidade do transcrito podem ser acrescentados adaptadores a uma extremidade do RNA isso é muito importante no estudo de espécies de genoma muito compactado onde o transcrito pode se sobrepor em fitas opostas  O RNA pode ser fragmentado antes da formação de cDNA evitando a formação de estrutura secundária
  • 79.
  • 80.  Cada molécula de cDNA, com ou sem amplificação, é então sequenciada com um método de alto rendimento para obter sequências curtas de um final (sequenciamento single-end) ou de ambos os lados (sequenciamento pair- end).  As leituras são tipicamente 30 – 400 bp, dependendo da tecnologia usada para sequenciamento do DNA.  Para esse método tem se usado plataformas tipo: Illumina IG, SOLiD e 454.
  • 81. Considerações Prioritárias na montagemConsiderações Prioritárias na montagem Para garantir uma alta qualidade na montagem do transcriptoma, cuidados particulares devem ser tomados nos experimentos de RNA-Seq. • Na fase de análise de dados, as leituras curtas são pré- processadas para remover erros de sequenciamento e outros artefatos. • As leituras são subsequentemente montadas nos RNAs originais e então sua abundância é avaliada.
  • 82.
  • 83.  Para evitar erros na montagem de RNA, é necessário retirar o passo de amplificação por PCR  Na etapa de amplificação por PCR alguns fragmentos podem ser melhor amplificados que outros prejudicando os dados  Já é possível fazer o sequenciamento sem amplificação usando as plataformas Helicos e Pacific Biosciences,  O sequenciamento através de uma única molécula é possível, porém essas tecnologias ainda sofrem com a alta taxa de erro
  • 84. Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma  Baseado em três categorias : - Etratégia baseada em referência - Estratégia de novo - Estratégia combinada
  • 85. Estratégia baseada em ReferênciaEstratégia baseada em Referência  Quando existe um genoma de referência o transcriptoma pode ser construido a partir dele.  Esse método inclui três passos:  Alinhamento das leituras sobre o genoma de referência  As leituras sobrepostas em cada locus são agrupadas para construir um gráfico de todas as isoformas possíveis.  O gráfico é analisado para resolver isoformas individuais.  Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP
  • 86.
  • 87.
  • 88.  Após as leituras serem alinhadas ao genoma, dois métodos são usados para a construção dos gráficos: - Cufflinks - cria um gráfico de sobreposição de todas as leituras que alinham com um único locus para montar isoformas encontrando o mínimo de transcritos que explicam os introns dentro da leitura. - é mais conservativo na escolha de quais os transcritos são re- construidos - Scripture - cria um gráfico que une cada base de um cromossomo e adiciona nas laterais (conexões) entre as bases se existe uma leitura que liga duas bases. - pode produzir um grande conjunto de transcritos de um locus.
  • 89. Vantagens  Pode montar transcritos de baixa abundância;  Pode usar computação paralela  Pode ser feita em máquinas com poucos gb de RAM;  Descobrir novos transcritos que não estão em anotações já existentes;  Descarta artefatos e contaminantes (que não alinham)  Usado para transcriptomas simples:  bactérias, archeaeal, eucarióticos simples  com poucos introns  pouco splicing alternativo
  • 90. Desvantagens  Não é possível sem um genoma de referência;  Depende da qualidade do genoma de referência ;  Genomas podem não ser completos, ter regiões não agrupadas e parcialmente montadas.  Genes que se encontram muito próximos ou sobrepostos podem ser interpretados com um único transcrito  Não une leituras que esteja muito distantes no genoma ou em cromossomos diferentes
  • 91. EstratégiaEstratégia de novode novo  Não utiliza um genoma de referência;  Se utiliza da redundância das leituras para encontrar sobreposições entre as leituras  Programas usam o gráfico De Brujin para reconstruir transcritos de uma ampla faixa de níveis de expressão e então processar a montagem de contigs e remover redundancias.  Semelhante à montagem de genoma
  • 92.
  • 93.
  • 94. Vantagens Não depende de um genoma de referência; Pode providenciar um novo conjunto de dados de transcritos para genomas que não apresenta alta qualidade; Pode ser usado para encontrar transcritos exógenos ou que estão faltando no genoma; Não é influenciado por longos introns Encontra transcritos trans-spliced, resultantes de rearranjos cromossomais Pode ser utilizado para o transcriptoma de organismos complexos
  • 95. Desvantagens  A montagem de organismos eucariotos complexos pode consumir muita memória RAM  Grande quantidade de dados  Complexidade dos gráficos de Brujin nescessários para analizar os possíveis splicings  Consome dias ou semanasde processamento  Exige maior cobertura(30x)  Suscetível a erros de leitura, pode não diferenciar um erro do sequenciamento de um splicing  Trechos similares(como parálogos) ainda podem ser considerados um só transcrito
  • 96. Estratégia combinadaEstratégia combinada • A combinação dos dois métodos pode ser utilizada • O alinhamento tem a vantagem da sensibilidade • O De Novo para encontrar transcritos novos e trans-spliced • Realizando o alinhamento primeiro podemos descartar as sequências já conhecidas • Fazendo a montagem De Novo com uma quantidade muito menor de dados • Quando o genoma de referência tem baixa qualidade a montagem De Novo pode ser feita primeiro • Os contigs e singlets são alinhados no genoma e as lacunas podem ser preenchidas com informações do genoma
  • 97.
  • 98.  Uma questão importante é a cobertura da sequência ou a porcentagem dos transcritos pesquisados, os quais implicam no custo.  Grandes coberturas requerem mais sequenciamento.  Em transcriptomas simples, como da levedura S. cerevisiae, que não tem evidência de splicing alternativo, 30 milhões de leituras de 35 nucleotídeos são suficientes para observar a transcrição de mais de 90% dos genes de células em crescimento sob uma condição unica
  • 99. RNA-seqRNA-seq RNA-Seq revela a localização precisa dos limites da transcrição, com a resolução base a base. Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra informação como 2 exons estão conectados, enquanto leituras longas ou leituras curtas por pair-ends poderiam revelar conectividade entre exons múltiplos. Os resultados de RNA-Seq também mostram alto nível de reprodutibilidade, para ambas as técnicas e replicatas biológicas.
  • 100. Aplicações  Descoberta de pequenos RNAs  Quantificação da expressão em diferentes momentos  Fusão de genes em câncer  Identificação de mutações  Metagenômica
  • 101. Nova Geração de Sequenciadores de DNA
  • 102. Melhorias para o futuroMelhorias para o futuro  Melhorias na anotação automática  Embora não seja possível nem desejável eliminar a anotação manual. Há alguns passos que podem ser melhorados na anotação automática:  Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO  Novos tipos de dados  Dados de expressão de micro-arrays e RNA-Seq.  Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais.

Hinweis der Redaktion

  1. A diagram displaying the processes that can lead to, and define, orthologs and paralogs. Gene duplication and speciation events create complex evolutionary relationships between genes.