SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Programação
Gené.ca
e
Agrupamento
por

U.lidade
para
Análise
de
Dados
Genômicos



      Cassio
Pennachin,
Lucio
Coelho,

      Maurício
Mudado,
Ben
Goertzel

Desafios
Pós‐Genoma

•  Influência
x
causa

•  Iden.ficar
genes
e

   seus
papéis

•  Interações

   complexas
entre

   genes

•  Sequência
x

   expressão
(nível
de

   a.vidade)

Microarrays

      •  Permitem
medir

         simultaneamente
a

         expressão
de
milhares

         de
genes.

      •  Dados
com
bastante

         ruído.

Mineração
de
Dados
Genômicos

•  Obje.vos:
Formulação
de
hipóteses

  –  Sugestão
de
genes
relacionados
a
uma
condição

  –  Inferência
de
relações
intergenes

  –  Inferência
de
função
de
genes


•  Ferramentas:

  –  Agrupamento:
simples,
mas
ignora
muitos

     relacionamentos
entre
genes
e
sofre
com
a
qualidade

     de
dados

  –  Classificação:
técnicas
robustas,
mas
em
geral
acurácia

     é
menos
relevante
que
informação
inteligível

Metodologia
Open
Biomind

1.    Pré‐processar
e
enriquecer
os
dados

2.    Programação
gené.ca

3.    Evoluir
conjuntos
de
modelos
de
classificação

4.    Mineração
de
dados

      1.  Análise
de
u.lidade
de
atributos

      2.  MUTIC:
Agrupamento
de
atributos
com
base
em

          seu
uso
por
modelos


       h"p://code.google.com/p/openbiomind

Pré‐Processamento
dos
Dados

•  Filtragem
de
genes
inúteis

•  Normalização
(0,
1)

•  Incorporação
de
dados
de

   ontologia:
Gene
Ontology

   (GO),
Protein
Informa.on

   Resource
(PIR)

Dataset:
Câncer
de
Próstata

•  Dados
originais:
Tan
and
Gilbert,
2003

   –  hdp://sdmc.lit.org.sg/GEDatasets/Datasets.
html#Prostate

   –  12600
genes;


   –  Treinamento:
102
indivíduos
(52
câncer,
50
controle);

   –  Testes:
34
indivíduos
(25
câncer,
9
controle);

•  Pré‐processamento:

   –  Eliminação
de
genes
com
expressão
uniforme
ou

      muito
baixa
(ruído)

   –  Inclusão
de
categorias
de
Gene
Ontology
e
PIR

   –  4779
atributos
(1705
genes;
2430
GO;
644
PIR)

Classificação
via
Programação
Gené.ca


                   •  “Evolução”
de
uma

                      população
de
modelos.

                   •  Modelos
são
árvores

                      com
expressões
lógicas

                      ou
aritmé.cas.

                   •  Modelos
compactos
e

                      inteligíveis.

                   •  Conjunto
diverso
de

                      modelos
gerados
em

                      paralelo.

Classificação
via
Programação
Gené.ca


Real
vs

               P
    N
    O.mização
da
função
de

Modelo

                                qualidade:


  P
           VP
   FP

  N
           FN
   VN
     Q
=
F1‐measure
–
N/2


F‐measure:

               Penalidade
para
modelos

                           triviais
(saída
constante)
e

                               modelos
complexos.

                            Balanceamento
da
base

                           de
dados
por
sampling
de

                             classe
mais
frequente.

Exemplo:
Modelo
de
Classificação

Conjuntos
de
Modelos

•  Resultado
de
uma
execução
do
algoritmo:

  –  Ensemble
formado
por
100
melhores
modelos

  –  Classificação:
votação
ponderada

•  Workflow
upico:
1000
execuções.


•  Resultados
para
Câncer
de
Próstata:
100%
de

   acurácia
em
treinamento,
97%
em
teste.

•  Mas
acurácia
não
basta!

Mineração
de
Dados

•  Atributos
mais
úteis

•  Atributos
relacionados:
agrupamento
por

   u.lidade
(genes
que
são
úteis

em
conjunto

   para
classificar
o
problema
são
relacionados)


•  Resultado:

  –  Anotação
de
genes
desconhecidos

  –  Sugestão
para
pesquisa
biológica

Perfis
de
U.lidade

•  Cada
atributo
tem
um
vetor
de
u.lidade
U(i)

•  U(i,j)
=
porcentagem
de
modelos
no
j‐ésimo
ensemble
que

   u.lizam
o
atributo
i.

•  Atributos
mais
úteis:
maior
U(i)
médio

             M1
     M2
    M3
   M4
    M5
     M6
    …
 M1000

      g1
      0
   0.11
    0
    0
   0.23
      0
   …
     0.58

      g2
      0
   0.43
    0
    0
      0
      0
   …
        0

     GO1
   0.54
      0
    0
    0
      0
      0
   …
        0

      …
      …
      …
     …
    …
     …
      …
    …
       …

      Fn
   0.41
      0
    0
    0
      0
   0.56
   ...
      0

Agrupamento
Baseado
em

            U.lidade

•  Agrupamento
hierárquico
n‐ário
dos
perfis
de

   u.lidade
por
similaridade.


•  Qualidade:
homogeneidade
x
separação

      Método
          Qualidade
do
1o
 Qualidade
do

                       cluster
         20o
cluster

      Por
u.lidade
    0.623
           0.543

      Por
expressão
   0.369
           0.169


•  70%
dos
genes
dos
5
melhores
clusters
por

   u.lidade
com
relação
conhecida
com
Câncer

   de
Próstata.

Agrupamento
Baseado
em

       U.lidade

Inferindo
Relações
Intergenes


Weitere ähnliche Inhalte

Ähnlich wie Mineração de Dados Genômicos com Open Biomind

Laboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqLaboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seq
Gabriel Fernandes
 
Palestra Marcos Vinicius Silva - Seminário ANCP 2014
Palestra Marcos Vinicius Silva - Seminário ANCP 2014Palestra Marcos Vinicius Silva - Seminário ANCP 2014
Palestra Marcos Vinicius Silva - Seminário ANCP 2014
ANCP Ribeirão Preto
 

Ähnlich wie Mineração de Dados Genômicos com Open Biomind (10)

Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionais
 
Laboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqLaboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seq
 
Aula 2 - encontrando similaridades de sequências
Aula 2  - encontrando similaridades de sequênciasAula 2  - encontrando similaridades de sequências
Aula 2 - encontrando similaridades de sequências
 
Anotação Gênica Funcional
Anotação Gênica FuncionalAnotação Gênica Funcional
Anotação Gênica Funcional
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Qualificação de Mestrado
Qualificação de MestradoQualificação de Mestrado
Qualificação de Mestrado
 
Por que preciso aprender algoritmo genético?
Por que preciso aprender algoritmo genético?Por que preciso aprender algoritmo genético?
Por que preciso aprender algoritmo genético?
 
Apresentação expotec
Apresentação expotecApresentação expotec
Apresentação expotec
 
Palestra Marcos Vinicius Silva - Seminário ANCP 2014
Palestra Marcos Vinicius Silva - Seminário ANCP 2014Palestra Marcos Vinicius Silva - Seminário ANCP 2014
Palestra Marcos Vinicius Silva - Seminário ANCP 2014
 
Indrodução a Bioinformática
Indrodução a BioinformáticaIndrodução a Bioinformática
Indrodução a Bioinformática
 

Kürzlich hochgeladen

Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
TailsonSantos1
 
Aula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptxAula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptx
andrenespoli3
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
CleidianeCarvalhoPer
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
AntonioVieira539017
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
NarlaAquino
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
FabianeMartins35
 

Kürzlich hochgeladen (20)

LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
Aula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptxAula 03 - Filogenia14+4134684516498481.pptx
Aula 03 - Filogenia14+4134684516498481.pptx
 
Jogo de Rimas - Para impressão em pdf a ser usado para crianças
Jogo de Rimas - Para impressão em pdf a ser usado para criançasJogo de Rimas - Para impressão em pdf a ser usado para crianças
Jogo de Rimas - Para impressão em pdf a ser usado para crianças
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptx
 
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxSlides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
 
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxSlides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
 
O PLANETA TERRA E SEU SATÉLITE NATURAL - LUA
O PLANETA TERRA E SEU SATÉLITE NATURAL - LUAO PLANETA TERRA E SEU SATÉLITE NATURAL - LUA
O PLANETA TERRA E SEU SATÉLITE NATURAL - LUA
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 

Mineração de Dados Genômicos com Open Biomind