Mineração de Dados Genômicos com Open Biomind

Programação Gené.ca e Agrupamento por 
U.lidade para Análise de Dados Genômicos 

Cassio Pennachin, Lucio Coelho, 
Maurício Mudado, Ben Goertzel

Desafios Pós‐Genoma 
•  Influência x causa 
•  Iden.ficar genes e 
seus papéis 
•  Interações 
complexas entre 
genes 
•  Sequência x 
expressão (nível de 
a.vidade)

Microarrays 
•  Permitem medir 
simultaneamente a 
expressão de milhares 
de genes. 
•  Dados com bastante 
ruído.

Mineração de Dados Genômicos 
•  Obje.vos: Formulação de hipóteses 
–  Sugestão de genes relacionados a uma condição 
–  Inferência de relações intergenes 
–  Inferência de função de genes 

•  Ferramentas: 
–  Agrupamento: simples, mas ignora muitos 
relacionamentos entre genes e sofre com a qualidade 
de dados 
–  Classiﬁcação: técnicas robustas, mas em geral acurácia 
é menos relevante que informação inteligível

Metodologia Open Biomind 
1.  Pré‐processar e enriquecer os dados 
2.  Programação gené.ca 
3.  Evoluir conjuntos de modelos de classiﬁcação 
4.  Mineração de dados 
1.  Análise de u.lidade de atributos 
2.  MUTIC: Agrupamento de atributos com base em 
seu uso por modelos 

h"p://code.google.com/p/openbiomind

Pré‐Processamento dos Dados 
•  Filtragem de genes inúteis 
•  Normalização (0, 1) 
•  Incorporação de dados de 
ontologia: Gene Ontology 
(GO), Protein Informa.on 
Resource (PIR)

Dataset: Câncer de Próstata 
•  Dados originais: Tan and Gilbert, 2003 
–  hdp://sdmc.lit.org.sg/GEDatasets/Datasets. html#Prostate 
–  12600 genes;  
–  Treinamento: 102 indivíduos (52 câncer, 50 controle); 
–  Testes: 34 indivíduos (25 câncer, 9 controle); 
•  Pré‐processamento: 
–  Eliminação de genes com expressão uniforme ou 
muito baixa (ruído) 
–  Inclusão de categorias de Gene Ontology e PIR 
–  4779 atributos (1705 genes; 2430 GO; 644 PIR)

Classiﬁcação via Programação Gené.ca 

•  “Evolução” de uma 
população de modelos. 
•  Modelos são árvores 
com expressões lógicas 
ou aritmé.cas. 
•  Modelos compactos e 
inteligíveis. 
•  Conjunto diverso de 
modelos gerados em 
paralelo.

Classiﬁcação via Programação Gené.ca 

Real vs 
P  N  O.mização da função de 
Modelo 
qualidade:  
P  VP  FP 
N  FN  VN  Q = F1‐measure – N/2 

F‐measure:   Penalidade para modelos 
triviais (saída constante) e 
modelos complexos. 
Balanceamento da base 
de dados por sampling de 
classe mais frequente.

Exemplo: Modelo de Classiﬁcação

Conjuntos de Modelos 
•  Resultado de uma execução do algoritmo: 
–  Ensemble formado por 100 melhores modelos 
–  Classiﬁcação: votação ponderada 
•  Workﬂow upico: 1000 execuções. 

•  Resultados para Câncer de Próstata: 100% de 
acurácia em treinamento, 97% em teste. 
•  Mas acurácia não basta!

Mineração de Dados 
•  Atributos mais úteis 
•  Atributos relacionados: agrupamento por 
u.lidade (genes que são úteis  em conjunto 
para classiﬁcar o problema são relacionados) 

•  Resultado: 
–  Anotação de genes desconhecidos 
–  Sugestão para pesquisa biológica

Perﬁs de U.lidade 
•  Cada atributo tem um vetor de u.lidade U(i) 
•  U(i,j) = porcentagem de modelos no j‐ésimo ensemble que 
u.lizam o atributo i. 
•  Atributos mais úteis: maior U(i) médio 
M1  M2  M3  M4  M5  M6  …  M1000 
g1  0  0.11  0  0  0.23  0  …  0.58 
g2  0  0.43  0  0  0  0  …  0 
GO1  0.54  0  0  0  0  0  …  0 
…  …  …  …  …  …  …  …  … 
Fn  0.41  0  0  0  0  0.56  ...  0

Agrupamento Baseado em 
U.lidade 
•  Agrupamento hierárquico n‐ário dos perﬁs de 
u.lidade por similaridade.  
•  Qualidade: homogeneidade x separação 
Método  Qualidade do 1o  Qualidade do 
cluster  20o cluster 
Por u.lidade  0.623  0.543 
Por expressão  0.369  0.169 

•  70% dos genes dos 5 melhores clusters por 
u.lidade com relação conhecida com Câncer 
de Próstata.

Agrupamento Baseado em 
U.lidade

Inferindo Relações Intergenes

Mineração de Dados Genômicos com Open Biomind

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Mineração de Dados Genômicos com Open Biomind

Ähnlich wie Mineração de Dados Genômicos com Open Biomind (10)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Mineração de Dados Genômicos com Open Biomind