1) O documento discute técnicas de mineração de dados genômicos para analisar microarrays e desvendar desafios pós-genoma como interações complexas entre genes.
2) É proposta uma metodologia que usa programação genética para evoluir modelos de classificação e mineração de dados para identificar genes relacionados a condições e inferir novas funções genéticas.
3) A aplicação em dados de câncer de próstata mostrou modelos com alta acurácia na classificação e agrupamento de genes por similaridade de
3. Microarrays
• Permitem medir
simultaneamente a
expressão de milhares
de genes.
• Dados com bastante
ruído.
4. Mineração de Dados Genômicos
• Obje.vos: Formulação de hipóteses
– Sugestão de genes relacionados a uma condição
– Inferência de relações intergenes
– Inferência de função de genes
• Ferramentas:
– Agrupamento: simples, mas ignora muitos
relacionamentos entre genes e sofre com a qualidade
de dados
– Classificação: técnicas robustas, mas em geral acurácia
é menos relevante que informação inteligível
5. Metodologia Open Biomind
1. Pré‐processar e enriquecer os dados
2. Programação gené.ca
3. Evoluir conjuntos de modelos de classificação
4. Mineração de dados
1. Análise de u.lidade de atributos
2. MUTIC: Agrupamento de atributos com base em
seu uso por modelos
h"p://code.google.com/p/openbiomind
7. Dataset: Câncer de Próstata
• Dados originais: Tan and Gilbert, 2003
– hdp://sdmc.lit.org.sg/GEDatasets/Datasets. html#Prostate
– 12600 genes;
– Treinamento: 102 indivíduos (52 câncer, 50 controle);
– Testes: 34 indivíduos (25 câncer, 9 controle);
• Pré‐processamento:
– Eliminação de genes com expressão uniforme ou
muito baixa (ruído)
– Inclusão de categorias de Gene Ontology e PIR
– 4779 atributos (1705 genes; 2430 GO; 644 PIR)
8. Classificação via Programação Gené.ca
• “Evolução” de uma
população de modelos.
• Modelos são árvores
com expressões lógicas
ou aritmé.cas.
• Modelos compactos e
inteligíveis.
• Conjunto diverso de
modelos gerados em
paralelo.
9. Classificação via Programação Gené.ca
Real vs
P N O.mização da função de
Modelo
qualidade:
P VP FP
N FN VN Q = F1‐measure – N/2
F‐measure: Penalidade para modelos
triviais (saída constante) e
modelos complexos.
Balanceamento da base
de dados por sampling de
classe mais frequente.
11. Conjuntos de Modelos
• Resultado de uma execução do algoritmo:
– Ensemble formado por 100 melhores modelos
– Classificação: votação ponderada
• Workflow upico: 1000 execuções.
• Resultados para Câncer de Próstata: 100% de
acurácia em treinamento, 97% em teste.
• Mas acurácia não basta!
14. Agrupamento Baseado em
U.lidade
• Agrupamento hierárquico n‐ário dos perfis de
u.lidade por similaridade.
• Qualidade: homogeneidade x separação
Método Qualidade do 1o Qualidade do
cluster 20o cluster
Por u.lidade 0.623 0.543
Por expressão 0.369 0.169
• 70% dos genes dos 5 melhores clusters por
u.lidade com relação conhecida com Câncer
de Próstata.