SlideShare ist ein Scribd-Unternehmen logo
1 von 135
Downloaden Sie, um offline zu lesen
Extracção de Conhecimento de Dados obtidos por Simulação da
Desnaturação Proteica
por
Elisabeth Silva Fernandes
Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão
Orientador: Professor Alípio Jorge
Co-Orientador: Professor Rui Brito, Universidade de Coimbra
Faculdade de Economia
Universidade de Porto
2007
i
“If there is a hurricane, you always see the signs of it in the sky for days ahead, if you
are at sea. They do not see it ashore because they do not know what to look for, he
thought.”
Ernest Hemingway, In The Old Man and the Sea (1952)
ii
Nota Biográfica
Elisabeth Silva Fernandes é natural de Caracas, Venezuela, onde residiu até aos 6 anos.
Em 1988 iniciou o seu percurso escolar em Amares. Em 2005 concluiu a licenciatura
em Matemática no Ramo Científico da Matemática Aplicada pela Faculdade de
Ciências da Universidade do Porto. No mesmo ano inscreve-se no Mestrado em Análise
de Dados e Sistemas de Apoio à Decisão.
iii
Agradecimentos
No final desta dissertação gostaria de agradecer a todos os que me ajudaram a cumprir
este objectivo pessoal, sem eles não teria sido possível realizar este trabalho.
Ao Professor Rui Brito agradeço a pronta disponibilidade, para esclarecimentos de
dúvidas, e os conselhos científicos muito importantes para a compreensão do problema
em estudo.
À Professora Paula Brito pela atenção e disponibilidade com que me recebeu para
esclarecer dúvidas importantes para a resolução do problema.
Ao Professor Alípio o meu sincero muito obrigada pela dedicação com que orientou
todo o trabalho, a pronta disponibilidade, os conselhos, a paciência e todo o apoio que
foi fundamental para a realização deste trabalho.
Aos meus pais e às minhas irmãs pela compreensão, quando não estive presente em
momentos importantes da família, e pelo apoio nas horas em que desanimei. Ao meu
namorado pela paciência com que me ouviu falar horas a fio da dissertação e pelas
palavras de incentivo.
E finalmente, gostaria de agradecer o facto deste trabalho fazer parte do projecto,
2007/2010 - PTDC/BIA-PRO/72838/2006, “Procura de regras de alto nível em
dobragem e desdobragem de proteínas: das doenças amiloidogénicas à previsão da
estrutura proteica”.
iv
Resumo
Nesta dissertação é apresentado um processo de Extracção de Conhecimento de dados
obtidos a partir de simulações da desnaturação de uma proteína. A proteína em estudo,
designada por Transtirretina (TTR), é causadora da “Doença dos Pezinhos” (cujo nome
científico é polineuropatia amiloidótica familiar (PAF)).
A propriedade molecular em estudo é a variação da distância do aminoácido ao centro
de massa. Esta medida foi registada ao longo de 10 desnaturações de TTR, 5 simulações
de uma variante normal WT-TTR e 5 simulações de uma variante mutada L55P-TTR, e
obtiveram-se 10 quadros de dados com dimensões elevadas. Com a aplicação de
técnicas de Data Mining procurou-se extrair conhecimento útil destes dados.
A análise multidimensional consistiu, inicialmente, em obter três partições dos 127
aminoácidos da TTR, uma primeira partição que só considera as 5 corridas da TTR no
estado normal, uma segunda partição que só considera a informação das 5 corridas da
TTR no estado mutado, e uma terceira partição que considera toda a informação das 10
simulações (excepto do aminoácido nº55). A 1ª e 2ª partições permitiram comparar os
clusters obtidos para cada variante de TTR e foram detectadas diferenças significativas
nos clusters. Com a terceira partição obtiveram-se os aminoácidos representativos de
cada cluster (14 aminoácidos) reduzindo-se assim o número de elementos em análise.
Pretendia-se ainda encontrar eventos, isto é, mudanças de comportamento significativas
dos aminoácidos, e para tal estudou-se isoladamente os aminoácidos representativos.
Foram procurados dois eventos que consistem na comparação dos aminoácidos dois a
dois quanto às suas posições relativamente ao centro de massa. Com os eventos obtidos
foram procuradas regras de associação, que relacionam os eventos e a variante de TTR
com mais propensão para ocorrência de determinado evento. Para complementar o
estudo foi feita uma procura de um terceiro evento por aminoácido (com os 127
aminoácidos) e foram obtidas regras de associação que indicam qual a variante de TTR
com mais probabilidade de ocorrência desse evento.
Através do estudo da variação desta propriedade molecular da proteína ao longo do
processo de desnaturação, obtiveram-se resultados que podem contribuir para uma
melhor compreensão dos mecanismos moleculares da PAF.
v
Índice
Resumo.....................................................................................................iv
Índice......................................................................................................... v
Índice de figuras.....................................................................................vii
Índice de tabelas......................................................................................ix
1 Introdução.......................................................................................... 1
1.1 Objectivos.......................................................................................................1
1.2 Estrutura do trabalho.......................................................................................2
2 As Proteínas ....................................................................................... 3
2.1 Aminoácidos...................................................................................................4
2.2 Estruturas das Proteínas...................................................................................5
2.3 Patologias humanas e Enrolamento proteico....................................................8
2.4 O Processo de enrolamento das Proteínas......................................................10
2.4.1 A Hipótese Termodinâmica......................................................................10
2.4.2 Paradoxo de Levinthal..............................................................................11
2.4.3 Funil de Folding.......................................................................................11
2.5 Dinâmica Molecular - Simulação da desnaturação proteica ...........................13
2.6 Propriedades Moleculares..............................................................................15
2.7 Novas medidas em estudo .............................................................................16
3 Extracção de Conhecimento de Dados (KDD) ............................... 18
3.1 Processo de Extracção de Conhecimento.......................................................19
3.1.1 Data Mining – Tarefas..............................................................................20
3.1.2 Metodologia.............................................................................................21
3.2 Análise de clusters.........................................................................................23
3.2.1 Clustering hierárquico..............................................................................26
3.3 Eventos .........................................................................................................34
3.4 Regras...........................................................................................................36
3.4.1 Regras de Associação...............................................................................36
4 Processo de Extracção de Conhecimento de dados de simulação de
Desnaturação Proteíca ........................................................................... 39
4.1 Descrição dos dados......................................................................................40
4.1.1 Estudo Preliminar.....................................................................................41
4.2 Clustering hierárquico...................................................................................44
4.2.1 Clustering de cada variante da proteína TTR ...........................................45
4.2.2 Partição consenso.....................................................................................50
4.2.3 Escolha dos Aminoácidos que representam cada uma das classes.............56
4.3 Procura de Eventos........................................................................................58
4.3.1 Comparação de aminoácidos dois a dois...................................................58
4.3.2 Procura de alterações significativas por aminoácido. ................................65
vi
4.4 Procura de Regras de Associação ..................................................................68
4.5 Valor das regras obtidas ................................................................................70
4.5.1 Como controlar o risco de falsas descobertas?..........................................70
4.5.2 Como medir a aleatoriedade das regras obtidas?.......................................72
5 Conclusão......................................................................................... 74
Bibliografia............................................................................................. 76
Anexos..................................................................................................... 76
Anexo I – Análise Univariada..................................................................................84
A. Valores máximos e mínimos atingidos em cada corrida............................84
B. Gráficos do aminoácido da posição 55 ao longo das 10 simulações ..........86
Anexo II – Classificação hierárquica - Resultados ...................................................88
A. Clustering da WT-TTR ............................................................................88
A1- Optimização dos Índices de Milligan e Cooper .............................................88
A2- Custering de cada corrida da WT-TTR..........................................................90
A3- Partição consenso da WT-TTR ...................................................................101
B. Clustering da L55P-TTR ........................................................................102
B1 – Optimização dos Índices de Milligan e Cooper..........................................102
B2- Clustering de cada corrida da L55P-TTR ....................................................103
C. Partição consenso - sem a posição 55 .....................................................113
D. Escolha dos aminoácidos Representativos (sem pos. 55) .......................113
Anexo III – Eventos...............................................................................................114
A. Comparação de aminoácidos dois a dois.................................................114
Evento Nº 1 - “troca” de posição entre dois aminoácidos ...................................114
Evento Nº 2 - “ Existem duas trocas de comportamento de dois aminoácidos em
relação ao centro de massa da proteína”.............................................................115
B. Procura de um evento por aminoácido....................................................117
Anexo IV- Regras de Associação...........................................................................120
A. Análise Gráfica da regra nº1...................................................................120
Anexo V- Código em R.........................................................................................122
vii
Índice de figuras
Figura 1 - Estrutura Primária ........................................................................................6
Figura 2 - Estrutura Secundária ....................................................................................6
Figura 3 - Estrutura Terciária........................................................................................7
Figura 4 - Estrutura Quaternária ...................................................................................7
Figura 5 - Estrutura das proteínas .................................................................................7
Figura 6 – Modelo de formação de placas de amilóide..................................................8
Figura 7 – Representação Esquemática da estrutura tridimensional do tetramero WT-
TTR (A) e de uma subunidade da WT-TTR (B).....................................................9
Figura 8 - (a) Funil de Folding (conceito de paisagem de energia): O caminho A indica
um processo rápido de folding, o caminho B indica um processo de folding mais
lento; (b) Superfície de Energia do processo de folding........................................12
Figura 9 - Ilustração das várias superfícies..................................................................15
Figura 10 - Variação da distância dos aminoácidos ao centro de massa.......................16
Figura 11 - Distâncias aos 3 vizinhos mais próximos do átomo X...............................17
Figura 12 – Dados 3-D ...............................................................................................17
Figura 13 – Evolução das técnicas de Análise de Dados .............................................18
Figura 14 – “O caminho para o conhecimento”...........................................................19
Figura 15 - Modelo CRISP-DM..................................................................................22
Figura 16 - Fases de uma Análise de Clusters. ............................................................24
Figura 17 - Critério de Validação Externo ..................................................................29
Figura 18 - Critério de Validação Interno....................................................................30
Figura 19 - Critério de Validação Relativo..................................................................30
Figura 20 - Tipos de Episódios ...................................................................................35
Figura 21-Processo de Extracção de Conhecimento....................................................40
Figura 22 - Representação do sistema usado nas simulações de Dinâmica Molecular..41
Figura 23 – Variação da distância do carbono alpha dos aminoácidos GLY_1 (a) e
VAL_71 (b) ao centro de massa da TTR ao longo de uma simulação de
desnaturação da variante WT-TTR (WTRUN2)...................................................43
Figura 24 - Matriz das classificações para cada tipo de proteína TTR ........................46
Figura 25 - Partição da WT-TTR e da L55P-TTR.......................................................49
Figura 26 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....50
Figura 27 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....51
Figura 28 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....51
Figura 29 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....51
Figura 30 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....52
Figura 31 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....52
Figura 32 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....53
Figura 33 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....53
Figura 34 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....53
Figura 35 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....54
Figura 36 – Partição consenso na sequência de aminoácidos inicial............................55
Figura 37- Aminoácidos Representativos....................................................................57
Figura 38 – Zona de Viragem .....................................................................................58
Figura 39 – LEU_17 aproxima-se do centro de massa ao mesmo tempo que GLU_42 se
afasta do centro de massa.....................................................................................59
viii
Figura 40 – (a) Os 10 eventos mais frequente nas 10 simulações; (b) Os 10 eventos
mais frequentes nas simulações da WT-TTR; (c) Os 10 eventos mais frequentes
nas simulações da variante L55P-TTR. ................................................................60
Figura 41 –Procura do evento 1- ALA_91 troca com GLU_42 ao longo das 5 corridas
da WT-TTR. Na corrida WT2 e na corrida WT6 existe troca, com estabilidade de
300 frames...........................................................................................................61
Figura 42 – Procura do evento 1- ALA_91 troca com GLU_42 ao longo das 5 corridas
da L55P-TTR. Não se verifica a ocorrência do evento. ........................................61
Figura 43 – Teste de Kruskal- Wallis..........................................................................62
Figura 44 – O tempo foi dividido em três secções, procura-se a situação em que a
relação de dois aminoácidos com o centro de massa é trocada duas vezes e
mantêm-se ao longo de n frames de cada secção. .................................................62
Figura 45 –Procura do evento 17 - GLU_42_troca_2x_A_ALA_91 ao longo das 5
corridas da L55P-TTR. Na corrida L55_3 não existem duas trocas de
comportamento....................................................................................................63
Figura 46 – Teste de Kruskal-Wallis...........................................................................64
Figura 47 – Análise gráfica do evento “existência de uma alteração significativa no
comporta-mento do aminoácido PRO_86” que se verifica nas corridas WT2, WT3,
WT4, WT5, WT6, L55_1.....................................................................................66
Figura 48 – Análise gráfica do evento “existência de uma alteração significativa no
comporta-mento do aminoácido PRO_86” nas corrdas onde não se verifica o
evento..................................................................................................................66
Figura 49 – Teste Kruskal-Wallis ...............................................................................67
Figura 50 – Evolução da distância ao centro de massa do aminoácido LEU_55 da
variente WT-TTR. ...............................................................................................86
Figura 51 – Evolução da distância ao centro de massa do aminoácido LEU_55 da
variente WT-TTR. ...............................................................................................87
Figura 52 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN2 ......88
Figura 53 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN3 ......88
Figura 54 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN4 ......89
Figura 55 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN5 ......89
Figura 56 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN6 ......89
Figura 57 - Clustering de cada corrida da WT-TTR ....................................................90
Figura 58 - Dendrograma WT-TTR..........................................................................101
Figura 59 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN1..102
Figura 60 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN2..102
Figura 61 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN3..102
Figura 62 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN4..103
Figura 63 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN5..103
Figura 64 - Clustering de cada corrida da L55P-TTR................................................103
Figura 65 - Dendrograma L55P-TTR........................................................................112
Figura 66 - Dendrograma TTR .................................................................................113
ix
Índice de tabelas
Tabela 1 - Principais funções das proteínas....................................................................3
Tabela 2 – Aminoácidos................................................................................................5
Tabela 3 – Tarefas de Data Mining..............................................................................21
Tabela 4 – Algumas Medidas de Interesse ...................................................................38
Tabela 5 - Máximos e mínimos da distância do carbono alpha ao centro de massa.......42
Tabela 6 – Número de clusters para cada simulação da WT-TTR ................................46
Tabela 7 - Número de clusters para cada simulação da L55P-TTR ..............................46
Tabela 8 - Número de clusters óptimas para cada simulação........................................54
Tabela 9 - Partição Consenso.......................................................................................55
Tabela 10- Frequência do evento nº1 para cada variante de TTR .................................63
Tabela 11 – Eventos mais frequentes na proteína L55P-TTR e que não se verificam na
WT-TTR .............................................................................................................64
Tabela 12- Eventos mais frequentes na WT-TTR.........................................................64
Tabela 13 - Comportamento do aminoácido PRO_86 ..................................................65
Tabela 14 – Aminoácidos com comportamentos mais variáveis...................................67
Tabela 15 - WTRUN2- Classificação hierárquica: elementos das 14 classes................90
Tabela 16 - WTRUN3- Classificação hierárquica: elementos das 13 classes................93
Tabela 17 - WTRUN4- Classificação hierárquica: elementos das 14 classes................95
Tabela 18 - WTRUN5- Classificação hierárquica: elementos das 14 classes................97
Tabela 19 - WTRUN6- Classificação hierárquica: elementos das 13 classes................99
Tabela 20 – Clustering da WT (Partição I).................................................................101
Tabela 21 – Clustering da L55PRUN1: 15 classes.....................................................104
Tabela 22 - Clustering da L55PRUN2: 17 classes......................................................105
Tabela 23 - Clustering da L55PRUN3: 14 classes......................................................107
Tabela 24 - Clustering da L55PRUN4: 13 classes......................................................108
Tabela 25 - Clustering da L55PRUN5: 11 classes......................................................110
Tabela 26 – Classificação L55 (PartiçãoII) ................................................................112
Tabela 27 – Aminoácidos Representativos.................................................................113
Tabela 28- Eventos “troca” de posição entre dois aminoácidos..................................114
Tabela 29- Eventos “troca” de posição entre dois aminoácidos..................................115
Tabela 30- Aminoácidos onde se verificou o evento “alteração significativa no
comportamento do aminoácido”........................................................................117
Tabela 31 - Frequência dos eventos e janela onde ocorre a alteração mais significativa
(com maior declive)...........................................................................................118
1
1 Introdução
Actualmente são realizados inúmeros esforços no estudo e investigação das causas e
curas para variadíssimas doenças. Nas últimas décadas novas doenças têm sido alvo de
importantes estudos, entre as quais as doenças amilóides. Deste grupo de maleitas
fazem parte doenças bem conhecidas como o Alzheimer e a Paramiloidose (mais
conhecida por Doença dos Pezinhos). (Brito et. al., 2004)
Várias são as tentativas para perceber as origens das doenças amilóides. Sabe-se por
exemplo que estas estão associadas a alterações conformacionais e à agregação das
proteínas associadas a estas doenças. A procura da origem destas doenças tem
despertado o interesse entre os bioquímicos e não só. Actualmente, este é um problema
multidisciplinar no qual são utilizadas ferramentas de diferentes áreas.
Os quadros de dados em estudo nesta área têm dimensões elevadas o que exige aos
estudiosos a procura de novos métodos de análise, métodos estes que permitam obter o
maior conhecimento possível sem perda de informação. O que se verifica é que as
técnicas de Extracção de Conhecimento de Dados permitem atingir este objectivo. Com
o aumento do volume de dados nas diversas áreas de estudo, os métodos de Data
Mining têm sido refinados e adaptados às novas situações.
1.1 Objectivos
Nesta dissertação pretende-se, com a ajuda de técnicas de Extracção de Conhecimento
de Dados, analisar a desnaturação da proteína causadora da Paramiloidose, transtirretina
(TTR). O objectivo é estudar a distância dos aminoácidos ao centro de massa da
proteína ao longo da desnaturação da proteína TTR e encontrar características desta que
possam contribuir, positivamente, para a futura descoberta das causas e soluções desta
doença.
2
1.2 Estrutura do trabalho
Esta dissertação está dividida em duas partes: uma primeira onde são explicados os
fundamentos teóricos necessários para a compreensão do problema em estudo; e uma
segunda parte onde é apresentada toda a análise efectuada aos dados.
Do desenvolvimento teórico fazem parte os capítulos 2 e 3. No capítulo 2 são
introduzidas algumas definições da biologia molecular e são apresentadas as razões de
tão grande interesse nesta área da investigação. No capítulo 3 são abordadas as Técnicas
de extracção de conhecimento de dados utilizadas neste estudo.
No capítulo 4 é apresentado todo o processo de extracção de conhecimento dos dados
resultantes das simulações de desnaturação proteica. Neste capítulo são apresentadas as
várias análises efectuadas aos dados e os resultados obtidos com a aplicação das
técnicas de extracção de conhecimento referidas no capítulo 3.
No capítulo 5 consta a conclusão do trabalho desenvolvido. Em anexo está toda a
informação necessária para complementar o estudo realizado ao longo desta dissertação.
3
2 As Proteínas
A palavra proteína deriva da palavra grega “proteios”, que significa “ primeiro”. Esta
designação tem origem na elevada importância das proteínas na vida, uma vez que as
proteínas têm um elevado peso na constituição dos organismos vivos (Morrison et. al.,
1992).
As proteínas são macromoléculas que desempenham funções biológicas fundamentais
para o equilíbrio dos organismos vivos. Estas funções são múltiplas e as principais
encontram-se resumidas na Tabela 1.
Tabela 1 – Principais funções das proteínas
Função Exemplo
Estrutural
Conferem rigidez e consistência
aos tecidos
Colagénio - proteína de alta
resistência da pele
Enzimática
Catalisam e regulam as reacções
bioquímicas
Lipases - transformam os
lípidos nas suas unidades
Hormonal
Exercem uma função específica
sobre algum órgão ou estrutura
Insulina
Defesa
Defesa contra elementos estranhos
ao organismo
Anticorpos
Transporte
Entre as várias actividades de
transporte podem, por exemplo,
transportar gases para as células
Hemoglobina
Segundo Morrison et. al., (1992) as proteínas dividem-se em duas grandes classes:
proteínas fibrosas, insolúveis em água, e proteínas globulares, solúveis em água ou
em soluções aquosas. Esta classificação está relacionada com a forma das moléculas. As
proteínas fibrosas são estruturas alongadas e filamentosas. As proteínas globulares
apresentam-se dobradas sobre si próprias e formam unidades compactas.
Diversos factores do meio podem levar à destruição/desnaturação da molécula da
proteína, tais como a variação da temperatura, do pH, ou a presença de agentes
químicos. Desta forma a proteína perde a estrutura tridimensional que lhe permitia
desempenhar as suas funções no organismo. Um exemplo simples de desnaturação
4
ocorre com o ovo estrelado, isto é, as proteínas da clara do ovo quando sujeitas a
temperaturas elevadas desnaturam e precipitam. Este é o motivo pelo qual a clara do
ovo adquire a cor branca (Morrison et. al., 1992).
A perda da estrutura tridimensional de uma proteína leva à perda das suas funções, em
alguns casos origina a formação de agregados fibrilares os quais se depositam nos
tecidos originando diversas doenças. Para uma melhor compreensão do problema em
estudo, do ponto de vista bioquímico, nas próximas secções são abordados os seguintes
temas: como é constituída uma proteína, quais as suas estruturas possíveis, quais as
consequências de proteínas mal formadas e quais as características moleculares de
interesse para o seu estudo.
2.1 Aminoácidos
As proteínas são constituídas por aminoácidos. Cada uma destas unidades é um ácido
orgânico COOH− no qual o carbono próximo do grupo (chamado carbono alfa) está
também ligado a um grupo 2NH− . O carbono alfa também se liga a uma cadeia lateral
(R), que é diferente para cada aminoácido, isto é, as características de cada aminoácido
variam consoante a composição química da cadeia lateral. Os vinte aminoácidos
existentes na natureza foram classificados, quanto à sua cadeia lateral, em quatro
grupos: ácidos, básicos, polares e não polares. (Robertis et. al., 1987)
Os aminoácidos diferem no tamanho e em várias propriedades físicas e químicas
nomeadamente a hidrofobicidade, isto é, o quanto os aminoácidos evitam a água (Cejtin
et. al., 2002). O efeito hidrofóbico tem como resultado a associação das partes
hidrofóbicas (apolares) das moléculas quando em meio aquoso sendo esta interacção,
por vezes, conhecida como “ligação hidrofóbica”. Os aminoácidos que tendem a
interagir favoravelmente com a água são classificados como hidrofílicos.
5
Na primeira coluna da Tabela 2 é possível observar as famílias de aminoácidos, sendo
esta classificação importante para na análise dos dados comparar alguns dos resultados
obtidos.
Tabela 2 – Aminoácidos
Família do
Aminoácido Designação Símbolo com 3 letras Símbolo com 1 letra
Lisina LYS L
Arginina ARG RBásico
Histidina HIS H
Ácido Aspártico ASP D
Ácido
Ácido Glutâmico GLU E
Asparagina ASN N
Glutamina GLN Q
Serina SER S
Treonina THR T
Polar (hidrofílicos)
Tirosina TYR Y
Triptofano TRP W
Glicina GLY G
Valina VAL V
Leucina LEU L
Isoleucina ILE I
Prolina PRO P
Fenilalanina PHE F
Metionina MET M
Não Polar
(hidrofóbicos)
Alanina ALA A
Cisteína CYS C
Fonte: Alberts et. al., 1994, pp.56.
2.2 Estruturas das Proteínas
As proteínas são sintetizadas como uma sequência linear de aminoácidos. Na cadeia de
aminoácidos estabelecem-se interacções entre eles o que origina o enrolamento da
proteína. No final, deste processo de enrolamento, a proteína adquire uma estrutura
tridimensional única.
A estrutura tridimensional de uma proteína pode ser descrita em quatro níveis.
6
- Estrutura primária: Consiste na sequência linear aleatória de aminoácidos que
formam uma cadeia polipeptídica. A sequência de aminoácidos tem elevada
importância, pois basta a troca de dois aminoácidos, ou a substituição de um qualquer
para produzir importantes alterações biológicas. Por exemplo, a doença hereditária
denominada por anemia falsiforme tem origem na substituição de um aminoácido na
molécula de hemoglobina.
Figura 1 - Estrutura Primária
- Estrutura secundária: é o resultado do arranjo espacial entre aminoácidos próximos
na cadeia peptídica. Dois dos principais elementos de estrutura secundária são:
- α -hélice: tipo mais comum da estrutura secundária que se caracteriza por uma
estrutura helicoidal estabilizada por ligações de hidrogénio estabelecidas entre os grupos
CO− e NH− de aminoácidos que distam entre si 4 resíduos. (Morrison et. al., 1996).
- folha β : estrutura estendida, constituída por associação lateral de segmentos
peptídicos numa orientação paralela ou anti-paralela, mantida por ligações de
hidrogénio.
Fonte: Alberts B. et. al.,1994.
Figura 2 - Estrutura Secundária
- Estrutura terciária: A estrutura terciária está relacionada com as dobras da cadeia
proteíca sobre ela mesma. Esta estrutura descreve um arranjo espacial global dos
aminoácidos numa proteína, podendo estes estar bastante separados entre si na
sequência linear.
7
Fonte: Alberts B. et. al.,1994.
Figura 3 - Estrutura Terciária
- Estrutura quaternária: Certas proteínas são constituídas por mais de uma cadeia
proteica, a estrutura quaternária é o resultado da disposição espacial relativa de
subunidades proteicas em proteínas complexas formadas por duas ou mais cadeias
polipeptídicas.
Fonte: Alberts B. et. al.,1994.
Figura 4 - Estrutura Quaternária
Na Figura 5 encontram-se ilustradas diferentes estruturas que uma proteína pode tomar
proteínas.
Figura 5 - Estrutura das proteínas
8
Cada proteína tem uma estrutura primária e tridimensional única, e como tal, cada
proteína desempenha uma função biológica específica.
A hidrofobicidade, mencionada anteriormente, é referida por vários autores como um
factor importante na organização da estrutura tridimensional de uma proteína.
(Kauzmann W. 1964), (Cejtin, H. 2002), (Pace, C. N. 1996). Segundo Kauzmann W.
(1964), 25 a 40% dos aminoácidos de uma cadeia paptídica são hidrofóbicos. Este tipo
de aminoácidos tem pouca afinidade com a água, logo espera-se que as proteínas
tendam a enrolar-se de tal forma que estes aminoácidos fiquem no interior da molécula.
Nos trabalhos de Shirley et. al., (1992) e Pace et. al., (1996) é referido que o efeito
hidrofóbico tem sido considerado como uma força dominante no enrolamento das
proteínas, no entanto as ligações de hidrogénio são também um factor relevante. As
pontes de hidrogénio desempenham um importante papel no enrolamento das cadeias
polipeptídicas e na formação da estrutura secundária.
2.3 Patologias humanas e Enrolamento proteico
As proteínas são macromoléculas com funções importantíssimas nas células, logo é
fundamental que o enrolamento das proteínas seja um processo bem sucedido, pois caso
contrário, pode originar alterações graves no processo biológico e por vezes
irreversíveis.
Das várias patologias originadas pelo errado enrolamento proteico, neste trabalho irá ser
dada especial atenção às Amiloidoses. As amiloidoses são doenças que têm origem na
acumulação, sob a forma de placas, de quantidades elevadas de proteína
incorrectamente enrolada (proteína insolúvel) nos tecidos. (Quintas et. al., 2001)
Fonte: Quintas et. al., (2001)
Figura 6 – Modelo de formação de placas de amilóide
9
As doenças amilóides são classificadas consoante os sinais clínicos e o tipo de proteína
amilóide envolvida. Neste trabalho a doença amiloidótica em estudo é a Paramiloidose
também designada por Polineuropatia Amiloidótica Familiar tipo I, de Andrade ou tipo
Português, ou mais vulgarmente “Doença dos Pezinhos”. Esta doença foi descrita pela
primeira vez pelo neurologista português Mário Corino de Costa Andrade. (Andrade,
1952)
A Paramiloidose é uma doença neurológica, crónica, progressiva e hereditária de
transmissão autossómica dominante1
que afecta o sistema nervoso. O gene responsável
pela produção da proteína mutada característica desta doença localiza-se no braço longo
do cromossoma 18. A proteína expressa por este gene é a Transtirretina (TTR) que é
uma proteína homotetramérica, isto é, a TTR é constituída por 4 monómeros cada um
dos quais constituídos por 127 aminoácidos. (Luís, 2006)
A estrutura tridimensional da TTR encontra-se representada simplificadamente na
Figura 7.
Fonte: Quintas et. al., 1999.
Figura 7 – Representação Esquemática da estrutura tridimensional do tetramero WT-TTR (A) e
de uma subunidade da WT-TTR (B)
Quando a TTR sofre uma mutação pode obter-se uma variante patogénica da proteína.
A proteína mutada mais comum no tipo português é a TTR Val30Met que resulta da
substituição de uma Valina na posição 30 por uma Metionina. Actualmente são
conhecidas mais de 80 variantes patogénicas da TTR (Luis, 2006).
1
Um indivíduo portador do gene desta doença (seja homozigótico ou heterozigótico) vai manifestá-la.
10
Uma das variantes mais amiloidogénicas é a Leu55Pro (L55P-TTR), esta variante é
resultado da substituição da Leucina na posição 55 por uma Prolina. Neste trabalho, irão
ser estudados dados relacionados com esta variante patogénica e com a proteína não
mutada designada por wild-type (WT-TTR).
2.4 O Processo de enrolamento das Proteínas
Nas últimas 5 a 6 décadas foram apresentadas várias hipóteses para procurar
compreender como é que uma proteína atinge a sua estrutura tridimensional nativa2
.
Neste capítulo é apresentada uma síntese dos trabalhos desenvolvidos.
2.4.1 A Hipótese Termodinâmica
Durante a década de 50, do século XX, Christian Anfinsen procurou dar resposta às
seguintes questões:
- Porque é que a proteína enrola para a estrutura nativa?
- Será ajudada por outras moléculas?
- Porque é que a estrutura nativa é única?
Para responder a estas questões Anfinsen realizou várias experiências com a proteína
RNaseA que deram origem à hipótese termodinâmica (HT). Segundo a HT o
enrolamento das proteínas é um processo espontâneo, acompanhado pela libertação de
energia livre no qual o sistema passa a ocupar um estado de menor energia, portanto
mais estável. Logo o estado mais estável no enrolamento da proteína é o estado nativo
porque corresponde ao estado de energia mais baixo. (Honig, 1999)
Segundo esta hipótese, o estado nativo é único porque é determinado por uma sequência
de aminoácidos única e a procura do estado nativo é aleatória.
Em 1968, Cyrus Levinthal mostrou que a hipótese termodinâmica não resolvia todas as
questões no enrolamento proteico. (Levinthal, 1968)
2
Conformação obtida no final do processo de enrolamento/folding da sequência de aminoácidos.
11
2.4.2 Paradoxo de Levinthal
A hipótese de que o processo de enrolamento/folding ocorre de forma aleatória através
de todas as conformações possíveis até encontrar a conformação correcta foi refutada
em 1968 por Cyrus Levinthal através de um argumento simples. Considere-se uma
proteína com 100 aminoácidos e cada aminoácido com 2 conformações possíveis,
porque dois é o número mínimo de conformações por aminoácido. O que se obteria
seriam 100
2 conformações possíveis, entre as quais está a que corresponde ao estado
nativo. Considere-se ainda que a proteína levaria 1 picosegundo a tentar cada
combinação, que é o tempo de vibração térmica, então o tempo necessário para explorar
todo o espaço conformacional seria 100
2 ps que é aproximadamente 10
109.3 × anos. Mas
o tempo de vida estimado do Universo é de 10
104.1 × anos! Lenvinthal concluiu que a
HT não explica a escala de tempo do processo de folding das proteínas. (Levinthal,
1968) (Honig, 1999)
Para resolver este problema Levinthal, C. (1968) propôs a Hipótese Cinética, na qual
defende que o estado nativo não corresponde ao estado termodinâmico mais estável,
mas sim, ao estado de energia mínima que é o mais acessível do ponto de vista cinético.
Segundo Honig (1999) na década de 90, verificou-se que esta hipótese por si só também
não resolvia a questão e surge uma teoria unificada, que se baseia na natureza estatística
do processo (Wolynes et. al., 1995) (Dill e Chan, 1997).
2.4.3 Funil de Folding
Segundo a actual perspectiva de enrolamento das proteínas, este ocorre numa hiper-
superfície de energia num espaço com algumas centenas ou milhares de graus de
liberdade, em que as zonas de baixa energia (‘vales’) se encontram separadas umas das
outras por barreiras de energia (‘cumes’). Esta superfície é uma função de energia
potencial complexa e multidimensional (Honig, 1999). Se esta superfície for muito
acidentada, a proteína vai encontrar muitas barreiras de energia. Se por outro lado for
muito plana, a proteína vai andar eternamente à procura do seu estado nativo. Logo a
proteína precisa de uma orientação para explorar a paisagem de energia até atingir o seu
12
estado nativo. A topografia da paisagem de energia é em forma de funil, para que a
proteína deslize de uma forma mais fácil até ao estado nativo (Figura 8).
(a) (b)
Figura 8 - (a) Funil de Folding (conceito de paisagem de energia): O caminho A indica um processo
rápido de folding, o caminho B indica um processo de folding mais lento; (b) Superfície de Energia
do processo de folding.
O topo do funil corresponde a todas as conformações desnaturadas possíveis, que são as
conformações menos estáveis, ou seja, de maior energia. À medida que a proteína se
enrola a energia vai diminuindo até atingir o mínimo global na conformação nativa.
(Honig, 1999)
Esta nova perspectiva reconcilia as hipóteses termodinâmica e cinética, porque o estado
nativo pode ser o estado termodinâmico mais estável, e a procura desse estado não é
aleatória uma vez que existem vários caminhos de folding possíveis (Pande et. al.,
1998). Os caminhos de folding implicam “uma boa definição da sequência de eventos”
(Levinthal, 1968) onde “evento” é a transição de uma fase para a outra.
Pande et. al., (1998) introduz o termo “neo-clássico” para definir esta nova perspectiva
porque o processo de folding da proteína pode ser entendido como uma extensão da
teoria clássica que considera o mecanismo estatístico do processo. No entanto, ainda
não está tudo resolvido! Para proteínas pequenas pode garantir-se que se sabe quase
tudo mas para proteínas grandes os mecanismos de folding ainda são desconhecidos.
Desde a segunda metade do século XX vários investigadores se empenham em analisar
o folding das proteínas. Em 1999, Honig, apresenta uma análise da evolução dos
estudos. Segundo este autor verificaram-se importantes avanços na previsão da estrutura
das proteínas, no entanto, para Honig, este progresso depende em parte da combinação
13
entre a compreensão dos princípios fisico-químicos e a análise sofisticada de
informação válida.
Segundo Pande (1998) a natureza dos caminhos de folding pode, em príncipio, ser
completamente compreendida através de simulação directa em computador onde todos
os detalhes são acessíveis. Desta forma, faz todo o sentido, obter simulações da
desnaturação proteíca da TTR, para encontrar características importantes desta proteína
através de técnicas de extracção de conhecimento de dados.
2.5 Dinâmica Molecular - Simulação da desnaturação proteica
Analisar e compreender as relações entre a sequência e a estrutura das proteínas tornou-
se uma tarefa central na “Era pós-genoma”, e terá grande impacto na genética,
bioquímica e na química farmacêutica. A descrição detalhada do processo de folding
ajuda a compreender melhor a origem de diversas doenças (Pande et. al., 2003).
Trabalhos recentes mostram a importância da simulação da desnaturação proteica para
os estudos da Biologia Molecular. No entanto, as simulações de Dinâmica Molecular
apresentam o problema de elevado custo de recursos computacionais.
A Dinâmica Molecular pode ser usada para simular a dinâmica de estruturas
conhecidas, ou para descrever uma estrutura de uma sequência a partir da minimização
da energia potencial.
A Dinâmica Molecular clássica está baseada na segunda lei de Newton ou nas equações
de movimento de Newton. Nestas equações cada átomo é considerado um ponto com
massa im :
2
2
,...,2,1,
dt
rd
rNiFrm i
iiii === &&&& (2.5.1)
onde ( )iiii zyxr ,,= é o vector das coordenadas cartesianas do i-ésimo átomo, ir&& é a
respectiva aceleração, iF é o vector de forças que actuam no i-ésimo átomo, e N é o
número de átomos. (Scheraga et. al., 2007)
14
Para aproximar os mecanismos naturais entre os átomos, tais como colisões e fricções, é
utilizada a dinâmica de Lengevin. Isto é, à equação (2.5.1) são adicionados dois novos
termos: a força potencial que actua sob o átomo i, Uir∇− , e o vector de forças
aleatórias, ( )tRi , resultantes da colisão entre o átomo i e as molecular do solvente.
Desta forma obtém-se a Equação de Langevin (2.5.2).
( ) ( ) NitRrmrrrUF iiiiNri i
,...,2,1,,...,, 21 =+−−∇= &γ (2.5.2)
Em que, ir& é a velocidade do átomo i e iγ é o coeficiente de fricção.
Nas simulações é assumido que o vector ( )tRi tem média zero e as forças aleatórias em
tempos diferentes são não correlacionadas. Considere-se ω a frequência característica
do sistema, quando ωγ 2>> a equação (2.5.2) reduz-se a uma equação diferencial de
primeira ordem:
( ) ( ) NitRrmrrrU iiiiNri
,...,2,1,,...,,0 21 =+−−∇= &γ (2.5.3)
Integrando as equações de movimento obtém-se uma trajectória que descreve as
posições, velocidades e acelerações dos átomos, e como eles variam ao longo do tempo.
Esta trajectória é uma série de sub estados entre o estado inicial e o final, separados por
um pequeno intervalo de tempo (por exemplo, picosegundo)
Os campos de forças mais utilizados, para calcular as forças potencias da equação
(2.5.2), na descrição de sistemas proteicos, são CHARMM (Brooks et. al., 1983),
AMBER (Pearlman et al., 1995), GROMOS (Berendsen et. al., 1995) e CVFF (Ewing
et. al., 1999). A escolha de um destes campos é feita consoante os custos
computacionais implicados na descrição do sistema e a precisão na representação das
forças que actuam no sistema (Scheraga et. al., 2007).
As Simulações de Dinâmica Molecular para obtenção dos dados em estudo neste
trabalho foram realizadas através do programa NAMD (Kalé et. al., 1999), usando a
versão 27 do campo de forças CHARMM.
Para analisar a evolução dos resíduos de aminoácidos ao longo da simulação serão
apresentadas algumas propriedades úteis na análise de trajectórias de Dinâmica
Molecular.
15
2.6 Propriedades Moleculares
As propriedades moleculares definidas nesta secção permitem analisar as trajectórias
obtidas por simulações de Dinâmica Molecular, neste caso, simulações de desnaturação
da TTR. Através dos valores obtidos por algumas destas medidas foram encontrados
resultados que se podem revelar de extrema importância para a compreensão da
Biologia Molecular do Sistema.
Várias são as propriedades moleculares que podem ser calculadas ao longo de uma
simulação, nomeadamente, a Raiz do Desvio Quadrático Médio, o Raio de Giração, a
estrutura secundária, as ligações de hidrogénio, e os contactos nativos. (Brito et. al.,
2004)
Uma das mais conhecidas medidas variação da conformação molecular é a Raiz do
Desvio Quadrático Médio, cuja expressão matemática é a seguinte:
( ) ( )( )
∑=
−
=
n
i
ii
n
txtx
RMSD
1
2
0
(2.4.1)
onde ( )txi é a posição do i-ésimo átomo no instante t e n é o número de átomos.
Uma outra medida usada é a área da superfície molecular acessível ao solvente,
designada por SASA. A superfície de uma molécula determina várias das suas
propriedades físicas e químicas, o que torna a superfície molecular uma característica
interessante e importante.
Adaptado de Wei et. al., 2004
Figura 9 - Ilustração das várias superfícies
A superfície acessível ao solvente (SASA) é determinada usando uma “esfera de prova”
(molécula de água com 1.4
o
A de raio) que “rola” à volta da molécula. A superfície
16
imaginária descrita pelo centro da esfera de prova fornece uma estimativa da superfície
molecular acessível ao solvente (SASA).
A SASA é Global quando é calculada a superfície global da proteína que está exposta
ao solvente. Quando se calcula esta superfície para cada aminoácido temos a SASA por
resíduo.
Noutros trabalhos, no âmbito deste projecto, foram analisadas séries temporais que
descrevem os valores de SASA ao longo da desnaturação da proteína TTR (Azevedo et.
al, 2005) (Ferreira, et. al., 2007). Neste trabalho decidiu-se estudar uma nova medida
para que, sendo o problema abordado de outro ponto de vista, se possam tirar novas
conclusões e complementar todo o trabalho desenvolvido anteriormente.
2.7 Novas medidas em estudo
Neste trabalho a medida em estudo é a Variação da Distância do Carbono Alfa de
cada resíduo ao Centro de Massa da Proteína ao longo da desnaturação.
O que se pretende com esta medida é obter um quadro de dados com 127 séries
temporais, em que cada série descreve a variação da distância do carbonoα de um
aminoácido ao Centro de Massa da Proteína, ao longo da desnaturação da proteína TTR.
Figura 10 - Variação da distância dos aminoácidos ao centro de massa
Para trabalho futuro, foi ainda proposta uma outra medida que consiste em calcular,
para cada aminoácido, os 3 aminoácidos mais próximos da seguinte forma:
- Para todos os átomos, ia , dos aminoácidos, iA , são calculadas as distâncias entre
átomos.
- Para cada aminoácido iA são registados os 3 valores mais baixos, que correspondem
aos três aminoácidos com átomos mais próximos de iA .
17
Por exemplo, como vemos na Figura 11, se para o aminoácido A, que possui o átomo X
as distâncias mais curtas forem d1, d2 e d3, então o aminoácido A está mais próximo
dos aminoácidos A1, A2 e A3.
Figura 11 - Distâncias aos 3 vizinhos mais próximos do átomo X.
As distâncias serão calculadas para cada instante t de uma simulação, logo para cada
aminoácido no instante it vamos obter um vector ( 1A , 2A , 3A , 321 ,, ddd ). Este conjunto
de dados constitui um “cubo” de dados, para cada simulação, da forma:
Figura 12 – Dados 3-D
Devido à elevada dimensão dos dados obtidos por esta medida e à dificuldade em obtê-
los, partiu-se para o estudo da Variação da distância dos aminoácidos ao centro de
massa.
Inicialmente pensou-se que a análise da Variação da Distância dos aminoácidos ao
Centro de Massa poderiam não complementar a informação obtida, em trabalhos
anteriores, com a análise dos valores da SASA. Mas após alguma análise exploratória
concluiu-se que seria interessante analisar a evolução das Distâncias dos Aminoácidos
ao Centro de Massa da Proteína. Para esta análise foi necessário aplicar técnicas de Data
Mining que permitissem extrair conhecimento interessante.
18
3 Extracção de Conhecimento de Dados (KDD)
Segundo Fayyad et. al., (1996) a Extracção de Conhecimento em Bases de Dados
(KDD) é o processo não trivial de identificar padrões válidos, novos, potencialmente
úteis e compreensíveis nos dados. O Data Mining é um passo da KDD que consiste num
tipo particular de algoritmos que, sob aceitáveis limitações de eficiência computacional,
produzem uma enumeração particular de padrões dos dados.
Com o desenvolvimento e a disseminação dos computadores, a informação compilada
cresceu exponencialmente. Os analistas tiveram a oportunidade de organizar e analisar
toda a informação que apareceu rapidamente. Os métodos tradicionais de análise dos
dados, nos vários sectores (industrial, empresarial, financeiro, farmacêutico, etc),
tornaram-se lentos e dispendiosos.
Em 1996, Fayyad et. al., afirmam que “é necessária uma nova geração de técnicas e
ferramentas computacionais para extrair conhecimento útil de grandes bases de dados.”
No trabalho de Liu et. al., (2002) é analisada a utilidade das aplicações de Data Mining.
Segundo este autor as aplicações de KDD trouxeram benefícios significativos aos
negócios, reduzindo custos, aumentando os lucros e elevando a qualidade dos serviços.
No ínicio do século apresenta-se um cenário em que os dados que surgem apresentam
elevadas dimensões, existe uma rápida construção de ferramentas de análise e os
resultados são apresentados de forma perceptivel ao utilizador de tal forma que este
possa tirar o melhor proveito do conhecimento obtido. Na Figura 13 é possível observar
a evolução das técnicas de Extracção de Conhecimento para acompanhar as
necessidades crescentes de tratamento de informação.
Figura 13 – Evolução das técnicas de Análise de Dados
19
Para analisar os dados em estudo nesta dissertação foram aplicadas técnicas de Data
Mining que permitam extrair conhecimento útil, isto é, conhecimento que contribua para
o avanço em direcção ao diagnóstico ou tratamento das doenças relacionadas com o
deficiente enrolamento da TTR.
3.1 Processo de Extracção de Conhecimento
O processo da extracção de conhecimento é um processo interactivo e iterativo que
envolve vários passos. (Fayyad et. al., 1996) Na Figura 14 podem observar-se as etapas
seguidas para a obtenção de conhecimento.
Fonte: Adaptado de Fayyad et. al., 1996(2).
Figura 14 – “O caminho para o conhecimento”.
Segundo Fayyad et. al., (1996) o processo de obtenção de conhecimento começa com a
compreensão do problema em estudo, dos dados. Segue-se uma fase de preparação dos
dados, designada por “Preprocessing”, onde os dados em estudo são tratados, isto é, são
aplicadas operações básicas, por exemplo, extracção de ruído ou outliers. Os dados em
estudo podem ser transformados ou reduzidos para, por exemplo, diminuir o número de
variáveis em consideração (“Transformation”).
20
Na etapa de “Data Mining” decide-se qual a função de data mining a aplicar aos dados.
Define-se o objectivo do modelo obtido pelo algoritmo de data mining e selecciona-se o
método e os parâmetros apropriados para o problema em estudo. Os resultados obtidos
são apresentados com formas de representação próprias para cada tipo de método.
A etapa “Interpretation/Evaluation” inclui interpretar os resultados obtidos, eliminar
informação redundante, traduzir os resultados em linguagem acessível aos leitores e
possivelmente voltar a etapas anteriores (pode, por exemplo, chegar-se à fase de
avaliação e decidir-se voltar a transformar os dados para aplicar um outro método).
3.1.1 Data Mining – Tarefas
Ao longo do Processo de Extracção de Conhecimento de dados uma das etapas que
importa destacar é a etapa de “Data Mining”. Consoante o tipo de dados em estudo e o
objectivo da sua análise, podem definir-se diferentes tarefas de Data Mining, as quais
podem ser classificadas em duas categorias:
- descriptive data mining: consiste em descrever e apresentar caracteristicas gerais dos
dados;
- predictive data mining: consiste na construção de modelos, realização de inferências e/
ou predição do comportamento de novos conjuntos de dados.
As principais tarefas de Data Mining são Classificação, Clustering, Regressão,
Previsão, Associação (Berry, 2000). Na Tabela 3 são apresentadas estas tarefas, e
algumas das técnicas mais populares em Data Mining, que foram definidas em função
do objectivo do processo de extracção de conhecimento.
21
Tarefa Técnicas Definição/Objectivo
Classificação
Árvores de Decisão; Regras de
Classificação
Classificar novos indivíduos/variáveis a
partir da classificação de
indivíduos/variáveis dos dados de treino.
Clustering
Classificação hierárquica; K-
means
Definir grupos nos indivíduos/variáveis
dos dados baseados numa métrica de
semelhança.
Regressão
Regressão Linear; Regressão
Local; Árvores de Regressão;
Redes Neuronais; Algoritmos
Genéticos
Desenvolver um modelo que descreva o
comportamento dos indivíduos/variáveis
em estudo.
Previsão
Regressão Linear; Regressão
Local; Árvores de Regressão;
Redes Neuronais; Algoritmos
Genéticos; Árvores de Decisão
Prever o valor de um novo item a partir do
modelo obtido.
Associação Regras de Associação
Descobrir relações de associação entre um
conjunto de itens.
Tabela 3 – Tarefas de Data Mining
3.1.2 Metodologia
A falta de metodologia na obtenção do conhecimento pode ser um entrave à obtenção
do mesmo, e para resolver este problema, no ano 2000, foi apresentado o modelo
CRISP-DM (Cross-Industry Standard Process for Data Mining), (Shearer, 2000) que
pretende ser um modelo standard, isto é, pretende-se que a partir deste modelo o
utilizador apresente o processo de KDD para o seu problema.
Segundo a metodologia CRISP-DM a implementação de um processo KDD pode ser
desenvolvido ao longo de seis etapas.
Como mostra a Figura 15 as fases do modelo CRISP-DM são as seguintes:
22
- Compreensão da actividade (Business Understanding): esclarecer os objectivos e os
requisitos sob o ponto de vista do negócio; é definido um plano para atingir os
objectivos.
- Compreensão dos dados (Data Understanding): como o nome indica, procura-se
entender os dados, isto é, pretende-se que nesta fase se encontrem problemas nos dados,
subconjuntos interessantes e problemas de qualidade nos dados.
- Preparação dos Dados (Data Preparation): das tarefas de preparação de dados fazem
parte selecção de tabelas, registos e atributos, transformação e limpeza de dados.
- Modelação (Modeling): aplicação de modelos aos dados e refinação de parametros.
Por vezes é necessário adaptar os dados aos modelos que se pretendem aplicar, logo é
frequentemente necessário voltar à fase de preparação dos dados.
- Avaliação (Evaluation): avaliação do modelo aplicado para verificar se este atinge os
objectivos do negócio.
- Acção/ Produção (Deployment): utilização e aplicação do modelo, aqui o analista
pode, por exemplo, recomendar acções mediante os resultados obtidos.
Fonte: (Shearer, 2000)
Figura 15 - Modelo CRISP-DM
Para desenvolver o processo de Extracção de Conhecimento desta dissertação,
procurou-se seguir uma linha de raciocínio tendo em conta o processo descrito por
Fayyad et. al.,(1996) e as fases da metodologia CRISP-DM.
23
3.2 Análise de clusters
Na etapa de Data Mining, do processo KDD desta dissertação, a primeira técnica
utilizada para comprender e encontrar semelhanças entre os aminoácidos da TTR foi a
análise de clusters. A análise de clusters é uma técnica multivariada muito usada para
analisar sequências genéticas e pode ser usada em vários tipos de dados: dados
genéticos, dados temporais, dados geográficos, etc.
Saporta (1990) sustenta que o objectivo dos métodos de classificação é construir uma
partição de um conjunto de objectos dos quais são conhecidas as distâncias dois a dois.
Os clusters obtidos devem ser o mais homogéneos possível e distintos entre si.
Nesta tese pretende-se aplicar a análise de clusters para explorar os dados da proteína
TTR, para reduzir a dimensão dos dados e para gerar hipóteses. Estes objectivos vão de
encontro com os objectivos gerais da análise de clusters definidos no trabalho de
Branco (2004).
Objectivos da análise de clusters:
a. Exploração dos dados: este é o objectivo mais imediato da análise de clusters,
isto é, encontrar uma estrutura/partição nos dados.
b. Redução de dados: Se os grupos forem homogéneos significa que cada grupo
pode ser substituído pelo seu representante.
c. Geração de hipóteses: Podem ser encontrados grupos não esperados, o que
pode eventualmente levar a conjecturas e hipóteses para explicar a classe
encontrada.
d. Predição: Os elementos do mesmo grupo tendem a ter características
semelhantes, este facto torna possível predizer propriedades de um outro
elemento quando comparado com os elementos de um grupo.
Para obter as classes finais são seguidos alguns passos importantes da análise de
clusters, na Figura 16 são apresentadas as fases de uma análise de clusters adaptadas do
trabalho de Gordon (1999)
24
Fonte: Adaptado de Gordon (1999)
Figura 16 - Fases de uma Análise de Clusters.
A análise de clusters tem como ponto de partida um quadro de dados inicial ou um
quadro de proximidades.
(i) O quadro de dados, geralmente, é da forma “indivíduos vs variáveis”.
pj
j
ix
n
iX
.........................1
.
.
....
.
.
.
.
1
















=
Dado o conjunto E de elementos a classificar, o elemento j
ix é o valor que o
indivíduo Ej ∈ assume na variável i .
25
As variáveis podem ser classificadas consoante as suas características. Para as
variáveis podem ser definidos os seguintes tipos:
- Variáveis numéricas ou quantitativas – o conjunto de chegada da aplicação
associada a cada variável aleatória é ℜ , as variáveis aleatórias induzem
preordens.
- Variáveis nominais ou ordinais – a cada variável aleatória está associado um
conjunto de estados, ou modalidades, e a um objecto corresponde um e um só
estado de cada variável.
- Variáveis binárias – é um caso particular das variáveis nominais ou ordinais,
que ocorre quando o número de estados possíveis de uma variável è igual a dois.
(ii) O quadro de proximidades é também designado por função de comparação. Como
refere Sousa, (2000) define-se função de comparação entre elementos de E como
uma aplicação +
ℜ→× 0: EEγ . Esta função pode ser do tipo semelhança, ou de
dissemelhança, entre pares de objectos, ou variáveis, permitindo quantificar o seu
estado de semelhança ou de dissemelhança.
Uma dissemelhança satisfaz as seguintes propriedades: (Gordon, 1999:15)
1. ( ) ( ) Eyxxydyxd ∈∀= ,,,,
2. ( ) Exxxd ∈∀= ,0,
3. ( ) yxyxd =⇒= 0,
Uma semelhança satisfaz as seguintes propriedades: (Saporta, 1990)
1. jiss jiij ,,∀=
2. jisij ,,0 ∀≥
3. ijs é tanto maior quanto maior for a semelhança entre objectos.
26
Em muitos estudos a medida de proximidade mais fácil de calcular é a
semelhança entre objectos. Em geral, pode obter-se uma dissemelhança ijd a
partir da semelhança ijs , estabelecendo uma relação entre a semelhança e a
dissemelhança dos mesmos objectos, por exemplo, ijij skd −= ( k constante
adequada). (Gordon, 1999:15)
Para cada tipo de dados existem várias medidas de proximidade definidas e
propostas por diversos autores nomeadamente Gordon (1999), Hartigan (1975),
Saporta (1990).
3.2.1 Clustering hierárquico
O clustering hierárquico consiste em obter um conjunto de partições de E em classes
cada vez menos finas obtidas a partir de reagrupamentos sucessivos de partes. Um
clustering hierárquico representa-se por um dendrograma ou árvore de classificação.
Existem dois tipos de métodos de clustering hierárquico: os métodos ascendentes ou
aglomerativos e os descendentes ou divisíveis.
O método ascendente, ou aglomerativo, considera, inicialmente, cada indivíduo como
sendo uma classe e vai agrupando-os de acordo com as suas proximidades. O algoritmo
pára quando se obtiver uma única classe.
O método descendente, ou divisível, consiste em aplicar dicotomias sucessivas ao
conjunto E até se obter os elementos todos isolados.
A. Método Aglomerativo
O método aglomerativo é um método muito usado, sendo este o método utilizado nesta
dissertação. Os passos seguidos num algoritmo de Classificação Hierárquica
Ascendente (CHA) como refere Sousa (2000) são:
Passo 0: Considerar os objectos iniciais ( Econjunto ), isto é, definir a partição
mais fina. Definir a função de comparação entre os objectos e entre classes.
27
Passoi : ( ki ,...,1= )
Determinar o par ou pares de classes 1−iP que verificam o critério de agregação,
isto é, obter os pares que verificam o mínimo de ( ){ }1,:, −∈ iPBABAd .
Actualizar a partição, { } { }( ){ } { }BABAPP ii ∪∪∪= − 1 .
Actualizar os valores da matriz de proximidades entre partes de E .
Uma abordagem um pouco diferente do algoritmo é apresentada em Hartigan (1975).
No algoritmo de CHA podem ser introduzidos critérios de paragem, por exemplo, impor
o número de classes da última partição, ou limitar o valor da função de comparação
entre partes.
Ao longo do algoritmo é necessário calcular as distâncias entre as classes que se vão
formando e é neste ponto que os algoritmos aglomerativos diferem. Os métodos mais
usados são: Ligação Simples (Single linkage), Ligação Completa (Complete linkage),
Ligação Média (Average linkage), Método centróide e finalmente o Método de Ward.
B. Critérios de Agregação
Neste trabalho são usados o método da Ligação Média e o método de Ward.
Ligação Média
No método da Ligação Média a distância entre classes é distância média dos pares de
elementos.
BA
n
i
n
j
ij
AB
nn
d
d
A B
∑∑= =
=
1 1
Esta ideia de distância é simples, este método foi um dos primeiros a ser construído, é
um método robusto adequado para isolar classes de forma esférica ou elipsoidal. Este
28
método actua sobre a matriz de proximidades, enquanto que o método seguinte é mais
complexo e actua sobre a matriz de dados.
Método de Ward
No método de Ward (Ward, 1963) as classes são formadas de modo a minimizar a soma
dos quadrados dos erros. Segundo Saporta (1990) este é o critério de agregação mais
indicado para distâncias euclideanas. Os elementos de E são considerados como uma
nuvem de pontos num espaço p
ℜ e o critério de agregação consiste em minimizar a
variação de inércia interclasse. Como os dados em estudo, neste trabalho, são as
distâncias dos aminoácidos ao centro de massa da TTR, faz todo o sentido utilizar este
critério de agregação.
Se se considerarem dois clusters A e B, este método minimiza o incremento da soma
dos quadrados, ou seja, minimiza a perda de informação resultante da aglutinação.
Seja ( )BAC SWSWSW −− o incremento da soma dos quadrados quando A e B são
aglutinados, onde ( )
2
1
∑∑∈ =
−=
Ai
p
j
jAijAA xxSW é a soma dos quadrados dos erros dentro do
cluster A, ( )
2
1
∑∑∈ =
−=
Bi
p
j
jBijBB xxSW é a soma dos quadrados dos erros dentro do cluster
B e ( )
2
1
∑∑∈ =
−=
Ci
p
j
jCijCC xxSW é a soma dos quadrados do cluster BAC ∪= .
Notação: ijAx ( ijBx ) é a observação do objecto i do cluster A( B ) na variável j , jAx e
jBx são as médias da variável j nos clusters A e B . (Branco, 2004)
Em cada iteração o algoritmo calcula todos os pares possíveis de clusters e calcula o
valor do incremento para cada união. O algoritmo selecciona os pares que minimizam o
valor do incremento, isto é, escolhe os pares que minimizam a perda de informação.
Após obtenção das classes a questão que se coloca é se os clusters obtidos nos fornecem
a melhor partição do espaço.
29
Para algoritmos hierárquicos alguns autores recorrem a métodos gráficos. Segundo
Maroco (2003) através do gráfico do índice de difusão versus número de clusters é
possível escolher o número de clusters. Grandes alterações no nível de fusão
correspondem à aglutinação de grupos muito diferentes, logo estas alterações podem
indicar o número ideal de clusters.
De acordo com Pal et. al., (1995), citado por Silva (2005), se o algoritmo de
classificação tiver como único parâmetro de entrada o número de classes, faz-se variar
de 2 até ao valor máximo maxk , podendo considerar-se nk ≤max .
No ponto seguinte são abordadas algumas medidas que permitem a escolha do número
de clusters.
C. Escolha do número de clusters
Segundo Gordon (1999), Halkidi (2001), Jakel (2004) e Kovacs (2003) as medidas de
validação de clusters podem ser agrupadas segundo 3 tipos de critérios. Mediante a
estratégia utilizada para validar a partição obtida temos:
- Critérios Externos: avaliam-se os resultados mediante informação externa fornecida a
priori e não utilizada na análise. Esta análise é baseada na hipótese nula de aleatoriedade
dos dados, para testar esta hipótese são utilizados testes estatísticos. Pode usar-se, por
exemplo, técnicas de Monte Carlo para validar a análise de clusters.
Adaptado de Faceli et. al., (2005)
Figura 17 - Critério de Validação Externo
30
- Critérios Internos: Medem a qualidade do clustering com base nos dados originais
(matriz de proximidades). Neste critério são usadas medidas que se baseiam em
quantidades e características inerentes aos dados e ao esquema de classificação.
(Halkidi, 2001)
Adaptado de Faceli et. al., (2005)
Figura 18 - Critério de Validação Interno
- Critérios Relativos: comparam diferentes estruturas, construídas a partir dos mesmos
objectos, para encontrar o melhor clustering a partir de diferentes resultados. Pode ainda
ser usado para comparar diversos algoritmos de agrupamento.
Adaptado de Faceli et. al., (2005)
Figura 19 - Critério de Validação Relativo
31
A escolha da melhor partição dos objectos em estudo é uma questão analisada por
diversos autores e têm sido apresentados muitos métodos de escolha do número de
classes. Halkidi et. al., (2000) sustentam que os critérios externos e internos são
baseados em métodos estatísticos mas têm como desvantagem a elevada complexidade
computacional.
A forma como o índice é aplicado é que define se o critério de utilização do índice é
interno ou relativo. A aplicação de um índice com um critério relativo consiste no
cálculo do seu valor para vários clusterings, o “melhor” clustering vai ser o que
optimiza o índice. Para efectuar o clustering dos aminoácidos da TTR é necessário
definir como escolher o número de classes.
Alguns dos índices mais usados com o critério relativo são os seguintes:
− Estatística de Hubert (Jain e Dubes, 1988)
− Família da Índices de Dunn (Halkidi et. al.,, 2001)
− Índice de Davies-Bouldin (Jain e Dubes, 1988)
− Estatística de Silhuettes (Rousseeuw, 1987)
− Índice de Calinski-Harabasz (Calinski e Harabasz, 1974)
− Índice de Krzanowski e Lai (Krzanowski e Lai, 1985)
“Índices de Milligan e Cooper”
Devido ao elevado número de índices e regras de paragem disponíveis, em 1985,
Milligan e Cooper apresentaram um estudo comparativo detalhado de 30 índices. Neste
estudo, através de uma avaliação de Monte Carlo são analisados os índices em data sets
artificiais, foram aplicados quatro algoritmos de agrupamento hierárquico e através do
critério externo encontraram-se os índices que recuperavam a verdadeira estrutura de
grupo. Neste estudo foram escolhidos 5 índices, e desde então, estes índices passaram a
ser designados na literatura por “Índices de Milligan e Cooper”.
32
Segundo Milligan & Cooper (1985) os “melhores” índices são os seguintes:
− Goodman & Kruskal (G2)
Segundo Gordon (1999) este índice é muito utilizado em estudos de
classificação. Após obtenção dos clusters são feitas comparações entre as
dissemelhanças intraclusters e interclusters. A comparação diz-se concordante
(respectivamente discordante) se a dissemelhança dentro dos clusters é mais
muito mais baixa (resp. elevada) que a dissemelhança interclusters. O índice é
então dado por:
( ) ( )
( ) ( )−++
−−+
=
ss
ss
G2
onde ( )+s e ( )−s representam o número de pares concordantes e discordantes
respectivamente, envolvendo os valores das matrizes de dissemelhança e
ultramétricas. O valor máximo desta medida indica o número de clusters a reter.
Em Gordon (1999) este índice tem a designação de “ 2G ” sendo esta a mesma
designação utilizada na biblioteca “fpc” do R (Hennig, 2004), que é utilizado no
capítulo 4.
− Índice-C (G3)
Este índice é dado por:
( )
minmax
min
DD
DcD
−
−
Onde D é a soma das dissemelhanças intra-classes. O valor mínimo desta
medida indica o número de classes óptimo. Este índice é definido em Gordon
(1999) como sendo o índice 3G e esta mesma nomenclatura é usada na
bibliotece “fpc” do R (Hennig, 2004), que é utilizado no capítulo 4.
33
− Índice de Calinski & Harabasz definido por:
( )
( )
( )
( )kn
kW
k
kB
kCH
−
−
=
1
)(
Onde ( ) ( )∑ ∑= ∈
=
k
l Cx
r
r
gxdkW
1
2
, e ( ) ( )∑≠=
=
jiji
ji CCdistkB
,1,
2
, sendo rg o centro de
gravidade da classe r e ( )ji CCdist , é a dissemelhança entre classes. Escolhe-se
o número de classes que maximiza este índice.
− Índice de Duda & Hart:
Segundo Silva (2005) este índice é baseado na razão entre a soma dos quadrados
das dissemelhanças intraclasses das duas classes candidatas a serem reunidas
( 2W ), e a soma dos quadrados das dissemelhanças da classe resultante da reunião
( 1W ). A hipótese de uma classe é rejeitada, ou seja, as duas classes candidatas
não se reúnem, se a razão for menor que um dado parâmetro.
( ) ( )( ) ( )[ ] 2/12
12 //812/21/ mppzpWW ππ −−−<
− Índice de Beale definido por:








−





−
−





 −
≡ 12
2
1 /2
2
21 p
m
m
W
WW
F
Se o valor de F for significativamente elevado rejeita-se a hipótese nula (isto é,
não se divide o cluster). F segue uma distribuição ( )pmpF 2, − . (Gordon, 1999)
Este índice aplica-se a métodos hierárquicos descendentes (Silva, 2005).
Uma descrição detalhada destes Índices pode ser encontrada em Gordon (1999) e Silva
(2005).
34
Segundo Sarle (1993) os critérios escolhidos por Milligan e Cooper são apropriados
apenas para clusters compactos ou levemente alongados, de preferência
aproximadamente multivariados normais.
Em 2005, Bertrand e Bell Mufti definiram um índice de estabilidade estatístico da
partição (designado por BB) e compraram-no com dois índices de Milligan e Cooper,
chegam à conclusão que o índice BB, por eles proposto, para os dois quadros de dados
utilizados no estudo, fornece melhores resultados.
Nesta dissertação foram utilizadas medidas de validação segundo o critério relativo.
Devido à sua elevada credibilidade, para a escolha da “melhor” partição dos
aminoácidos, foram calculados e optimizados os índices G2 e G3 de Milligan e Cooper,
otiveram-se grupos de aminoácidos e foi possível comparar e analisar os clusters
obtidos, como será mostrado no capítulo 4.2 Clustering hierárquico.
3.3 Eventos
Um dos pontos que se pretende desenvolver, neste trabalho, é encontrar características e
acontecimentos interessantes nas séries temporais dos aminoácidos em estudo. Desta
forma, estando em estudo um conjunto de dados volumoso, ao nível de uma propriedade
dos aminoácidos, pretende-se obter características das simulações para obter
conhecimento a outro nível.
No estudo de séries temporais são, por vezes, procuradas alterações do comportamento
das séries e acontecimentos raros dentro do contexto em análise. Nesta dissertação
procura-se, a partir das séries que descrevem o comportamento dos aminoácidos ao
longo da desnaturação, encontrar eventos, isto é, econtrar uma ocorrência ou uma
eventualidade no comportamento do aminoácido que se destaque relativamente ao seu
comportamento geral ao longo da simulação.
Mannila et. al.,(1995,1997) definem uma sequência de eventos como uma sequência de
acções de utilizadores num sistema e definem um episódio como sendo uma colecção
de eventos que ocorrem relativamente próximos uns dos outros numa dada ordem.
35
Estes autores consideraram três tipos de episódios como mostra a figura seguinte:
Figura 20 - Tipos de Episódios
(a) Episódio sequencial: sequência de eventos, em que entre os eventos (A, B, C)
podem ocorrer outros eventos.
(b) Episódio em paralelo: neste caso não existem exigências quanto à ordem dos
três eventos.
(c) Episódio não-sequencial e não paralelo: Neste episódio ocorrem os eventos A
e B que precedem os eventos C e D, não existe ordem entre A e B ( ou C e D),
as quatro ocorrências devem ser próximas.
Um problema básico em analisar sequências de eventos está em encontrar episódios
frequentes, isto é, dada uma classe de episódios e uma sequência de eventos, o problema
consiste em encontrar todos os episódios que acontecem frequentemente numa dada
sequência.
Nos trabalhos de Mannila e Toivonen (1995,1997) é considerado que um evento está
sempre associado ao tempo de ocorrer, logo uma sequência de eventos é um conjunto
do tipo ( ) ( )nn tAtAS ,,...,, 11= em que iA pertence ao conjunto de eventos 0E
(conjunto de eventos tipo pré-definido) e it é o instante em que iA ocorre.
Em 1999, Guralnik e Srivastava, apresentam uma definição mais abrangente de evento.
Este autores definem um evento como sendo uma mudança significativamente
qualitativa de um fenómeno dinâmico que mantém o comportamento alterado tempo
suficiente para ser considerado um acontecimento raro.
No seu trabalho, Guralnik e Srivastava (1999) procuram identificar os pontos da escala
temporal em que a mudança de comportamento ocorre. O chamado problema da
procura de “pontos de mudança” em séries temporais consiste em determinar o número
36
de pontos de troca de comportamento e escolher uma função que encaixe entre os
diferentes pontos de troca. Guralnik e Srivastava (1999) propõem um algoritmo para
encontrar os “pontos de mudança”, isto é, pretendem encontrar eventos interessantes em
séries temporais.
Nesta dissertação pretende-se procurar, nas séries temporais dos aminoácidos,
mudanças de comportamento significativas ao longo de determinado tempo, isto é,
procuram-se eventos frequentes e relevantes no comportamento dos aminoácidos da
proteína TTR.
Depois de encontrar os eventos frequentes podem ser usadas regras para descrever
relações entre os eventos e o tipo de proteína com maior propensão para ocorrência de
um evento. Pretende-se ainda utilizar as relações obtidas para prever o tipo de proteína
onde ocorre determinado evento.
3.4 Regras
Em 1998, Das et. al., apresentam um trabalho onde abordam o problema da procura de
regras em séries temporais. Neste trabalho as séries temporais são discretizadas e o
algoritmo calcula regras do tipo: se ocorre A então B ocorre no tempo T, 





→ BA
T
.
Onde A e B são letras do alfabeto obtidas pela discretização das séries. Um trabalho
análogo foi desenvolvido por Azevedo et. al., (2005) com valores de SASA
discretizados e obtidos por simulação da desnaturação da TTR.
3.4.1 Regras de Associação
As regras de associação foram definidas por Agrawal, R., et al. em 1993, da seguinte
forma:
Seja { }miiI ,...,1= um conjunto de items distintos, e D um conjunto de transacções,
onde cada transacção T é um conjunto de items tal que IT ⊆ . Associado a cada
transacção está um identificador único, designado por TID. Uma Regra de Associação
é uma implicação do tipo YX → , onde IX ⊂ , IY ⊂ , e . ( X é o
37
antecedente e Y é o consequente). Uma regra YX ⇒ tem confiança c se %c das
transacções em D que contêm X também contêm Y , e suporte s se %s das
transacções em D contêm YX ∪ .
O antecedente e o consequente de uma regra podem conter mais do que um item. Para
medir o interesse de uma regra podem ser usadas medidas objectivas e medidas
subjectivas. Segundo Silberschatz et.al., (1996) das medidas objectivas fazem parte, por
exemplo, o Suporte e a Confiança.
O suporte mede a associação entre o antecedente X e o consequente Y , não relaciona
possíveis dependências entre X e Y e é dado por:
( )YXP ∩=suporte
A confiança é a frequência relativa da regra, isto é, é a frequência de ocorrência do
consequente quando se verifica o antecedente.
( ) ( )
( )XP
YXP
XYP
∩
== |confiança
No entanto, o suporte pode não ser interessante porque suportes elevados podem
resultar de padrões triviais. No caso de X e Y serem independentes a confiança da
regra é ( )YP e se ( )YP for superior à confiança mínima obtem-se uma relação entre
acontecimentos independentes! (Veloso, 2003)
Devido a estes problemas com o suporte e com a confiança foram estudas e definidas
outras medidas. Na Tabela 4 são apresentadas três medidas de interesse de uma regra,
por exemplo, o lift que permite avaliar o grau de dependência do consequente em
relação ao antecedente.
Diversas medidas de interesse foram definidas e comparadas nos trabalhos de: Azevedo
(2007), Bayardo (1999), Liu (2000), Lenca (2006), Hahsler (2007) e Omiecinski (2003).
38
Designação Fórmula Referência
Lift
( )
( ) ( )YPXP
YXP ∩
Brin, 1997 (a)
Conviction
( ) ( )
( )YXP
YPXP
∩
Brin, 1997 (b)
Ganascia ( ) 1|*2 −YXP Ganascia, 1991
Tabela 4 – Algumas Medidas de Interesse
Quanto à escolha da medida correcta para cada tipo de dados em Tan (2002) é
apresentado um estudo comparativo de 20 medidas onde são descritas as propriedades
das medidas e é apresentado um algoritmo de escolha de medidas. Neste estudo é ainda
desmonstrado que não existem medidas consistentemente melhores que outras para
todos os casos.
Em 1993 é apresentado o primeiro algoritmo para a procura de Regras de Associação,
designado por AIS (Agrawal et. al., 1993). Desde o aparecimento deste algorimo vários
foram os métodos desenvolvidos para melhorar a procura de regras, como por exemplo:
• Apriori (AprioriTid, AprioriHybrid) (Agrawal, 1994);
• Partition Technique (Savasere, 1995);
• Sampling Technique (Toivinen, 1996 (a));
• Método DIC (Brin et. al., 1997);
Nesta dissertação é utilizado o programa CAREN (Azevedo, 2003) no qual as regras
são geradas tendo em conta o Algoritmo Apriori (Agrawal et. al., 1994). Este algoritmo
está divido em duas partes:
- na primeira parte são extraídos os itens frequentes que têm suporte superior ao suporte
mínimo fixado.
- na segunda são procuradas as regras que tenham um grau de confiança mínimo e tais
que todas as combinações de itens tenham um suporte mínimo fixado à partida.
Uma descrição mais pormenorizada deste algoritmos pode ser vista em Agrawal e
Srikant (1994) e Azevedo (2003). Trabalhos mais recentes tentam desenvolver e aplicar
algoritmos de regras de associação específicos para dados temporais (Mennis and Liu
2003; Sarker et al. 2003; Dafas e Garcez 2005).
39
4 Processo de Extracção de Conhecimento de dados de
simulação de Desnaturação Proteíca
Com o objectivo de encontrar características relevantes do processo de desenrolamento
da proteína TTR foi desenvolvido um processo de extracção de conhecimento, dos
dados obtidos por simulação do desenrolamento da TTR, que é apresentado neste
capítulo.
Numa primeira abordagem, efectuou-se uma análise exploratória dos dados de 10
simulações para visualizar o comportamento geral das séries. Depois partiu-se para uma
análise multivariada. Como em estudo estão duas variantes de TTR (a wild-type e a
variante patogénica L55P) obtiveram-se duas partições dos aminoácidos, uma partição
que tem em conta a informação contida nos dados das simulações da variante WT-TTR
(partição I) e uma segunda partição que tem em conta a informação obtida por
simulação da desnaturação da variante L55P-TTR (partição II).
De seguida, desenvolveu-se um processo mais elaborado para, a partir de todos os dados
obtidos por simulação (da variante WT-TTR e da variante L55P-TTR), escolher
aminoácidos que representem o comportamento da proteína TTR nas 10 simulações.
Isto é, a partir dos dados obtidos por simulação dos 127 aminoácidos obteve-se uma
partição destes que considera toda a informação das 10 simulações (partição consenso –
partição que se obtem a partir de várias partições do mesmo conjunto de objectos). Para
esta partição foi calculado o aminoácido representativo de cada cluster e reduziu-se a
dimensão dos dados em estudo de 127 aminoácidos para 15 aminoácidos
representativos.
Na fase de procura de eventos foram comparados os aminoácidos representativos dois a
dois, procuraram-se dois tipos eventos diferentes ao longo das 10 simulações e
obtiveram-se frequências de ocorrência dos dois eventos. Esta fase foi ainda
complementada com a procura de um terceiro evento nas 10 simulações, a procura deste
evento foi efectuada ao longo das séries dos 127 aminoácidos.
Após obter as ocorrências de cada evento foram procuradas regras de associação que
associam a ocorrência do evento ao tipo de proteína.
Na Figura 21 é apresentado esquematicamente todo o processo de extracção de
conhecimento desenvolvido.
40
Figura 21-Processo de Extracção de Conhecimento
4.1 Descrição dos dados
Os dados em estudo foram obtidos a partir de simulações da desnaturação da proteína
TTR e foram fornecidos por Rui Brito cujo trabalho “Protein Folding and Unfolding
Simulations: A New Challenge for Data Mining” foi o ponto de partida desta tese.
Os valores da Variação da Distância do Carbono Alpha de cada resíduo ao Centro de
Massa da proteína foram obtidos ao longo de simulações de Dinâmica Molecular do
Desdobramento Proteico (MDPUS) da proteína TTR (Brito et. al., 2004).
Os passos seguidos foram os seguintes:
- Obtiveram-se as coordenadas da proteína TTR a partir da sua estrutura cristalográfica
e adicionam-se átomos de hidrogénio. Representaram-se todos os átomos
explicitamente (1917 átomos da proteína).
- As moléculas de água foram controladas e introduzidas através dos programas Dowser
(Zhang, 1996) e Solvate (Grubmiller, 1996). Com o programa Solvate foram também
introduzidos 145 mM de iões de NaCl à volta de proteína.
O sistema final, ilustrado na Figura 22, é constituído por 1917 átomos da proteína,
14418 moléculas de água, 45 iões de sódio e 40 iões de cloro, no total o sistema possui
45256 átomos.
41
Fonte: Brito (2004)
Figura 22 - Representação do sistema usado nas simulações de Dinâmica Molecular
O sistema foi elevado até à temperatura desejada sob a dinâmica de Langevin (dinâmica
que tenta aproximar os mecanismos naturais através de modelos simples).
Os parâmetros usados ao longo das simulações foram de 1 atm de pressão constante
(com a aplicação do método de Langevin (Feller et al., 1995)) e volume constante. Na
simulação de controlo o sistema foi sujeito a uma temperatura de 310 K e nas restantes
simulações a temperatura foi de 500 K (Brito, 2004).
Neste estudo foram simuladas várias desnaturações proteicas da proteína TTR no seu
estado natural WT-TTR e da proteína mutada L55P-TTR. Os valores da Distância do
Carbono Alpha da cada resíduo ao Centro de Massa foram registados e em estudo temos
5 quadros de dados com valores da WT-TTR (WTRUN2,WTRUN3,WTRUN4,
WTRUN5, WTRUN6) e 5 quadros de dados com valores da L55P-TTR. (L55PRUN1,
L55PRUN2, L55PRUN3, L55PRUN4, L55PRUN5).
4.1.1 Estudo Preliminar
Seja n é o número de frames e p o número de aminoácidos em estudo, o quadro de
dados que se obtêm contêm pn× observações e tem n linhas e p colunas. Cada coluna é
considerada como um ponto no espaço de dimensão n munido de uma estrutura
euclideana. As coordenadas de cada ponto são obtidas a partir dos valores dos
p aminoácidos da observação correspondente.
42
pj
j
ix
n
iX
.........................1
.
.
....
.
.
.
.
1
















=
Neste trabalho a matriz de dados tem 127 aminoácidos (43% hidrofóbicos) e 10001
registos, onde j
ix é o valor que o aminoácido j assume na frame i . As estruturas são
guardadas a cada picosegundo, isto é, 10000 em 10 nanosegundos de simulação mais a
estrutura inicial (tempo 0).
Numa primeira análise efectuou-se um estudo unidimensional dos aminoácidos com o
objectivo de analisar o seu comportamento ao longo da simulação da desnaturação da
TTR.
Na Tabela 5 são apresentados os valores máximos e mínimos atingidos nas dez
simulações.
Tabela 5 - Máximos e mínimos da distância do carbono alpha ao centro de massa
Corrida Mínimo(
0
Α ) Aminoácido Tempo(ps) Máximo(
0
Α ) Aminoácido Tempo(ps)
WTRUN 2 0,183 VAL_71 7023 43,284 GLY_1 6370
WTRUN 3 1,487 VAL_71 9891 40,44 GLY_1 1592
WTRUN 4 0,953 LEU_55 8678 40,053 GLY_1 1996
WTRUN 5 0,54 CYS_10 (*) 8468 50,332 GLU_127 6516
WTRUN 6 1,723 VAL_32 8096 40,139 GLY_1 7077
L55PRUN 1 0,139 ALA_37 9559 45,725 GLU_127 7686
L55PRUN 2 0,14 CYS_10 9049 38,376 GLU_127 9544
L55PRUN 3 1,02 VAL_71 9851 40,393 GLU_127 4085
L55PRUN 4 1,256 VAL_32 3687 38,678 GLY_1 6794
L55PRUN 5 1,14 VAL_14 4015 37,794 GLY_1 9824
(*) nesta corrida o aa. VAL_71 atinge o valor 0,547
0
Α
Quando se observa um filme da simulação da desnaturação proteica verifica-se,
visualmente, que as pontas da cadeia polipeptídica parecem perdidas no espaço, isto é,
entram e saem do “novelo” proteico como se fossem elementos esquecidos pela
proteína.
43
Quando se analisam os dados da simulação verifica-se, como era de esperar, que os
valores máximos são atingidos pelos aminoácidos das regiões terminais da cadeia
polipetídica. Na WT-TTR é a GLY_1 (hidrofóbico) que atinge mais vezes o valor
máximo enquanto que na L55P-TTR é a GLU_127. Os valores máximos na WT-TTR
são, nestas simulações, sempre superiores a 40.
Quanto aos aminoácidos que atingem o valor mínimo, na WT-TTR temos a VAL_71
que se destaca como sendo o aminoácido que atinge mais vezes o valor mínimo de
distância ao centro de massa. Na Figura 23 é possível observar o comportamento dos
aminoácidos GLY_1 e VAL_71 ao longo da desnaturação da TTR
(a) (b)
Figura 23 – Variação da distância do carbono alpha dos aminoácidos VAL_71 (a) e GLY_1 (b) ao
centro de massa da TTR ao longo de uma simulação de desnaturação da variante WT-TTR
(WTRUN2).
Ao longo da simulação WTRUN2, a GLY_1 mantêm valores sempre superiores a 10 e
apresenta um comportamento irregular, com frequentes afastamentos e aproximações ao
centro de massa. A Val_71 apresenta sempre valores inferiores a 10
0
Α , o que indica que
este resíduo se mantém sempre muito próximo do centro de massa ao longo da
simulação.
No Anexo I -A estão representados os gráficos com a localização de cada aminoácido
relativamente ao centro de massa nos instantes em que são atingidos os máximos e
mínimos para cada corrida.
Quanto aos instantes, em que são atingidos os valores extremos, importa referir o
seguinte:
44
- na WT-TTR o valor mínimo é sempre atingido depois dos 7000 ps, enquanto que na
L55P-TTR existem duas simulações onde o mínimo é atingido mais cedo (entre os 3500
ps e 4550 ps);
- na L55P-TTR o valor máximo é atingido depois dos 6500 ps, em 4 das 5 corridas,
enquanto que na WT-TTR o máximo é sempre atingido antes dos 7100 ps, sendo que
em duas corridas a GLY_1 afasta-se do centro de massa no início da corrida (1592 ps e
1996 ps).
No Anexo I-B pode ainda observar-se o comportamento do aminoácido da posição 55
nas duas variantes da proteína. Na L55P-TTR, em 3 das 5 corridas a PRO_55, tende a
afastar-se do Centro de Massa (toma valores superiores a 20
0
Α ). Na WT-TTR, em 3 das
5 corridas a LEU_55 mantêm valores no intervalo [0,10]
0
Α .
4.2 Clustering hierárquico
Uma forma de analisar grandes volumes de dados consiste em classificá-los em grupos
que revelem padrões entre si. No trabalho “A Closer Look on Protein Unfolding
Simulations through Hierarquical Clustering” (Ferreira et al., 2007), os autores
apresentam a aplicação do clustering hierárquico a um quadro de dados de variação de
SASA ao longo de diversas simulações de desnaturação da WT-TTR. A medida em
estudo foi a SASA e a construção do dendrograma foi enriquecida com informação dos
aminoácidos (distância entre os aminoácidos na estrutura primária, a distância espacial
entre resíduos ao longo da desnaturação e a propensão para a hidrofobicidade).
Nesta dissertação um dos objectivos da aplicação do clustering hierárquico é identificar
e comparar os clusters obtidos para cada variante de TTR. Pretende-se partir das 5
corridas de cada variante da TTR e obter duas partições dos aminoácidos que tenham
em conta a informação das cinco corridas da WT-TTR, obtendo-se a Partição I, e a
informação das cinco corridas da L55P-TTR, obtendo-se a Partição II. Um outro
objectivo é obter uma partição dos aminoácidos que considere toda a informação obtida
pelas 10 simulações (Partição consenso). A partir das classes obtidas pretende-se ainda
escolher o aminoácido representativo por classe, desta forma pode-se reduzir a
complexidade do problema passando de 127 aminoácidos em estudo para 15 que
representam o comportamento geral da TTR.
45
Cada corrida em estudo é um conjunto de 127 séries temporais e o que se pretende é
agrupar séries temporais, como referem Caiado el al.,(2006) o clustering de séries
temporais tornou-se uma área importante de pesquisa em várias áreas. Nos seus
trabalhos, Caiado et al. estudam, por exemplo, como agrupar séries temporais com e
sem o mesmo comprimento. Em Caiado el al.,(2006) é apresentada um métrica para o
clustering de séries temporais, que permite destingiur séries estacionárias de séries não-
estacionárias. Esta métrica é baseada no periodograma normalizado e é utilizado o
algoritmo de clustering hierárquico.
Nesta dissertação as séries apresentam todas o mesmo comprimento e o objectivo é
agrupar os aminoácidos relativamente à propriedade em estudo, isto é, os aminoácidos
que ficam no mesmo grupo, em princípio têm tendência para, ao longo da desnaturação,
apresentarem valores parecidos de distância ao centro de massa.
Para calcular e obter as classes foram utilizados as seguintes bibliotecas do R statistical
package: class, MASS, fpc. (Hennig, 2004)
4.2.1 Clustering de cada variante da proteína TTR
Nesta secção é apresentado como foram obtidas duas partições dos 127 aminoácidos da
proteína TTR. Considerem-se as cinco simulações da variante WT-TTR, para cada
corrida obteve-se uma partição dos aminoácidos. Para escolher o número de clusters
foram calculados e optimizados os índices G2 e G3 de Milligan e Cooper. Com as 5
partições foi construída uma partição consenso.
Nestas classificações a medida de dissemelhança usada foi a distância Euclideana
porque as variáveis são quantitativas contínuas e todas obtidas da mesma medida.
Quanto ao critério de agregação utilizou-se o método de Ward, indicado por vários
autores como sendo o melhor método para distâncias Euclideanas.
No Anexo II-A1 é apresentada a escolha do número de classes para cada clustering.
46
Tabela 6 – Número de clusters para cada simulação da WT-TTR
Nº de clusters
WTRUN2 14
WTRUN3 13
WTRUN4 14
WTRUN5 14
WTRUN6 13
Considerando as cinco simulações da variante L55P-TTR, para cada corrida obteve-se
uma partição dos aminoácidos. Para escolher o número de clusters foram novamente
calculados e optimizados os índices G2 e G3 de Milligan e Cooper. Com as 5 partições
foi construída uma partição consenso. No Anexo II-B1 é apresentada a escolha do
número de classes para cada clustering.
O número de classes obtido para cada clustering da L55P-TTR é dado na Tabela 7:
Tabela 7 - Número de clusters para cada simulação da L55P-TTR
Nº de clusters
L55PRUN1 15
L55PRUN2 17
L55PRUN3 14
L55PRUN4 13
L55RUNP5 11
A partir destas classificações pretende-se obter uma classificação para cada tipo de
proteína, isto é, pretende-se utilizar as 5 classificações da WT-TTR e obter uma partição
única dos resíduos. Para a L55P-TTR o processo é análogo. Desta forma pretende-se
diminuir o erro de classificação que se obteria se fosse só considerada uma corrida de
cada tipo de proteína. O que se obteve foram duas matrizes com 127 aminoácidos e 5
classificações para cada resíduo, logo estas matrizes têm de dimensões 127 x 5, como se
pode observar na Figura 24.
Figura 24 - Matriz das classificações para cada tipo de proteína TTR
47
A partir desta matriz pretende-se obter uma partição dos aminoácidos que considera as
classificações das cinco simulações. Para tal foi necessário definir uma medida de
dissemelhança e aplicar a classificação hierárquica sob a matriz de classificações.
Medida de dissemelhança
Partindo do princípio que os resíduos que se mantêm a distâncias semelhantes do centro
de massa são aqueles que ficam mais vezes na mesma classe, pretende-se uma medida
de dissemelhança na qual:
- a dissemelhança é nula para aminoácidos que ficam sempre na mesma classe;
- a dissemelhança é máxima para aminoácidos que nunca ficam na mesma
classe.
Como os aminoácidos com comportamentos semelhantes serão aqueles que mais
vezes ficaram na mesma classe, a medida de proximidade, aqui definida, compara os
resíduos dois a dois e conta o número de vezes que estes ficam na mesma classe,
tomando valores entre 0 e 5. A aplicação definida é { }5,4,3,2,1,0: 55
→ℜ×ℜD .
Considerem-se, por exemplo, dois resíduos cujos vectores na matriz das classificações
são os seguintes:
( )1,1,1,2,31 =aa ( )4,2,3,4,32 =aa
Estes aminoácidos só ficaram no mesmo cluster no primeiro clustering (partição da
primeira simulação), neste caso o valor de dissemelhança é 4. Se no primeiro
aminoácido o vector fosse ( )1,1,3,2,3'1 =aa a dissemelhança seria 3.
Verificação das propriedades de uma dissemelhança:
1. 0≥ijd , a dissemelhança entre dois resíduos é sempre maior ou igual a
zero.
2. jidd jiij ,,∀= . No exemplo anterior, a dissemelhança entre 1aa e 2aa é 4,
que é igual à dissemelhança entre 2aa e 1aa que também é 4.
48
3. jiij xxd =⇒= 0 a dissemelhança é nula quando os dois vectores das
classificações forem iguais.
Os valores da matriz de dissemelhanças são frequências absolutas no intervalo [0,5].
Partição consenso
Na introdução do Capítulo 3 já foi apresentada uma breve definição de partição
consenso, nesta secção pretende-se definir com mais exactidão em que consiste uma
partição consenso. Chama-se “Partição consenso” à partição obtida apartir de um
conjunto de diferentes partições obtidas dos mesmo individuos. Dadas 2≥t partições
( )trTr ,...,1= dos mesmos n objectos, a partição consenso sintetiza a informação
contida no conjunto de dados original e fornece um bom sumário das relações entre os
objectos. Os clusterings originais devem ser obtidos por análise dos objectos utilizando
t diferentes clusterings. (Gordon, 1999)
Neste ponto pretende-se obter uma partição dos aminoácidos para cada tipo de proteína
considerando as 5 partições de cada uma, logo o que se pretende é obter uma partição
consenso para WT-TTR e outra para a L55P-TTR. Para obter estas partições foi
aplicado o clustering hierárquico à matriz das classificações e o critério utilizado foi o
da Ligação Média.
O resultado do clustering sobre a matriz das classificações da WT-TTR é uma partição
dos 127 aminoácidos (partição I), que considera a informação das cinco simulações da
WT-TTR (Figura 25). A partição obtida divide os 127 aminoácidos em 11 grupos (ver
Tabela 20, Anexo II-A3).
Analogamente se obtêm uma partição dos 127 aminoácidos (partição II) mas
considerando a informação das cinco simulações da L55P-TTR. Isto é, aplicando a
classificação hieráquica à matriz das classificações da L55P-TTR (Figura 25), com a
medida de semelhança definida anteriormente e o critério de Ligação Média. A partição
obtida divide os 127 aminoácidos em 15 grupos (Tabela 26, Anexo II-B3).
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese
Tese

Weitere ähnliche Inhalte

Ähnlich wie Tese

Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...
Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...
Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...Luiza Nunes
 
Engenharias, Ciência e Tecnologia 4
Engenharias, Ciência e Tecnologia 4Engenharias, Ciência e Tecnologia 4
Engenharias, Ciência e Tecnologia 4Atena Editora
 
A informatica nas aulas de matematica
A informatica nas aulas de matematicaA informatica nas aulas de matematica
A informatica nas aulas de matematicaHugoenildo Fernandes
 
Engenharias, Ciência e Tecnologia 5
Engenharias, Ciência e Tecnologia 5Engenharias, Ciência e Tecnologia 5
Engenharias, Ciência e Tecnologia 5Atena Editora
 
2008 tese mrppereira
2008 tese mrppereira2008 tese mrppereira
2008 tese mrppereiraJuliana Braga
 
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzContagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzAndré Pontes Melo
 
Apostila estatistica
Apostila estatisticaApostila estatistica
Apostila estatisticaairton borin
 
As Ciências da Vida Frente ao Contexto Contemporâneo 2
As Ciências da Vida Frente ao Contexto Contemporâneo 2As Ciências da Vida Frente ao Contexto Contemporâneo 2
As Ciências da Vida Frente ao Contexto Contemporâneo 2Atena Editora
 
10 guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)
10   guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)10   guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)
10 guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)Gabrirel Mello Gomes Pedreira
 
proposições condicionais difusas modelagem difusa
proposições condicionais difusas modelagem difusaproposições condicionais difusas modelagem difusa
proposições condicionais difusas modelagem difusaalvaro nunes de magalhaes
 
Minha dissertação 2004
Minha dissertação 2004Minha dissertação 2004
Minha dissertação 2004Adriana Quevedo
 
Engenharias, Ciência e Tecnologia
Engenharias, Ciência e Tecnologia Engenharias, Ciência e Tecnologia
Engenharias, Ciência e Tecnologia Atena Editora
 
Analise de sobrevivência pacientes renais Ramires, T.G 2010
Analise de sobrevivência pacientes renais Ramires, T.G 2010Analise de sobrevivência pacientes renais Ramires, T.G 2010
Analise de sobrevivência pacientes renais Ramires, T.G 2010Thiago Gentil Ramires
 
Como Elaborar Um Relatorio
Como Elaborar Um RelatorioComo Elaborar Um Relatorio
Como Elaborar Um RelatorioArmin Caldas
 
Elaborar relatório cientifico
Elaborar relatório cientificoElaborar relatório cientifico
Elaborar relatório cientificoRomario Sousa
 
Resumo RelatóRios
Resumo   RelatóRiosResumo   RelatóRios
Resumo RelatóRiosguestb227f0
 
Relatorio Resumo
Relatorio  ResumoRelatorio  Resumo
Relatorio Resumoguesta96e9e
 

Ähnlich wie Tese (20)

Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...
Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...
Redes Neurais Artificiais Aplicadas na Determinação da Concentração de Compos...
 
gusmao_MSc_thesis
gusmao_MSc_thesisgusmao_MSc_thesis
gusmao_MSc_thesis
 
Engenharias, Ciência e Tecnologia 4
Engenharias, Ciência e Tecnologia 4Engenharias, Ciência e Tecnologia 4
Engenharias, Ciência e Tecnologia 4
 
A informatica nas aulas de matematica
A informatica nas aulas de matematicaA informatica nas aulas de matematica
A informatica nas aulas de matematica
 
Engenharias, Ciência e Tecnologia 5
Engenharias, Ciência e Tecnologia 5Engenharias, Ciência e Tecnologia 5
Engenharias, Ciência e Tecnologia 5
 
2008 tese mrppereira
2008 tese mrppereira2008 tese mrppereira
2008 tese mrppereira
 
Fins da Geologia
Fins da Geologia Fins da Geologia
Fins da Geologia
 
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzContagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
 
Apostila estatistica
Apostila estatisticaApostila estatistica
Apostila estatistica
 
Andrade 2012
Andrade   2012Andrade   2012
Andrade 2012
 
As Ciências da Vida Frente ao Contexto Contemporâneo 2
As Ciências da Vida Frente ao Contexto Contemporâneo 2As Ciências da Vida Frente ao Contexto Contemporâneo 2
As Ciências da Vida Frente ao Contexto Contemporâneo 2
 
10 guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)
10   guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)10   guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)
10 guilhardi, j. h. et al (2002). sobre comportamento e cognição (vol. 10)
 
proposições condicionais difusas modelagem difusa
proposições condicionais difusas modelagem difusaproposições condicionais difusas modelagem difusa
proposições condicionais difusas modelagem difusa
 
Minha dissertação 2004
Minha dissertação 2004Minha dissertação 2004
Minha dissertação 2004
 
Engenharias, Ciência e Tecnologia
Engenharias, Ciência e Tecnologia Engenharias, Ciência e Tecnologia
Engenharias, Ciência e Tecnologia
 
Analise de sobrevivência pacientes renais Ramires, T.G 2010
Analise de sobrevivência pacientes renais Ramires, T.G 2010Analise de sobrevivência pacientes renais Ramires, T.G 2010
Analise de sobrevivência pacientes renais Ramires, T.G 2010
 
Como Elaborar Um Relatorio
Como Elaborar Um RelatorioComo Elaborar Um Relatorio
Como Elaborar Um Relatorio
 
Elaborar relatório cientifico
Elaborar relatório cientificoElaborar relatório cientifico
Elaborar relatório cientifico
 
Resumo RelatóRios
Resumo   RelatóRiosResumo   RelatóRios
Resumo RelatóRios
 
Relatorio Resumo
Relatorio  ResumoRelatorio  Resumo
Relatorio Resumo
 

Tese

  • 1. Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica por Elisabeth Silva Fernandes Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientador: Professor Alípio Jorge Co-Orientador: Professor Rui Brito, Universidade de Coimbra Faculdade de Economia Universidade de Porto 2007
  • 2. i “If there is a hurricane, you always see the signs of it in the sky for days ahead, if you are at sea. They do not see it ashore because they do not know what to look for, he thought.” Ernest Hemingway, In The Old Man and the Sea (1952)
  • 3. ii Nota Biográfica Elisabeth Silva Fernandes é natural de Caracas, Venezuela, onde residiu até aos 6 anos. Em 1988 iniciou o seu percurso escolar em Amares. Em 2005 concluiu a licenciatura em Matemática no Ramo Científico da Matemática Aplicada pela Faculdade de Ciências da Universidade do Porto. No mesmo ano inscreve-se no Mestrado em Análise de Dados e Sistemas de Apoio à Decisão.
  • 4. iii Agradecimentos No final desta dissertação gostaria de agradecer a todos os que me ajudaram a cumprir este objectivo pessoal, sem eles não teria sido possível realizar este trabalho. Ao Professor Rui Brito agradeço a pronta disponibilidade, para esclarecimentos de dúvidas, e os conselhos científicos muito importantes para a compreensão do problema em estudo. À Professora Paula Brito pela atenção e disponibilidade com que me recebeu para esclarecer dúvidas importantes para a resolução do problema. Ao Professor Alípio o meu sincero muito obrigada pela dedicação com que orientou todo o trabalho, a pronta disponibilidade, os conselhos, a paciência e todo o apoio que foi fundamental para a realização deste trabalho. Aos meus pais e às minhas irmãs pela compreensão, quando não estive presente em momentos importantes da família, e pelo apoio nas horas em que desanimei. Ao meu namorado pela paciência com que me ouviu falar horas a fio da dissertação e pelas palavras de incentivo. E finalmente, gostaria de agradecer o facto deste trabalho fazer parte do projecto, 2007/2010 - PTDC/BIA-PRO/72838/2006, “Procura de regras de alto nível em dobragem e desdobragem de proteínas: das doenças amiloidogénicas à previsão da estrutura proteica”.
  • 5. iv Resumo Nesta dissertação é apresentado um processo de Extracção de Conhecimento de dados obtidos a partir de simulações da desnaturação de uma proteína. A proteína em estudo, designada por Transtirretina (TTR), é causadora da “Doença dos Pezinhos” (cujo nome científico é polineuropatia amiloidótica familiar (PAF)). A propriedade molecular em estudo é a variação da distância do aminoácido ao centro de massa. Esta medida foi registada ao longo de 10 desnaturações de TTR, 5 simulações de uma variante normal WT-TTR e 5 simulações de uma variante mutada L55P-TTR, e obtiveram-se 10 quadros de dados com dimensões elevadas. Com a aplicação de técnicas de Data Mining procurou-se extrair conhecimento útil destes dados. A análise multidimensional consistiu, inicialmente, em obter três partições dos 127 aminoácidos da TTR, uma primeira partição que só considera as 5 corridas da TTR no estado normal, uma segunda partição que só considera a informação das 5 corridas da TTR no estado mutado, e uma terceira partição que considera toda a informação das 10 simulações (excepto do aminoácido nº55). A 1ª e 2ª partições permitiram comparar os clusters obtidos para cada variante de TTR e foram detectadas diferenças significativas nos clusters. Com a terceira partição obtiveram-se os aminoácidos representativos de cada cluster (14 aminoácidos) reduzindo-se assim o número de elementos em análise. Pretendia-se ainda encontrar eventos, isto é, mudanças de comportamento significativas dos aminoácidos, e para tal estudou-se isoladamente os aminoácidos representativos. Foram procurados dois eventos que consistem na comparação dos aminoácidos dois a dois quanto às suas posições relativamente ao centro de massa. Com os eventos obtidos foram procuradas regras de associação, que relacionam os eventos e a variante de TTR com mais propensão para ocorrência de determinado evento. Para complementar o estudo foi feita uma procura de um terceiro evento por aminoácido (com os 127 aminoácidos) e foram obtidas regras de associação que indicam qual a variante de TTR com mais probabilidade de ocorrência desse evento. Através do estudo da variação desta propriedade molecular da proteína ao longo do processo de desnaturação, obtiveram-se resultados que podem contribuir para uma melhor compreensão dos mecanismos moleculares da PAF.
  • 6. v Índice Resumo.....................................................................................................iv Índice......................................................................................................... v Índice de figuras.....................................................................................vii Índice de tabelas......................................................................................ix 1 Introdução.......................................................................................... 1 1.1 Objectivos.......................................................................................................1 1.2 Estrutura do trabalho.......................................................................................2 2 As Proteínas ....................................................................................... 3 2.1 Aminoácidos...................................................................................................4 2.2 Estruturas das Proteínas...................................................................................5 2.3 Patologias humanas e Enrolamento proteico....................................................8 2.4 O Processo de enrolamento das Proteínas......................................................10 2.4.1 A Hipótese Termodinâmica......................................................................10 2.4.2 Paradoxo de Levinthal..............................................................................11 2.4.3 Funil de Folding.......................................................................................11 2.5 Dinâmica Molecular - Simulação da desnaturação proteica ...........................13 2.6 Propriedades Moleculares..............................................................................15 2.7 Novas medidas em estudo .............................................................................16 3 Extracção de Conhecimento de Dados (KDD) ............................... 18 3.1 Processo de Extracção de Conhecimento.......................................................19 3.1.1 Data Mining – Tarefas..............................................................................20 3.1.2 Metodologia.............................................................................................21 3.2 Análise de clusters.........................................................................................23 3.2.1 Clustering hierárquico..............................................................................26 3.3 Eventos .........................................................................................................34 3.4 Regras...........................................................................................................36 3.4.1 Regras de Associação...............................................................................36 4 Processo de Extracção de Conhecimento de dados de simulação de Desnaturação Proteíca ........................................................................... 39 4.1 Descrição dos dados......................................................................................40 4.1.1 Estudo Preliminar.....................................................................................41 4.2 Clustering hierárquico...................................................................................44 4.2.1 Clustering de cada variante da proteína TTR ...........................................45 4.2.2 Partição consenso.....................................................................................50 4.2.3 Escolha dos Aminoácidos que representam cada uma das classes.............56 4.3 Procura de Eventos........................................................................................58 4.3.1 Comparação de aminoácidos dois a dois...................................................58 4.3.2 Procura de alterações significativas por aminoácido. ................................65
  • 7. vi 4.4 Procura de Regras de Associação ..................................................................68 4.5 Valor das regras obtidas ................................................................................70 4.5.1 Como controlar o risco de falsas descobertas?..........................................70 4.5.2 Como medir a aleatoriedade das regras obtidas?.......................................72 5 Conclusão......................................................................................... 74 Bibliografia............................................................................................. 76 Anexos..................................................................................................... 76 Anexo I – Análise Univariada..................................................................................84 A. Valores máximos e mínimos atingidos em cada corrida............................84 B. Gráficos do aminoácido da posição 55 ao longo das 10 simulações ..........86 Anexo II – Classificação hierárquica - Resultados ...................................................88 A. Clustering da WT-TTR ............................................................................88 A1- Optimização dos Índices de Milligan e Cooper .............................................88 A2- Custering de cada corrida da WT-TTR..........................................................90 A3- Partição consenso da WT-TTR ...................................................................101 B. Clustering da L55P-TTR ........................................................................102 B1 – Optimização dos Índices de Milligan e Cooper..........................................102 B2- Clustering de cada corrida da L55P-TTR ....................................................103 C. Partição consenso - sem a posição 55 .....................................................113 D. Escolha dos aminoácidos Representativos (sem pos. 55) .......................113 Anexo III – Eventos...............................................................................................114 A. Comparação de aminoácidos dois a dois.................................................114 Evento Nº 1 - “troca” de posição entre dois aminoácidos ...................................114 Evento Nº 2 - “ Existem duas trocas de comportamento de dois aminoácidos em relação ao centro de massa da proteína”.............................................................115 B. Procura de um evento por aminoácido....................................................117 Anexo IV- Regras de Associação...........................................................................120 A. Análise Gráfica da regra nº1...................................................................120 Anexo V- Código em R.........................................................................................122
  • 8. vii Índice de figuras Figura 1 - Estrutura Primária ........................................................................................6 Figura 2 - Estrutura Secundária ....................................................................................6 Figura 3 - Estrutura Terciária........................................................................................7 Figura 4 - Estrutura Quaternária ...................................................................................7 Figura 5 - Estrutura das proteínas .................................................................................7 Figura 6 – Modelo de formação de placas de amilóide..................................................8 Figura 7 – Representação Esquemática da estrutura tridimensional do tetramero WT- TTR (A) e de uma subunidade da WT-TTR (B).....................................................9 Figura 8 - (a) Funil de Folding (conceito de paisagem de energia): O caminho A indica um processo rápido de folding, o caminho B indica um processo de folding mais lento; (b) Superfície de Energia do processo de folding........................................12 Figura 9 - Ilustração das várias superfícies..................................................................15 Figura 10 - Variação da distância dos aminoácidos ao centro de massa.......................16 Figura 11 - Distâncias aos 3 vizinhos mais próximos do átomo X...............................17 Figura 12 – Dados 3-D ...............................................................................................17 Figura 13 – Evolução das técnicas de Análise de Dados .............................................18 Figura 14 – “O caminho para o conhecimento”...........................................................19 Figura 15 - Modelo CRISP-DM..................................................................................22 Figura 16 - Fases de uma Análise de Clusters. ............................................................24 Figura 17 - Critério de Validação Externo ..................................................................29 Figura 18 - Critério de Validação Interno....................................................................30 Figura 19 - Critério de Validação Relativo..................................................................30 Figura 20 - Tipos de Episódios ...................................................................................35 Figura 21-Processo de Extracção de Conhecimento....................................................40 Figura 22 - Representação do sistema usado nas simulações de Dinâmica Molecular..41 Figura 23 – Variação da distância do carbono alpha dos aminoácidos GLY_1 (a) e VAL_71 (b) ao centro de massa da TTR ao longo de uma simulação de desnaturação da variante WT-TTR (WTRUN2)...................................................43 Figura 24 - Matriz das classificações para cada tipo de proteína TTR ........................46 Figura 25 - Partição da WT-TTR e da L55P-TTR.......................................................49 Figura 26 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....50 Figura 27 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....51 Figura 28 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....51 Figura 29 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....51 Figura 30 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....52 Figura 31 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....52 Figura 32 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....53 Figura 33 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....53 Figura 34 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....53 Figura 35 - Índices de Milligan e Cooper – G2 e G3 - para a simulação WTRUN2....54 Figura 36 – Partição consenso na sequência de aminoácidos inicial............................55 Figura 37- Aminoácidos Representativos....................................................................57 Figura 38 – Zona de Viragem .....................................................................................58 Figura 39 – LEU_17 aproxima-se do centro de massa ao mesmo tempo que GLU_42 se afasta do centro de massa.....................................................................................59
  • 9. viii Figura 40 – (a) Os 10 eventos mais frequente nas 10 simulações; (b) Os 10 eventos mais frequentes nas simulações da WT-TTR; (c) Os 10 eventos mais frequentes nas simulações da variante L55P-TTR. ................................................................60 Figura 41 –Procura do evento 1- ALA_91 troca com GLU_42 ao longo das 5 corridas da WT-TTR. Na corrida WT2 e na corrida WT6 existe troca, com estabilidade de 300 frames...........................................................................................................61 Figura 42 – Procura do evento 1- ALA_91 troca com GLU_42 ao longo das 5 corridas da L55P-TTR. Não se verifica a ocorrência do evento. ........................................61 Figura 43 – Teste de Kruskal- Wallis..........................................................................62 Figura 44 – O tempo foi dividido em três secções, procura-se a situação em que a relação de dois aminoácidos com o centro de massa é trocada duas vezes e mantêm-se ao longo de n frames de cada secção. .................................................62 Figura 45 –Procura do evento 17 - GLU_42_troca_2x_A_ALA_91 ao longo das 5 corridas da L55P-TTR. Na corrida L55_3 não existem duas trocas de comportamento....................................................................................................63 Figura 46 – Teste de Kruskal-Wallis...........................................................................64 Figura 47 – Análise gráfica do evento “existência de uma alteração significativa no comporta-mento do aminoácido PRO_86” que se verifica nas corridas WT2, WT3, WT4, WT5, WT6, L55_1.....................................................................................66 Figura 48 – Análise gráfica do evento “existência de uma alteração significativa no comporta-mento do aminoácido PRO_86” nas corrdas onde não se verifica o evento..................................................................................................................66 Figura 49 – Teste Kruskal-Wallis ...............................................................................67 Figura 50 – Evolução da distância ao centro de massa do aminoácido LEU_55 da variente WT-TTR. ...............................................................................................86 Figura 51 – Evolução da distância ao centro de massa do aminoácido LEU_55 da variente WT-TTR. ...............................................................................................87 Figura 52 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN2 ......88 Figura 53 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN3 ......88 Figura 54 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN4 ......89 Figura 55 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN5 ......89 Figura 56 - Índices de Milligan e Cooper – G2 e G3 para a simulação WTRUN6 ......89 Figura 57 - Clustering de cada corrida da WT-TTR ....................................................90 Figura 58 - Dendrograma WT-TTR..........................................................................101 Figura 59 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN1..102 Figura 60 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN2..102 Figura 61 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN3..102 Figura 62 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN4..103 Figura 63 - Índices de Milligan e Cooper – G2 e G3 para a simulação L55PRUN5..103 Figura 64 - Clustering de cada corrida da L55P-TTR................................................103 Figura 65 - Dendrograma L55P-TTR........................................................................112 Figura 66 - Dendrograma TTR .................................................................................113
  • 10. ix Índice de tabelas Tabela 1 - Principais funções das proteínas....................................................................3 Tabela 2 – Aminoácidos................................................................................................5 Tabela 3 – Tarefas de Data Mining..............................................................................21 Tabela 4 – Algumas Medidas de Interesse ...................................................................38 Tabela 5 - Máximos e mínimos da distância do carbono alpha ao centro de massa.......42 Tabela 6 – Número de clusters para cada simulação da WT-TTR ................................46 Tabela 7 - Número de clusters para cada simulação da L55P-TTR ..............................46 Tabela 8 - Número de clusters óptimas para cada simulação........................................54 Tabela 9 - Partição Consenso.......................................................................................55 Tabela 10- Frequência do evento nº1 para cada variante de TTR .................................63 Tabela 11 – Eventos mais frequentes na proteína L55P-TTR e que não se verificam na WT-TTR .............................................................................................................64 Tabela 12- Eventos mais frequentes na WT-TTR.........................................................64 Tabela 13 - Comportamento do aminoácido PRO_86 ..................................................65 Tabela 14 – Aminoácidos com comportamentos mais variáveis...................................67 Tabela 15 - WTRUN2- Classificação hierárquica: elementos das 14 classes................90 Tabela 16 - WTRUN3- Classificação hierárquica: elementos das 13 classes................93 Tabela 17 - WTRUN4- Classificação hierárquica: elementos das 14 classes................95 Tabela 18 - WTRUN5- Classificação hierárquica: elementos das 14 classes................97 Tabela 19 - WTRUN6- Classificação hierárquica: elementos das 13 classes................99 Tabela 20 – Clustering da WT (Partição I).................................................................101 Tabela 21 – Clustering da L55PRUN1: 15 classes.....................................................104 Tabela 22 - Clustering da L55PRUN2: 17 classes......................................................105 Tabela 23 - Clustering da L55PRUN3: 14 classes......................................................107 Tabela 24 - Clustering da L55PRUN4: 13 classes......................................................108 Tabela 25 - Clustering da L55PRUN5: 11 classes......................................................110 Tabela 26 – Classificação L55 (PartiçãoII) ................................................................112 Tabela 27 – Aminoácidos Representativos.................................................................113 Tabela 28- Eventos “troca” de posição entre dois aminoácidos..................................114 Tabela 29- Eventos “troca” de posição entre dois aminoácidos..................................115 Tabela 30- Aminoácidos onde se verificou o evento “alteração significativa no comportamento do aminoácido”........................................................................117 Tabela 31 - Frequência dos eventos e janela onde ocorre a alteração mais significativa (com maior declive)...........................................................................................118
  • 11. 1 1 Introdução Actualmente são realizados inúmeros esforços no estudo e investigação das causas e curas para variadíssimas doenças. Nas últimas décadas novas doenças têm sido alvo de importantes estudos, entre as quais as doenças amilóides. Deste grupo de maleitas fazem parte doenças bem conhecidas como o Alzheimer e a Paramiloidose (mais conhecida por Doença dos Pezinhos). (Brito et. al., 2004) Várias são as tentativas para perceber as origens das doenças amilóides. Sabe-se por exemplo que estas estão associadas a alterações conformacionais e à agregação das proteínas associadas a estas doenças. A procura da origem destas doenças tem despertado o interesse entre os bioquímicos e não só. Actualmente, este é um problema multidisciplinar no qual são utilizadas ferramentas de diferentes áreas. Os quadros de dados em estudo nesta área têm dimensões elevadas o que exige aos estudiosos a procura de novos métodos de análise, métodos estes que permitam obter o maior conhecimento possível sem perda de informação. O que se verifica é que as técnicas de Extracção de Conhecimento de Dados permitem atingir este objectivo. Com o aumento do volume de dados nas diversas áreas de estudo, os métodos de Data Mining têm sido refinados e adaptados às novas situações. 1.1 Objectivos Nesta dissertação pretende-se, com a ajuda de técnicas de Extracção de Conhecimento de Dados, analisar a desnaturação da proteína causadora da Paramiloidose, transtirretina (TTR). O objectivo é estudar a distância dos aminoácidos ao centro de massa da proteína ao longo da desnaturação da proteína TTR e encontrar características desta que possam contribuir, positivamente, para a futura descoberta das causas e soluções desta doença.
  • 12. 2 1.2 Estrutura do trabalho Esta dissertação está dividida em duas partes: uma primeira onde são explicados os fundamentos teóricos necessários para a compreensão do problema em estudo; e uma segunda parte onde é apresentada toda a análise efectuada aos dados. Do desenvolvimento teórico fazem parte os capítulos 2 e 3. No capítulo 2 são introduzidas algumas definições da biologia molecular e são apresentadas as razões de tão grande interesse nesta área da investigação. No capítulo 3 são abordadas as Técnicas de extracção de conhecimento de dados utilizadas neste estudo. No capítulo 4 é apresentado todo o processo de extracção de conhecimento dos dados resultantes das simulações de desnaturação proteica. Neste capítulo são apresentadas as várias análises efectuadas aos dados e os resultados obtidos com a aplicação das técnicas de extracção de conhecimento referidas no capítulo 3. No capítulo 5 consta a conclusão do trabalho desenvolvido. Em anexo está toda a informação necessária para complementar o estudo realizado ao longo desta dissertação.
  • 13. 3 2 As Proteínas A palavra proteína deriva da palavra grega “proteios”, que significa “ primeiro”. Esta designação tem origem na elevada importância das proteínas na vida, uma vez que as proteínas têm um elevado peso na constituição dos organismos vivos (Morrison et. al., 1992). As proteínas são macromoléculas que desempenham funções biológicas fundamentais para o equilíbrio dos organismos vivos. Estas funções são múltiplas e as principais encontram-se resumidas na Tabela 1. Tabela 1 – Principais funções das proteínas Função Exemplo Estrutural Conferem rigidez e consistência aos tecidos Colagénio - proteína de alta resistência da pele Enzimática Catalisam e regulam as reacções bioquímicas Lipases - transformam os lípidos nas suas unidades Hormonal Exercem uma função específica sobre algum órgão ou estrutura Insulina Defesa Defesa contra elementos estranhos ao organismo Anticorpos Transporte Entre as várias actividades de transporte podem, por exemplo, transportar gases para as células Hemoglobina Segundo Morrison et. al., (1992) as proteínas dividem-se em duas grandes classes: proteínas fibrosas, insolúveis em água, e proteínas globulares, solúveis em água ou em soluções aquosas. Esta classificação está relacionada com a forma das moléculas. As proteínas fibrosas são estruturas alongadas e filamentosas. As proteínas globulares apresentam-se dobradas sobre si próprias e formam unidades compactas. Diversos factores do meio podem levar à destruição/desnaturação da molécula da proteína, tais como a variação da temperatura, do pH, ou a presença de agentes químicos. Desta forma a proteína perde a estrutura tridimensional que lhe permitia desempenhar as suas funções no organismo. Um exemplo simples de desnaturação
  • 14. 4 ocorre com o ovo estrelado, isto é, as proteínas da clara do ovo quando sujeitas a temperaturas elevadas desnaturam e precipitam. Este é o motivo pelo qual a clara do ovo adquire a cor branca (Morrison et. al., 1992). A perda da estrutura tridimensional de uma proteína leva à perda das suas funções, em alguns casos origina a formação de agregados fibrilares os quais se depositam nos tecidos originando diversas doenças. Para uma melhor compreensão do problema em estudo, do ponto de vista bioquímico, nas próximas secções são abordados os seguintes temas: como é constituída uma proteína, quais as suas estruturas possíveis, quais as consequências de proteínas mal formadas e quais as características moleculares de interesse para o seu estudo. 2.1 Aminoácidos As proteínas são constituídas por aminoácidos. Cada uma destas unidades é um ácido orgânico COOH− no qual o carbono próximo do grupo (chamado carbono alfa) está também ligado a um grupo 2NH− . O carbono alfa também se liga a uma cadeia lateral (R), que é diferente para cada aminoácido, isto é, as características de cada aminoácido variam consoante a composição química da cadeia lateral. Os vinte aminoácidos existentes na natureza foram classificados, quanto à sua cadeia lateral, em quatro grupos: ácidos, básicos, polares e não polares. (Robertis et. al., 1987) Os aminoácidos diferem no tamanho e em várias propriedades físicas e químicas nomeadamente a hidrofobicidade, isto é, o quanto os aminoácidos evitam a água (Cejtin et. al., 2002). O efeito hidrofóbico tem como resultado a associação das partes hidrofóbicas (apolares) das moléculas quando em meio aquoso sendo esta interacção, por vezes, conhecida como “ligação hidrofóbica”. Os aminoácidos que tendem a interagir favoravelmente com a água são classificados como hidrofílicos.
  • 15. 5 Na primeira coluna da Tabela 2 é possível observar as famílias de aminoácidos, sendo esta classificação importante para na análise dos dados comparar alguns dos resultados obtidos. Tabela 2 – Aminoácidos Família do Aminoácido Designação Símbolo com 3 letras Símbolo com 1 letra Lisina LYS L Arginina ARG RBásico Histidina HIS H Ácido Aspártico ASP D Ácido Ácido Glutâmico GLU E Asparagina ASN N Glutamina GLN Q Serina SER S Treonina THR T Polar (hidrofílicos) Tirosina TYR Y Triptofano TRP W Glicina GLY G Valina VAL V Leucina LEU L Isoleucina ILE I Prolina PRO P Fenilalanina PHE F Metionina MET M Não Polar (hidrofóbicos) Alanina ALA A Cisteína CYS C Fonte: Alberts et. al., 1994, pp.56. 2.2 Estruturas das Proteínas As proteínas são sintetizadas como uma sequência linear de aminoácidos. Na cadeia de aminoácidos estabelecem-se interacções entre eles o que origina o enrolamento da proteína. No final, deste processo de enrolamento, a proteína adquire uma estrutura tridimensional única. A estrutura tridimensional de uma proteína pode ser descrita em quatro níveis.
  • 16. 6 - Estrutura primária: Consiste na sequência linear aleatória de aminoácidos que formam uma cadeia polipeptídica. A sequência de aminoácidos tem elevada importância, pois basta a troca de dois aminoácidos, ou a substituição de um qualquer para produzir importantes alterações biológicas. Por exemplo, a doença hereditária denominada por anemia falsiforme tem origem na substituição de um aminoácido na molécula de hemoglobina. Figura 1 - Estrutura Primária - Estrutura secundária: é o resultado do arranjo espacial entre aminoácidos próximos na cadeia peptídica. Dois dos principais elementos de estrutura secundária são: - α -hélice: tipo mais comum da estrutura secundária que se caracteriza por uma estrutura helicoidal estabilizada por ligações de hidrogénio estabelecidas entre os grupos CO− e NH− de aminoácidos que distam entre si 4 resíduos. (Morrison et. al., 1996). - folha β : estrutura estendida, constituída por associação lateral de segmentos peptídicos numa orientação paralela ou anti-paralela, mantida por ligações de hidrogénio. Fonte: Alberts B. et. al.,1994. Figura 2 - Estrutura Secundária - Estrutura terciária: A estrutura terciária está relacionada com as dobras da cadeia proteíca sobre ela mesma. Esta estrutura descreve um arranjo espacial global dos aminoácidos numa proteína, podendo estes estar bastante separados entre si na sequência linear.
  • 17. 7 Fonte: Alberts B. et. al.,1994. Figura 3 - Estrutura Terciária - Estrutura quaternária: Certas proteínas são constituídas por mais de uma cadeia proteica, a estrutura quaternária é o resultado da disposição espacial relativa de subunidades proteicas em proteínas complexas formadas por duas ou mais cadeias polipeptídicas. Fonte: Alberts B. et. al.,1994. Figura 4 - Estrutura Quaternária Na Figura 5 encontram-se ilustradas diferentes estruturas que uma proteína pode tomar proteínas. Figura 5 - Estrutura das proteínas
  • 18. 8 Cada proteína tem uma estrutura primária e tridimensional única, e como tal, cada proteína desempenha uma função biológica específica. A hidrofobicidade, mencionada anteriormente, é referida por vários autores como um factor importante na organização da estrutura tridimensional de uma proteína. (Kauzmann W. 1964), (Cejtin, H. 2002), (Pace, C. N. 1996). Segundo Kauzmann W. (1964), 25 a 40% dos aminoácidos de uma cadeia paptídica são hidrofóbicos. Este tipo de aminoácidos tem pouca afinidade com a água, logo espera-se que as proteínas tendam a enrolar-se de tal forma que estes aminoácidos fiquem no interior da molécula. Nos trabalhos de Shirley et. al., (1992) e Pace et. al., (1996) é referido que o efeito hidrofóbico tem sido considerado como uma força dominante no enrolamento das proteínas, no entanto as ligações de hidrogénio são também um factor relevante. As pontes de hidrogénio desempenham um importante papel no enrolamento das cadeias polipeptídicas e na formação da estrutura secundária. 2.3 Patologias humanas e Enrolamento proteico As proteínas são macromoléculas com funções importantíssimas nas células, logo é fundamental que o enrolamento das proteínas seja um processo bem sucedido, pois caso contrário, pode originar alterações graves no processo biológico e por vezes irreversíveis. Das várias patologias originadas pelo errado enrolamento proteico, neste trabalho irá ser dada especial atenção às Amiloidoses. As amiloidoses são doenças que têm origem na acumulação, sob a forma de placas, de quantidades elevadas de proteína incorrectamente enrolada (proteína insolúvel) nos tecidos. (Quintas et. al., 2001) Fonte: Quintas et. al., (2001) Figura 6 – Modelo de formação de placas de amilóide
  • 19. 9 As doenças amilóides são classificadas consoante os sinais clínicos e o tipo de proteína amilóide envolvida. Neste trabalho a doença amiloidótica em estudo é a Paramiloidose também designada por Polineuropatia Amiloidótica Familiar tipo I, de Andrade ou tipo Português, ou mais vulgarmente “Doença dos Pezinhos”. Esta doença foi descrita pela primeira vez pelo neurologista português Mário Corino de Costa Andrade. (Andrade, 1952) A Paramiloidose é uma doença neurológica, crónica, progressiva e hereditária de transmissão autossómica dominante1 que afecta o sistema nervoso. O gene responsável pela produção da proteína mutada característica desta doença localiza-se no braço longo do cromossoma 18. A proteína expressa por este gene é a Transtirretina (TTR) que é uma proteína homotetramérica, isto é, a TTR é constituída por 4 monómeros cada um dos quais constituídos por 127 aminoácidos. (Luís, 2006) A estrutura tridimensional da TTR encontra-se representada simplificadamente na Figura 7. Fonte: Quintas et. al., 1999. Figura 7 – Representação Esquemática da estrutura tridimensional do tetramero WT-TTR (A) e de uma subunidade da WT-TTR (B) Quando a TTR sofre uma mutação pode obter-se uma variante patogénica da proteína. A proteína mutada mais comum no tipo português é a TTR Val30Met que resulta da substituição de uma Valina na posição 30 por uma Metionina. Actualmente são conhecidas mais de 80 variantes patogénicas da TTR (Luis, 2006). 1 Um indivíduo portador do gene desta doença (seja homozigótico ou heterozigótico) vai manifestá-la.
  • 20. 10 Uma das variantes mais amiloidogénicas é a Leu55Pro (L55P-TTR), esta variante é resultado da substituição da Leucina na posição 55 por uma Prolina. Neste trabalho, irão ser estudados dados relacionados com esta variante patogénica e com a proteína não mutada designada por wild-type (WT-TTR). 2.4 O Processo de enrolamento das Proteínas Nas últimas 5 a 6 décadas foram apresentadas várias hipóteses para procurar compreender como é que uma proteína atinge a sua estrutura tridimensional nativa2 . Neste capítulo é apresentada uma síntese dos trabalhos desenvolvidos. 2.4.1 A Hipótese Termodinâmica Durante a década de 50, do século XX, Christian Anfinsen procurou dar resposta às seguintes questões: - Porque é que a proteína enrola para a estrutura nativa? - Será ajudada por outras moléculas? - Porque é que a estrutura nativa é única? Para responder a estas questões Anfinsen realizou várias experiências com a proteína RNaseA que deram origem à hipótese termodinâmica (HT). Segundo a HT o enrolamento das proteínas é um processo espontâneo, acompanhado pela libertação de energia livre no qual o sistema passa a ocupar um estado de menor energia, portanto mais estável. Logo o estado mais estável no enrolamento da proteína é o estado nativo porque corresponde ao estado de energia mais baixo. (Honig, 1999) Segundo esta hipótese, o estado nativo é único porque é determinado por uma sequência de aminoácidos única e a procura do estado nativo é aleatória. Em 1968, Cyrus Levinthal mostrou que a hipótese termodinâmica não resolvia todas as questões no enrolamento proteico. (Levinthal, 1968) 2 Conformação obtida no final do processo de enrolamento/folding da sequência de aminoácidos.
  • 21. 11 2.4.2 Paradoxo de Levinthal A hipótese de que o processo de enrolamento/folding ocorre de forma aleatória através de todas as conformações possíveis até encontrar a conformação correcta foi refutada em 1968 por Cyrus Levinthal através de um argumento simples. Considere-se uma proteína com 100 aminoácidos e cada aminoácido com 2 conformações possíveis, porque dois é o número mínimo de conformações por aminoácido. O que se obteria seriam 100 2 conformações possíveis, entre as quais está a que corresponde ao estado nativo. Considere-se ainda que a proteína levaria 1 picosegundo a tentar cada combinação, que é o tempo de vibração térmica, então o tempo necessário para explorar todo o espaço conformacional seria 100 2 ps que é aproximadamente 10 109.3 × anos. Mas o tempo de vida estimado do Universo é de 10 104.1 × anos! Lenvinthal concluiu que a HT não explica a escala de tempo do processo de folding das proteínas. (Levinthal, 1968) (Honig, 1999) Para resolver este problema Levinthal, C. (1968) propôs a Hipótese Cinética, na qual defende que o estado nativo não corresponde ao estado termodinâmico mais estável, mas sim, ao estado de energia mínima que é o mais acessível do ponto de vista cinético. Segundo Honig (1999) na década de 90, verificou-se que esta hipótese por si só também não resolvia a questão e surge uma teoria unificada, que se baseia na natureza estatística do processo (Wolynes et. al., 1995) (Dill e Chan, 1997). 2.4.3 Funil de Folding Segundo a actual perspectiva de enrolamento das proteínas, este ocorre numa hiper- superfície de energia num espaço com algumas centenas ou milhares de graus de liberdade, em que as zonas de baixa energia (‘vales’) se encontram separadas umas das outras por barreiras de energia (‘cumes’). Esta superfície é uma função de energia potencial complexa e multidimensional (Honig, 1999). Se esta superfície for muito acidentada, a proteína vai encontrar muitas barreiras de energia. Se por outro lado for muito plana, a proteína vai andar eternamente à procura do seu estado nativo. Logo a proteína precisa de uma orientação para explorar a paisagem de energia até atingir o seu
  • 22. 12 estado nativo. A topografia da paisagem de energia é em forma de funil, para que a proteína deslize de uma forma mais fácil até ao estado nativo (Figura 8). (a) (b) Figura 8 - (a) Funil de Folding (conceito de paisagem de energia): O caminho A indica um processo rápido de folding, o caminho B indica um processo de folding mais lento; (b) Superfície de Energia do processo de folding. O topo do funil corresponde a todas as conformações desnaturadas possíveis, que são as conformações menos estáveis, ou seja, de maior energia. À medida que a proteína se enrola a energia vai diminuindo até atingir o mínimo global na conformação nativa. (Honig, 1999) Esta nova perspectiva reconcilia as hipóteses termodinâmica e cinética, porque o estado nativo pode ser o estado termodinâmico mais estável, e a procura desse estado não é aleatória uma vez que existem vários caminhos de folding possíveis (Pande et. al., 1998). Os caminhos de folding implicam “uma boa definição da sequência de eventos” (Levinthal, 1968) onde “evento” é a transição de uma fase para a outra. Pande et. al., (1998) introduz o termo “neo-clássico” para definir esta nova perspectiva porque o processo de folding da proteína pode ser entendido como uma extensão da teoria clássica que considera o mecanismo estatístico do processo. No entanto, ainda não está tudo resolvido! Para proteínas pequenas pode garantir-se que se sabe quase tudo mas para proteínas grandes os mecanismos de folding ainda são desconhecidos. Desde a segunda metade do século XX vários investigadores se empenham em analisar o folding das proteínas. Em 1999, Honig, apresenta uma análise da evolução dos estudos. Segundo este autor verificaram-se importantes avanços na previsão da estrutura das proteínas, no entanto, para Honig, este progresso depende em parte da combinação
  • 23. 13 entre a compreensão dos princípios fisico-químicos e a análise sofisticada de informação válida. Segundo Pande (1998) a natureza dos caminhos de folding pode, em príncipio, ser completamente compreendida através de simulação directa em computador onde todos os detalhes são acessíveis. Desta forma, faz todo o sentido, obter simulações da desnaturação proteíca da TTR, para encontrar características importantes desta proteína através de técnicas de extracção de conhecimento de dados. 2.5 Dinâmica Molecular - Simulação da desnaturação proteica Analisar e compreender as relações entre a sequência e a estrutura das proteínas tornou- se uma tarefa central na “Era pós-genoma”, e terá grande impacto na genética, bioquímica e na química farmacêutica. A descrição detalhada do processo de folding ajuda a compreender melhor a origem de diversas doenças (Pande et. al., 2003). Trabalhos recentes mostram a importância da simulação da desnaturação proteica para os estudos da Biologia Molecular. No entanto, as simulações de Dinâmica Molecular apresentam o problema de elevado custo de recursos computacionais. A Dinâmica Molecular pode ser usada para simular a dinâmica de estruturas conhecidas, ou para descrever uma estrutura de uma sequência a partir da minimização da energia potencial. A Dinâmica Molecular clássica está baseada na segunda lei de Newton ou nas equações de movimento de Newton. Nestas equações cada átomo é considerado um ponto com massa im : 2 2 ,...,2,1, dt rd rNiFrm i iiii === &&&& (2.5.1) onde ( )iiii zyxr ,,= é o vector das coordenadas cartesianas do i-ésimo átomo, ir&& é a respectiva aceleração, iF é o vector de forças que actuam no i-ésimo átomo, e N é o número de átomos. (Scheraga et. al., 2007)
  • 24. 14 Para aproximar os mecanismos naturais entre os átomos, tais como colisões e fricções, é utilizada a dinâmica de Lengevin. Isto é, à equação (2.5.1) são adicionados dois novos termos: a força potencial que actua sob o átomo i, Uir∇− , e o vector de forças aleatórias, ( )tRi , resultantes da colisão entre o átomo i e as molecular do solvente. Desta forma obtém-se a Equação de Langevin (2.5.2). ( ) ( ) NitRrmrrrUF iiiiNri i ,...,2,1,,...,, 21 =+−−∇= &γ (2.5.2) Em que, ir& é a velocidade do átomo i e iγ é o coeficiente de fricção. Nas simulações é assumido que o vector ( )tRi tem média zero e as forças aleatórias em tempos diferentes são não correlacionadas. Considere-se ω a frequência característica do sistema, quando ωγ 2>> a equação (2.5.2) reduz-se a uma equação diferencial de primeira ordem: ( ) ( ) NitRrmrrrU iiiiNri ,...,2,1,,...,,0 21 =+−−∇= &γ (2.5.3) Integrando as equações de movimento obtém-se uma trajectória que descreve as posições, velocidades e acelerações dos átomos, e como eles variam ao longo do tempo. Esta trajectória é uma série de sub estados entre o estado inicial e o final, separados por um pequeno intervalo de tempo (por exemplo, picosegundo) Os campos de forças mais utilizados, para calcular as forças potencias da equação (2.5.2), na descrição de sistemas proteicos, são CHARMM (Brooks et. al., 1983), AMBER (Pearlman et al., 1995), GROMOS (Berendsen et. al., 1995) e CVFF (Ewing et. al., 1999). A escolha de um destes campos é feita consoante os custos computacionais implicados na descrição do sistema e a precisão na representação das forças que actuam no sistema (Scheraga et. al., 2007). As Simulações de Dinâmica Molecular para obtenção dos dados em estudo neste trabalho foram realizadas através do programa NAMD (Kalé et. al., 1999), usando a versão 27 do campo de forças CHARMM. Para analisar a evolução dos resíduos de aminoácidos ao longo da simulação serão apresentadas algumas propriedades úteis na análise de trajectórias de Dinâmica Molecular.
  • 25. 15 2.6 Propriedades Moleculares As propriedades moleculares definidas nesta secção permitem analisar as trajectórias obtidas por simulações de Dinâmica Molecular, neste caso, simulações de desnaturação da TTR. Através dos valores obtidos por algumas destas medidas foram encontrados resultados que se podem revelar de extrema importância para a compreensão da Biologia Molecular do Sistema. Várias são as propriedades moleculares que podem ser calculadas ao longo de uma simulação, nomeadamente, a Raiz do Desvio Quadrático Médio, o Raio de Giração, a estrutura secundária, as ligações de hidrogénio, e os contactos nativos. (Brito et. al., 2004) Uma das mais conhecidas medidas variação da conformação molecular é a Raiz do Desvio Quadrático Médio, cuja expressão matemática é a seguinte: ( ) ( )( ) ∑= − = n i ii n txtx RMSD 1 2 0 (2.4.1) onde ( )txi é a posição do i-ésimo átomo no instante t e n é o número de átomos. Uma outra medida usada é a área da superfície molecular acessível ao solvente, designada por SASA. A superfície de uma molécula determina várias das suas propriedades físicas e químicas, o que torna a superfície molecular uma característica interessante e importante. Adaptado de Wei et. al., 2004 Figura 9 - Ilustração das várias superfícies A superfície acessível ao solvente (SASA) é determinada usando uma “esfera de prova” (molécula de água com 1.4 o A de raio) que “rola” à volta da molécula. A superfície
  • 26. 16 imaginária descrita pelo centro da esfera de prova fornece uma estimativa da superfície molecular acessível ao solvente (SASA). A SASA é Global quando é calculada a superfície global da proteína que está exposta ao solvente. Quando se calcula esta superfície para cada aminoácido temos a SASA por resíduo. Noutros trabalhos, no âmbito deste projecto, foram analisadas séries temporais que descrevem os valores de SASA ao longo da desnaturação da proteína TTR (Azevedo et. al, 2005) (Ferreira, et. al., 2007). Neste trabalho decidiu-se estudar uma nova medida para que, sendo o problema abordado de outro ponto de vista, se possam tirar novas conclusões e complementar todo o trabalho desenvolvido anteriormente. 2.7 Novas medidas em estudo Neste trabalho a medida em estudo é a Variação da Distância do Carbono Alfa de cada resíduo ao Centro de Massa da Proteína ao longo da desnaturação. O que se pretende com esta medida é obter um quadro de dados com 127 séries temporais, em que cada série descreve a variação da distância do carbonoα de um aminoácido ao Centro de Massa da Proteína, ao longo da desnaturação da proteína TTR. Figura 10 - Variação da distância dos aminoácidos ao centro de massa Para trabalho futuro, foi ainda proposta uma outra medida que consiste em calcular, para cada aminoácido, os 3 aminoácidos mais próximos da seguinte forma: - Para todos os átomos, ia , dos aminoácidos, iA , são calculadas as distâncias entre átomos. - Para cada aminoácido iA são registados os 3 valores mais baixos, que correspondem aos três aminoácidos com átomos mais próximos de iA .
  • 27. 17 Por exemplo, como vemos na Figura 11, se para o aminoácido A, que possui o átomo X as distâncias mais curtas forem d1, d2 e d3, então o aminoácido A está mais próximo dos aminoácidos A1, A2 e A3. Figura 11 - Distâncias aos 3 vizinhos mais próximos do átomo X. As distâncias serão calculadas para cada instante t de uma simulação, logo para cada aminoácido no instante it vamos obter um vector ( 1A , 2A , 3A , 321 ,, ddd ). Este conjunto de dados constitui um “cubo” de dados, para cada simulação, da forma: Figura 12 – Dados 3-D Devido à elevada dimensão dos dados obtidos por esta medida e à dificuldade em obtê- los, partiu-se para o estudo da Variação da distância dos aminoácidos ao centro de massa. Inicialmente pensou-se que a análise da Variação da Distância dos aminoácidos ao Centro de Massa poderiam não complementar a informação obtida, em trabalhos anteriores, com a análise dos valores da SASA. Mas após alguma análise exploratória concluiu-se que seria interessante analisar a evolução das Distâncias dos Aminoácidos ao Centro de Massa da Proteína. Para esta análise foi necessário aplicar técnicas de Data Mining que permitissem extrair conhecimento interessante.
  • 28. 18 3 Extracção de Conhecimento de Dados (KDD) Segundo Fayyad et. al., (1996) a Extracção de Conhecimento em Bases de Dados (KDD) é o processo não trivial de identificar padrões válidos, novos, potencialmente úteis e compreensíveis nos dados. O Data Mining é um passo da KDD que consiste num tipo particular de algoritmos que, sob aceitáveis limitações de eficiência computacional, produzem uma enumeração particular de padrões dos dados. Com o desenvolvimento e a disseminação dos computadores, a informação compilada cresceu exponencialmente. Os analistas tiveram a oportunidade de organizar e analisar toda a informação que apareceu rapidamente. Os métodos tradicionais de análise dos dados, nos vários sectores (industrial, empresarial, financeiro, farmacêutico, etc), tornaram-se lentos e dispendiosos. Em 1996, Fayyad et. al., afirmam que “é necessária uma nova geração de técnicas e ferramentas computacionais para extrair conhecimento útil de grandes bases de dados.” No trabalho de Liu et. al., (2002) é analisada a utilidade das aplicações de Data Mining. Segundo este autor as aplicações de KDD trouxeram benefícios significativos aos negócios, reduzindo custos, aumentando os lucros e elevando a qualidade dos serviços. No ínicio do século apresenta-se um cenário em que os dados que surgem apresentam elevadas dimensões, existe uma rápida construção de ferramentas de análise e os resultados são apresentados de forma perceptivel ao utilizador de tal forma que este possa tirar o melhor proveito do conhecimento obtido. Na Figura 13 é possível observar a evolução das técnicas de Extracção de Conhecimento para acompanhar as necessidades crescentes de tratamento de informação. Figura 13 – Evolução das técnicas de Análise de Dados
  • 29. 19 Para analisar os dados em estudo nesta dissertação foram aplicadas técnicas de Data Mining que permitam extrair conhecimento útil, isto é, conhecimento que contribua para o avanço em direcção ao diagnóstico ou tratamento das doenças relacionadas com o deficiente enrolamento da TTR. 3.1 Processo de Extracção de Conhecimento O processo da extracção de conhecimento é um processo interactivo e iterativo que envolve vários passos. (Fayyad et. al., 1996) Na Figura 14 podem observar-se as etapas seguidas para a obtenção de conhecimento. Fonte: Adaptado de Fayyad et. al., 1996(2). Figura 14 – “O caminho para o conhecimento”. Segundo Fayyad et. al., (1996) o processo de obtenção de conhecimento começa com a compreensão do problema em estudo, dos dados. Segue-se uma fase de preparação dos dados, designada por “Preprocessing”, onde os dados em estudo são tratados, isto é, são aplicadas operações básicas, por exemplo, extracção de ruído ou outliers. Os dados em estudo podem ser transformados ou reduzidos para, por exemplo, diminuir o número de variáveis em consideração (“Transformation”).
  • 30. 20 Na etapa de “Data Mining” decide-se qual a função de data mining a aplicar aos dados. Define-se o objectivo do modelo obtido pelo algoritmo de data mining e selecciona-se o método e os parâmetros apropriados para o problema em estudo. Os resultados obtidos são apresentados com formas de representação próprias para cada tipo de método. A etapa “Interpretation/Evaluation” inclui interpretar os resultados obtidos, eliminar informação redundante, traduzir os resultados em linguagem acessível aos leitores e possivelmente voltar a etapas anteriores (pode, por exemplo, chegar-se à fase de avaliação e decidir-se voltar a transformar os dados para aplicar um outro método). 3.1.1 Data Mining – Tarefas Ao longo do Processo de Extracção de Conhecimento de dados uma das etapas que importa destacar é a etapa de “Data Mining”. Consoante o tipo de dados em estudo e o objectivo da sua análise, podem definir-se diferentes tarefas de Data Mining, as quais podem ser classificadas em duas categorias: - descriptive data mining: consiste em descrever e apresentar caracteristicas gerais dos dados; - predictive data mining: consiste na construção de modelos, realização de inferências e/ ou predição do comportamento de novos conjuntos de dados. As principais tarefas de Data Mining são Classificação, Clustering, Regressão, Previsão, Associação (Berry, 2000). Na Tabela 3 são apresentadas estas tarefas, e algumas das técnicas mais populares em Data Mining, que foram definidas em função do objectivo do processo de extracção de conhecimento.
  • 31. 21 Tarefa Técnicas Definição/Objectivo Classificação Árvores de Decisão; Regras de Classificação Classificar novos indivíduos/variáveis a partir da classificação de indivíduos/variáveis dos dados de treino. Clustering Classificação hierárquica; K- means Definir grupos nos indivíduos/variáveis dos dados baseados numa métrica de semelhança. Regressão Regressão Linear; Regressão Local; Árvores de Regressão; Redes Neuronais; Algoritmos Genéticos Desenvolver um modelo que descreva o comportamento dos indivíduos/variáveis em estudo. Previsão Regressão Linear; Regressão Local; Árvores de Regressão; Redes Neuronais; Algoritmos Genéticos; Árvores de Decisão Prever o valor de um novo item a partir do modelo obtido. Associação Regras de Associação Descobrir relações de associação entre um conjunto de itens. Tabela 3 – Tarefas de Data Mining 3.1.2 Metodologia A falta de metodologia na obtenção do conhecimento pode ser um entrave à obtenção do mesmo, e para resolver este problema, no ano 2000, foi apresentado o modelo CRISP-DM (Cross-Industry Standard Process for Data Mining), (Shearer, 2000) que pretende ser um modelo standard, isto é, pretende-se que a partir deste modelo o utilizador apresente o processo de KDD para o seu problema. Segundo a metodologia CRISP-DM a implementação de um processo KDD pode ser desenvolvido ao longo de seis etapas. Como mostra a Figura 15 as fases do modelo CRISP-DM são as seguintes:
  • 32. 22 - Compreensão da actividade (Business Understanding): esclarecer os objectivos e os requisitos sob o ponto de vista do negócio; é definido um plano para atingir os objectivos. - Compreensão dos dados (Data Understanding): como o nome indica, procura-se entender os dados, isto é, pretende-se que nesta fase se encontrem problemas nos dados, subconjuntos interessantes e problemas de qualidade nos dados. - Preparação dos Dados (Data Preparation): das tarefas de preparação de dados fazem parte selecção de tabelas, registos e atributos, transformação e limpeza de dados. - Modelação (Modeling): aplicação de modelos aos dados e refinação de parametros. Por vezes é necessário adaptar os dados aos modelos que se pretendem aplicar, logo é frequentemente necessário voltar à fase de preparação dos dados. - Avaliação (Evaluation): avaliação do modelo aplicado para verificar se este atinge os objectivos do negócio. - Acção/ Produção (Deployment): utilização e aplicação do modelo, aqui o analista pode, por exemplo, recomendar acções mediante os resultados obtidos. Fonte: (Shearer, 2000) Figura 15 - Modelo CRISP-DM Para desenvolver o processo de Extracção de Conhecimento desta dissertação, procurou-se seguir uma linha de raciocínio tendo em conta o processo descrito por Fayyad et. al.,(1996) e as fases da metodologia CRISP-DM.
  • 33. 23 3.2 Análise de clusters Na etapa de Data Mining, do processo KDD desta dissertação, a primeira técnica utilizada para comprender e encontrar semelhanças entre os aminoácidos da TTR foi a análise de clusters. A análise de clusters é uma técnica multivariada muito usada para analisar sequências genéticas e pode ser usada em vários tipos de dados: dados genéticos, dados temporais, dados geográficos, etc. Saporta (1990) sustenta que o objectivo dos métodos de classificação é construir uma partição de um conjunto de objectos dos quais são conhecidas as distâncias dois a dois. Os clusters obtidos devem ser o mais homogéneos possível e distintos entre si. Nesta tese pretende-se aplicar a análise de clusters para explorar os dados da proteína TTR, para reduzir a dimensão dos dados e para gerar hipóteses. Estes objectivos vão de encontro com os objectivos gerais da análise de clusters definidos no trabalho de Branco (2004). Objectivos da análise de clusters: a. Exploração dos dados: este é o objectivo mais imediato da análise de clusters, isto é, encontrar uma estrutura/partição nos dados. b. Redução de dados: Se os grupos forem homogéneos significa que cada grupo pode ser substituído pelo seu representante. c. Geração de hipóteses: Podem ser encontrados grupos não esperados, o que pode eventualmente levar a conjecturas e hipóteses para explicar a classe encontrada. d. Predição: Os elementos do mesmo grupo tendem a ter características semelhantes, este facto torna possível predizer propriedades de um outro elemento quando comparado com os elementos de um grupo. Para obter as classes finais são seguidos alguns passos importantes da análise de clusters, na Figura 16 são apresentadas as fases de uma análise de clusters adaptadas do trabalho de Gordon (1999)
  • 34. 24 Fonte: Adaptado de Gordon (1999) Figura 16 - Fases de uma Análise de Clusters. A análise de clusters tem como ponto de partida um quadro de dados inicial ou um quadro de proximidades. (i) O quadro de dados, geralmente, é da forma “indivíduos vs variáveis”. pj j ix n iX .........................1 . . .... . . . . 1                 = Dado o conjunto E de elementos a classificar, o elemento j ix é o valor que o indivíduo Ej ∈ assume na variável i .
  • 35. 25 As variáveis podem ser classificadas consoante as suas características. Para as variáveis podem ser definidos os seguintes tipos: - Variáveis numéricas ou quantitativas – o conjunto de chegada da aplicação associada a cada variável aleatória é ℜ , as variáveis aleatórias induzem preordens. - Variáveis nominais ou ordinais – a cada variável aleatória está associado um conjunto de estados, ou modalidades, e a um objecto corresponde um e um só estado de cada variável. - Variáveis binárias – é um caso particular das variáveis nominais ou ordinais, que ocorre quando o número de estados possíveis de uma variável è igual a dois. (ii) O quadro de proximidades é também designado por função de comparação. Como refere Sousa, (2000) define-se função de comparação entre elementos de E como uma aplicação + ℜ→× 0: EEγ . Esta função pode ser do tipo semelhança, ou de dissemelhança, entre pares de objectos, ou variáveis, permitindo quantificar o seu estado de semelhança ou de dissemelhança. Uma dissemelhança satisfaz as seguintes propriedades: (Gordon, 1999:15) 1. ( ) ( ) Eyxxydyxd ∈∀= ,,,, 2. ( ) Exxxd ∈∀= ,0, 3. ( ) yxyxd =⇒= 0, Uma semelhança satisfaz as seguintes propriedades: (Saporta, 1990) 1. jiss jiij ,,∀= 2. jisij ,,0 ∀≥ 3. ijs é tanto maior quanto maior for a semelhança entre objectos.
  • 36. 26 Em muitos estudos a medida de proximidade mais fácil de calcular é a semelhança entre objectos. Em geral, pode obter-se uma dissemelhança ijd a partir da semelhança ijs , estabelecendo uma relação entre a semelhança e a dissemelhança dos mesmos objectos, por exemplo, ijij skd −= ( k constante adequada). (Gordon, 1999:15) Para cada tipo de dados existem várias medidas de proximidade definidas e propostas por diversos autores nomeadamente Gordon (1999), Hartigan (1975), Saporta (1990). 3.2.1 Clustering hierárquico O clustering hierárquico consiste em obter um conjunto de partições de E em classes cada vez menos finas obtidas a partir de reagrupamentos sucessivos de partes. Um clustering hierárquico representa-se por um dendrograma ou árvore de classificação. Existem dois tipos de métodos de clustering hierárquico: os métodos ascendentes ou aglomerativos e os descendentes ou divisíveis. O método ascendente, ou aglomerativo, considera, inicialmente, cada indivíduo como sendo uma classe e vai agrupando-os de acordo com as suas proximidades. O algoritmo pára quando se obtiver uma única classe. O método descendente, ou divisível, consiste em aplicar dicotomias sucessivas ao conjunto E até se obter os elementos todos isolados. A. Método Aglomerativo O método aglomerativo é um método muito usado, sendo este o método utilizado nesta dissertação. Os passos seguidos num algoritmo de Classificação Hierárquica Ascendente (CHA) como refere Sousa (2000) são: Passo 0: Considerar os objectos iniciais ( Econjunto ), isto é, definir a partição mais fina. Definir a função de comparação entre os objectos e entre classes.
  • 37. 27 Passoi : ( ki ,...,1= ) Determinar o par ou pares de classes 1−iP que verificam o critério de agregação, isto é, obter os pares que verificam o mínimo de ( ){ }1,:, −∈ iPBABAd . Actualizar a partição, { } { }( ){ } { }BABAPP ii ∪∪∪= − 1 . Actualizar os valores da matriz de proximidades entre partes de E . Uma abordagem um pouco diferente do algoritmo é apresentada em Hartigan (1975). No algoritmo de CHA podem ser introduzidos critérios de paragem, por exemplo, impor o número de classes da última partição, ou limitar o valor da função de comparação entre partes. Ao longo do algoritmo é necessário calcular as distâncias entre as classes que se vão formando e é neste ponto que os algoritmos aglomerativos diferem. Os métodos mais usados são: Ligação Simples (Single linkage), Ligação Completa (Complete linkage), Ligação Média (Average linkage), Método centróide e finalmente o Método de Ward. B. Critérios de Agregação Neste trabalho são usados o método da Ligação Média e o método de Ward. Ligação Média No método da Ligação Média a distância entre classes é distância média dos pares de elementos. BA n i n j ij AB nn d d A B ∑∑= = = 1 1 Esta ideia de distância é simples, este método foi um dos primeiros a ser construído, é um método robusto adequado para isolar classes de forma esférica ou elipsoidal. Este
  • 38. 28 método actua sobre a matriz de proximidades, enquanto que o método seguinte é mais complexo e actua sobre a matriz de dados. Método de Ward No método de Ward (Ward, 1963) as classes são formadas de modo a minimizar a soma dos quadrados dos erros. Segundo Saporta (1990) este é o critério de agregação mais indicado para distâncias euclideanas. Os elementos de E são considerados como uma nuvem de pontos num espaço p ℜ e o critério de agregação consiste em minimizar a variação de inércia interclasse. Como os dados em estudo, neste trabalho, são as distâncias dos aminoácidos ao centro de massa da TTR, faz todo o sentido utilizar este critério de agregação. Se se considerarem dois clusters A e B, este método minimiza o incremento da soma dos quadrados, ou seja, minimiza a perda de informação resultante da aglutinação. Seja ( )BAC SWSWSW −− o incremento da soma dos quadrados quando A e B são aglutinados, onde ( ) 2 1 ∑∑∈ = −= Ai p j jAijAA xxSW é a soma dos quadrados dos erros dentro do cluster A, ( ) 2 1 ∑∑∈ = −= Bi p j jBijBB xxSW é a soma dos quadrados dos erros dentro do cluster B e ( ) 2 1 ∑∑∈ = −= Ci p j jCijCC xxSW é a soma dos quadrados do cluster BAC ∪= . Notação: ijAx ( ijBx ) é a observação do objecto i do cluster A( B ) na variável j , jAx e jBx são as médias da variável j nos clusters A e B . (Branco, 2004) Em cada iteração o algoritmo calcula todos os pares possíveis de clusters e calcula o valor do incremento para cada união. O algoritmo selecciona os pares que minimizam o valor do incremento, isto é, escolhe os pares que minimizam a perda de informação. Após obtenção das classes a questão que se coloca é se os clusters obtidos nos fornecem a melhor partição do espaço.
  • 39. 29 Para algoritmos hierárquicos alguns autores recorrem a métodos gráficos. Segundo Maroco (2003) através do gráfico do índice de difusão versus número de clusters é possível escolher o número de clusters. Grandes alterações no nível de fusão correspondem à aglutinação de grupos muito diferentes, logo estas alterações podem indicar o número ideal de clusters. De acordo com Pal et. al., (1995), citado por Silva (2005), se o algoritmo de classificação tiver como único parâmetro de entrada o número de classes, faz-se variar de 2 até ao valor máximo maxk , podendo considerar-se nk ≤max . No ponto seguinte são abordadas algumas medidas que permitem a escolha do número de clusters. C. Escolha do número de clusters Segundo Gordon (1999), Halkidi (2001), Jakel (2004) e Kovacs (2003) as medidas de validação de clusters podem ser agrupadas segundo 3 tipos de critérios. Mediante a estratégia utilizada para validar a partição obtida temos: - Critérios Externos: avaliam-se os resultados mediante informação externa fornecida a priori e não utilizada na análise. Esta análise é baseada na hipótese nula de aleatoriedade dos dados, para testar esta hipótese são utilizados testes estatísticos. Pode usar-se, por exemplo, técnicas de Monte Carlo para validar a análise de clusters. Adaptado de Faceli et. al., (2005) Figura 17 - Critério de Validação Externo
  • 40. 30 - Critérios Internos: Medem a qualidade do clustering com base nos dados originais (matriz de proximidades). Neste critério são usadas medidas que se baseiam em quantidades e características inerentes aos dados e ao esquema de classificação. (Halkidi, 2001) Adaptado de Faceli et. al., (2005) Figura 18 - Critério de Validação Interno - Critérios Relativos: comparam diferentes estruturas, construídas a partir dos mesmos objectos, para encontrar o melhor clustering a partir de diferentes resultados. Pode ainda ser usado para comparar diversos algoritmos de agrupamento. Adaptado de Faceli et. al., (2005) Figura 19 - Critério de Validação Relativo
  • 41. 31 A escolha da melhor partição dos objectos em estudo é uma questão analisada por diversos autores e têm sido apresentados muitos métodos de escolha do número de classes. Halkidi et. al., (2000) sustentam que os critérios externos e internos são baseados em métodos estatísticos mas têm como desvantagem a elevada complexidade computacional. A forma como o índice é aplicado é que define se o critério de utilização do índice é interno ou relativo. A aplicação de um índice com um critério relativo consiste no cálculo do seu valor para vários clusterings, o “melhor” clustering vai ser o que optimiza o índice. Para efectuar o clustering dos aminoácidos da TTR é necessário definir como escolher o número de classes. Alguns dos índices mais usados com o critério relativo são os seguintes: − Estatística de Hubert (Jain e Dubes, 1988) − Família da Índices de Dunn (Halkidi et. al.,, 2001) − Índice de Davies-Bouldin (Jain e Dubes, 1988) − Estatística de Silhuettes (Rousseeuw, 1987) − Índice de Calinski-Harabasz (Calinski e Harabasz, 1974) − Índice de Krzanowski e Lai (Krzanowski e Lai, 1985) “Índices de Milligan e Cooper” Devido ao elevado número de índices e regras de paragem disponíveis, em 1985, Milligan e Cooper apresentaram um estudo comparativo detalhado de 30 índices. Neste estudo, através de uma avaliação de Monte Carlo são analisados os índices em data sets artificiais, foram aplicados quatro algoritmos de agrupamento hierárquico e através do critério externo encontraram-se os índices que recuperavam a verdadeira estrutura de grupo. Neste estudo foram escolhidos 5 índices, e desde então, estes índices passaram a ser designados na literatura por “Índices de Milligan e Cooper”.
  • 42. 32 Segundo Milligan & Cooper (1985) os “melhores” índices são os seguintes: − Goodman & Kruskal (G2) Segundo Gordon (1999) este índice é muito utilizado em estudos de classificação. Após obtenção dos clusters são feitas comparações entre as dissemelhanças intraclusters e interclusters. A comparação diz-se concordante (respectivamente discordante) se a dissemelhança dentro dos clusters é mais muito mais baixa (resp. elevada) que a dissemelhança interclusters. O índice é então dado por: ( ) ( ) ( ) ( )−++ −−+ = ss ss G2 onde ( )+s e ( )−s representam o número de pares concordantes e discordantes respectivamente, envolvendo os valores das matrizes de dissemelhança e ultramétricas. O valor máximo desta medida indica o número de clusters a reter. Em Gordon (1999) este índice tem a designação de “ 2G ” sendo esta a mesma designação utilizada na biblioteca “fpc” do R (Hennig, 2004), que é utilizado no capítulo 4. − Índice-C (G3) Este índice é dado por: ( ) minmax min DD DcD − − Onde D é a soma das dissemelhanças intra-classes. O valor mínimo desta medida indica o número de classes óptimo. Este índice é definido em Gordon (1999) como sendo o índice 3G e esta mesma nomenclatura é usada na bibliotece “fpc” do R (Hennig, 2004), que é utilizado no capítulo 4.
  • 43. 33 − Índice de Calinski & Harabasz definido por: ( ) ( ) ( ) ( )kn kW k kB kCH − − = 1 )( Onde ( ) ( )∑ ∑= ∈ = k l Cx r r gxdkW 1 2 , e ( ) ( )∑≠= = jiji ji CCdistkB ,1, 2 , sendo rg o centro de gravidade da classe r e ( )ji CCdist , é a dissemelhança entre classes. Escolhe-se o número de classes que maximiza este índice. − Índice de Duda & Hart: Segundo Silva (2005) este índice é baseado na razão entre a soma dos quadrados das dissemelhanças intraclasses das duas classes candidatas a serem reunidas ( 2W ), e a soma dos quadrados das dissemelhanças da classe resultante da reunião ( 1W ). A hipótese de uma classe é rejeitada, ou seja, as duas classes candidatas não se reúnem, se a razão for menor que um dado parâmetro. ( ) ( )( ) ( )[ ] 2/12 12 //812/21/ mppzpWW ππ −−−< − Índice de Beale definido por:         −      − −       − ≡ 12 2 1 /2 2 21 p m m W WW F Se o valor de F for significativamente elevado rejeita-se a hipótese nula (isto é, não se divide o cluster). F segue uma distribuição ( )pmpF 2, − . (Gordon, 1999) Este índice aplica-se a métodos hierárquicos descendentes (Silva, 2005). Uma descrição detalhada destes Índices pode ser encontrada em Gordon (1999) e Silva (2005).
  • 44. 34 Segundo Sarle (1993) os critérios escolhidos por Milligan e Cooper são apropriados apenas para clusters compactos ou levemente alongados, de preferência aproximadamente multivariados normais. Em 2005, Bertrand e Bell Mufti definiram um índice de estabilidade estatístico da partição (designado por BB) e compraram-no com dois índices de Milligan e Cooper, chegam à conclusão que o índice BB, por eles proposto, para os dois quadros de dados utilizados no estudo, fornece melhores resultados. Nesta dissertação foram utilizadas medidas de validação segundo o critério relativo. Devido à sua elevada credibilidade, para a escolha da “melhor” partição dos aminoácidos, foram calculados e optimizados os índices G2 e G3 de Milligan e Cooper, otiveram-se grupos de aminoácidos e foi possível comparar e analisar os clusters obtidos, como será mostrado no capítulo 4.2 Clustering hierárquico. 3.3 Eventos Um dos pontos que se pretende desenvolver, neste trabalho, é encontrar características e acontecimentos interessantes nas séries temporais dos aminoácidos em estudo. Desta forma, estando em estudo um conjunto de dados volumoso, ao nível de uma propriedade dos aminoácidos, pretende-se obter características das simulações para obter conhecimento a outro nível. No estudo de séries temporais são, por vezes, procuradas alterações do comportamento das séries e acontecimentos raros dentro do contexto em análise. Nesta dissertação procura-se, a partir das séries que descrevem o comportamento dos aminoácidos ao longo da desnaturação, encontrar eventos, isto é, econtrar uma ocorrência ou uma eventualidade no comportamento do aminoácido que se destaque relativamente ao seu comportamento geral ao longo da simulação. Mannila et. al.,(1995,1997) definem uma sequência de eventos como uma sequência de acções de utilizadores num sistema e definem um episódio como sendo uma colecção de eventos que ocorrem relativamente próximos uns dos outros numa dada ordem.
  • 45. 35 Estes autores consideraram três tipos de episódios como mostra a figura seguinte: Figura 20 - Tipos de Episódios (a) Episódio sequencial: sequência de eventos, em que entre os eventos (A, B, C) podem ocorrer outros eventos. (b) Episódio em paralelo: neste caso não existem exigências quanto à ordem dos três eventos. (c) Episódio não-sequencial e não paralelo: Neste episódio ocorrem os eventos A e B que precedem os eventos C e D, não existe ordem entre A e B ( ou C e D), as quatro ocorrências devem ser próximas. Um problema básico em analisar sequências de eventos está em encontrar episódios frequentes, isto é, dada uma classe de episódios e uma sequência de eventos, o problema consiste em encontrar todos os episódios que acontecem frequentemente numa dada sequência. Nos trabalhos de Mannila e Toivonen (1995,1997) é considerado que um evento está sempre associado ao tempo de ocorrer, logo uma sequência de eventos é um conjunto do tipo ( ) ( )nn tAtAS ,,...,, 11= em que iA pertence ao conjunto de eventos 0E (conjunto de eventos tipo pré-definido) e it é o instante em que iA ocorre. Em 1999, Guralnik e Srivastava, apresentam uma definição mais abrangente de evento. Este autores definem um evento como sendo uma mudança significativamente qualitativa de um fenómeno dinâmico que mantém o comportamento alterado tempo suficiente para ser considerado um acontecimento raro. No seu trabalho, Guralnik e Srivastava (1999) procuram identificar os pontos da escala temporal em que a mudança de comportamento ocorre. O chamado problema da procura de “pontos de mudança” em séries temporais consiste em determinar o número
  • 46. 36 de pontos de troca de comportamento e escolher uma função que encaixe entre os diferentes pontos de troca. Guralnik e Srivastava (1999) propõem um algoritmo para encontrar os “pontos de mudança”, isto é, pretendem encontrar eventos interessantes em séries temporais. Nesta dissertação pretende-se procurar, nas séries temporais dos aminoácidos, mudanças de comportamento significativas ao longo de determinado tempo, isto é, procuram-se eventos frequentes e relevantes no comportamento dos aminoácidos da proteína TTR. Depois de encontrar os eventos frequentes podem ser usadas regras para descrever relações entre os eventos e o tipo de proteína com maior propensão para ocorrência de um evento. Pretende-se ainda utilizar as relações obtidas para prever o tipo de proteína onde ocorre determinado evento. 3.4 Regras Em 1998, Das et. al., apresentam um trabalho onde abordam o problema da procura de regras em séries temporais. Neste trabalho as séries temporais são discretizadas e o algoritmo calcula regras do tipo: se ocorre A então B ocorre no tempo T,       → BA T . Onde A e B são letras do alfabeto obtidas pela discretização das séries. Um trabalho análogo foi desenvolvido por Azevedo et. al., (2005) com valores de SASA discretizados e obtidos por simulação da desnaturação da TTR. 3.4.1 Regras de Associação As regras de associação foram definidas por Agrawal, R., et al. em 1993, da seguinte forma: Seja { }miiI ,...,1= um conjunto de items distintos, e D um conjunto de transacções, onde cada transacção T é um conjunto de items tal que IT ⊆ . Associado a cada transacção está um identificador único, designado por TID. Uma Regra de Associação é uma implicação do tipo YX → , onde IX ⊂ , IY ⊂ , e . ( X é o
  • 47. 37 antecedente e Y é o consequente). Uma regra YX ⇒ tem confiança c se %c das transacções em D que contêm X também contêm Y , e suporte s se %s das transacções em D contêm YX ∪ . O antecedente e o consequente de uma regra podem conter mais do que um item. Para medir o interesse de uma regra podem ser usadas medidas objectivas e medidas subjectivas. Segundo Silberschatz et.al., (1996) das medidas objectivas fazem parte, por exemplo, o Suporte e a Confiança. O suporte mede a associação entre o antecedente X e o consequente Y , não relaciona possíveis dependências entre X e Y e é dado por: ( )YXP ∩=suporte A confiança é a frequência relativa da regra, isto é, é a frequência de ocorrência do consequente quando se verifica o antecedente. ( ) ( ) ( )XP YXP XYP ∩ == |confiança No entanto, o suporte pode não ser interessante porque suportes elevados podem resultar de padrões triviais. No caso de X e Y serem independentes a confiança da regra é ( )YP e se ( )YP for superior à confiança mínima obtem-se uma relação entre acontecimentos independentes! (Veloso, 2003) Devido a estes problemas com o suporte e com a confiança foram estudas e definidas outras medidas. Na Tabela 4 são apresentadas três medidas de interesse de uma regra, por exemplo, o lift que permite avaliar o grau de dependência do consequente em relação ao antecedente. Diversas medidas de interesse foram definidas e comparadas nos trabalhos de: Azevedo (2007), Bayardo (1999), Liu (2000), Lenca (2006), Hahsler (2007) e Omiecinski (2003).
  • 48. 38 Designação Fórmula Referência Lift ( ) ( ) ( )YPXP YXP ∩ Brin, 1997 (a) Conviction ( ) ( ) ( )YXP YPXP ∩ Brin, 1997 (b) Ganascia ( ) 1|*2 −YXP Ganascia, 1991 Tabela 4 – Algumas Medidas de Interesse Quanto à escolha da medida correcta para cada tipo de dados em Tan (2002) é apresentado um estudo comparativo de 20 medidas onde são descritas as propriedades das medidas e é apresentado um algoritmo de escolha de medidas. Neste estudo é ainda desmonstrado que não existem medidas consistentemente melhores que outras para todos os casos. Em 1993 é apresentado o primeiro algoritmo para a procura de Regras de Associação, designado por AIS (Agrawal et. al., 1993). Desde o aparecimento deste algorimo vários foram os métodos desenvolvidos para melhorar a procura de regras, como por exemplo: • Apriori (AprioriTid, AprioriHybrid) (Agrawal, 1994); • Partition Technique (Savasere, 1995); • Sampling Technique (Toivinen, 1996 (a)); • Método DIC (Brin et. al., 1997); Nesta dissertação é utilizado o programa CAREN (Azevedo, 2003) no qual as regras são geradas tendo em conta o Algoritmo Apriori (Agrawal et. al., 1994). Este algoritmo está divido em duas partes: - na primeira parte são extraídos os itens frequentes que têm suporte superior ao suporte mínimo fixado. - na segunda são procuradas as regras que tenham um grau de confiança mínimo e tais que todas as combinações de itens tenham um suporte mínimo fixado à partida. Uma descrição mais pormenorizada deste algoritmos pode ser vista em Agrawal e Srikant (1994) e Azevedo (2003). Trabalhos mais recentes tentam desenvolver e aplicar algoritmos de regras de associação específicos para dados temporais (Mennis and Liu 2003; Sarker et al. 2003; Dafas e Garcez 2005).
  • 49. 39 4 Processo de Extracção de Conhecimento de dados de simulação de Desnaturação Proteíca Com o objectivo de encontrar características relevantes do processo de desenrolamento da proteína TTR foi desenvolvido um processo de extracção de conhecimento, dos dados obtidos por simulação do desenrolamento da TTR, que é apresentado neste capítulo. Numa primeira abordagem, efectuou-se uma análise exploratória dos dados de 10 simulações para visualizar o comportamento geral das séries. Depois partiu-se para uma análise multivariada. Como em estudo estão duas variantes de TTR (a wild-type e a variante patogénica L55P) obtiveram-se duas partições dos aminoácidos, uma partição que tem em conta a informação contida nos dados das simulações da variante WT-TTR (partição I) e uma segunda partição que tem em conta a informação obtida por simulação da desnaturação da variante L55P-TTR (partição II). De seguida, desenvolveu-se um processo mais elaborado para, a partir de todos os dados obtidos por simulação (da variante WT-TTR e da variante L55P-TTR), escolher aminoácidos que representem o comportamento da proteína TTR nas 10 simulações. Isto é, a partir dos dados obtidos por simulação dos 127 aminoácidos obteve-se uma partição destes que considera toda a informação das 10 simulações (partição consenso – partição que se obtem a partir de várias partições do mesmo conjunto de objectos). Para esta partição foi calculado o aminoácido representativo de cada cluster e reduziu-se a dimensão dos dados em estudo de 127 aminoácidos para 15 aminoácidos representativos. Na fase de procura de eventos foram comparados os aminoácidos representativos dois a dois, procuraram-se dois tipos eventos diferentes ao longo das 10 simulações e obtiveram-se frequências de ocorrência dos dois eventos. Esta fase foi ainda complementada com a procura de um terceiro evento nas 10 simulações, a procura deste evento foi efectuada ao longo das séries dos 127 aminoácidos. Após obter as ocorrências de cada evento foram procuradas regras de associação que associam a ocorrência do evento ao tipo de proteína. Na Figura 21 é apresentado esquematicamente todo o processo de extracção de conhecimento desenvolvido.
  • 50. 40 Figura 21-Processo de Extracção de Conhecimento 4.1 Descrição dos dados Os dados em estudo foram obtidos a partir de simulações da desnaturação da proteína TTR e foram fornecidos por Rui Brito cujo trabalho “Protein Folding and Unfolding Simulations: A New Challenge for Data Mining” foi o ponto de partida desta tese. Os valores da Variação da Distância do Carbono Alpha de cada resíduo ao Centro de Massa da proteína foram obtidos ao longo de simulações de Dinâmica Molecular do Desdobramento Proteico (MDPUS) da proteína TTR (Brito et. al., 2004). Os passos seguidos foram os seguintes: - Obtiveram-se as coordenadas da proteína TTR a partir da sua estrutura cristalográfica e adicionam-se átomos de hidrogénio. Representaram-se todos os átomos explicitamente (1917 átomos da proteína). - As moléculas de água foram controladas e introduzidas através dos programas Dowser (Zhang, 1996) e Solvate (Grubmiller, 1996). Com o programa Solvate foram também introduzidos 145 mM de iões de NaCl à volta de proteína. O sistema final, ilustrado na Figura 22, é constituído por 1917 átomos da proteína, 14418 moléculas de água, 45 iões de sódio e 40 iões de cloro, no total o sistema possui 45256 átomos.
  • 51. 41 Fonte: Brito (2004) Figura 22 - Representação do sistema usado nas simulações de Dinâmica Molecular O sistema foi elevado até à temperatura desejada sob a dinâmica de Langevin (dinâmica que tenta aproximar os mecanismos naturais através de modelos simples). Os parâmetros usados ao longo das simulações foram de 1 atm de pressão constante (com a aplicação do método de Langevin (Feller et al., 1995)) e volume constante. Na simulação de controlo o sistema foi sujeito a uma temperatura de 310 K e nas restantes simulações a temperatura foi de 500 K (Brito, 2004). Neste estudo foram simuladas várias desnaturações proteicas da proteína TTR no seu estado natural WT-TTR e da proteína mutada L55P-TTR. Os valores da Distância do Carbono Alpha da cada resíduo ao Centro de Massa foram registados e em estudo temos 5 quadros de dados com valores da WT-TTR (WTRUN2,WTRUN3,WTRUN4, WTRUN5, WTRUN6) e 5 quadros de dados com valores da L55P-TTR. (L55PRUN1, L55PRUN2, L55PRUN3, L55PRUN4, L55PRUN5). 4.1.1 Estudo Preliminar Seja n é o número de frames e p o número de aminoácidos em estudo, o quadro de dados que se obtêm contêm pn× observações e tem n linhas e p colunas. Cada coluna é considerada como um ponto no espaço de dimensão n munido de uma estrutura euclideana. As coordenadas de cada ponto são obtidas a partir dos valores dos p aminoácidos da observação correspondente.
  • 52. 42 pj j ix n iX .........................1 . . .... . . . . 1                 = Neste trabalho a matriz de dados tem 127 aminoácidos (43% hidrofóbicos) e 10001 registos, onde j ix é o valor que o aminoácido j assume na frame i . As estruturas são guardadas a cada picosegundo, isto é, 10000 em 10 nanosegundos de simulação mais a estrutura inicial (tempo 0). Numa primeira análise efectuou-se um estudo unidimensional dos aminoácidos com o objectivo de analisar o seu comportamento ao longo da simulação da desnaturação da TTR. Na Tabela 5 são apresentados os valores máximos e mínimos atingidos nas dez simulações. Tabela 5 - Máximos e mínimos da distância do carbono alpha ao centro de massa Corrida Mínimo( 0 Α ) Aminoácido Tempo(ps) Máximo( 0 Α ) Aminoácido Tempo(ps) WTRUN 2 0,183 VAL_71 7023 43,284 GLY_1 6370 WTRUN 3 1,487 VAL_71 9891 40,44 GLY_1 1592 WTRUN 4 0,953 LEU_55 8678 40,053 GLY_1 1996 WTRUN 5 0,54 CYS_10 (*) 8468 50,332 GLU_127 6516 WTRUN 6 1,723 VAL_32 8096 40,139 GLY_1 7077 L55PRUN 1 0,139 ALA_37 9559 45,725 GLU_127 7686 L55PRUN 2 0,14 CYS_10 9049 38,376 GLU_127 9544 L55PRUN 3 1,02 VAL_71 9851 40,393 GLU_127 4085 L55PRUN 4 1,256 VAL_32 3687 38,678 GLY_1 6794 L55PRUN 5 1,14 VAL_14 4015 37,794 GLY_1 9824 (*) nesta corrida o aa. VAL_71 atinge o valor 0,547 0 Α Quando se observa um filme da simulação da desnaturação proteica verifica-se, visualmente, que as pontas da cadeia polipeptídica parecem perdidas no espaço, isto é, entram e saem do “novelo” proteico como se fossem elementos esquecidos pela proteína.
  • 53. 43 Quando se analisam os dados da simulação verifica-se, como era de esperar, que os valores máximos são atingidos pelos aminoácidos das regiões terminais da cadeia polipetídica. Na WT-TTR é a GLY_1 (hidrofóbico) que atinge mais vezes o valor máximo enquanto que na L55P-TTR é a GLU_127. Os valores máximos na WT-TTR são, nestas simulações, sempre superiores a 40. Quanto aos aminoácidos que atingem o valor mínimo, na WT-TTR temos a VAL_71 que se destaca como sendo o aminoácido que atinge mais vezes o valor mínimo de distância ao centro de massa. Na Figura 23 é possível observar o comportamento dos aminoácidos GLY_1 e VAL_71 ao longo da desnaturação da TTR (a) (b) Figura 23 – Variação da distância do carbono alpha dos aminoácidos VAL_71 (a) e GLY_1 (b) ao centro de massa da TTR ao longo de uma simulação de desnaturação da variante WT-TTR (WTRUN2). Ao longo da simulação WTRUN2, a GLY_1 mantêm valores sempre superiores a 10 e apresenta um comportamento irregular, com frequentes afastamentos e aproximações ao centro de massa. A Val_71 apresenta sempre valores inferiores a 10 0 Α , o que indica que este resíduo se mantém sempre muito próximo do centro de massa ao longo da simulação. No Anexo I -A estão representados os gráficos com a localização de cada aminoácido relativamente ao centro de massa nos instantes em que são atingidos os máximos e mínimos para cada corrida. Quanto aos instantes, em que são atingidos os valores extremos, importa referir o seguinte:
  • 54. 44 - na WT-TTR o valor mínimo é sempre atingido depois dos 7000 ps, enquanto que na L55P-TTR existem duas simulações onde o mínimo é atingido mais cedo (entre os 3500 ps e 4550 ps); - na L55P-TTR o valor máximo é atingido depois dos 6500 ps, em 4 das 5 corridas, enquanto que na WT-TTR o máximo é sempre atingido antes dos 7100 ps, sendo que em duas corridas a GLY_1 afasta-se do centro de massa no início da corrida (1592 ps e 1996 ps). No Anexo I-B pode ainda observar-se o comportamento do aminoácido da posição 55 nas duas variantes da proteína. Na L55P-TTR, em 3 das 5 corridas a PRO_55, tende a afastar-se do Centro de Massa (toma valores superiores a 20 0 Α ). Na WT-TTR, em 3 das 5 corridas a LEU_55 mantêm valores no intervalo [0,10] 0 Α . 4.2 Clustering hierárquico Uma forma de analisar grandes volumes de dados consiste em classificá-los em grupos que revelem padrões entre si. No trabalho “A Closer Look on Protein Unfolding Simulations through Hierarquical Clustering” (Ferreira et al., 2007), os autores apresentam a aplicação do clustering hierárquico a um quadro de dados de variação de SASA ao longo de diversas simulações de desnaturação da WT-TTR. A medida em estudo foi a SASA e a construção do dendrograma foi enriquecida com informação dos aminoácidos (distância entre os aminoácidos na estrutura primária, a distância espacial entre resíduos ao longo da desnaturação e a propensão para a hidrofobicidade). Nesta dissertação um dos objectivos da aplicação do clustering hierárquico é identificar e comparar os clusters obtidos para cada variante de TTR. Pretende-se partir das 5 corridas de cada variante da TTR e obter duas partições dos aminoácidos que tenham em conta a informação das cinco corridas da WT-TTR, obtendo-se a Partição I, e a informação das cinco corridas da L55P-TTR, obtendo-se a Partição II. Um outro objectivo é obter uma partição dos aminoácidos que considere toda a informação obtida pelas 10 simulações (Partição consenso). A partir das classes obtidas pretende-se ainda escolher o aminoácido representativo por classe, desta forma pode-se reduzir a complexidade do problema passando de 127 aminoácidos em estudo para 15 que representam o comportamento geral da TTR.
  • 55. 45 Cada corrida em estudo é um conjunto de 127 séries temporais e o que se pretende é agrupar séries temporais, como referem Caiado el al.,(2006) o clustering de séries temporais tornou-se uma área importante de pesquisa em várias áreas. Nos seus trabalhos, Caiado et al. estudam, por exemplo, como agrupar séries temporais com e sem o mesmo comprimento. Em Caiado el al.,(2006) é apresentada um métrica para o clustering de séries temporais, que permite destingiur séries estacionárias de séries não- estacionárias. Esta métrica é baseada no periodograma normalizado e é utilizado o algoritmo de clustering hierárquico. Nesta dissertação as séries apresentam todas o mesmo comprimento e o objectivo é agrupar os aminoácidos relativamente à propriedade em estudo, isto é, os aminoácidos que ficam no mesmo grupo, em princípio têm tendência para, ao longo da desnaturação, apresentarem valores parecidos de distância ao centro de massa. Para calcular e obter as classes foram utilizados as seguintes bibliotecas do R statistical package: class, MASS, fpc. (Hennig, 2004) 4.2.1 Clustering de cada variante da proteína TTR Nesta secção é apresentado como foram obtidas duas partições dos 127 aminoácidos da proteína TTR. Considerem-se as cinco simulações da variante WT-TTR, para cada corrida obteve-se uma partição dos aminoácidos. Para escolher o número de clusters foram calculados e optimizados os índices G2 e G3 de Milligan e Cooper. Com as 5 partições foi construída uma partição consenso. Nestas classificações a medida de dissemelhança usada foi a distância Euclideana porque as variáveis são quantitativas contínuas e todas obtidas da mesma medida. Quanto ao critério de agregação utilizou-se o método de Ward, indicado por vários autores como sendo o melhor método para distâncias Euclideanas. No Anexo II-A1 é apresentada a escolha do número de classes para cada clustering.
  • 56. 46 Tabela 6 – Número de clusters para cada simulação da WT-TTR Nº de clusters WTRUN2 14 WTRUN3 13 WTRUN4 14 WTRUN5 14 WTRUN6 13 Considerando as cinco simulações da variante L55P-TTR, para cada corrida obteve-se uma partição dos aminoácidos. Para escolher o número de clusters foram novamente calculados e optimizados os índices G2 e G3 de Milligan e Cooper. Com as 5 partições foi construída uma partição consenso. No Anexo II-B1 é apresentada a escolha do número de classes para cada clustering. O número de classes obtido para cada clustering da L55P-TTR é dado na Tabela 7: Tabela 7 - Número de clusters para cada simulação da L55P-TTR Nº de clusters L55PRUN1 15 L55PRUN2 17 L55PRUN3 14 L55PRUN4 13 L55RUNP5 11 A partir destas classificações pretende-se obter uma classificação para cada tipo de proteína, isto é, pretende-se utilizar as 5 classificações da WT-TTR e obter uma partição única dos resíduos. Para a L55P-TTR o processo é análogo. Desta forma pretende-se diminuir o erro de classificação que se obteria se fosse só considerada uma corrida de cada tipo de proteína. O que se obteve foram duas matrizes com 127 aminoácidos e 5 classificações para cada resíduo, logo estas matrizes têm de dimensões 127 x 5, como se pode observar na Figura 24. Figura 24 - Matriz das classificações para cada tipo de proteína TTR
  • 57. 47 A partir desta matriz pretende-se obter uma partição dos aminoácidos que considera as classificações das cinco simulações. Para tal foi necessário definir uma medida de dissemelhança e aplicar a classificação hierárquica sob a matriz de classificações. Medida de dissemelhança Partindo do princípio que os resíduos que se mantêm a distâncias semelhantes do centro de massa são aqueles que ficam mais vezes na mesma classe, pretende-se uma medida de dissemelhança na qual: - a dissemelhança é nula para aminoácidos que ficam sempre na mesma classe; - a dissemelhança é máxima para aminoácidos que nunca ficam na mesma classe. Como os aminoácidos com comportamentos semelhantes serão aqueles que mais vezes ficaram na mesma classe, a medida de proximidade, aqui definida, compara os resíduos dois a dois e conta o número de vezes que estes ficam na mesma classe, tomando valores entre 0 e 5. A aplicação definida é { }5,4,3,2,1,0: 55 →ℜ×ℜD . Considerem-se, por exemplo, dois resíduos cujos vectores na matriz das classificações são os seguintes: ( )1,1,1,2,31 =aa ( )4,2,3,4,32 =aa Estes aminoácidos só ficaram no mesmo cluster no primeiro clustering (partição da primeira simulação), neste caso o valor de dissemelhança é 4. Se no primeiro aminoácido o vector fosse ( )1,1,3,2,3'1 =aa a dissemelhança seria 3. Verificação das propriedades de uma dissemelhança: 1. 0≥ijd , a dissemelhança entre dois resíduos é sempre maior ou igual a zero. 2. jidd jiij ,,∀= . No exemplo anterior, a dissemelhança entre 1aa e 2aa é 4, que é igual à dissemelhança entre 2aa e 1aa que também é 4.
  • 58. 48 3. jiij xxd =⇒= 0 a dissemelhança é nula quando os dois vectores das classificações forem iguais. Os valores da matriz de dissemelhanças são frequências absolutas no intervalo [0,5]. Partição consenso Na introdução do Capítulo 3 já foi apresentada uma breve definição de partição consenso, nesta secção pretende-se definir com mais exactidão em que consiste uma partição consenso. Chama-se “Partição consenso” à partição obtida apartir de um conjunto de diferentes partições obtidas dos mesmo individuos. Dadas 2≥t partições ( )trTr ,...,1= dos mesmos n objectos, a partição consenso sintetiza a informação contida no conjunto de dados original e fornece um bom sumário das relações entre os objectos. Os clusterings originais devem ser obtidos por análise dos objectos utilizando t diferentes clusterings. (Gordon, 1999) Neste ponto pretende-se obter uma partição dos aminoácidos para cada tipo de proteína considerando as 5 partições de cada uma, logo o que se pretende é obter uma partição consenso para WT-TTR e outra para a L55P-TTR. Para obter estas partições foi aplicado o clustering hierárquico à matriz das classificações e o critério utilizado foi o da Ligação Média. O resultado do clustering sobre a matriz das classificações da WT-TTR é uma partição dos 127 aminoácidos (partição I), que considera a informação das cinco simulações da WT-TTR (Figura 25). A partição obtida divide os 127 aminoácidos em 11 grupos (ver Tabela 20, Anexo II-A3). Analogamente se obtêm uma partição dos 127 aminoácidos (partição II) mas considerando a informação das cinco simulações da L55P-TTR. Isto é, aplicando a classificação hieráquica à matriz das classificações da L55P-TTR (Figura 25), com a medida de semelhança definida anteriormente e o critério de Ligação Média. A partição obtida divide os 127 aminoácidos em 15 grupos (Tabela 26, Anexo II-B3).