3. Um Problema de KDD
1. Selecção de Dados
2. Pré-Processamento
3. Transformação
Redução da Dimensão
Selecção de Atributos
4. Extracção
Modelo de Classificação
Algoritmo de Aprendizagem
5. Avaliação
Testar e testar o processo de formas diferentes
6. Conhecimento
MMA-AC-Francisco Moço 3
4. Recolha de Dados
38 Participantes
6x cada dígito
10 dígitos
=2280 dígitos
MMA-AC-Francisco Moço 4
5. Pré-Processamento Segmentação
Redimensionamento
32x32 pixel
Greyscale
Filtros
Etc…
128x128 O processo foi criado
por Yan Le Cun e T.
Mitchell para as BD
MNIST e USPS.
(Existe literatura…)
32x32
MMA-AC-Francisco Moço 5
7. Redução da Dimensão (Transformação)
Ficheiro com 3823 x 65 A redução do número de
3823 objectos atributos resulta da criação de
novos atributos (CL dos
64 atributos originais)
1 classe (dígito 0 a 9)
PCA
PF
ICA
Haar Wavelets
MMA-AC-Francisco Moço 7
8. Selecção de Atributos
FSS - Feature Sub-Selection
Filtros
Removem atributos irrelevantes do conjunto de atributos
original, antes de aplicar o Algoritmo de Aprendizagem
Wrappers
Utilizam o o próprio Algoritmo de Aprendizagem para
escolher o conjunto de atributos mais relevante
Algoritmos Genéticos (Métodos Heurísticos)
Neocognitron
MMA-AC-Francisco Moço 8
9. Algoritmos Genéticos
Gene – smallest unit with
genetic information
Genotype – collectivity of
all genes
Phenotype – expression of
genotype in environment
Individual – single member
of a population with
genotype and phenotype
Population – set of several
individuals
Generation – one iteration
of evaluation, selection
and reproduction with
variation
MMA-AC-Francisco Moço 9
15. Operador - Cruzamento
Dois progenitores
produzem dois offsprings
Há probabilidade de que
os cromossomas de dois
pais sejam copiados sem
alterações como offsprings
Há probabilidade de que os
cromossomas de dois pais
sejam combinados
aleatoriamente para formar One Point Crossover
offsprings
Two Point Crossover
0,6 < Probab. Crossover < 1,0
Uniform Crossover
MMA-AC-Francisco Moço 15
16. Operador - Mutação
Há a probabilidade de que os genes de um
descendente sejam alteardos aleaóriamente.
A Probabilidade de mutação é pequena.
Probab. Mutation ≈ 0,001
MMA-AC-Francisco Moço 16
17. Controlo - Fitness Function
Objectivo
Selecção Parental
Medida de Convergência
Deve reflectir o valor do cromossoma de uma forma “real”
Serve de critério de paragem
Problemas
super-fit - valor máximo original muito alto
super-unfit - valor mínimo original muito baixo
MMA-AC-Francisco Moço 17
18. Valores obtidos no RapidMiner
FS Correlation (alto) significa existe um alto grau de correlação entre os atributos e
a classe e um baixo grau de correlação entre os atributos.
MMA-AC-Francisco Moço 18
21. Discriminante Linear (Exemplo)
g(x)>0 ⇒ x ∈R1 (Classe 1)
g(x)<0 ⇒ x ∈R2 (Classe 2)
Fronteira de decisão g(x)=0
R1
R2 W=(w1, w2)=(0.9,2.0)
desvio
Se os exemplos do conjunto de treino são linearmente separáveis
podemos aprender uma função discriminante linear para usar como
classificador de futuros exemplos
MMA-AC-Francisco Moço 21
22. FUNÇÃO DE ACTIVAÇÃO
A função de activação deve ser diferenciável
Geralmente têm não-linearidade suave (não abrupta)
Mais utilizadas:
Função Logística (Sigmóide)
Tangente Hiperbólica.
MMA-AC-Francisco Moço 22
23. RNA DE MÚLTIPLAS CAMADAS
Redes de múltiplas camadas alimentadas adiante
(feedforward multilayer neural networks)
VANTAGENS
Muito utilizadas para resolver problemas complexos
Geralmente, treinadas com supervisão através do
algoritmo de retropropagação do erro (back-propagation)
Cada neurónio inclui uma função de activação não linear
Uma ou mais camadas ocultas de neurónios
Alto grau de conectividade.
MMA-AC-Francisco Moço 23
24. RNA DE MÚLTIPLAS CAMADAS
DESVANTAGENS
Difícil análise teórica da rede, devido à alta não-linearidade
e conectividade;
Neurónios ocultos tornam difícil a visualização do processo
de aprendizagem.
MMA-AC-Francisco Moço 24
25. RNA DE MÚLTIPLAS CAMADAS
Cada neurónio é projectado para realizar duas tarefas
Cálculo do sinal funcional de saída do neurónio, resultado
dos sinais de entrada, bias e pesos sinápticos que foram
aplicados na função de activação;
Cálculo de uma estimativa do vector gradiente (gradientes
da superfície de erro em relação aos pesos conectados às
entradas de um neurónio), necessário para a
retropropagação através da rede.
MMA-AC-Francisco Moço 25
26. APRENDIZAGEM
Aprendizagem é feita em 3 fases:
1. Envio do estímulo ao longo da rede
2. Cálculo e retropopagação do erro associado
3. Ajuste dos pesos
MMA-AC-Francisco Moço 26
27. Notação target t=(t1, t2, …, tn)
X vector de treino
t valores esperados para X
Y vector valores obtidos
Wjk peso entre Zj e Yk
Vij peso entre Xi e Zj
W0k desvio de Yk
V0j desvio de Zj
δk erro referente ao neurónio Yk
δj erro referente ao neurónio Zj
η coeficiente de aprendizagem X=(x1, x2, …, xn)
MMA-AC-Francisco Moço 27
28. O Algoritmo de Aprendizagem – parte I
v0j - bias w0j - bias
f(zin j) f(yin k)
vij wik
x1 z1 y1
…
…
…
xi zj yk
…
…
…
xn zp ym
FEEDFORWARD
MMA-AC-Francisco Moço 28
29. APRENDIZAGEM
O Algoritmo de Backpropagation procura valores para os
pesos sinápticos de forma a minimizar o erro total da
rede (Função de custo E) sobre o conjunto de treino.
f(yin k)
wik
z1 y1 t1 E1
…
…
Diferenciação do Erro no neurónio zj yk tk Ek
de saída yk em relação a wjk
…
…
zp ym tm EN
MMA-AC-Francisco Moço 29
30. APRENDIZAGEM
Diferenciação do Erro no neurónio zj em relação a vij
f(zin j) f(yin k)
vij wik
x1 z1 y1 t1
…
…
…
xi zj yk tk
…
…
…
xn zp ym tm
MMA-AC-Francisco Moço 30
31. APRENDIZAGEM
Actualização dos pesos (Resumo)
- Entre a camada de saída e a camada oculta (Wjk)
- Entre a camada oculta e a camada de entrada (Vij)
MMA-AC-Francisco Moço 31
32. O Algoritmo de Aprendizagem – parte II
x1 z1 y1
…
…
…
.
xi zj yk
…
…
…
xn zp ym
BACKPROPAGATION
http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html
MMA-AC-Francisco Moço 32
33. Regra do Delta
The delta rule is a gradient descent learning
rule for updating the weights of the artificial
neurons in a single-layer perceptron.
Fonte: Wikipedia.org
Obter o ponto mínimo através
de um processo de iteração,
utilizando um exemplo do
conjunto de treino de cada vez
Partindo de um ponto
arbitrário w(k) pode-se
caminhar pela superfície E(w)
em direcção ao ponto mínimo,
bastando para isso evoluir
sempre no sentido oposto ao
do gradiente naquele ponto.
MMA-AC-Francisco Moço 33
34. Coeficiente de Aprendizagem (η)
Quanto menor η, menores são as variações de wji e mais
suave é a trajectória no espaço de pesos.
Desvantagem: Aprendizagem lenta
Quanto maior η, aprendizagem mais rápida, ajustes em
wji grandes
Desvantagem: a rede pode tornar-se instável (oscilatória)
Solução :
Inclusão de um termo, na regra do delta, chamado momento
MMA-AC-Francisco Moço 34
35. Modos de Treino da RN
Modo Sequencial (SEQ): a actualização dos pesos é realizada
após a apresentação de cada exemplo de treino. Bastante
utilizado em problemas de classificação de padrões com muitas
repetições (redundantes).
Modo por Lote (BATCH): O ajuste dos pesos é realizado após a
apresentação de todos os exemplos do conjunto de treino,
constituindo assim uma época.
MMA-AC-Francisco Moço 35
36. Critérios de Paragem
Supõe-se que o algoritmo de retropropagação tenha
convergido quando:
a norma euclidiana do vector gradiente alcançar um valor
suficientemente pequeno.
Desvantagens: tempo de aprendizagem longo e requer o cálculo
do vector gradiente dos pesos.
a taxa absoluta de variação do erro médio quadrado por época
for suficientemente pequena.
Desvantagem: pode ter-se uma paragem prematura do
processo
MMA-AC-Francisco Moço 36
41. Com o RapidMiner
TREINO
TREINO
TESTE
TESTE
Árvores de operadores em RapidMiner: Simple Validation (Holdout),
XValidation (Cross-validation) e Wrapper Approach Treino e Teste
Não foi possível no RapidMiner obter os resultados esperados para o classificador Classification
Performance, sendo substituindo pelo classificador Performance. Este, apenas me devolve os
parâmetros, erro quadrado e o erro médio quadrado, valores que me sugerem uma taxa de acerto
de entre 97,2 e 98,3%.
MMA-AC-Francisco Moço 41
43. Com o WEKA
Implementei no WEKA as operações de Selecção de
Atributos, utilizando os dois tipos de abordagem já referidos
Atributos
para o RapidMiner, filters e wrapper.
wrapper
Também neste programa, a conjunção de uma pesquisa
com AG e o classificador MultilayerPerceptron, não são
computacionalmente resolúveis em tempo útil.
Assim, implementei filters com pesquisa por CFSS e AG.
MMA-AC-Francisco Moço 43