Reconhecimento de Caracteres com Redes Neuronais

Reconhecimento de Caracteres
Com Redes Neuronais

Trabalhos 1 e 2

APRENDIZAGEM COMPUTACIONAL 2007/2008
2º Semestre
Francisco Moço

Reconhecimento de Padrões

MMA-AC-Francisco Moço 2

Um Problema de KDD

1. Selecção de Dados
2. Pré-Processamento
3. Transformação
Redução da Dimensão
Selecção de Atributos
4. Extracção
Modelo de Classificação
Algoritmo de Aprendizagem
5. Avaliação
Testar e testar o processo de formas diferentes
6. Conhecimento


Recolha de Dados
38 Participantes
6x cada dígito
10 dígitos

=2280 dígitos


Pré-Processamento Segmentação
Redimensionamento
32x32 pixel
Greyscale
Filtros
Etc…

128x128 O processo foi criado
por Yan Le Cun e T.
Mitchell para as BD
MNIST e USPS.
(Existe literatura…)
32x32


Base de dados
Optical Recognition of Handwritten Digits Data Set

Preprocessamento dos dados

8x8
Σ
0 1 6 15 12 1 0 0
0 7 16 6 6 10 0 0
0 8 16 2 0 11 2 0
0 5 16 3 0 5 7 0
0 7 13 3 0 8 7 0
0 4 12 0 1 13 5 0
0 0 14 9 15 9 0 0
0 0 6 14 7 1 0 0

64 ATRIBUTOS + 1 CLASSE

0, 1, 6, 15, 12, 1, 0, 0, 0, 7, 16, 6, 6, … 7, 1, 0, 0, 0


Redução da Dimensão (Transformação)

Ficheiro com 3823 x 65 A redução do número de
3823 objectos atributos resulta da criação de
novos atributos (CL dos
64 atributos originais)
1 classe (dígito 0 a 9)

PCA
PF
ICA
Haar Wavelets


Selecção de Atributos

FSS - Feature Sub-Selection
Filtros
Removem atributos irrelevantes do conjunto de atributos
original, antes de aplicar o Algoritmo de Aprendizagem
Wrappers
Utilizam o o próprio Algoritmo de Aprendizagem para
escolher o conjunto de atributos mais relevante

Algoritmos Genéticos (Métodos Heurísticos)
Neocognitron


Algoritmos Genéticos
Gene – smallest unit with
genetic information
Genotype – collectivity of
all genes
Phenotype – expression of
genotype in environment
Individual – single member
of a population with
genotype and phenotype
Population – set of several
individuals
Generation – one iteration
of evaluation, selection
and reproduction with
variation


Genes, Genotipos e Fenotipos Gene

3021 3058 3240 00010101 00111010 11110000 0.67
3017 3059 3165 00010001 00111011 10100101 0.23
3036 3185 3120 00100100 10111001 01111000 0.45
3197 3088 3106 11000101 01011000 01101010 0.94
Phenotype Genotype Fitness

Função
Ex: Genetic coding and mapping


Feature “weighting” para criar uma “pool”

String binária aleatória
(CROMOSSOMA)

Comprimento N

0 0 1 0 1 1 0 1 0 1 1 1 1 …0 1 0 0
…

0 1 6 15 12 1 0 0 0 7 16 6 6 … 7 1 0 0 0

Atributos
seleccionados
POPULAÇÃO


Roleta (Roulette Wheel) - Selecção


Selecção de Cromossomas

Rank based (Ordem)
Fitness Based (Aptidão, Fitness)


Outros métodos de selecção


Operador - Cruzamento
Dois progenitores
produzem dois offsprings

Há probabilidade de que
os cromossomas de dois
pais sejam copiados sem
alterações como offsprings

Há probabilidade de que os
cromossomas de dois pais
sejam combinados
aleatoriamente para formar One Point Crossover
offsprings
Two Point Crossover
0,6 < Probab. Crossover < 1,0
Uniform Crossover

Operador - Mutação
Há a probabilidade de que os genes de um
descendente sejam alteardos aleaóriamente.
A Probabilidade de mutação é pequena.

Probab. Mutation ≈ 0,001


Controlo - Fitness Function

Objectivo
Selecção Parental
Medida de Convergência
Deve reflectir o valor do cromossoma de uma forma “real”
Serve de critério de paragem

Problemas
super-fit - valor máximo original muito alto
super-unfit - valor mínimo original muito baixo


Valores obtidos no RapidMiner

FS Correlation (alto) significa existe um alto grau de correlação entre os atributos e
a classe e um baixo grau de correlação entre os atributos.

O Problema (GA + RNA)

!

Classificação com Redes Neuronais

O PERCEPTRON

bias

Entradas: x1, x2, …, xn
Pesos Sinápticos: w1, w2, …, wn


Discriminante Linear (Exemplo)

g(x)>0 ⇒ x ∈R1 (Classe 1)

g(x)<0 ⇒ x ∈R2 (Classe 2)

Fronteira de decisão g(x)=0
R1
R2 W=(w1, w2)=(0.9,2.0)

desvio

Se os exemplos do conjunto de treino são linearmente separáveis
podemos aprender uma função discriminante linear para usar como
classificador de futuros exemplos


FUNÇÃO DE ACTIVAÇÃO

A função de activação deve ser diferenciável
Geralmente têm não-linearidade suave (não abrupta)
Mais utilizadas:
Função Logística (Sigmóide)
Tangente Hiperbólica.


RNA DE MÚLTIPLAS CAMADAS
Redes de múltiplas camadas alimentadas adiante
(feedforward multilayer neural networks)

VANTAGENS
Muito utilizadas para resolver problemas complexos
Geralmente, treinadas com supervisão através do
algoritmo de retropropagação do erro (back-propagation)
Cada neurónio inclui uma função de activação não linear
Uma ou mais camadas ocultas de neurónios
Alto grau de conectividade.


DESVANTAGENS
Difícil análise teórica da rede, devido à alta não-linearidade
e conectividade;
Neurónios ocultos tornam difícil a visualização do processo
de aprendizagem.



Cada neurónio é projectado para realizar duas tarefas

Cálculo do sinal funcional de saída do neurónio, resultado
dos sinais de entrada, bias e pesos sinápticos que foram
aplicados na função de activação;

Cálculo de uma estimativa do vector gradiente (gradientes
da superfície de erro em relação aos pesos conectados às
entradas de um neurónio), necessário para a
retropropagação através da rede.


APRENDIZAGEM

Aprendizagem é feita em 3 fases:
1. Envio do estímulo ao longo da rede
2. Cálculo e retropopagação do erro associado
3. Ajuste dos pesos


Notação target t=(t1, t2, …, tn)

X vector de treino
t valores esperados para X
Y vector valores obtidos
Wjk peso entre Zj e Yk
Vij peso entre Xi e Zj
W0k desvio de Yk
V0j desvio de Zj
δk erro referente ao neurónio Yk
δj erro referente ao neurónio Zj
η coeficiente de aprendizagem X=(x1, x2, …, xn)


O Algoritmo de Aprendizagem – parte I
v0j - bias w0j - bias

f(zin j) f(yin k)
vij wik
x1 z1 y1

…
…

…
xi zj yk

…
…
…
xn zp ym

FEEDFORWARD


APRENDIZAGEM

O Algoritmo de Backpropagation procura valores para os
pesos sinápticos de forma a minimizar o erro total da
rede (Função de custo E) sobre o conjunto de treino.
f(yin k)
wik
z1 y1 t1 E1

…
…
Diferenciação do Erro no neurónio zj yk tk Ek
de saída yk em relação a wjk

…
…
zp ym tm EN


APRENDIZAGEM

Diferenciação do Erro no neurónio zj em relação a vij

f(zin j) f(yin k)
vij wik
x1 z1 y1 t1

…
…

…
xi zj yk tk

…
…
…
xn zp ym tm


APRENDIZAGEM

Actualização dos pesos (Resumo)

- Entre a camada de saída e a camada oculta (Wjk)
- Entre a camada oculta e a camada de entrada (Vij)


O Algoritmo de Aprendizagem – parte II

x1 z1 y1

…
…

…
.
xi zj yk

…
…
…
xn zp ym

BACKPROPAGATION

http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html


Regra do Delta
The delta rule is a gradient descent learning
rule for updating the weights of the artificial
neurons in a single-layer perceptron.
Fonte: Wikipedia.org

Obter o ponto mínimo através
de um processo de iteração,
utilizando um exemplo do
conjunto de treino de cada vez

Partindo de um ponto
arbitrário w(k) pode-se
caminhar pela superfície E(w)
em direcção ao ponto mínimo,
bastando para isso evoluir
sempre no sentido oposto ao
do gradiente naquele ponto.


Coeficiente de Aprendizagem (η)

Quanto menor η, menores são as variações de wji e mais
suave é a trajectória no espaço de pesos.
Desvantagem: Aprendizagem lenta

Quanto maior η, aprendizagem mais rápida, ajustes em
wji grandes
Desvantagem: a rede pode tornar-se instável (oscilatória)

Solução :
Inclusão de um termo, na regra do delta, chamado momento


Modos de Treino da RN

Modo Sequencial (SEQ): a actualização dos pesos é realizada
após a apresentação de cada exemplo de treino. Bastante
utilizado em problemas de classificação de padrões com muitas
repetições (redundantes).

Modo por Lote (BATCH): O ajuste dos pesos é realizado após a
apresentação de todos os exemplos do conjunto de treino,
constituindo assim uma época.


Critérios de Paragem

Supõe-se que o algoritmo de retropropagação tenha
convergido quando:
a norma euclidiana do vector gradiente alcançar um valor
suficientemente pequeno.
Desvantagens: tempo de aprendizagem longo e requer o cálculo
do vector gradiente dos pesos.

a taxa absoluta de variação do erro médio quadrado por época
for suficientemente pequena.
Desvantagem: pode ter-se uma paragem prematura do
processo


Exemplo


Exemplo(cont.)


Filter Approach

ALGORITMO GENÁTICO

REDE NEURONAL

Com o RapidMiner

TREINO
TREINO

TESTE
TESTE

Árvores de operadores em RapidMiner: Simple Validation (Holdout),
XValidation (Cross-validation) e Wrapper Approach Treino e Teste
Não foi possível no RapidMiner obter os resultados esperados para o classificador Classification
Performance, sendo substituindo pelo classificador Performance. Este, apenas me devolve os
parâmetros, erro quadrado e o erro médio quadrado, valores que me sugerem uma taxa de acerto
de entre 97,2 e 98,3%.

Com o WEKA

Implementei no WEKA as operações de Selecção de
Atributos, utilizando os dois tipos de abordagem já referidos
Atributos
para o RapidMiner, filters e wrapper.
wrapper
Também neste programa, a conjunção de uma pesquisa
com AG e o classificador MultilayerPerceptron, não são
computacionalmente resolúveis em tempo útil.
Assim, implementei filters com pesquisa por CFSS e AG.


Que aprendeu?

Foi induzida uma RN
taxa de aprendizagem=0.3
momento=0.2
64 entradas + 10 camadas ocultas + 10 saídas

Comparações

a) Não observado


Comparações


Entre Classificadores


Um caso problemático


Outros Classificadores (RN)

LRF
RBF
Convolutional (LeNet5)

http://yann.lecun.com/exdb/lenet/index.html

Reconhecimento de Caracteres com Redes Neuronais

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Empfohlen

Empfohlen (20)

Reconhecimento de Caracteres com Redes Neuronais