Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco

Relatório técnico do curso de Sistemas Inteligentes de Apoio a Decisão do Departamento de Engenharia Elétrica da PUC-RJ em 12/2008.

Previsão de Inadimplência por Redes Neurais Artificiais
na Presença de Baixo Risco
Anderson Guimarães de Pinho
Pontifícia Universidade Católica do Rio de Janeiro – Rio de Janeiro – RJ – Brasil
agp.net@gmail.com

Resumo Seja qual for a técnica utilizada, é necessária
A análise de inadimplência creditícia tem sido uma amostra de casos adimplentes e
objeto de estudo para diversos pesquisadores e inadimplentes para estimação e validação dos
profissionais. Mesmo em casos onde há modelos acima mencionados. A literatura
ocorrência da inadimplência é um evento quase
sugere ao menos a separação destes casos
raro, empresas concessionárias de empréstimos
precisam se apoiar em boas práticas de entre grupos de treinamento/estimação e
concessão de empréstimos por diversos motivos. outro de teste/generalização (ver Rezende,
O presente artigo visa estudar o fenômeno da p.158). Em casos onde a inadimplência é um
inadimplência através de redes neurais artificiais evento de baixo risco, é problemática esta
neste ambiente de baixa inadimplência. Para isto, separação entre grupos, pois qualquer
utilizaremos uma base de dados real de uma observação fora do conjunto de
cooperativa de crédito brasileira para estudo e treinamento/estimação pode ser de vital
aplicação das técnicas aqui apresentadas. importância para o aprendizado correto de um
Palavras-chave: Credit e Behavior Scoring, comportamento inadimplente.
Inadimplência, Redes Neurais, Comitê de
Redes, Bootstrap. Neste sentido, o presente artigo objetivará a
investigação de Redes Neurais no contexto de
crédito e behavior scoring, na presença de
1. Introdução baixo risco de inadimplência. Para tanto,
faremos uso de Redes Neurais com Múltiplas
A análise preditora de inadimplência tem sido Camadas (ou Multi-Layers Perceptrons),
objeto de interesse para empresas nos mais treinadas com o Algoritmo de Retro-
diversos segmentos. Um deles que merece propagação (Backpropagation).
bastante destaque pela quantidade de material
produzido na literatura é o financeiro, na Na aplicação das técnicas propostas,
análise de inadimplência creditícia. Neste utilizaremos uma base de dados real de uma
ramo, muitos métodos quantitativos para cooperativa de crédito brasileira. O artigo
criação de modelos de previsão na concessão está organizado da seguinte forma: em (2),
de crédito têm sido explorados. Ver [3], [7]. apresentaremos a relevância do tema; em (3)
seremos breve sobre a metodologia de
Na análise de concessão de crédito, análise; em (4) detalharemos o caso da
destacam-se pelo tradicionalismo as técnicas empresa em estudo, juntamente com os
de análise multivariada, como a análise procedimentos de limpeza, seleção e
discriminante, e a de regressão logística. transformação de variáveis; em (5)
Contudo, técnicas de inteligência artificial apresentaremos os resultados obtidos; e
como algoritmos genéticos e redes neurais finalmente em (6), as principais conclusões e
tem sido alvo de debate, em especial pelos os próximos passos.
desempenhos obtidos e pela associação com
outros campos da ciência. Outro aspecto é a 2. Relevância do Tema
capacidade, em especial das redes neurais
com múltiplas camadas, na separação de Analistas de risco estão continuamente
padrões não lineares (Haykin, p.202). estudando uma maneira mais eficiente e
objetiva de se decidir com grande acurácia e


rapidez, qual o risco associado na concessão de uma característica bastante relevante: a
de crédito a algum tomador em particular. A objetividade. A melhor forma de se entender
partir da análise de ficha cadastral e histórico e controlar o risco são através de soluções
transacional de uma amostra de clientes back-end de credit-scoring e/ou behavior-
tomadores de crédito, modelos estatísticos e scoring pela criação de sistemas baseados em
de inteligência artificial são utilizados para a conhecimento (SBCs). SBCs é uma classe
criação de sistemas capazes de identificarem especial de sistemas inteligentes no qual o
futuros clientes adimplentes ou conhecimento é representado explicitamente
inadimplentes. Estes sistemas representam e separado do programa que o manipula
uma grande vantagem competitiva, (Rezende, p.8)
particularmente, quando se tratam de
soluções automatizadas de back-end1. É importante deixarmos claro as diferenças
existentes entre credit e behavior scoring. O
Sistemas de decisão back-end baseados em primeiro acontece antes da concessão do
conhecimento armazenado de grades bases de crédito ou contratação do serviço sujeito à
dados, geram produtividade para a empresa, inadimplência. Clientes são avaliados com
baixos custos operacionais, eficiência em base no seu risco de inadimplência futuro no
processos, e estabelecem boas práticas na momento antes da concessão. Já behavior
administração do relacionamento com o scoring acontece como uma medida de
cliente. Administradores podem automatizar monitoramento do cliente com o crédito
decisões de baixo risco – como exemplo, a contratado, utilizando o desempenho da
concessão de crédito pré-aprovado ao cliente, conta do cliente como fonte preditora (dentre
ou ajuste da linha de crédito concebida – e outras variáveis). Resumidamente, modelos
concentrar esforços na avaliação do crédito de credit scoring ajudam a empresa a adquirir
direto, ou colecionar informações sobre uma carteira de clientes com baixo risco de
contas propícias a inadimplência. inadimplência, garantindo a sustentabilidade
e lucratividade futura do negócio. Já behavior
Seja qual for a técnica utilizada na scoring a monitorá-los em caso de mudança
identificação da inadimplência, o resultado para um perfil de alto risco, viabilizando uma
pela aplicação trata-se de uma nota ou score ação preventiva de inadimplência. O
do cliente, a qual pode ser usada por si só diagrama abaixo ilustra estes dois momentos.
para derivarmos a decisão de caracterizá-lo
como futuro inadimplente (ou adimplente). Diagrama 1 – Momentos antes a
Score este, muitas vezes, de carácter Inadimplência
probabilístico (Carvalho apud Clemente,
Behavior Scoring
p.97), podendo ainda ser combinado com
outra informação para que se chegue a outra Cadastro e Início
do Relacionamento
Concessão do
Empréstimo
Término do Prazo
Estimado para Quitação
medida de risco de inadimplência.

Algumas décadas atrás, a maioria dos bancos Inadimplência:
Sim ou Não?
Credit Scoring
confiava exclusivamente no julgamento
subjetivo de seus analistas para determinar o 3. Metodologia de Análise
risco de crédito de uma empresa. Apesar de
muito importante nas decisões relativas à A técnica utilizada neste artigo para previsão
concessão de crédito, o exame em de inadimplência será redes neurais do tipo
profundidade realizado pelo analista carece perceptrons de múltiplas camadas (MLP),
com algoritmo de retropropagação. Redes
1
Front-end e back-end são termos utilizados para deste tipo foram popularizadas por Rumelhart
os estágios iniciais e finais de um processo. O e McClelland após o ano de 1985, acabando
front-end é responsável por coletar informações com o pessimismo que existia sobre
imputadas pelos usuários, enquanto que back-end máquinas de múltiplas camadas, causado pelo
a usá-las.


livro de Minsky e Papert (1969). É vasta a aprendizado e generalização. Tais aspectos
literatura detalhando o algoritmo de serão motivos de atenção no capítulo 5. O
retropropagação e o funcionamento da redes grande desafio nosso será qual modelo
de múltiplas camadas, motivo o qual não escolher (o melhor), dentre vários
seria diferente na aplicação de fenômenos de disponíveis. Vale ressaltar que a modelagem
inadimplência. Seremos breve sobre a técnica de eventos com baixa chance de ocorrência é
em questão. Para detalhes mais técnicos complexa, pois neste caso, dispõe-se de
recomendamos ao leitor a leitura de [2]. poucas observações para separação de
grupos, e posterior verificação das
Uma MLP consiste de um conjunto de capacidades de aprendizado e generalização.
unidades de entradas sensoriais constituindo a Para tanto, alguns procedimento para
camada de entrada, uma ou mais camadas particionamento da amostra são discutidos
escondidas de nós computacionais, e uma em 4.5.1 e 4.5.2.
camada de saída conforme objetivo do
analista (classificar, prever, estimar). O 4. Caso Cooperativa de Crédito
número de entradas e saídas depende da
dimensionalidade dos dados, enquanto que o Para a análise comparativa das técnicas aqui
número de neurônios nas camadas apresentadas utilizaremos a base de dados de
intermediárias da complexidade do problema uma empresa real brasileira. Trata-se de uma
(Rezende, p.145). cooperativa de crédito com mais de 5.000
associados. Pela definição do Sebrae SP, uma
São redes tipicamente para aprendizado cooperativa de crédito trata-se de uma
supervisionado. O sinal de entrada se propaga associação formada por no mínimo 20
para frente, na camada de saída os sinais são pessoas, que possui legislação própria e
comparados com os esperados, e os erros são oferece aos associados serviços equivalentes
computados e retropropagados para as a uma instituição financeira.
camadas anteriores. Esta retropropagação
permite a atualização dos pesos sinápticos, e O Sebrae ressalta que um dos maiores
a rede aprende um conhecimento por benefícios da cooperativa de crédito são as
correção do erro. Em outras palavras, o vantajosas taxas e os encargos oferecidos aos
aprendizado da rede está associado à associados por ser esta uma entitade sem fins
capacidade das mesmas adaptarem seus lucrativos, e conseqüentemente, com baixa
parâmetros como conseqüência da sua tributação. Por estes motivos, é grande a
iteração gradativa com o meio externo demanda por produtos e serviços oferecidos,
(Rezende, p.142). resultado o qual não seria diferente para
empréstimos e financiamentos dos mais
A generalização por sua vez, esta associada a diversos tipos. Uma instituição deste tipo
capacidade da rede em dar respostas corretas necessita se apoiar em boas práticas de
(ou aproximadas) a padrões não apresentados concessão de créditos evitando a
na fase de aprendizado. Este aspecto deve ser inadimplência futura dos cooperados.
controlado ainda na fase de aprendizado. O
excesso de neurônios nas camadas Neste ambiente, estudaremos modelos de
intermediárias, conseqüentemente elevado redes neurais que atendam ao problema da
número de pesos sinápticos, ou ainda o inadimplência futura, simultaneamente, em
elevado número de épocas de treinamento dois momentos da vida do cliente. O
pode ocasionar o fenômeno denominado primeiro, antes da concessão (Credit
overtraining, quando a rede não responde Scoring), e o segundo após a concessão
bem a padrões nunca vistos. (Behavior Scoring). Ou seja, não haverá
distinção quanto ao momento de tomação de
A estrutura da rede neural bem como a empréstimo. Esperamos que a inclusão de
duração da fase de treinamento influencia uma variável no modelo neural do tipo tempo
diretamente na qualidade do modelo, ou seja, de cadastro (ou contrato) possa captar


possíveis efeitos quanto ao momento de Grupos de Variáveis Qtde Variáveis
Cheque Especial 6
tomação do empréstimo.
Débito Automático em Conta Corrente 3
Empréstimos 37
Para isto, utilizaremos uma base de dados Fundos de Investimento 23
com 2644 contas distintas com empréstimos Movimentação de Créditos e Débitos em C.c. 16
em aberto no período de junho de 2007 a Seguros Contratados 11
Total 96
julho de 2008.

4.1. Integração dos dados É importante dizer que 1 (uma) das variáveis
de empréstimo trata-se da principal variável
São muitas as informações disponíveis sobre de interesse deste estudo a ser modelada, ou
os cooperados. A organização e manutenção seja, a variável dependente dos modelos: a
de um data warehouse 2 integrado garante marcação de existência de algum contrato
agilidade na tomada de decisão na inadimplente, sim ou não, flgInadimplente.
cooperativa em estudo, pois fornece Barth (p.2) ressalta que a inadimplência pode
informação atualizada sobre as mais diversas se manifestar de diversas formas dependendo
fontes de dados. Sobre este data warehouse, do negócio e interesse do analista. No caso da
pode-se dizer que dentre todas as tabelas de cooperativa, é declarado como inadimplente o
histórico disponíveis, duas delas serão de contrato com pelo menos uma prestação em
grande importância para análise dos modelos atraso a mais de 30 dias.
aqui propostos. Uma será a tabela de
cadastro do cooperado, com informações 4.2. Limpeza e Preparação dos Dados
sempre atualizadas disponíveis desde o início
Muitos problemas podem se encontrados na
do relacionamento. Abaixo segue uma
base de dados, os quais prejudicam o poder
descrição das principais informações
de classificação das ferramentas aqui
encontradas nesta última tabela:
estudadas. A limpeza de dados tem como
Tabela 1 – Variáveis da Tabela Cadastral objetivo remover anomalias dos dados,
aumentando ou melhorando sua qualidade
Variável Tipo Descrição (Oliveira apud Rahm). Oliveira divide os
DataNascimento Data Data de nascimento do cooperado.
EstadoCivil Nominal Estado civil do cooperado principais problemas encontrados nos dados
DataMatrícula Data Data de matrícula do cooperado.
Uf Nominal Estado de residência do cooperado.
em dois: (1) em tabelas isoladas; (2) em
Cidade Nominal Cidade de residência do cooperado. múltiplas tabelas. Quando se trata de uma
Bairro Nominal Bairro de residência do cooperado.
RegiãoEstado Nominal Região de residência (Fonte: IBGE). tabela isolada, problemas podem acontecer
ZonaMunicipal Nominal Zona municipal de residência (Fonte: IBGE). em: nível de atributo, nível de registro, ou
RegiãoAdministrativa Nominal Região administrativa de residênca (Fonte: IBGE).
RendaLíquidaMensal Numérica Renda líquida mensal declarada. nível de tabela.
TipoCliente Nominal Tipo de cooperado, segundo critérios da instituição.

Sobre nosso problema de inadimplência,
Sobre a 2ª tabela, pode-se dizer que se seremos breve apresentando os principais
encontram disponíveis 96 variáveis encontrados, e o procedimento executado
resumindo histórico transacional da conta para limpeza.
corrente do cooperado, sobre seis grandes
grupos de produtos oferecidos, conforme Em nível de atributo, muitas variáveis
abaixo. Pouparemos o leitor da apresentação apresentaram valor faltante, e neste caso
destas variáveis, descrevendo-as quando procedemos com a criação de uma classe
necessária. “não preenchida” para variáveis categóricas,
e preenchimento de média para variáveis
Tabela 2 – Grupos de Variáveis Métricas numéricas. Nas variáveis geográficas como
Transacionais Bairro e Cidade, era freqüente a presença de
erros ortográficos. Neste caso, prosseguimos
com a correção manual dos campos,
corrigindo a informação também em outro
2
Mais detalhes acessar http://www.datawarehouse.inf.br.


atributos com algum nível de dependência caso aceita-se a inclusão da variável contínua
como RegiãoAdministrativa. Uma variável na modelagem.
altamente propícia a apresentar valores
incorretos é a RendaLíquidaMensal. Porém 1   2 (1)
t  observado 
nada foi feito neste caso.  2
 2
1
 2
n1 n2
Em nível de registro, muitas variáveis
geográficas apresentavam nível de Todas as variáveis contínuas foram
dependência. Sobre isto, prosseguimos com a submetidas ao teste t acima, com nível de
correção manual desde níveis menos para confiança de 99%, e as menos significantes
mais agregados. No entanto, esta variável é foram excluídas da análise.
de grande importância para a empresa,
devendo alguma técnica de correção Tendo ainda o cuidado em evitar problemas
automática intrínseca ser analisada de redundância de informação na modelagem,
futuramente. as variáveis mais significativas foram
submetidas à análise de correlação cruzada
Em nível de tabela, podemos dizer que havia uma a uma, conforme fórmula em (2). Neste
problemas de redundância de uma mesma caso, utilizou-se como critério de exclusão,
entidade. Um cooperado, a exemplo, pode para 1 (uma) de duas variáveis, as que
possuir mais de uma conta, sendo assim apresentassem o módulo da correlação
representado por mais de uma linha na tabela. superior a 0,70. Coube ao analista decidir por
Neste caso, a de-duplicação das linhas critérios empíricos qual de duas variáveis
ocorreu tendo como chave primária o CPF do excluir.
cooperado.
1 n  xi  x  xi  x  (2),
Em múltiplas tabelas, nada foi feito, pois   corr ( X 1 , X 2 )    
n i 1  dp( X 1 )  dp( X 2 ) 
tais problemas (caso existam) acontecem em   
níveis anteriores quando da integração das
tabelas 1 e 2 apresentadas. Podemos dizer que Contrariando qualquer critério de seleção
estão mais propícias a redundância, e menos apresentado, por motivos também empíricos,
a referências incorretas. inclui-se a variável RendaLíquidaMensal.
Finalmente, obtiveram-se as seguintes
Feito isto, podemos prosseguir para a análise variáveis contínuas finais para modelagem:
de seleção de variáveis.
Tabela 3 – Variáveis Contínuas Selecionadas
4.3. Seleção de Variáveis para Modelagem

4.3.1. Contínuas Variável
VlrCreditado_U6M
Descrição
Valor creditado em conta nos últimos 6 meses.
Qtd_DocTedSaqCh_U6M Qtde transações em conta nos últimos 6 meses.
Para seleção de variáveis contínuas, utilizou- VlrLimiteEspecial Valor de limite no cheque especial.
Vlr_CredOper_UM Valor referente a pagamentos no último mês.
se a estatística de teste t-student com o VlrMIN2_DocTedSaqCh_UM 2o maior valor debitado no último mês.
objetivo de inferir se as médias observadas VlrExcessoLimite Valor ultrapassado do limite especial últimos mês.
RendaLíquidaMensal Renda líquida mensal declarada.
nas variáveis de teste entre o grupo de IdadeAnos Idade em Anos
inadimplentes e adimplentes eram TempoCadastro Tempo de Cadastro em Meses

significativamente diferentes. Compara-se o
valor t-observado dado em (1) com o t- 4.3.2. Categóricas
tabelado da distribuição t-student t(n1+n2-2;1-, Para seleção de variáveis categóricas,
onde n1 e n2 são tamanhos dos grupos de utilizou-se a estatística de teste Qui-Quadrado
adimplentes e inadimplentes, e  nível de (X2). Dada uma tabela de contingência da
confiança desejado. Caso o valor observado variável flgInadimplente cruzada com
seja maior que o tabelado, rejeita-se a qualquer outra varivel categórica possível
hipótese nula de igualdade de médias, e neste


inclusora no modelo, defini-se a estatística de xi  mín( x)
teste X2 como sendo: x i,  (4)
máx( x)  mín( x)

X  
2
Ni Nj
E
ij  Oij 
2

(3) Pela normalização padrão, atributos são
i 1 j 1 Eij normalizados segundo a função em (5).
Recebem esta normalização, variáveis
Onde Eij é a esperança do número de associadas a valores financeiros. Uma vez
observações na célula ij, e Oij o observado na verificado que há grande presença de outliers
célula ij. Compara-se o X2 observado, com o na base de dados, e optou-se por não retirá-
tabelado X2((c-1)x(l-1);1-), da distribuição Qui- los por de fato corresponder a uma realidade
Quadrado. Onde c é o número de colunas e l do negócio, esta normalização se adequará
é o número de linhas. Em caso de bem aos resultados por considerar o desvio
superioridade do observado, rejeita-se a padrão na medida de normalização. Após a
hipótese de independência entre variáveis, e normalização normal padrão, observações
neste caso inclui-se a variável na modelagem. variam dentro de um intervalo de -1 a 1,
apresentando alguns outliers fora deste
Para mais detalhes, recomendamos Bussab intervalo.
(p.87,187-188). Da mesma forma, para o teste
t-Student recomenda-se Bussab (p.361-381), xi  
x ,i  (5)
e para a estatística de correlação de Pearson, 
Bussab (p.85-86).
Outro motivo para considerarmos outliers na
Após a aplicar o teste ao nível de base de dados, é o fato de haver poucos
significância de 99%, utilizamos o coeficiente registros de inadimplência, e neste caso, o
de correlação cruzada para verificarmos alta tratamento pela exclusão da observação
correlação entre variáveis. Sendo assim, poderia ocasionar em perda de informação
exclui-se 1 (uma) de duas variáveis que valiosa.
apresentassem correlação superior a 0,70,
restando-nos as seguintes: Já na codificação em bits, categorias (c) de
variáveis são representadas por no mínimo n
Tabela 4 – Variáveis Categóricas
bits, onde 2n  c .
Selecionadas para Modelagem
Variável Descrição A tabela 5 mostra um resumo das
RegiãoAdministrativa Região administrativa moradia. transformações feitas. A variável dependente
TipoCliente Classificação do cooperado.
flginvestiu_U6M Indicador de ter investido últimos 6 meses. do modelo encontra-se em itálico,
TomouEmprestimo_UM Indicador de ter tomado empréstimo último mês. flginadimplente.
TomouEmprestimo_U6M Indicador ter tomado empréstimo últimos 6 meses.
TomouEmprestimo_U12M Indicador ter tomado empréstimo últimos 12 meses.
flg_DocTed_U12M Indicador utilização de Doc/Ted últimos 12 meses. Tabela 5 – Variáveis Finais Transformadas
flg_Cheque_U12M Indicador utilização de Cheque últimos 12 meses.
flgDevedorFinalPeriodo Indicador de saldo devedor último mês.

4.4. Transformação dos Dados

Faz-se necessário uma transformação nos
dados para aplicação das técnicas aqui
propostas. Na normalização pela Faixa
Dinâmica, atributos são transformados na
faixa de {0,1} segundo (4). Esta
normalização garantirá, por exemplo, que
idades próximas umas as outras, continuem
próximas após a transformação.


Transformação / 72
Variável Transformadas Tipo 70 68
Codificação 64
IdadeAnos Norm. Faixa Dinâmica X1 Real {0,1} 60
TempoCadastro Norm. Faixa Dinâmica X2 Real {0,1} 60
55
RendaLíquidaMensal Normalização Padrão X3 Real {-1,1}
49
RegiãoAdministrativa Códificação Bits X4 ... X8 Inteira {0,1} 50
TipoCliente Códificação Bits X9 .. X11 Inteira {0,1} 43
VlrCreditado_U6M Normalização Padrão X12 Real {-1,1} 40 37
Qtd_DocTedSaqCh_U6M Norm. Faixa Dinâmica X13 Real {0,1}
VlrLimiteEspecial Normalização Padrão X14 Real {-1,1} 29
30
Vlr_CredOper_UM Normalização Padrão X15 Real {-1,1}
VlrMIN2_DocTedSaqCh_UM Normalização Padrão X16 Real {-1,1} 20 20
VlrExcessoLimite Normalização Padrão X17 Real {-1,1} 20
flginvestiu_U6M Nenhuma X18 Inteira {0,1}
10 9 8
TomouEmprestimo_UM Inteira {0,1} 7 6 5
Codificação 5 4 4 4
TomouEmprestimo_U6M X19, X20 Inteira {0,1}
Bits
TomouEmprestimo_U12M Inteira {0,1} 0
flg_DocTed_U12M Nenhuma X21 Inteira {0,1}
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
flg_Cheque_U12M Nenhuma X22 Inteira {0,1}
flgDevedorFinalPeriodo Nenhuma X23 Inteira {0,1}
% de Variância Acumulado %
flgInadimplente Nenhuma Y Inteira {0,1}

As variáveis acima estão prontas para darem 4.5. Particionamento da Amostra
entrada nos modelos neurais a serem
analisados segundos experimentos detalhados Feita seleção das variáveis finais do modelo,
em 4.5.1 e 4.5.2. Numa outra hora, é necessária a separação da amostra entre
testaremos também um conjunto reduzido de grupos de treinamento, validação e teste. O
variáveis dado pelas 10 maiores principais grupo de treinamento será utilizado para a
componentes [13] extraídas das 23 variáveis atualização dos pesos sinápticos. O de
em tabela 5 (matriz de entrada X). Tais validação para controle da fase de
variáveis resumem 71,9% da variabilidade treinamento, evitando overtraining. E o de
existente na matriz X. teste, para verificação da capacidade de
generalização da rede.
O teste com estas 10 principais componentes
– ao invés das 23 variáveis originais – é Duas formas de experimentos foram
importante, pois nos permite verificarmos se utilizadas: (1) a primeira tratou-se da
a inclusão de mais neurônios na camada reamostragem de novos indivíduos do grupo
escondida com menos variáveis de entrada – de inadimplentes para balanceamento da
conseqüentemente menos pesos sinápticos – amostra; (2) a segunda, da criação de um
resulta em maior ou igual acurácia. Isto vai comitê de redes neurais com a replicação dos
de encontro com o compromisso entre grupos de inadimplentes. Ambos os
convergência e generalização, também experimentos são descritos a seguir.
conhecido como “bias and variance dilemma”, 4.5.1. Bootstrapping para Rede
evitando a rede ser pequena a ponto de não Individual
modelar fielmente os dados, ou ser muito
grande e não responder corretamente a Para treinamento das Redes Neurais, é
padrões nunca vistos. Abaixo uma recomendável o balanceamento da amostra de
visualização da variância explicada adimplentes e inadimplentes. Nosso problema
(autovalores em %) por cada uma das encontra-se dividido em 88 casos de
principais componentes: inadimplência, e 2.556 casos de adimplência.
Se utilizássemos a amostra assim balanceada,
Gráfico 1 – 10 Maiores Principais a rede rapidamente reconheceria que para
Componentes Extraídas obter baixas estimativas de erro e alto
percentual de acerto total, era mais vantajoso
atualizar seus pesos de forma a tendenciar
todos os indivíduos como futuros
adimplentes, subestimando sobremaneira o %
acerto para os inadimplentes.


Uma das formas de balancearmos a amostra Modelagem 1 (uma) Rede Individual:
seria utilizarmos a técnica de bootstrap. A Inadimplentes Adimplentes
técnica de bootstrap [11] foi introduzida por 88 2.556
Efron como abordagem ao cálculo de Validação Validação
intervalos de confiança de parâmetros, em 20% 20%

circunstâncias em que outras técnicas não são Inadimplentes Adimplentes
aplicáveis, e em particular, o número de 70 2.045
amostra é reduzido. Em nosso caso, a idéia
básica trata-se da seguinte: uma vez que não
se dispõe de histórico de inadimplência
superior a 12 meses – e mesmo que existisse, Inadimplentes Adimplentes
2.045 2.045
poderia ser ainda insatisfatória esta
quantidade de inadimplentes – a técnica de
bootstrap tratará a amostra observada como Treino Teste Treino Teste
se ela representa-se exatamente toda a 80% 20% 80% 20%
população de inadimplentes, e com isso
obterá novas amostras a partir da observada 4.5.2. Replicação da Amostra para
(89 inadimplentes). Em suma, a técnica de Comitê de Redes Neurais
bootstrap tenta repetir a experiência que seria
desejada realizar na prática – obter novas Um comitê de redes neurais trata-se da
amostras – se tal fosse possível. combinação de duas ou mais redes
individuais. O objetivo da montagem do
Antes que a técnica de bootstrapping fosse comitê trata-se obter uma maior cobertura do
utilizada, 20% do grupo de inadimplentes (18 espaço de características que uma única rede
casos) e 20% do grupo de adimplentes (511 individualmente não obteria. Redes
casos) foram separados para amostra de individualmente (RN1,..., RNn) são
validação. Com os 80% restante, foi redundantes, pois grande parte do espaço de
conduzido o experimento de reamostragem características é coberto por todas as redes.
por bootstrapping em ambiente Excel. Mas quando combinadas, as redes podem
atingir um maior grau de cobertura pelos
Com a mesma probabilidade de seleção espaços de classificação onde não há uma
(p=1/88), 2.045 amostras foram obtidas dos especialização das demais (ou seja, não há
70 inadimplentes. Feito isto, dispomos de uma interseção de todas as redes
dois grupos equivalentes de adimplentes e combinadas).
inadimplentes com 2.045 indivíduos cada um.
Sobre estes, 80% foram deixados como grupo Santos et al [12] apresentam várias técnicas
de controle, e outros 20% como grupo de para se desenvolver comitês e combinar os
teste. O diagrama abaixo resume o outputs de redes individuais. Neste artigo, um
procedimento executado: comitê de três redes neurais é apresentado. A
montagem deste comitê foca na variação do
Diagrama 2 – Experimento por Bootstrapping conjunto de treinamento. Para cada rede do
comitê, treinamento e teste acontecem a partir
de 210 cooperados selecionados
aleatoriamente do grupo de adimplentes e
triplicação (70x3) do grupo de inadimplentes.

Embora haja a replicação do grupo de
inadimplentes, não podemos chamar este
método de desenvolvimento de comitês –
variando o conjunto de treinamento e teste –
como sendo “Driven Pattern Replication”


(ver Santos, p.5). Isto porque não há o Para o experimento 1, particionamento por
treinamento de alguma rede especializada em Bootstrapping, foram testados vários números
alguma das classes, e sim, redes que de neurônios na camada escondida
diferenciem igualmente ambas as classes. O (2,3,4,5,6,10,12), e optou-se pelo que
diagrama abaixo resume o procedimento apresenta-se menor SSE e maior % acerto nas
executado: classes em questão. Tendo escolhido a
quantidade de neurônios na camada
Diagrama 3 – Experimento por Replicação escondida, eram testadas várias épocas de
treinamento (25, 50, 100, 200, 400, e 800),
Modelagem 1 (um) Comitê com 3 Redes: escolhendo também aquele que se apresenta
Inadimplentes Adimplentes menor SSE e maior % acerto. Abaixo,
88 2.556
resultados obtidos para as duas redes finais
Validação Validação
20% 20% ajustadas, a 1ª com a matriz de entradas X, e
Inadimplentes Adimplentes a 2ª com a matriz de entradas PCA:
70 2.045
Tabela 6 – Resultados por Bootstrapping
SSE % Acerto Teste
Resultado
Inadimplentes Adimplentes Treino Teste Adim. Inadim. Total
210 2.045 MLP 10-10-2 - PCA X 45,7 12,2 96,8 100,0 98,4
MLP 23-5-2 - Matrix X 42,8 12,4 96,6 100,0 98,3

Para o experimento 2, o mesmo
Rede 1 Rede 2 Rede 3 procedimento de variação de variação dos
Treino Teste Treino Teste Treino Teste parâmetros foi executado, porém certa
80% 20% 80% 20% 80% 20% atenção foi dada na escolha final. Como três
redes simultaneamente formariam um
A metodologia utilizada neste artigo para classificador, utilizamos a média obtida por
combinar as redes tratou-se do método de cada uma das variações dos parâmetros entre
votação. Após definição de topologia e fases as três redes. Só assim foi possível determinar
de treinamento (comum para as três redes), em termos de menor SSE e maior % acerto,
cada rede votará em uma das classes, e quais configurações apresentariam melhor
daremos como classificação final a com desempenho médio entre as três redes que
maior número de votos. formariam o comitê (sem a agregação dos
votos ainda). Ajustado estes parâmetros, cada
5. Resultados Obtidos rede era treinada e votos eram obtidos para
formar um classificador somente. Resultados
Resultados foram obtidos com a ajuda do abaixo:
Software SPSS 16.0 ©. Sobre a topologia da
rede, utilizou-se Multi-layers Perceptrons Tabela 7 – Resultados por Replicação
com somente uma camada oculta. Neurônios
tanto na camada oculta, quanto na de saída SSE % Acerto Teste
Resultado
Treino Teste Adim. Inadim. Total
apresentaram função de ativação sigmóide. O
Comitê 3 MLP 10-10-2 - PCA X - - 95,2 100,0 97,6
tipo de treinamento utilizado foi em Batch Comitê 3 MLP 23-4-2 - Matrix X - - 92,9 100,0 96,4
com o algoritmo gradiente decrescente. O
treinamento era interrompido quando fosse Resultados da variação de parâmetros podem
observado um aumento da soma dos erros ser verificados em anexo para o procedimento
quadráticos (SSE) na amostra de validação por Bootstrapping. Para o procedimento por
em 20 ciclos seguidos ou o número máximo replicação e criação de comitê não
de ciclos fosse atingido. Números de disponibilizamos os resultados, por se
neurônios na camada escondida e número de tratarem de muitas tabelas.
ciclos de treinamento foram determinados
conforme experimento a seguir. 6. Conclusões e Próximos Passos


O procedimento por bootstrapping se mostrou [2] HAYKIN, Simon. Redes Neurais, Princípios
altamente eficaz uma vez que produziu e Práticas. Paulo Matins Engel. 2ed. Porto
ótimos resultados de acerto no grupo de teste. Alegre: Bookman, 2001.
Sobre a escolha da Matriz X ou de PCA
[3] BARTH, Nelson Lerner. Construindo
como entradas, vemos que com menos Modelos de Previsão. Paulo Matins Engel. 2ed.
variáveis - digamos 72% da variabilidade Porto Alegre: Bookman, 2001.
existente em X -, chega-se a resultados
bastante fidedignos. [4] ALMEIDA, Fernando C; DUMONTIER,
Pascal. O Uso de Redes Neurais em Avaliação
Quanto ao comitê com replicação da amostra, de Risco de Inadimplência. Revista de
apesar dos resultados serem semelhantes ao Administração FEA/USP, vol.31, n.1, p.52-63,
do procedimento anterior, há de se concluir jan. /mar. 1996.
que a arquitetação deste tipo de procedimento
[5] FILHO, Elson Felix Mendes et al. O Uso de
pode se tornar extremamente complexa na Redes Neurais em Avaliação de Risco de
prática, mais sujeita a erros de rotina, motivo Inadimplência. Simpósio Brasileiro de Redes
o qual desmotivamos a aplicação comercial. Neurais, 1996, Recife.
Em casos de difícil modelagem com grande [6] CORRÊA, Marcelo França; VELLASCO,
presença de dados ruidosos, o estudo de Marley. Análise de Risco de Crédito em
modelos neurais organizados em forma de Correspondentes Bancários através de Redes
comitês possa ser mais atrativo, pois garantirá Neurais. Revista ICA nº1, Departamento
uma maior cobertura do espaço de Engenharia Elétrica Puc-Rio, abr. 2008.
características. Em nosso estudo fica claro
[7] RIBEIRO, Andriele Ferreira et al. Análise
que as características que propiciam a Discriminante x Redes Neurais Artificiais:
inadimplência é algo comum a maioria dos Uma Comparação de Técnicas Aplicadas à
inadimplentes, vista a diferença obtida entre Previsão de Concordatas. 3º Encontro da
os procedimentos. Sociedade Brasileira de Finanças, 2003.

Mesmo assim, o método por formação de [8] CORRÊA, Marcelo França, MACHADO,
comitê ainda foi de grande atrativo, pois Maria Algusta Soares. Construção de um
explicitou uma nova forma de se trabalhar na Modelo de Credit Scoring Baseado em Redes
presença de poucos padrões. Neurais para Previsão de Inadimplência na
Concessão de Micro Crédito. Enampad, 2004.
Se o analista exposto ao problema
[9] RIBEIRO, Evandro Marcos et al. Aplicação
apresentado desejar prosseguir novos estudos
das Redes Neurais na Concessão de Crédito –
buscando uma possível excelência na Um Estudo de Caso em uma Empresa de
generalização, outras variações de parâmetros Consórcio. 6º Congresso USP Controladoria e
e estruturas podem ser testadas no comitê Contabilidade, 2006.
como: variações do número de redes
participantes; na forma de se agregar [10] MACIEL, Josias. Análise de um Sistema de
classificadores individuais; mudança do corte Crédito Cooperativo Através de Redes Neurais
individual da pseudo-probabilidade de uma (MLP) com a Utilização do Algoritmo
rede. Para detalhes sobre criação e Levenberg Marquardt. Dissertação do Programa
de Pós-Graduação em Métodos Numéricos em
combinação de técnicas, recomendamos [12].
Engenharia, UFPR: Curitiba, 2005.
7. Referências Bibliográficas [11] RIZZO, Ana Lucia Tucci; CYMROT,
Raquel. Utilização da Técnica de
[1] REZENDE, Solagem Oliveira. Sistemas
Reamostragem Bootstrap em Aplicação na
Inteligentes: Fundamentos e Aplicações.
Engenharia de Produção. VI Encontro Latino
Barueri, SP: Manole, 2005.
Americano de Pós-Graduação, UNIVAP: São
Paulo, 2006.


[12] SANTOS, R.O.V. dos et al; Mutilayer Neurônios na SSE % Acerto Teste
Perceptron Classifiers: ensembles creation and Camada Escondida Treino Teste Adim. Inadim. Total
combining techniques. Relatório Interno, Puc- 2 88,9 23,4 94,3 99,7 97,0
Rio, 2001. 3 80,2 20,4 94,8 100,0 97,4
4 71,5 17,7 95,4 100,0 97,7
[13] JOHNSON, R.A.D; WICHERN, W.; 5 65,1 14,6 96,4 100,0 98,2
Applied Multivariate Statistical Analysis. 4ª 6 77,9 20,8 94,5 100,0 97,2
Ed., Prentice Hall, 1998. 10 86,4 21,8 94,1 100,0 97,1
12 68,8 18,5 95,6 99,7 97,6
[14] OLIVEIRA, Paulo Jorge et al. Limpeza de
Dados – Uma Visão Geral. Departamento de Anexo D – Variações de Treinamento para
Engenharia Informática, Instituto Politécnico do
procedimento por Bootstrapping em Matriz-
Porto, Portugal.
X, com 5 neurônios na camada escondida.
[15] BUSSAB, Wilton de O.; MORETTIN, Pedro A..
Estatística Básica. 5ed. São Paulo: Saraiva, 2006. Duração da Fase SSE % Acerto Teste
de Treinamento Treino Teste Adim. Inadim. Total
8. Anexos 25 88,4 20,3 95,1 100,0 97,6
50 76,0 18,4 95,4 100,0 97,7
Anexo A – Variações de Neurônios para 100 58,4 15,9 95,6 100,0 97,8
procedimento por Bootstrapping em PCA-X. 200 64,7 17,0 95,4 100,0 97,7
400 51,0 13,7 96,3 100,0 98,2
Neurônios na SSE % Acerto Teste 800 42,8 12,4 96,6 100,0 98,3
Camada Escondida Treino Teste Adim. Inadim. Total
2 154,8 42,4 92,8 97,1 94,9
3 132,7 35,6 93,3 96,7 95,0
4 102,3 27,7 94,6 97,9 96,3
5 107,6 30,2 95,2 97,4 96,3
6 93,2 24,4 95,8 98,0 96,9
10 68,7 17,8 96,7 99,1 97,9
12 70,5 19,9 95,3 99,3 97,3

Anexo B – Variações de Treinamento para
procedimento por Bootstrapping em PCA-X,
com 10 neurônios na camada escondida.
Duração da Fase SSE % Acerto Teste
de Treinamento Treino Teste Adim. Inadim. Total
25 67,7 19,8 97,1 98,3 97,7
50 79,2 21,9 97,6 97,3 97,4
100 61,4 19,1 96,6 98,3 97,4
200 60,2 18,7 97,3 98,3 97,8
400 45,7 12,2 96,8 100,0 98,4
800 74,5 22,3 96,6 97,3 96,9

Anexo C – Variações de Neurônios para
procedimento por Bootstrapping em
Matriz-X.

Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco

Semelhante a Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco (20)

Mais de Anderson Pinho

Mais de Anderson Pinho (20)

Previsão de Inadimplência por Redes Neurais Artificiais na Presença de Baixo Risco