IPT defesa Wagner F Canto v6

MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT
PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE
COMPUTAÇÃO – MOD. ENG. DE SOFTWARE
Defesa de Dissertação 1º Semestre 2012
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza

2
INTRODUÇÃO
REVISÃO BIBLIOGRÁFICA
METODOLOGIA
ESTUDO DE CASO
CONSIDERAÇÕES FINAIS
Agenda

3
INTRODUÇÃO
Motivação, justificativa e objetivo

4
Processo Produtivo de
Semicondutores Análise de
dados
Melhoria
do
Processo
Produtivo
Motivação
• Aplicação da Mineração de Dados (MD) em um caso
prático: Análise de dados gerados pelo processo produtivo
de uma indústria de semicondutores
• Agrupamento de Dados → Mapas de Kohonen (SOM –
Self Organizing Maps)

5
Justificativa e relevância do estudo
• Dificuldades na aplicação de redes SOM:
– Definição dos parâmetros que regulam o comportamento
– Preparação de dados e seleção de atributos
• Incorporação da Mineração de Dados ao processo de
negócio: objetivo raramente alcançado
• Falta de pesquisas aplicadas na área de Mineração
de Dados
• Fracassos na área de Mineração de Dados são
raramente documentados

6
Objetivo
• Objetivo Geral
– Uso de Mapas Auto-organizáveis (Self-organizing maps –
SOM) em aplicações de Mineração de Dados
• Objetivo Específico
– Desenvolver um processo com o qual se pretende:
• Identificar caminhos, demandas e restrições no uso da
técnica para Mineração de Dados originados no processo
de fabricação de semicondutores;
• Investigar técnicas heurísticas para a determinação dos
parâmetros que regulam o comportamento de redes
SOM e para seleção e priorização de atributos.

7
REVISÃO BIBLIOGRÁFICA

8
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Modelos de Processo:
DCBD, CRISP-DM, SEMMA
Banco de Dados
Preparação de
dados para MD
Dimensionalidade
de dados
Qualidade de
dados
Mineração de
Dados
Agrupamento de
dados
Mapas SOM
Parametrização de
Mapas SOM e suas
heurísticas
Medidas de
Qualidade de
Mapas SOM
Ferramentas
Geração Mapas
SOM
Estatística:
Correlação e PCA
Aplicações da MD
na Indústria

9
METODOLOGIA

10
Metodologia
Abordagem Metodológica
Metodologia de Pesquisa
3. Execução Processo DCBD (Estudo de Caso)
3.1 Definição dos objetivos
3.2 Seleção & Pré-processamento
3.3 Limpeza & Transformação
3.4 Mineração de Dados
3.5 Interpretação / Avaliação
2. Definição Instância do Processo DCBD
1. Revisão Bibliográfica
4. Considerações Finais

11
Definição da Instância do
Processo DCBD (Descoberta de Conhecimento em BD)
DCBD (Fayyad, 1996)
CRISP-DM (CHAPMAN, CLINTON et al., 2000)
SEMMA (SAS, 2012)
Figura 12 - Processo para execução dos experimentos
de DCBD.

12
Instância do Processo DCBD

13
• SOM Toolbox (2005) e SOMVIS (2009)
• Biblioteca Matlab de código aberto
• Universidade de Tecnologia de
Helsinki/Finlândia.
http://www.cis.hut.fi/projects/somtoolbox/
Ferramentas de geração de Mapas SOM selecionadas
• Viscovery SOMine 5.2 (2010)
• Ferramenta comercial
• Viscovery Software GmbH Viena, Áustria
http://www.viscovery.net/somine/
http://www.viscovery.net/customers

15
ESTUDO DE CASO

16
Objetivo do processo de DCBD
• Analisar os dados gerados pelo processo produtivo e
identificar padrões que possam revelar informações até
então desconhecidas como, por exemplo,
características dos produtos que são devolvidos pelos
clientes devido a mau funcionamento

19
Processo de Produção de Módulos de Memória
• Dados coletados:
 Compras
 Produção
 Vendas
 Devolução de Clientes

20
Visão Geral dos Sistemas de Informação da
Empresa alvo do estudo de caso

21
Sistema Origem Dados disponíveis Características Técnicas
Sistema de Controle
de Produção (SCP)
 Histórico das etapas de elaboração
do produto
 Histórico de eventos / defeitos
 Máquinas utilizadas em cada fase
 Operadores
 Lotes de fabricação
 Número de série do produto
 Quantidades produzidas
 Resultado de testes de qualidade
 33 milhões de registros (1 ano)
 SGBD: MS-SQL Server
Sistema Integrado
de Gestão (ERP)
 Dados de fornecedores (compras)
 Dados de clientes (vendas)
 Dados de produção (lotes matérias-
primas utilizadas em cada ordem de
fabricação)
 408 mil de registros (1 ano)
 SGBD: Oracle
Sistema de
Assistência Técnica
(SAT)
 Dados de devolução de clientes (por
mau funcionamento do produto)
 Análise de falhas
 Histórico de falhas
 113 mil registros (1 ano)
 SGBD: MS- Access 97
Detalhamento das informações contidas nas
bases de dados dos sistemas SCP, ERP e SAP

23
Consulta
SQL
Data
Mining
View
Critério de Seleção:
Ordens de Produção criadas
entre Ago e Set/2011
Tabelas dos Sistemas:
• ERP - Sistema Integrado de Gestão
• SCP - Sistema de Controle de Produção
• SAT - Sistema de Assistência Técnica
49 atributos
837.285 seriais (registros)
2.456 seriais devolvidos
333 ordens de produção
Consulta SQL desenvolvida para extrair dados
dos sistemas ERP, SCP e SAT

25
Limpeza & Transformação de dados
DM View
Limpeza e
Transformação
 Análise da qualidade dos dados: descarte de atributos
 Transformação e Normalização de atributos
 Geração dos arquivos no formato de cada ferramenta
 Seleção de atributos: redução da dimensionalidade
Formato Matlab
Formato Viscovery
Cubo OLAP
Geração de PCA &
Correlação
837.285 seriais
49 atributos
25 atributos

26
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimensões
49 atributos
1127 dimensões
25 atributos
391 dimensões
Sistemas
Correlação e
PCA
Análise da
Qualidade dos
Dados
Seleção de registros de Ago e Set/2011
Cubo OLAP
Padrões /
Agrupamentos
12 atributos
260 dimensões
Seleção de Atributos
Mineração de Dados
Geração
Mapas SOM

27
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimensões
49 atributos
1127 dimensões
25 atributos
391 dimensões
Sistemas
Correlação e
PCA
Análise da
Qualidade dos
Dados
Seleção de registros de Ago e Set/2011
Cubo OLAP
Padrões /
Agrupamentos
12 atributos
260 dimensões
Seleção de Atributos
Mineração de Dados
Geração
Mapas SOM

28
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
Atributo chave LOTLOTKEY
Número do serial do
produto
C 0 0 (0%)
Grupo 1
Atributos de
Classificação
do Produto
1 JOBPARTID Código do produto C 75 0 (0%)
2 X512MB_EQUIV
Equivalência com
produto de 512MB
N 1 0 (0%)
3 APPLICATION
Aplicação do produto
(Desktop, Laptop, ...)
C 4 0 (0%)
4 CAPACITY Capacidade C 4 0 (0%)
5 DENSITY Densidade C 3 0 (0%)
6 MONO_IC Mono IC C 5 0 (0%)
7 IC_REVISION Revisão do CI C 5 0 (0%)
8 MONO_ORG Organização do Mono C 5 0 (0%)
9 MONO_QTY Quantidade de CI C 6 0 (0%)
10 ORGANIZATION Organização do CI C 10 0 (0%)
11 PLATFORM Tipo de utilização C 3 0 (0%)
12 SUPPLIER Fornecedor C 5 0 (0%)
13 TYPE Tipo de produto C 5 0 (0%)
Total
131
dimensões
Grupo 1 de atributos
Classificação do Produto

29
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas no
vetor de
entrada
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
Grupo 2
Atributos
relacionados
com à
produção
14 NJOBQTY
Quantidade produzida pela ordem
de produção
N 1 0,002 /1,000 0,561 0,267 0 (0%)
15 DIA_SEM Dia semana término da produção C 7 0 (0%)
16 TEMPO_PROD
Tempo decorrido entre o início e o
fim da produção
N 1 0,000 /1,000 0,005 0,011 0 (0%)
17 ORDER_CLASS Classificação da Ordem C 4 0 (0%)
18 TIPO_CI Classificação do CI usado C 2
41.803
(5,00%)
19 REJECT Local do rejeito C 2 0 (0%)
20 XTASHIFT Turno de produção C 4 0 (0%)
21 XTAOPERATOR Operador que testou a peça C 80 0 (0%)
22 XTALINE Linha de produção C 4
41.803
(5,00%)
23 BOM
Código da estrutura de produto
usada
C 146 0 (0%)
24 BOM_VERSION
Versão da Estrutura de Produtos
(BoM)
C 7 0 (0%)
25 DEVOLVIDA
Produto devolvido pelo cliente
(Sim/Não)
C 2 0 (0%)
Total
260
dimensões
Grupo 2 de atributos
Atributos relacionados com à produção

30
# Grupo de atributos
Dimensões
originais
Componentes
Principais
Redução de
dimensões
1 Grupo 1 131 74 -44%
2
Grupo 1 (com TEMPO_PROD, REJECT,
DEVOLVIDA)
136 76 -44%
3 Grupo 2 260 240 -8%
4 Grupo 2 (sem XTAOPERATOR e BOM) 34 25 -26%
5 Grupo 1 + Grupo 2 391 240 -39%
6
Grupo 1 + Grupo 2 (sem XTAOPERATOR
e BOM)
165 98 -41%
Redução da dimensionalidade
Análise de Componentes Principais (PCA)

31
Figura 19 – Percentual da variação acumulada em função dos números de componentes principais.
% Variação Acumulada x Componentes Principais

33
Planejamento dos experimentos
• Verificar o efeito da priorização e do uso de diferentes
combinações de atributos na formação de
agrupamentos
• Aplicar heurísticas para definição do número de
neurônios e verificar a sua influência nas medidas de
qualidade de mapas SOM

34
Nro.
Exp.
Grupo de Atributos
Atributos
Prioriz.?
N de
Neurônios
Distorção
Normalizada
Erro de
Quantização
Médio
Erro de
Quantização
Máximo
Tempo
de
Proc.
Resultado
1 Grupo 2
12 atributos/260 dimensões
Não 2000 0,007681 0,003939 64 9h 39min
- Mapa disperso
- Erros altos
2 Grupo 2
Sim 2000 0,003811 0,002166 9 6h
- Indicou agrupamento
3 Grupo 2
Não 4.565 0,006134 0,001742 63 12h 56min
- Mapa disperso
- Erros altos
4 Grupo 2
Sim 4.565 0,002631 0,001144 4,2 11h 58min
- Indicou agrupamento com mais
intensidade
5 Grupo 2 (sem
XTAOPERATOR e BOM)
Não 4.565 0,01522 0,001806 1,3 1h 31min
intensidade
- Erros mais baixos
6 Grupo 2 (sem
XTAOPERATOR e BOM)
Não 2.000 0,02827 0,01011 33 35 min
intensidade
- Erros altos
7 Grupo 1 (com
TEMPO_PROD, REJECT e
DEVOLVIDA)
Sim 4.565 0,01532 0,00008758 0,33 4h 56min
- Nenhum relacionamento entre os
atributos do Grupo 1 e os atributos
DEVOLVIDA, REJECT e
TEMPO_PROD.
8 Grupo 1 + Grupo 2 (com
XTAOPERATOR e BOM)
Sim 4.565 0,002354 0,0009642 30 26h 19min
- Mapa disperso
- Erros altos
9 Grupo 1 + Grupo 2 (sem
XTAOPERATOR e BOM)
Sim 4.565 0,0219 0,003582 16 11h 14min
- Indicou agrupamento com menor
intensidade
- Erros mais baixos
Ferramenta Viscovery SOMine
Resultados
Mapa disperso
Gerou agrupamento

35
Nro.
Exp.
Formato do
Mapa
Nro. de
Neurônios
Erro de
Distorção
Erro de
Quantização
Erro
Topográfico
Tempo de
Processamento
1 11 x 9 99 123.508 3.825 0,045 238s
2 26 x 19 494 106.533 3.132 0,089 541s
3 37 x 27 999 91.756 2.965 0,146 881s
4 53 x 38 2.014 83.517 2.908 0,115 1.591s
5 64 x 47 3.008 74.777 2.835 0,130 1.877s
6 79 x 58 4.582 71.211 2.837 0,112 4.171s
7 91 x 66 6.006 69.787 2.866 0,123 5.963s
8 104 x 77 8008 66.897 2.812 0,115 12.342s
9 116 x 86 9976 66.311 2.835 0,118 17.455s
10 143 x 105 15015 65.647 2.809 0,094 23.403s
Ferramenta Matlab SOM Toolbox
Resultados

36
Figura 29 – Experimento 6: Agrupamentos mostram o relacionamento entre
os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com
valor igual a “CLASS_D”.
Resultados

37
Figura 31 - Evolução dos erros de Distorção, Quantização e Topográfico dos
mapas gerados.
Validação da Heurística: 5 x √ Nro. vetores de entrada
Overfitting
Underfitting
Heurística:
5 x √837.285 =
4.575 neurônios
Intervalos c/
pouca variação
dos Erros

39
Interpretação e avaliação dos resultados
Mapas Viscovery e Matlab: Resultados semelhantes
DEVOLVIDA REJECT TEMPO_PROD CLASS_D
Viscovery
Matlab

40
Este agrupamento sugere que produtos que sofreram
algum retrabalho durante o processo produtivo e,
devido a isso, levaram mais tempo para serem
produzidos, são mais susceptíveis a apresentarem
problemas técnicos e consequentemente serem
devolvidos pelos clientes.
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
Agrupamento interessante

41
• Os melhores resultados foram gerados pelos Experimentos
5 e 6 (Grupo 2, sem os atributos XTAOPERATOR e BOM):
 Grupo de atributos que necessita do menor número de
Componentes Principais (PCAs) para representar 100%
da sua variabilidade

42
• Os piores resultados foram gerados pelos Experimentos 1,
3 e 8 (Grupo 2, com os atributos XTAOPERATOR e BOM):
 Grupo de atributos que necessita do maior número de
Componentes Principais (PCAs) para representar 100%
da sua variabilidade

44
CONSIDERAÇÕES FINAIS
Conclusões , Contribuições e Pesquisas futuras

45
• Com relação à técnica de MD utilizada
• Com relação às ferramentas utilizadas
• Com relação à metodologia utilizada
• Com relação aos resultados alcançados
Considerações Finais
Conclusões

48
1) Canto, W. F. ; Souza, L. S. ; CANTO, N. C. F. . Mineração de Dados: uma
aplicação para a indústria de semicondutores. In: 6ª Conferência Ibérica
de Sistemas e Tecnologias de Informação, 2011, Chaves. Mineração de
Dados: uma aplicação para a indústria de semicondutores, 2011. v. 1. p. 1-4.
2) CANTO, N. C. F. ; SASSI, R. J. ; Canto, W. F. . Aplicação de Mapas Auto-
organizáveis para Mineração de Textos. In: 6ª Conferência Ibérica de
Sistemas e Tecnologias de Informação, 2011, Chaves. Aplicação de Mapas
Auto-organizáveis para Mineração de Textos, 2011. v. 1.
Contribuições
Artigos Publicados

49
Considerações Finais
Pesquisas futuras
• Uso dos padrões gerados pela rede SOM para classificar
automaticamente seriais
• Aprofundar o estudo de técnicas de seleção de atributos
• Estudo de ferramentas de ETL (Extract Transform Load) para
automatizar o processo de extração
Especificamente para a empresa alvo deste estudo:
• Acumular conhecimento durante várias execuções do processo
de DCBD para diferentes meses
• Ampliar o nível de análise adicionando mais atributos no mapa
e/ou realizando novas combinações

51
Diagrama de Classes da Base de dados selecionada
ERP - Sistema Integrado de Gestão
SAT - Sistema de Assistência Técnica
SCP - Sistema de Controle de Produção
Origem dos dados

52
Tabela Sistema
Nro. de
registros
Nro. de
atributos
Descrição SGBD
TblJob SCP 7.574 29 Cabeçalho ordem produção MS SQL Server 2000
TblLot SCP 6.360.853 29
Item ordem de produção
(detalhes da produção)
MS SQL Server 2000
TblTransaction SCP 26.782.195 25
Detalhe item ordem de
produção
MS SQL Server 2000
TblRejectDetail SCP 153.162 6 Dados sobre rejeitos MS SQL Server 2000
Tbl_PPB ERP 17.263 11
Tipo de componente
consumido pela ordem
Oracle 9.0i
ZBR_TRMA ERP 35.060 4
Dados da devolução de
vendas
Oracle 9.0i
wMat_Clas ERP 699 17 Classificação dos Materiais Oracle 9.0i
AUFM ERP 354.998 41
Materiais consumidos pela
ordem de produção
Oracle 9.0i
t_RMAItem_A SAT 113.859 65 Dados de assistência técnica MS-Access 97
Total 33.825.663 227

53
Mapa Auto-organizável Self-organizing Map (SOM)
• Algoritmo criado pelo pesquisador Finlandês Dr. Teuvo Kohonen em 1982
• Tipo de rede neural artificial
• Reduz a dimensionalidade dos dados
• Utiliza aprendizado competitivo e não supervisionado
• Permite visualização dos resultados obtidos
• Pode ser usado na análise de agrupamento de dados
• Há dificuldades para definição dos parâmetros que regulam o comportamento da
rede (quantidade de neurônios de saída, taxa de aprendizado e outros)

55
Algoritmo SOM
Atualização do neurônio vencedor (BMU) e seus vizinhos
Neurônio
vencedor
BMU = Best Matching Unit

56
y
x
m1
m2
m3
m4
m5
m6
v1
Função de vizinhançaTaxa de aprendizado
Neurônio vencedor
Algoritmo SOM

57
Diferentes arranjos de neurônios para o SOM

58
Redução da Dimensionalidade
P ≤ D

59
Matriz-U em um arranjo retangular (A) e hexagonal (B)

61
Processo de DCBD (Fayyad, 1996)

62
Processo CRISP-DM (CHAPMAN, CLINTON et al., 2000)

64
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
1
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Todos os atributos do Grupo 2 com
prioridade igual a 1, exceto atributo
DEVOLVIDA que recebeu a prioridade 0
Experimentos 1

65
Nro. do
Experimento
Vetores de
Entrada
2
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
Normal
- Tensão: 0,5
- Compensação da
Grupo 2
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,20
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,20
XTASHIFT: 1,00
XTAOPERATOR: 0,70
XTALINE: 1,00
BOM: 0,70
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 2

66
Nro. do
Experimento
Vetores de
Entrada
3
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
Normal
- Tensão: 0,5
- Compensação da
Todos os atributos do Grupo 2 com
prioridade igual a 1, exceto atributo
DEVOLVIDA que recebeu a prioridade
0
Experimento 3

67
Nro. do
Experimento
Vetores de
Entrada
4
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
Normal
- Tensão: 0,5
- Compensação da
Grupo 2
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,20
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,20
XTASHIFT: 1,00
XTAOPERATOR: 0,70
XTALINE: 1,00
BOM: 0,70
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 4

68
Nro. do
Experimento
Vetores de
Entrada
5
Total: 836.564
Devolvidos: 2.456
10 atributos
34 dimensões
Normal
- Tensão: 0,5
- Compensação da
Grupo 2 (sem XTAOPERATOR e
BOM)
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,00
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,00
XTASHIFT: 1,00
XTALINE: 1,00
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 5

69
Nro. do
Experimento
Vetores de
Entrada
6
Total: 836.564
Devolvidos: 2.456
10 atributos
34 dimensões
Normal
- Tensão: 0,5
- Compensação da
Grupo 2 (sem XTAOPERATOR e
BOM)
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,00
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,00
XTASHIFT: 1,00
XTALINE: 1,00
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 6

70
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
7
Total: 836.564
Devolvidos: 2.456
13 atributos
136 dimensões
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação:
ligado
Grupo 1 (com TEMPO_PROD, REJECT e
DEVOLVIDA)
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_OR: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
TEMPO_PROD: 1,2
REJECT: 1,2
DEVOLVIDA: 0
Experimento 7

71
Nro. do
Experimento
8
Total: 836.564
Devolvidos: 2.456
25 atributos
391 dimensões
- Tensão: 0,5
- Compensação da correlação: ligado
Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM)
NJOBQTY: 1
DIA_SEM: 1
TEMPO_PROD: 1
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_ORG: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
ORDER_CLASS: 1
TIPO_CI: 1
REJECT: 1
XTASHIFT: 1
XTAOPERATOR: 0,7
XTALINE: 1
BOM: 0,7
BOM_VERSION: 1
DEVOLVIDA: 0
Experimento 8

72
Nro. do
Experimento
9
Total: 836.564
Devolvidos: 2.456
23 atributos
165 dimensões
- Tensão: 0,5
- Compensação da correlação: ligado
Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM)
NJOBQTY: 1
DIA_SEM: 1
TEMPO_PROD: 1
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_ORG: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
ORDER_CLASS: 1
TIPO_CI: 1
REJECT: 1
XTASHIFT: 1
XTALINE: 1
BOM_VERSION: 1
DEVOLVIDA: 0
Experimento 9

73
Figura 23 - Experimentos 1 (a) e 3 (b): não apresentam agrupamentos relevantes.
Experimentos 1 e 3

74
Cubo OLAP (On-line Analytical Processing)

75
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
S2
S1
S3
Figura 24 - Experimento 5: apresenta agrupamentos
bem definidos.
Figura 25 – Experimento 5: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores
mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento
entre estes atributos.
Experimento 5

76
TEMPO_PROD
0,00 0,03 0,07 0,10 0,13 0,16
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0,11 0,13
Quantization Error
0 0 0 0 0 0 0 0 30
Figura 27 – Experimento 8: não apresenta agrupamentos relevantes.
Experimento 8

77
TEMPO_PROD
0,00 0,02 0,05 0,07 0,09 0,12
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0,10 0,13
Quantization Error
0 0 0 0 0 0 0 0 16
Figura 28 – Experimento 9: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na
mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos, resultado
semelhante ao experimento 5.
Experimento 9

78
Processo DCBD
AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A parallel overview. IADIS
European Conference Data Mining 2008, p. 182-185, 2008.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge
Discovery in Databases. Advances in Knowledge Discovery and Data Mining,
Cambridge, p. p. 1-36, 1996.
Aplicações de MD
na Indústria
LAINE, S. Using visualization, variable selection and feature extraction to learn from
industrial data. 2003. Tese de Doutorado Departamento de Ciência da Computação e
Engenharia, Helsinki University of Technology, Espoo.
DOMINGUES, M. L. C. S. Mineração de Dados Utilizando Aprendizado Não-
Supervisionado: um estudo de caso para bancos da saúde 2003. Mestrado em
Ciência da Computação Instituto de Informática, Universidade Federal do Rio Grande
do Sul
GIUDICI, P.; FIGINI, S. Applied Data Mining for Business and Industry. 2
a
. Wiley-
Interscience, 2009.
LUFTMAN, J.; BEN-ZVI, T. Key Issues for IT Executives 2011: Cautions Optimism in
Uncertain Economic Times. MIS Quartely Executive - Universidade of Minnesota, v.
10, n. 4, p. 203-213, 2011.
SIMULA, O.; VESANTO, J. The Self-Organzing Map in Industry Analysis. Industrial
Applications of Neural Networks, n. 1, p. 89-112, 1998.
Preparação de
Dados
PYLE, D. Data Preparation for Data Mining. 1st edition. Academic Press, 1999. p. 349
REFAAT, M. Data Preparation for Data Mining Using SAS. Elsevier, 2007.

79
Mineração e
Agrupamento de
Dados
LAINE, S. Selecting the variables that train a self-organizing map (SOM) which best
separates predefined clusters Proceedings ofthe 9th International Conference on
Neural Information Processing (ICONIP'02), v. 4, p. 1961-1965, 2002b.
LAINE, S. Finding the variables of interest. Minerals Engineering, n. 15, p. 167–176,
2002a.
NISBET, R.; ELDER, J.; MINER, G. Handbook of Statistical Analysis and Data Mining
Applications. Elsevier, 2009.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining - Mineração de
Dados. 2009. p. 1-15
Qualidade de Dados OLSON, J. O. Data Quality: The Accuracy Dimension. Elsevier, 2003.
Mapas SOM
PÖLZLBAUER, G. Advanced data exploration methods based on Self-Organizing
Maps. 2008. Tese de Doutorado Information and Software Engineering Group,
Vienna University of Technology
KOHONEN, T. Self-organizing maps. 3rd edition. Springer, 2001.
KASKI, S. Data Exploration using Self-Organizing Maps. 1997. Tese de Doutorado
Departamento de Ciência da Computação e Engenharia, Helsinki University of
Technology
ZUCHINI, M. H. Aplicações de Mapas Auto-organizáveis em Mineração de Dados e
Recuperação de Informação. 2003. Mestrado em Eng. Elétrica Faculdade de Eng.
Elétrica e de Computação, Universidade Estadual de Campinas

80
Ferramentas Geração
Mapas SOM
DEMUTH, H.; BEALE, M.; HAGAN, M. Matlab - Neural Network Toolbox 6: The
Mathworks 2009.
MOEHRMANN, J. et al. A Discussion on Visual Interactive Data Exploration Using
Self-Organizing Maps. WSOM 2011, p. 178-187, 2011.
VISCOVERY. Viscovery SOMine web page. 2010. Disponível em: <
http://www.viscovery.net/somine/ >. Acesso em: 13-Dez-2011.
Banco de Dados
CHEN, P. Modelagem de Dados. 1990.
SETZER, V. W. Banco de Dados: Conceitos, Modelos, Gerenciadores, Projeto Lógico,
Projeto Físico. Edgard Blücher, 1987.
Estatística:
Correlação e PCA
AILON, N.; CHAZELLE, B. Faster Dimension Reduction. Communications of the ACM,
v. 53, n. 2, p. 97, 2010.
HILL, T.; LEWICKI, P. STATISTICS: Methods and Applications. StatSoft. 2007.
Medidas de
Qualidade de Mapas
SOM
PÖLZLBAUER, G. Survey and comparison of quality measures for self-organizing
maps. Proceedings of the Fifth Workshop on Data Analysis (WDA'04), 2004. Elfa
Academic Press. p.67-82.

82
Sub-processos DCBD CRISP-DM SEMMA
1) Compreender o domínio da
aplicação e identificar o objetivo do
processo DCBD.
Pré DCBD
Entendimento do
negócio
-
2) Selecionar, organizar e preparar
dados
Seleção de dados Entendimento dos
Dados
Amostragem
3) Executar análise exploratória e
transformação dos dados
Pré-processamento Explorar os dados
Transformação
Preparação dos
dados
Modificação dos
dados
4) Especificar métodos estatísticos
Mineração de Dados Modelagem Modelagem
5) Executar algoritmos de mineração
de dados e colher os resultados
6) Avaliar e comparar os métodos
usados e escolher o método final de
análise
7) Interpretar o método escolhido e o
seu uso no processo de decisão
Interpretação/Avaliação Avaliação Avaliação
Pós DCBD Implantação -
Comparação entre os processos
DCBD, CRISP-DM e SEMMA

83
Item de
comparação
Matlab SOM Toolbox +
SOMVIS
Viscovery SOMine
Finalidade
– Uso acadêmico
– Código aberto
– Uso profissional
– Ferramenta proprietária
Algoritmo
– Em lote (batch)
– Sequencial e SOM_PAK
– SOM Ward
Medidas de qualidade
SOM
– Erro de Quantização
– Erro de Distorção
– Erro Topográfico
– Outras medidas podem ser programadas
– Erro de quantização
– Erro de Distorção normalizado
Pré-processamento de
dados
– Normalização de dados numéricos
– Normalização e limpeza
– Histogramas
– Estatística (PCA, correlação de Pearson)
Parâmetros de geração
de Mapas
– Algoritmo de treinamento, tamanho e
topologia do mapa
– Algoritmo de treinamento, tamanho e
topologia do mapa
– Número de épocas de treinamento (Training
Schedulle)
Análise dos Mapas
– Gera mapas estáticos
– Relatórios podem ser desenvolvidos usando
a linguagem de programação do Matlab.
– Rótulos em Agrupamentos
– Visualização dos dados de agrupamentos
– Permite a seleção de agrupamentos e
análise dos vetores que atingiram cada
agrupamento e/ou segmentação
Características especiais – Não possui
– Priorização de atributos
– Ajuste da tensão do mapa

84
Ferramenta Prós Contras
Viscovery SOMine
 Interação com os mapas
gerados
 Visualização dos vetores que
atingiram cada neurônio
 Performance em
altos volumes
Matlab SOM
Toolbox + SOMVIS
 Múltiplas visualizações dos
dados
 Flexibilidade de adaptação:
Ambiente Matlab de
programação
 Ferramenta didática, própria
para o ensino de redes SOM
 Performance em altos
volumes
 Não permite
priorização de
atributos
 Formato do arquivo
de entrada

86
Fase 1 Fase 2 Fase 3 Fase n
Matérias-Primas
Fases produtivas
Produto Acabado
Obs.: existem 3 linhas produtivas
Estrutura do Produto
placa de circuito impresso
solda
CI (circuito integrado)
componentes (resistores, capacidores)
CI (circuito integrado)
- CI pode ser produzido internamente ou
importado.
- Os outros componentes são
comprados.
Processo de Produção de Módulos de Memória

87
Figura 30 – Experimento 6: Agrupamentos mostram o relacionamento entre os
atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor
igual a “CLASS_D”.

88
Figura 32 – (a) Projeção PCA dos
primeiros 2 componentes principais; (b)
Gráfico da variação acumulada da
PCA pelo número de dimensões
Figura 33 - (a) Agrupamento
PCA destacado na grade de
neurônios; (b) Plano de
componentes principais
ordenado pelo valor absoluto
da correlação linear. A área
demarcada mostra os atributos
CLASS_D, DEVOLVIDA,
REJECT e TEMPO_PROD.

89
Arquivo de entrada na ferramenta Matlab

90
Análise de Componentes Principais (PCA)

91
Medidas de Qualidade SOM
• Erro de Quantização (QE): Resolução do mapa,
decresce conforme cresce o tamanho do mapa, medida
de quão bem os vetores de conjunto de dados de
origem atingem um neurônio específico. Em um mapa
bem treinado, os erros de quantização são pequenos e
distribuídos pelo mapa.
• Erro Topográfico (TE): Topologia dos dados de entrada,
qualidade da projeção, pode ser usado para
aperfeiçoar o tamanho do mapa.
• Erro de Distorção (DE): Medida de qualidade geral do
mapa.

IPT defesa Wagner F Canto v6

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie IPT defesa Wagner F Canto v6

Ähnlich wie IPT defesa Wagner F Canto v6 (20)

IPT defesa Wagner F Canto v6