1. MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT
PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE
COMPUTAÇÃO – MOD. ENG. DE SOFTWARE
Defesa de Dissertação 1º Semestre 2012
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
4. 4
Processo Produtivo de
Semicondutores Análise de
dados
Melhoria
do
Processo
Produtivo
Motivação
• Aplicação da Mineração de Dados (MD) em um caso
prático: Análise de dados gerados pelo processo produtivo
de uma indústria de semicondutores
• Agrupamento de Dados → Mapas de Kohonen (SOM –
Self Organizing Maps)
5. 5
Justificativa e relevância do estudo
• Dificuldades na aplicação de redes SOM:
– Definição dos parâmetros que regulam o comportamento
– Preparação de dados e seleção de atributos
• Incorporação da Mineração de Dados ao processo de
negócio: objetivo raramente alcançado
• Falta de pesquisas aplicadas na área de Mineração
de Dados
• Fracassos na área de Mineração de Dados são
raramente documentados
6. 6
Objetivo
• Objetivo Geral
– Uso de Mapas Auto-organizáveis (Self-organizing maps –
SOM) em aplicações de Mineração de Dados
• Objetivo Específico
– Desenvolver um processo com o qual se pretende:
• Identificar caminhos, demandas e restrições no uso da
técnica para Mineração de Dados originados no processo
de fabricação de semicondutores;
• Investigar técnicas heurísticas para a determinação dos
parâmetros que regulam o comportamento de redes
SOM e para seleção e priorização de atributos.
8. 8
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Modelos de Processo:
DCBD, CRISP-DM, SEMMA
Banco de Dados
Preparação de
dados para MD
Dimensionalidade
de dados
Qualidade de
dados
Mineração de
Dados
Agrupamento de
dados
Mapas SOM
Parametrização de
Mapas SOM e suas
heurísticas
Medidas de
Qualidade de
Mapas SOM
Ferramentas
Geração Mapas
SOM
Estatística:
Correlação e PCA
Aplicações da MD
na Indústria
10. 10
Metodologia
Abordagem Metodológica
Metodologia de Pesquisa
3. Execução Processo DCBD (Estudo de Caso)
3.1 Definição dos objetivos
3.2 Seleção & Pré-processamento
3.3 Limpeza & Transformação
3.4 Mineração de Dados
3.5 Interpretação / Avaliação
2. Definição Instância do Processo DCBD
1. Revisão Bibliográfica
4. Considerações Finais
11. 11
Definição da Instância do
Processo DCBD (Descoberta de Conhecimento em BD)
DCBD (Fayyad, 1996)
CRISP-DM (CHAPMAN, CLINTON et al., 2000)
SEMMA (SAS, 2012)
Figura 12 - Processo para execução dos experimentos
de DCBD.
13. 13
• SOM Toolbox (2005) e SOMVIS (2009)
• Biblioteca Matlab de código aberto
• Universidade de Tecnologia de
Helsinki/Finlândia.
http://www.cis.hut.fi/projects/somtoolbox/
Ferramentas de geração de Mapas SOM selecionadas
• Viscovery SOMine 5.2 (2010)
• Ferramenta comercial
• Viscovery Software GmbH Viena, Áustria
http://www.viscovery.net/somine/
http://www.viscovery.net/customers
15. 16
Objetivo do processo de DCBD
• Analisar os dados gerados pelo processo produtivo e
identificar padrões que possam revelar informações até
então desconhecidas como, por exemplo,
características dos produtos que são devolvidos pelos
clientes devido a mau funcionamento
18. 19
Processo de Produção de Módulos de Memória
• Dados coletados:
Compras
Produção
Vendas
Devolução de Clientes
19. 20
Visão Geral dos Sistemas de Informação da
Empresa alvo do estudo de caso
20. 21
Sistema Origem Dados disponíveis Características Técnicas
Sistema de Controle
de Produção (SCP)
Histórico das etapas de elaboração
do produto
Histórico de eventos / defeitos
Máquinas utilizadas em cada fase
Operadores
Lotes de fabricação
Número de série do produto
Quantidades produzidas
Resultado de testes de qualidade
33 milhões de registros (1 ano)
SGBD: MS-SQL Server
Sistema Integrado
de Gestão (ERP)
Dados de fornecedores (compras)
Dados de clientes (vendas)
Dados de produção (lotes matérias-
primas utilizadas em cada ordem de
fabricação)
408 mil de registros (1 ano)
SGBD: Oracle
Sistema de
Assistência Técnica
(SAT)
Dados de devolução de clientes (por
mau funcionamento do produto)
Análise de falhas
Histórico de falhas
113 mil registros (1 ano)
SGBD: MS- Access 97
Detalhamento das informações contidas nas
bases de dados dos sistemas SCP, ERP e SAP
22. 23
Consulta
SQL
Data
Mining
View
Critério de Seleção:
Ordens de Produção criadas
entre Ago e Set/2011
Tabelas dos Sistemas:
• ERP - Sistema Integrado de Gestão
• SCP - Sistema de Controle de Produção
• SAT - Sistema de Assistência Técnica
49 atributos
837.285 seriais (registros)
2.456 seriais devolvidos
333 ordens de produção
Consulta SQL desenvolvida para extrair dados
dos sistemas ERP, SCP e SAT
24. 25
Limpeza & Transformação de dados
DM View
Limpeza e
Transformação
Análise da qualidade dos dados: descarte de atributos
Transformação e Normalização de atributos
Geração dos arquivos no formato de cada ferramenta
Seleção de atributos: redução da dimensionalidade
Formato Matlab
Formato Viscovery
Cubo OLAP
Geração de PCA &
Correlação
837.285 seriais
49 atributos
25 atributos
25. 26
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimensões
49 atributos
1127 dimensões
25 atributos
391 dimensões
Sistemas
Correlação e
PCA
Análise da
Qualidade dos
Dados
Seleção de registros de Ago e Set/2011
Cubo OLAP
Padrões /
Agrupamentos
12 atributos
260 dimensões
Seleção de Atributos
Mineração de Dados
Geração
Mapas SOM
26. 27
SCP ERP SAT
DM View
Consulta
SQLSeleção e pré-processamento
Limpeza e transformação dos
dados
226 atributos
1623 dimensões
49 atributos
1127 dimensões
25 atributos
391 dimensões
Sistemas
Correlação e
PCA
Análise da
Qualidade dos
Dados
Seleção de registros de Ago e Set/2011
Cubo OLAP
Padrões /
Agrupamentos
12 atributos
260 dimensões
Seleção de Atributos
Mineração de Dados
Geração
Mapas SOM
27. 28
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
Atributo chave LOTLOTKEY
Número do serial do
produto
C 0 0 (0%)
Grupo 1
Atributos de
Classificação
do Produto
1 JOBPARTID Código do produto C 75 0 (0%)
2 X512MB_EQUIV
Equivalência com
produto de 512MB
N 1 0 (0%)
3 APPLICATION
Aplicação do produto
(Desktop, Laptop, ...)
C 4 0 (0%)
4 CAPACITY Capacidade C 4 0 (0%)
5 DENSITY Densidade C 3 0 (0%)
6 MONO_IC Mono IC C 5 0 (0%)
7 IC_REVISION Revisão do CI C 5 0 (0%)
8 MONO_ORG Organização do Mono C 5 0 (0%)
9 MONO_QTY Quantidade de CI C 6 0 (0%)
10 ORGANIZATION Organização do CI C 10 0 (0%)
11 PLATFORM Tipo de utilização C 3 0 (0%)
12 SUPPLIER Fornecedor C 5 0 (0%)
13 TYPE Tipo de produto C 5 0 (0%)
Total
131
dimensões
Grupo 1 de atributos
Classificação do Produto
28. 29
Grupos # Atributo Descrição do atributo Tipo atributo
Dimensões
geradas no
vetor de
entrada
Valor
Min/Máx
Média
Desv.
Padrão
Valores
Nulos
Grupo 2
Atributos
relacionados
com à
produção
14 NJOBQTY
Quantidade produzida pela ordem
de produção
N 1 0,002 /1,000 0,561 0,267 0 (0%)
15 DIA_SEM Dia semana término da produção C 7 0 (0%)
16 TEMPO_PROD
Tempo decorrido entre o início e o
fim da produção
N 1 0,000 /1,000 0,005 0,011 0 (0%)
17 ORDER_CLASS Classificação da Ordem C 4 0 (0%)
18 TIPO_CI Classificação do CI usado C 2
41.803
(5,00%)
19 REJECT Local do rejeito C 2 0 (0%)
20 XTASHIFT Turno de produção C 4 0 (0%)
21 XTAOPERATOR Operador que testou a peça C 80 0 (0%)
22 XTALINE Linha de produção C 4
41.803
(5,00%)
23 BOM
Código da estrutura de produto
usada
C 146 0 (0%)
24 BOM_VERSION
Versão da Estrutura de Produtos
(BoM)
C 7 0 (0%)
25 DEVOLVIDA
Produto devolvido pelo cliente
(Sim/Não)
C 2 0 (0%)
Total
260
dimensões
Grupo 2 de atributos
Atributos relacionados com à produção
29. 30
# Grupo de atributos
Dimensões
originais
Componentes
Principais
Redução de
dimensões
1 Grupo 1 131 74 -44%
2
Grupo 1 (com TEMPO_PROD, REJECT,
DEVOLVIDA)
136 76 -44%
3 Grupo 2 260 240 -8%
4 Grupo 2 (sem XTAOPERATOR e BOM) 34 25 -26%
5 Grupo 1 + Grupo 2 391 240 -39%
6
Grupo 1 + Grupo 2 (sem XTAOPERATOR
e BOM)
165 98 -41%
Redução da dimensionalidade
Análise de Componentes Principais (PCA)
30. 31
Figura 19 – Percentual da variação acumulada em função dos números de componentes principais.
Redução da dimensionalidade
% Variação Acumulada x Componentes Principais
32. 33
Planejamento dos experimentos
• Verificar o efeito da priorização e do uso de diferentes
combinações de atributos na formação de
agrupamentos
• Aplicar heurísticas para definição do número de
neurônios e verificar a sua influência nas medidas de
qualidade de mapas SOM
33. 34
Nro.
Exp.
Grupo de Atributos
Atributos
Prioriz.?
N de
Neurônios
Distorção
Normalizada
Erro de
Quantização
Médio
Erro de
Quantização
Máximo
Tempo
de
Proc.
Resultado
1 Grupo 2
12 atributos/260 dimensões
Não 2000 0,007681 0,003939 64 9h 39min
- Mapa disperso
- Erros altos
2 Grupo 2
12 atributos/260 dimensões
Sim 2000 0,003811 0,002166 9 6h
- Indicou agrupamento
3 Grupo 2
12 atributos/260 dimensões
Não 4.565 0,006134 0,001742 63 12h 56min
- Mapa disperso
- Erros altos
4 Grupo 2
12 atributos/260 dimensões
Sim 4.565 0,002631 0,001144 4,2 11h 58min
- Indicou agrupamento com mais
intensidade
5 Grupo 2 (sem
XTAOPERATOR e BOM)
10 atributos/34 dimensões
Não 4.565 0,01522 0,001806 1,3 1h 31min
- Indicou agrupamento com mais
intensidade
- Erros mais baixos
6 Grupo 2 (sem
XTAOPERATOR e BOM)
10 atributos/34 dimensões
Não 2.000 0,02827 0,01011 33 35 min
- Indicou agrupamento com mais
intensidade
- Erros altos
7 Grupo 1 (com
TEMPO_PROD, REJECT e
DEVOLVIDA)
13 atributos/136 dimensões
Sim 4.565 0,01532 0,00008758 0,33 4h 56min
- Nenhum relacionamento entre os
atributos do Grupo 1 e os atributos
DEVOLVIDA, REJECT e
TEMPO_PROD.
8 Grupo 1 + Grupo 2 (com
XTAOPERATOR e BOM)
25 atributos/391 dimensões
Sim 4.565 0,002354 0,0009642 30 26h 19min
- Mapa disperso
- Erros altos
9 Grupo 1 + Grupo 2 (sem
XTAOPERATOR e BOM)
23 atributos/165 dimensões
Sim 4.565 0,0219 0,003582 16 11h 14min
- Indicou agrupamento com menor
intensidade
- Erros mais baixos
Ferramenta Viscovery SOMine
Resultados
Mapa disperso
Gerou agrupamento
34. 35
Nro.
Exp.
Formato do
Mapa
Nro. de
Neurônios
Erro de
Distorção
Erro de
Quantização
Erro
Topográfico
Tempo de
Processamento
1 11 x 9 99 123.508 3.825 0,045 238s
2 26 x 19 494 106.533 3.132 0,089 541s
3 37 x 27 999 91.756 2.965 0,146 881s
4 53 x 38 2.014 83.517 2.908 0,115 1.591s
5 64 x 47 3.008 74.777 2.835 0,130 1.877s
6 79 x 58 4.582 71.211 2.837 0,112 4.171s
7 91 x 66 6.006 69.787 2.866 0,123 5.963s
8 104 x 77 8008 66.897 2.812 0,115 12.342s
9 116 x 86 9976 66.311 2.835 0,118 17.455s
10 143 x 105 15015 65.647 2.809 0,094 23.403s
Ferramenta Matlab SOM Toolbox
Resultados
35. 36
Figura 29 – Experimento 6: Agrupamentos mostram o relacionamento entre
os atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com
valor igual a “CLASS_D”.
Ferramenta Matlab SOM Toolbox
Resultados
36. 37
Figura 31 - Evolução dos erros de Distorção, Quantização e Topográfico dos
mapas gerados.
Ferramenta Matlab SOM Toolbox
Validação da Heurística: 5 x √ Nro. vetores de entrada
Overfitting
Underfitting
Heurística:
5 x √837.285 =
4.575 neurônios
Intervalos c/
pouca variação
dos Erros
38. 39
Interpretação e avaliação dos resultados
Mapas Viscovery e Matlab: Resultados semelhantes
DEVOLVIDA REJECT TEMPO_PROD CLASS_D
Viscovery
Matlab
39. 40
Este agrupamento sugere que produtos que sofreram
algum retrabalho durante o processo produtivo e,
devido a isso, levaram mais tempo para serem
produzidos, são mais susceptíveis a apresentarem
problemas técnicos e consequentemente serem
devolvidos pelos clientes.
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
Interpretação e avaliação dos resultados
Agrupamento interessante
40. 41
• Os melhores resultados foram gerados pelos Experimentos
5 e 6 (Grupo 2, sem os atributos XTAOPERATOR e BOM):
Grupo de atributos que necessita do menor número de
Componentes Principais (PCAs) para representar 100%
da sua variabilidade
Interpretação e avaliação dos resultados
41. 42
• Os piores resultados foram gerados pelos Experimentos 1,
3 e 8 (Grupo 2, com os atributos XTAOPERATOR e BOM):
Grupo de atributos que necessita do maior número de
Componentes Principais (PCAs) para representar 100%
da sua variabilidade
Interpretação e avaliação dos resultados
43. 45
• Com relação à técnica de MD utilizada
• Com relação às ferramentas utilizadas
• Com relação à metodologia utilizada
• Com relação aos resultados alcançados
Considerações Finais
Conclusões
44. 48
1) Canto, W. F. ; Souza, L. S. ; CANTO, N. C. F. . Mineração de Dados: uma
aplicação para a indústria de semicondutores. In: 6ª Conferência Ibérica
de Sistemas e Tecnologias de Informação, 2011, Chaves. Mineração de
Dados: uma aplicação para a indústria de semicondutores, 2011. v. 1. p. 1-4.
2) CANTO, N. C. F. ; SASSI, R. J. ; Canto, W. F. . Aplicação de Mapas Auto-
organizáveis para Mineração de Textos. In: 6ª Conferência Ibérica de
Sistemas e Tecnologias de Informação, 2011, Chaves. Aplicação de Mapas
Auto-organizáveis para Mineração de Textos, 2011. v. 1.
Contribuições
Artigos Publicados
45. 49
Considerações Finais
Pesquisas futuras
• Uso dos padrões gerados pela rede SOM para classificar
automaticamente seriais
• Aprofundar o estudo de técnicas de seleção de atributos
• Estudo de ferramentas de ETL (Extract Transform Load) para
automatizar o processo de extração
Especificamente para a empresa alvo deste estudo:
• Acumular conhecimento durante várias execuções do processo
de DCBD para diferentes meses
• Ampliar o nível de análise adicionando mais atributos no mapa
e/ou realizando novas combinações
46. MINERAÇÃO DE DADOS UTILIZANDO MAPAS
AUTO-ORGANIZÁVEIS: UMA APLICAÇÃO PARA A
INDÚSTRIA DE SEMICONDUTORES
INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO - IPT
PROGRAMA DE MESTRADO PROFISSIONAL EM ENGENHARIA DE
COMPUTAÇÃO – MOD. ENG. DE SOFTWARE
Defesa de Dissertação 1º Semestre 2012
Mestrando Wagner Furtado Canto
Orientador Prof. Dr. Luiz Sérgio de Souza
47. 51
Diagrama de Classes da Base de dados selecionada
ERP - Sistema Integrado de Gestão
SAT - Sistema de Assistência Técnica
SCP - Sistema de Controle de Produção
Origem dos dados
48. 52
Tabela Sistema
Nro. de
registros
Nro. de
atributos
Descrição SGBD
TblJob SCP 7.574 29 Cabeçalho ordem produção MS SQL Server 2000
TblLot SCP 6.360.853 29
Item ordem de produção
(detalhes da produção)
MS SQL Server 2000
TblTransaction SCP 26.782.195 25
Detalhe item ordem de
produção
MS SQL Server 2000
TblRejectDetail SCP 153.162 6 Dados sobre rejeitos MS SQL Server 2000
Tbl_PPB ERP 17.263 11
Tipo de componente
consumido pela ordem
Oracle 9.0i
ZBR_TRMA ERP 35.060 4
Dados da devolução de
vendas
Oracle 9.0i
wMat_Clas ERP 699 17 Classificação dos Materiais Oracle 9.0i
AUFM ERP 354.998 41
Materiais consumidos pela
ordem de produção
Oracle 9.0i
t_RMAItem_A SAT 113.859 65 Dados de assistência técnica MS-Access 97
Total 33.825.663 227
49. 53
Mapa Auto-organizável Self-organizing Map (SOM)
• Algoritmo criado pelo pesquisador Finlandês Dr. Teuvo Kohonen em 1982
• Tipo de rede neural artificial
• Reduz a dimensionalidade dos dados
• Utiliza aprendizado competitivo e não supervisionado
• Permite visualização dos resultados obtidos
• Pode ser usado na análise de agrupamento de dados
• Há dificuldades para definição dos parâmetros que regulam o comportamento da
rede (quantidade de neurônios de saída, taxa de aprendizado e outros)
60. 64
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
1
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Todos os atributos do Grupo 2 com
prioridade igual a 1, exceto atributo
DEVOLVIDA que recebeu a prioridade 0
Experimentos 1
61. 65
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
2
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,20
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,20
XTASHIFT: 1,00
XTAOPERATOR: 0,70
XTALINE: 1,00
BOM: 0,70
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 2
62. 66
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
3
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Todos os atributos do Grupo 2 com
prioridade igual a 1, exceto atributo
DEVOLVIDA que recebeu a prioridade
0
Experimento 3
63. 67
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
4
Total: 836.564
Devolvidos: 2.456
12 atributos
260 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,20
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,20
XTASHIFT: 1,00
XTAOPERATOR: 0,70
XTALINE: 1,00
BOM: 0,70
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 4
64. 68
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
5
Total: 836.564
Devolvidos: 2.456
10 atributos
34 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2 (sem XTAOPERATOR e
BOM)
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,00
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,00
XTASHIFT: 1,00
XTALINE: 1,00
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 5
65. 69
Nro. do
Experimento
Vetores de
Entrada
Parâmetros do Mapa Atributos analisados e prioridade
6
Total: 836.564
Devolvidos: 2.456
10 atributos
34 dimensões
- Nro. de Neurônios: 2.000
- Plano de treinamento:
Normal
- Tensão: 0,5
- Compensação da
correlação: ligado
Grupo 2 (sem XTAOPERATOR e
BOM)
NJOBQTY: 1,00
DIA_SEM: 1,00
TEMPO_PROD: 1,00
ORDER_CLASS: 1,00
TIPO_CI: 1,00
REJECT: 1,00
XTASHIFT: 1,00
XTALINE: 1,00
BOM_VERSION: 1,00
DEVOLVIDA: 0
Experimento 6
66. 70
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
7
Total: 836.564
Devolvidos: 2.456
13 atributos
136 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação:
ligado
Grupo 1 (com TEMPO_PROD, REJECT e
DEVOLVIDA)
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_OR: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
TEMPO_PROD: 1,2
REJECT: 1,2
DEVOLVIDA: 0
Experimento 7
67. 71
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
8
Total: 836.564
Devolvidos: 2.456
25 atributos
391 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação: ligado
Grupo 1 + Grupo 2 (com XTAOPERATOR e BOM)
NJOBQTY: 1
DIA_SEM: 1
TEMPO_PROD: 1
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_ORG: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
ORDER_CLASS: 1
TIPO_CI: 1
REJECT: 1
XTASHIFT: 1
XTAOPERATOR: 0,7
XTALINE: 1
BOM: 0,7
BOM_VERSION: 1
DEVOLVIDA: 0
Experimento 8
68. 72
Nro. do
Experimento
Vetores de Entrada Parâmetros do Mapa Atributos analisados e prioridade
9
Total: 836.564
Devolvidos: 2.456
23 atributos
165 dimensões
- Nro. de Neurônios: 4.565
- Plano de treinamento: Normal
- Tensão: 0,5
- Compensação da correlação: ligado
Grupo 1 + Grupo 2 (sem XTAOPERATOR e BOM)
NJOBQTY: 1
DIA_SEM: 1
TEMPO_PROD: 1
JOBPARTID: 0,7
X512MB_EQUIV: 1
APPLICATION: 1
CAPACITY: 1
DENSITY: 1
MONO_IC: 1
IC_REVISION: 1
MONO_ORG: 1
MONO_QTY: 1
ORGANIZATION: 1
PLATFORM: 1
SUPPLIER: 1
TYPE: 1
ORDER_CLASS: 1
TIPO_CI: 1
REJECT: 1
XTASHIFT: 1
XTALINE: 1
BOM_VERSION: 1
DEVOLVIDA: 0
Experimento 9
69. 73
Figura 23 - Experimentos 1 (a) e 3 (b): não apresentam agrupamentos relevantes.
Experimentos 1 e 3
71. 75
TEMPO_PROD
S2
S1
S3
0,00 0,15
REJECT: NOK
S2
S1
S3
0,0 0,5 1,0
DEVOLVIDA: S
S2
S1
S3
0,00 0,11
S2
S1
S3
Figura 24 - Experimento 5: apresenta agrupamentos
bem definidos.
Figura 25 – Experimento 5: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores
mais altos na mesma região do mapa (agrupamento S3), mostrando que há um relacionamento
entre estes atributos.
Experimento 5
73. 77
TEMPO_PROD
0,00 0,02 0,05 0,07 0,09 0,12
REJECT: NOK
0,0 0,1 0,3 0,4 0,6 0,7 0,9 1,0
DEVOLVIDA: S
0,00 0,03 0,05 0,08 0,10 0,13
Quantization Error
0 0 0 0 0 0 0 0 16
Figura 28 – Experimento 9: Atributos TEMPO_PROD, REJECT e DEVOLVIDA apresentam valores mais altos na
mesma região do mapa (agrupamento S3), mostrando que há um relacionamento entre estes atributos, resultado
semelhante ao experimento 5.
Experimento 9
74. 78
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Processo DCBD
AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A parallel overview. IADIS
European Conference Data Mining 2008, p. 182-185, 2008.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge
Discovery in Databases. Advances in Knowledge Discovery and Data Mining,
Cambridge, p. p. 1-36, 1996.
Aplicações de MD
na Indústria
LAINE, S. Using visualization, variable selection and feature extraction to learn from
industrial data. 2003. Tese de Doutorado Departamento de Ciência da Computação e
Engenharia, Helsinki University of Technology, Espoo.
DOMINGUES, M. L. C. S. Mineração de Dados Utilizando Aprendizado Não-
Supervisionado: um estudo de caso para bancos da saúde 2003. Mestrado em
Ciência da Computação Instituto de Informática, Universidade Federal do Rio Grande
do Sul
GIUDICI, P.; FIGINI, S. Applied Data Mining for Business and Industry. 2
a
. Wiley-
Interscience, 2009.
LUFTMAN, J.; BEN-ZVI, T. Key Issues for IT Executives 2011: Cautions Optimism in
Uncertain Economic Times. MIS Quartely Executive - Universidade of Minnesota, v.
10, n. 4, p. 203-213, 2011.
SIMULA, O.; VESANTO, J. The Self-Organzing Map in Industry Analysis. Industrial
Applications of Neural Networks, n. 1, p. 89-112, 1998.
Preparação de
Dados
PYLE, D. Data Preparation for Data Mining. 1st edition. Academic Press, 1999. p. 349
REFAAT, M. Data Preparation for Data Mining Using SAS. Elsevier, 2007.
75. 79
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Mineração e
Agrupamento de
Dados
LAINE, S. Selecting the variables that train a self-organizing map (SOM) which best
separates predefined clusters Proceedings ofthe 9th International Conference on
Neural Information Processing (ICONIP'02), v. 4, p. 1961-1965, 2002b.
LAINE, S. Finding the variables of interest. Minerals Engineering, n. 15, p. 167–176,
2002a.
NISBET, R.; ELDER, J.; MINER, G. Handbook of Statistical Analysis and Data Mining
Applications. Elsevier, 2009.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining - Mineração de
Dados. 2009. p. 1-15
Qualidade de Dados OLSON, J. O. Data Quality: The Accuracy Dimension. Elsevier, 2003.
Mapas SOM
PÖLZLBAUER, G. Advanced data exploration methods based on Self-Organizing
Maps. 2008. Tese de Doutorado Information and Software Engineering Group,
Vienna University of Technology
KOHONEN, T. Self-organizing maps. 3rd edition. Springer, 2001.
KASKI, S. Data Exploration using Self-Organizing Maps. 1997. Tese de Doutorado
Departamento de Ciência da Computação e Engenharia, Helsinki University of
Technology
ZUCHINI, M. H. Aplicações de Mapas Auto-organizáveis em Mineração de Dados e
Recuperação de Informação. 2003. Mestrado em Eng. Elétrica Faculdade de Eng.
Elétrica e de Computação, Universidade Estadual de Campinas
76. 80
Revisão Bibliográfica
Visão Geral das Teorias de Suporte
Ferramentas Geração
Mapas SOM
DEMUTH, H.; BEALE, M.; HAGAN, M. Matlab - Neural Network Toolbox 6: The
Mathworks 2009.
MOEHRMANN, J. et al. A Discussion on Visual Interactive Data Exploration Using
Self-Organizing Maps. WSOM 2011, p. 178-187, 2011.
VISCOVERY. Viscovery SOMine web page. 2010. Disponível em: <
http://www.viscovery.net/somine/ >. Acesso em: 13-Dez-2011.
Banco de Dados
CHEN, P. Modelagem de Dados. 1990.
SETZER, V. W. Banco de Dados: Conceitos, Modelos, Gerenciadores, Projeto Lógico,
Projeto Físico. Edgard Blücher, 1987.
Estatística:
Correlação e PCA
AILON, N.; CHAZELLE, B. Faster Dimension Reduction. Communications of the ACM,
v. 53, n. 2, p. 97, 2010.
HILL, T.; LEWICKI, P. STATISTICS: Methods and Applications. StatSoft. 2007.
Medidas de
Qualidade de Mapas
SOM
PÖLZLBAUER, G. Survey and comparison of quality measures for self-organizing
maps. Proceedings of the Fifth Workshop on Data Analysis (WDA'04), 2004. Elfa
Academic Press. p.67-82.
78. 82
Sub-processos DCBD CRISP-DM SEMMA
1) Compreender o domínio da
aplicação e identificar o objetivo do
processo DCBD.
Pré DCBD
Entendimento do
negócio
-
2) Selecionar, organizar e preparar
dados
Seleção de dados Entendimento dos
Dados
Amostragem
3) Executar análise exploratória e
transformação dos dados
Pré-processamento Explorar os dados
Transformação
Preparação dos
dados
Modificação dos
dados
4) Especificar métodos estatísticos
Mineração de Dados Modelagem Modelagem
5) Executar algoritmos de mineração
de dados e colher os resultados
6) Avaliar e comparar os métodos
usados e escolher o método final de
análise
7) Interpretar o método escolhido e o
seu uso no processo de decisão
Interpretação/Avaliação Avaliação Avaliação
Pós DCBD Implantação -
Comparação entre os processos
DCBD, CRISP-DM e SEMMA
79. 83
Item de
comparação
Matlab SOM Toolbox +
SOMVIS
Viscovery SOMine
Finalidade
– Uso acadêmico
– Código aberto
– Uso profissional
– Ferramenta proprietária
Algoritmo
– Em lote (batch)
– Sequencial e SOM_PAK
– SOM Ward
Medidas de qualidade
SOM
– Erro de Quantização
– Erro de Distorção
– Erro Topográfico
– Outras medidas podem ser programadas
– Erro de quantização
– Erro de Distorção normalizado
Pré-processamento de
dados
– Normalização de dados numéricos
– Normalização e limpeza
– Histogramas
– Estatística (PCA, correlação de Pearson)
Parâmetros de geração
de Mapas
– Algoritmo de treinamento, tamanho e
topologia do mapa
– Algoritmo de treinamento, tamanho e
topologia do mapa
– Número de épocas de treinamento (Training
Schedulle)
Análise dos Mapas
– Gera mapas estáticos
– Relatórios podem ser desenvolvidos usando
a linguagem de programação do Matlab.
– Rótulos em Agrupamentos
– Visualização dos dados de agrupamentos
– Permite a seleção de agrupamentos e
análise dos vetores que atingiram cada
agrupamento e/ou segmentação
Características especiais – Não possui
– Priorização de atributos
– Ajuste da tensão do mapa
80. 84
Ferramenta Prós Contras
Viscovery SOMine
Interação com os mapas
gerados
Visualização dos vetores que
atingiram cada neurônio
Performance em
altos volumes
Matlab SOM
Toolbox + SOMVIS
Múltiplas visualizações dos
dados
Flexibilidade de adaptação:
Ambiente Matlab de
programação
Ferramenta didática, própria
para o ensino de redes SOM
Performance em altos
volumes
Não permite
priorização de
atributos
Formato do arquivo
de entrada
82. 86
Fase 1 Fase 2 Fase 3 Fase n
Matérias-Primas
Fases produtivas
Produto Acabado
Obs.: existem 3 linhas produtivas
Estrutura do Produto
placa de circuito impresso
solda
CI (circuito integrado)
componentes (resistores, capacidores)
CI (circuito integrado)
- CI pode ser produzido internamente ou
importado.
- Os outros componentes são
comprados.
Processo de Produção de Módulos de Memória
83. 87
Figura 30 – Experimento 6: Agrupamentos mostram o relacionamento entre os
atributos DEVOLVIDA, REJECT, TEMPO_PROD e ORDER_CLASS com valor
igual a “CLASS_D”.
84. 88
Figura 32 – (a) Projeção PCA dos
primeiros 2 componentes principais; (b)
Gráfico da variação acumulada da
PCA pelo número de dimensões
Figura 33 - (a) Agrupamento
PCA destacado na grade de
neurônios; (b) Plano de
componentes principais
ordenado pelo valor absoluto
da correlação linear. A área
demarcada mostra os atributos
CLASS_D, DEVOLVIDA,
REJECT e TEMPO_PROD.
87. 91
Medidas de Qualidade SOM
• Erro de Quantização (QE): Resolução do mapa,
decresce conforme cresce o tamanho do mapa, medida
de quão bem os vetores de conjunto de dados de
origem atingem um neurônio específico. Em um mapa
bem treinado, os erros de quantização são pequenos e
distribuídos pelo mapa.
• Erro Topográfico (TE): Topologia dos dados de entrada,
qualidade da projeção, pode ser usado para
aperfeiçoar o tamanho do mapa.
• Erro de Distorção (DE): Medida de qualidade geral do
mapa.