Weitere ähnliche Inhalte Ähnlich wie Aula Data Mining (20) Mehr von Mauricio Cesar Santos da Purificação (20) Aula Data Mining2. Contexto e Motivação
Data Mining – Definições
KDD – Definição e Etapas
Áreas de Aplicação
Cases de Sucesso
Abordagens e Metodologias
Tarefas de Data Mining
Técnicas de Data Mining
Visualização de Dados em Data Mining
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 2
3. Quantidades gigantescas de dados são
coletados e armazenados em empresas,
corporações, etc...
Dados de comércio eletrônico;
Dados de navegação na internet;
Dados de compras de clientes em grandes lojas de
departamentos, supermercados;
Dados de transações bancárias, ou de cartão de
crédito;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 3
4. Computadores mais baratos e mais potentes;
Pressão da competição;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 4
5. Dados coletados e armazenados a
velocidades enormes (GB/hora)
Sensores remotos em satélites;
Telescópios;
Microarrays gerando dados de expressões de
genes;
Simulações científicas gerando terabytes de
dados;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 5
6. Técnicas tradicionais não apropriadas para
analisar tais dados
Ruídos e grande dimensionalidade;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 6
7. Lei de Moore: Capacidade de processamento
dobra a cada 18 meses (CPU, memória, cache)
Capacidade de armazenamento dobra a cada 10
meses
O que estas duas “leis” combinadas produzem?
Um gap crescente entre nossa habilidade de gerar
dados e nossa habilidade de fazer uso dele
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 7
8. Frequentemente existe informação “escondida”
nos dados que não é evidente de ser encontrada
utilizando linguagens de consultas tradicionais.
Analistas humanos podem levar semanas para
correlacionar e descobrir alguma informação útil
dentro de uma grande massa de dados.
Boa parte dos dados nunca é analisado:
“cemitério” de dados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 8
9. Técnicas de Mineração podem ajudar analistas:
Entender e prever as necessidades dos clientes
Descobrir fraudes
Descobrir perfis de comportamento de clientes
Técnicas de Mineração podem ajudar cientistas:
Classificar e segmentar dados
Formular hipóteses
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 9
10. Mineração de dados é a busca de informações valiosas em grandes
bancos de dados. É um esforço de cooperação entre homens e
computadores. Os homens projetam bancos de dados, descrevem
problemas e definem seus objetivos. Os computadores verificam dados e
procuram padrões que casem com as metas estabelecidas pelos homens
[WI99].
Mineração de dados é o processo de proposição de várias consultas e
extração de informações úteis, padrões e tendências, frequentemente
desconhecidos, a partir de grande quantidade de dados armazenada em
bancos de dados [BT99].
Mineração de dados, de forma simples, é o processo de extração ou
mineração de conhecimento em grandes quantidades de dados [HK01].
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 10
11. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 11
12. Limpeza dos dados: etapa onde são eliminados ruídos
e dados inconsistentes.
Integração dos dados: etapa onde diferentes fontes
de dados podem ser combinadas produzindo um
único repositório de dados.
Seleção: etapa onde são selecionados os atributos
que interessam ao usuário. Por exemplo, o usuário
pode decidir que informações como endereço e
telefone não são de relevantes para decidir se um
cliente é um bom comprador ou não.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 12
13. Transformação dos dados: etapa onde os
dados são transformados num formato
apropriado para aplicação de algoritmos de
mineração (por exemplo, através de
operações de agregação).
Mineração: etapa essencial do processo
consistindo na aplicação de técnicas
inteligentes a fim de se extrair os padrões de
interesse.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 13
14. Avaliação ou Pós-processamento: etapa
onde são identificados os padrões
interessantes de acordo com algum critério
do usuário.
Visualização dos Resultados: etapa onde são
utilizadas técnicas de representação de
conhecimento a m de apresentar ao usuário o
conhecimento minerado.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 14
15. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 15
16. Atributos com representação inadequada para tarefa e algoritmo.
Atributos cujos valores não tenham informações adequadas.
Excesso de atributos (podem ser redundantes ou desnecessários).
Atributos insuficientes.
Excesso de instancias (afetam tempo de processamento).
Instâncias insuficientes.
Instâncias incompletas (sem valores para alguns atributos).
Assim como a mineração de dados em si, requer conhecimento
sobre os dados e algoritmo que será usado!
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 16
17. Problemas:
Redes Neurais Back-propagation só operam com valores
numéricos.
Alguns algoritmos de busca de associações só operam
com valores simbólicos/discretos.
Soluções:
Conversão de tipos de atributos (quando aplicável!)
Remoção dos atributos inadequados.
Separação em subtarefas usando os valores discretos dos
atributos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 17
18. Problemas:
Atributos com baixíssima variabilidade nos valores.
Atributos redundantes ou altamente correlacionados
com outros.
Soluções:
Remoção dos atributos inadequados.
Unificação de atributos ou derivação de novos
atributos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 18
19. Problemas:
Muitos atributos → complexidade de processamento.
Correlações irrelevantes podem complicar o processo de
mineração (a não ser que seja necessário descobri-las!)
Soluções:
Remoção dos atributos irrelevantes (possivelmente depois
de alguma analise).
Mudança de representação ou projeção (usando, por
exemplo, PCA ou Mapas de Kohonen).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 19
20. Problemas:
Poucos atributos podem não possibilitar mineração
adequada (para identificar classes, por exemplo).
Soluções:
Enriquecimento com dados complementares (se puderem
ser obtidos!)
Enriquecimento com combinações não lineares.
Data Farming. (Criação de grandes volumes de dados
através de simulação com alta performance usando
modelos generativos de dados.)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 20
21. Problemas:
Muitas instâncias podem tornar o processamento inviável:
alguns algoritmos requerem varias iterações com os
dados.
Problema relacionado: desbalanceamento de instâncias
para classificação.
Soluções:
Redução por amostragem.
Redução por prototipagem.
Particionamento do conjunto de dados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 21
22. Problemas:
Poucas instâncias podem comprometer o resultado
(que será pouco genérico ou confiável).
Casos raros podem não ser representados.
Soluções:
Coleta de mais instâncias.
Data Farming.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 22
23. Problemas:
Dados coletados podem ter valores de atributos faltando.
Por que estão faltando? Rever modelagem do processo e coleta!
Soluções:
Eliminação de dados/atributos com muitos valores faltando.
Completar através de proximidade/similaridade com dados
completos.
Separar em conjuntos para processamento independente ou
associado.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 23
24. Mineração de dados é o passo do processo de
KDD que produz um conjunto de padrões sob
um custo computacional aceitável;
KDD utiliza algoritmos de data mining para
extrair padrões classificados como
“conhecimento”. Incorpora também tarefas
como escolha do algoritmo adequado,
processamento e amostragem de dados e
interpretação de resultados;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 24
25. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 25
26. Vendas e Marketing
Identificar padrões de comportamento de
consumidores
Associar comportamentos à características
demográficas de consumidores
Campanhas de marketing direto (mailing
campaigns)
Identificar consumidores “leais”
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 26
27. Bancos
Identificar padrões de fraudes (cartões de crédito)
Identificar características de correntistas
Mercado Financeiro ($$$)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 27
28. Médica
Comportamento de pacientes
Identificar terapias de sucessos para diferentes
tratamentos
Fraudes em planos de saúdes
Comportamento de usuários de planos de saúde
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 28
29. Exemplo (1) - Fraldas e cervejas
O que as cervejas tem a ver com as fraldas ?
homens casados, entre 25 e 30 anos;
compravam fraldas e/ou cervejas às sextas-feiras
à tarde no caminho do trabalho para casa;
Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das cervejas;
Resultado: o consumo cresceu 30% .
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 29
30. Exemplo (2) - Lojas Brasileiras (Info 03/98)
Aplicou 1 milhão de dólares em técnicas de data
mining
Reduziu de 51000 produtos para 14000 produtos
oferecidos em suas lojas.
Exemplo de anomalias detectadas:
– Roupas de inverno e guarda chuvas encalhadas no nordeste
– Batedeiras 110v a venda em SC onde a corrente é 220v
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 30
31. Exemplo (3) - Bank of America (Info 03/98)
Selecionou entre seus 36 milhões de clientes
▪ Aqueles com menor risco de dar calotes
▪ Tinham filhos com idades entre 18 e 21 anos
▪ Resultado em três anos o banco lucrou 30 milhões de
dólares com a carteira de empréstimos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 31
32. Quanto ao tipo de bancos de dados:
relacional, transacional, orientado-objeto,
relacional-estendido, data warehouse;
Quanto ao tipo de conhecimento minerado:
regras de associação, classificação, clustering,
outliers, análise de sequências;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 32
33. Quanto ao tipo de técnicas utilizadas: técnicas
de aprendizado de máquina (Machine Learning),
estatística, redes neurais, algoritmos genéticos,
etc; tipos de interação com o usuário;
Quanto ao tipo de aplicações a que são
dirigidos: telecomunicações, análise financeira,
bioinformática, mercado de ações, comércio
eletrônico;
Diferentes aplicações requerem a integração de
métodos específicos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 33
34. Na busca de conhecimento direta ou
supervisionada sua meta é orientada.
Existe um valor para ser prognosticado, uma
classe a ser atribuída aos registros ou um
determinado relacionamento para ser
explorado.
Existe apenas uma vaga idéia do que se estar
procurando.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 34
35. Identificar as fontes dos dados selecionados
para mineração;
Prepara os dados para análise;
Construir e trinar o modelo computacional;
Avaliar o modelo computacional.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 35
36. Na busca de conhecimento indireta ou não-
supervisionada não existe uma meta bem
definida.
As ferramentas são mais livres na sua
aplicação sobre os dados e espera-se que será
descoberto alguma estrutura significante nos
dados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 36
37. Identificar as fontes dos dados;
Prepara os dados para análise;
Construir e trinar o modelo computacional;
Avaliar o modelo computacional;
Aplicar o modelo computacional no novo
conjunto de dados;
Identificar potenciais objetivos para busca de
conhecimento direta;
Gerar novas hipóteses para teste.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 37
38. Na abordagem top-down, também chamada de
teste de hipótese, o usuário parte do princípio
que existe uma hipótese, uma idéia pré-
concebida e que mesmo deseja confirmá-la ou
refutá-la.
Na abordagem bottom-up, também chamada
de busca de conhecimento, o usuário inicia o
processo de exploração dos dados na tentativa
de descobrir alguma coisa que ainda não é de
conhecimento
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 38
39. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 39
40. Tarefas: Consistem na especificação do que
estamos querendo buscar nos dados, que
tipo de regularidades ou categoria de padrões
temos interesse em encontrar, ou que tipo de
padrões poderiam nos surpreender (por
exemplo, um gasto exagerado de um cliente
de cartão de crédito, fora dos padrões usuais
de seus gastos).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 40
41. Técnicas: Consiste na especificação de
métodos que nos garantam como descobrir
os padrões que nos interessam.
Dentre as principais técnicas utilizadas em
mineração de dados, temos técnicas
estatísticas, técnicas de aprendizado de
máquina e técnicas baseadas em
crescimento-poda-validação.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 41
42. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 42
43. Uma regra de associação é um padrão da
forma X -> Y , onde X e Y são conjuntos de
valores (artigos comprados por um cliente,
sintomas apresentados por um paciente, etc).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 43
44. Exemplo:
“Clientes que compram pão também compram leite”
representa uma regra de associação que reflete um
padrão de comportamento dos clientes do
supermercado.
Descobrir regras de associação entre produtos
comprados por clientes numa mesma compra pode
ser útil para melhorar a organização das prateleiras,
facilitar (ou dificultar) as compras do usuário ou
induzi-lo a comprar mais.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 44
45. Um padrão sequencial é uma expressão da
forma < I1,..., In >, onde cada Ii é um conjunto
de itens. A ordem em que estão alinhados
estes conjuntos reflete a ordem cronológica
em que aconteceram os fatos representados
por estes conjuntos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 45
46. Exemplo:
A sequência < {carro}, {pneu, toca-fitas} >
representa o padrão Clientes que compram carro,
tempos depois compram pneu e toca-fitas de
carro.
Descobrir tais padrões sequenciais em dados
temporais pode ser útil em campanhas de
marketing, por exemplo.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 46
47. Classificação é o processo de encontrar um
conjunto de modelos (funções) que
descrevem e distinguem classes ou conceitos,
com o propósito de utilizar o modelo para
predizer a classe de objetos que ainda não
foram classificados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 47
48. O modelo construído baseia-se na análise
prévia de um conjunto de dados de
amostragem ou dados de treinamento,
contendo objetos corretamente classificados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 48
49. Exemplo:
Suponha que o gerente do supermercado está
interessado em descobrir que tipo de
características de seus clientes os classificam em
bom comprador ou mau comprador.
Um modelo de classificação poderia incluir a
seguinte regra: Clientes da faixa econômica B,
com idade entre 50 e 60 são maus compradores.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 49
50. Em algumas aplicações, o usuário está mais
interessado em predizer alguns valores
ausentes em seus dados, em vez de descobrir
classes de objetos. Isto ocorre sobretudo
quando os valores que faltam são numéricos.
Neste caso, a tarefa de mineração é
denominada Predição.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 50
51. Diferentemente da classificação e predição onde
os dados de treinamento estão devidamente
classificados e as etiquetas das classes são
conhecidas, a análise de clusters trabalha sobre
dados onde as etiquetas das classes não estão
definidas.
A tarefa consiste em identificar agrupamentos
de objetos, agrupamentos estes que identificam
uma classe.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 51
52. Exemplo:
Poderíamos aplicar análise de clusters sobre o banco
de dados de um supermercado a fim de identificar
grupos homogêneos de clientes;
Por exemplo, clientes aglutinados em determinados
pontos da cidade costumam vir ao supermercado aos
domingos, enquanto clientes aglutinados em outros
pontos da cidade costumam fazer suas compras às
segundas-feira;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 52
53. Um banco de dados pode conter dados que não
apresentam o comportamento geral da maioria.
Estes dados são denominados
outliers(exceções).
Muitos métodos de mineração descartam estes
outliers como sendo ruído indesejado.
Entretanto, em algumas aplicações, tais como
detecção de fraudes, estes eventos raros podem
ser mais interessantes do que eventos que
ocorrem regularmente.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 53
54. Exemplo:
Podemos detectar o uso fraudulento de cartões
de crédito ao descobrir que certos clientes
efetuaram compras de valor extremamente alto,
fora de seu padrão habitual de gastos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 54
55. O que significa um padrão ser interessante ?
Fácil de ser entendido
Inesperado
Potencialmente util
Confirma uma hipotese feita pelo usuario
Tipos de medidas:
Objetivas : suporte, confiança
Subjetivas : esperadas, inesperadas
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 55
57. Métricas:
Significância em uma associação: ela pode existir mas ser
muito rara em uma base de dados (ex. cerveja → fraldas).
▪ Suporte X → Y: numero de casos que contem X e Y dividido pelo
número total de registros.
Confiança em uma associação: o antecedente pode ocorrer
varias vezes na base de dados mas nem sempre com o
mesmo consequente associado.
▪ Confiança X → Y: numero de registros que contem X e Y dividido
pelo numero de registros que contem X.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 57
58. Algoritmo Apriori
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 58
60. Algoritmos AprioriALL
Algoritmo Apriori-Some
Algoritmo GSP
Algoritmo SPADE
Algoritmo PrefixSpan
Sequências com Restrições
Algoritmo SPIRIT
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 60
62. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 62
63. Métodos de classificação supervisionada:
Baseados em distancias e diferenças, usando protótipos ou
assinaturas: mínima distancia euclidiana e variantes.
Baseados em separabilidade (entropia): hiperparalelepípedo
regular, arvores de decisão e variantes.
Baseados em particionamento: redes neurais (back-
propagation),
SVM (support vector machines).
Baseados diretamente nos dados: vizinhos mais próximos e
similares.
Existe superposição nesta taxonomia...
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 63
64. Árvores de decisão: (ID3) - 1o Exemplo
Representações simples do conhecimento
Utilização de regras condicionais
A partir de um conjunto de valores decide SIM ou NÃO
Mais rápida e mais compreensível que redes neurais
Exemplo: Sair ou não de acordo com o tempo
Tempo
Predicado objetivo:
Sair ou Não Sair
Nublado Ensolarado Chuvoso
Umidade Sair Muito vento
Alta Normal Sim Não
Ñ Sair Sair Ñ Sair Sair
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 64
65. Árvores de decisão: (ID3) - 2o Exemplo
Classificação de um indivíduo com risco de ter ou não crédito
Renda > R$ 4.000,00
SIM NÃO Predicado objetivo:
Crédito ou Não
Dívida < 10% da renda ? Dívida = 0%
SIM NÃO NÃO SIM
Risco de ter crédito Risco de não ter crédito Risco de ter crédito
Nesta árvore de decisões, regras são induzidas nos padrões dos
dados e cria-se uma hierarquia de indicações “se-então”.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 65
66. Redes Neurais:
▪ Para construir um modelo neural, nós primeiramente
"adestramos" a rede em um dataset de treinamento e então
usamos a rede já treinada para fazer predições.
▪ Problemas:
▪ Não retorna informação a priori
▪ Não pode ser treinada em uma grande base de dados
▪ Entrada não pode ser dados alfanuméricos (mapear para numérico)
▪ Nenhuma explanação dos dados é fornecida (caixa preta)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 66
67. Redes Neurais:
Exemplo prático: risco de câncer
09/11/2010 ©2010 Data mining - Clementine User Guide DW-UFBA
| Mauricio Cesar Santos da Purificação | Grupo 67
68. Redes Neurais: - 2o Exemplo
Nível
RENDA DÉBITO IDADE REG. DE de
PAGAMENTO entrada
Nível
oculto
Risco Risco de
de ter não ter
crédito crédito Nível
de
As redes neurais usam seus dados de entrada. saída
Atribui pesos nas conecções entre os atributos (neurônios).
E obtém um resultado (risco de ter ouda Purificação | Grupono nível de saída.
09/11/2010 ©2010 | Mauricio Cesar Santos não crédito) DW-UFBA 68
70. Algoritmos para criação de grupos de instâncias
Similares entre si,
Diferentes de instancias em outros grupos.
Não-supervisionado (?)
Também conhecidos como algoritmos de
aprendizado auto organizado.
Diferença entre instancias e (protótipos de)
grupos e dada por um valor: medidas de
distancia ou similaridade/dissimilaridade.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 70
71. Duas abordagens gerais:
Particionais:
▪ Criam grupos de forma iterativa.
▪ Reparticiona/reorganiza ate atingir um limiar (tempo, erro quadrático, etc).
▪ Ao terminar fornece pertinência final de instancias a grupos.
Hierárquicos:
▪ Bottom-up: cria pequenos grupos juntando as instancias, repetindo ate atingir um critério.
▪ Top-down: considera todas as instancias como pertencentes a um grande grupo,
subdivide recursivamente este grupo.
Podem criar dendogramas: agrupamentos hierárquicos com números
alternativos de grupos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 71
72. K-Médias (Particional)
Isodata
Lógica Nebulosa (Fuzzy Logic)
Fuzzy C-Médias
Self-Organizing Maps (SOMs)
Hierárquicos Aglomerativos
(BIRCH, CURE, CHAMELEON, ROCK...)
Hierárquicos Divisórios
(DIANA)
Baseados em Densidade
(DBSCAN,OPTICS, DENCLUE)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 72
75. Muitas outras técnicas podem ser usadas:
Pesquisa Operacional, Inteligência Artificial e
outras.
Outros modelos de redes neurais, Rough Sets,
Support Vector Machines, etc.
Técnicas de algoritmos genéticos, Particle Swarm
Optimization, etc.
Técnicas baseadas em sistemas imunes artificiais,
biologia/vida artificial, etc.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 75
76. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 76
77. Pode ser usada no inicio do processo de mineração...
Para ter uma ideia da distribuição dos dados ou de relações entre os
dados para formulação de hipóteses;
Para selecionar atributos ou regiões de dados;
Para ter uma ideia de que tipos de algoritmos podem trazer resultados
para estes dados;
Pode ser usada no final do processo de mineração...
Para ver as informações/regras/grupos/etc. obtidos: sumarização do
conhecimento;
Para ver distribuições contextualizadas (isto e, com conhecimento
adicional adquirido integrado);
Analise Explorativa/ Analise Confirmativa/Apresentação;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 77
78. Desafios:
Métodos e técnicas específicos.
Limitações de hardware (humano e maquina!)
Numero de dimensões (atributos) dos dados.
Numero de instancias para visualização.
“Empilhamento” e ordenação.
Vantagens:
Inerentemente exploratório.
Padrões detectados mesmo que não sejam explicáveis!
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 78
79. Ideia básica: transformações e projeções
usando arranjos em um numero menor de
dimensões.
Scatterplot Matrices: K atributos em grade KxK.
Prosection Views: Scatterplot Matrices com
mecanismos de seleção (drill-down).
Parallel Coordinates: muito bom para dados
mistos, requer exploração e rearranjos.
Visualização com Mapas de Kohonen (SOMs).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 79
80. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 80
81. Exemplo de R. Spence.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 81
82. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 82
83. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 83
84. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 84
85. Origem do vinho a partir de conteúdo físico-químico (13 atributos)
http://archive.ics.uci.edu/ml/datasets/Wine (nomes de atributos originais)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 85
86. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 86
87. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 87
88. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 88
89. Ideia básica: usamos duas dimensões para
mostrar ícones que representam outras
dimensões adicionais.
Interpretação deve ser feita com legendas!
Chernoff faces: atributos das faces (geometria,
olhos, excentricidade, curvaturas, etc.)
representam outras dimensões.
Stick figures: dimensões adicionais mapeadas para
ângulos e comprimentos de segmentos de retas.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 89
90. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 90
91. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 91
92. Uso de duas dimensões mais textura
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 92
93. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 93
94. Idéia básica: particionamento das dimensões em
subdimensiones.
Dimensional Stacking: Particionamento de N dimensões
em conjuntos de 2 dimensões.
Worlds-within-Worlds: Particionamento de N dimensões
em conjuntos de 3 dimensões.
Treemap: Preenche área de visualização alternando eixos X
e Y.
Cone Trees: Visualizacao interativa de dados hierárquicos.
InfoCube: Visualização hierárquica com 3D e transparência.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 94
95. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 95
96. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 96
97. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 97
98. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 98