TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
Data Mining: Visão Geral e Técnicas
1. Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
2. Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
3. Custo de armazenamento Poder de armazenamento Bancos de dados Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004]. Introdução
5. KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
6. Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
9. Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
11. Limpeza dos dados: Dados incompletos ou inconsistentes Dados completos e consistentes Corrigir ou atenuar tais problemas. Integração dos dados: Unificação de todas as fontes de dados em uma única e consolidada fonte. Etapa para extrações das informações
12. Seleção dos dados: selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
13. Etapas 1 – 4: Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
14. Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
18. Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
19. Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
20. Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
21. Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
22. Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
24. Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
25.
26. C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
27. calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
28. Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
29. Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
31. Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
33. O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo @attributeoutlook {sunny, overcast, rainy} @attributetemperaturereal%Atributo e tipo @attributehumidity real @attributewindy {TRUE, FALSE} @attribute play {yes, no} @data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
35. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) NumberofLeaves : 5 Sizeofthetree : 8
36. Algoritmo para minerar regras de associação. Weka + Apriori IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
38. Sequência: ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
39. Sequência: ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
40. Sequência: ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
41. Sequência: ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1