SlideShare ist ein Scribd-Unternehmen logo
1 von 46
Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
Custo de armazenamento Poder de armazenamento Bancos de dados  Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004].  Introdução
Visão Geral
KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
Histórico Visão Geral
Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
Etapa para extrações das informações(KDD)
Limpeza dos dados:  Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas.  Integração dos dados:  Unificação de todas as fontes de dados em uma única e consolidada fonte.  Etapa para extrações das informações
Seleção dos dados:  selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
Etapas 1 – 4:  Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
Etapa para extrações das informações
Tarefas de Mineração
Tarefas de mineração
Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais:  p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
Técnicas para Mineração
Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada  Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
Ferramentas de Mineração de Dados
Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
Exemplo Clássico
O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo 	@attributeoutlook {sunny, overcast, rainy} 	@attributetemperaturereal%Atributo e tipo 	@attributehumidity real 	@attributewindy {TRUE, FALSE} 	@attribute play {yes, no} 	@data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão  <=75  >75
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny |   humidity <= 75: yes (2.0) |   humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy |   windy = TRUE: no (2.0) |   windy = FALSE: yes (3.0) NumberofLeaves  : 	5 Sizeofthetree : 	8
Algoritmo para minerar regras de associação. Weka + Apriori 	IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não  IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim	IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
Weka - Apriori Best rules found:  1.temperature=cool humidity=normal windy=FALSE     ==> play=yes 		conf:(1)  2. temperature=cool windy=FALSE play=yes   	  ==> humidity=normal     conf:(1)  3. outlook=overcast temperature=hot windy=FALSE  ==> play=yes     conf:(1)  4. temperature=cool windy=FALSE   	==> humidity=normal play=yes     conf:(1)  5. outlook=rainy temperature=mild windy=FALSE  ==> play=yes     conf:(1)
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
Áreas de Aplicação
Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros
Conclusão
Obrigado Perguntas?

Weitere ähnliche Inhalte

Was ist angesagt?

Aula - Sistemas de Informação Gerencial
Aula - Sistemas de Informação GerencialAula - Sistemas de Informação Gerencial
Aula - Sistemas de Informação GerencialAnderson Simão
 
Análise e interpratação dos dados
Análise e interpratação dos dadosAnálise e interpratação dos dados
Análise e interpratação dos dadosAdamo Cruz
 
Revisão Sistemática e Bases de Pesquisa
Revisão Sistemática e Bases de PesquisaRevisão Sistemática e Bases de Pesquisa
Revisão Sistemática e Bases de PesquisaEdson Oliveira Junior
 
Sistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SADSistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SADJosé Luiz Wollinger
 
Banco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoBanco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoLeinylson Fontinele
 
Aula 1. apresentação + frameworks
Aula 1. apresentação + frameworksAula 1. apresentação + frameworks
Aula 1. apresentação + frameworksandreluizlc
 
Aula 2 - Introdução à programação de computadores - parte1
Aula 2 - Introdução à programação de computadores - parte1Aula 2 - Introdução à programação de computadores - parte1
Aula 2 - Introdução à programação de computadores - parte1Pacc UAB
 
Aula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SIAula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SIDaniel Brandão
 
Tipos de sistemas de informação nas organizações
Tipos de sistemas de informação nas organizaçõesTipos de sistemas de informação nas organizações
Tipos de sistemas de informação nas organizaçõesPricila Yessayan
 
Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...
Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...
Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...Leinylson Fontinele
 
Fundamentos de sistemas de informação
Fundamentos de sistemas de informaçãoFundamentos de sistemas de informação
Fundamentos de sistemas de informaçãoLeonardo Melo Santos
 
Seminário monografia
Seminário monografiaSeminário monografia
Seminário monografiaJorge Elarrat
 
Sistemas Informacao 1
Sistemas Informacao 1Sistemas Informacao 1
Sistemas Informacao 1João Cortez
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
 
Tipos de revisão bibliográfica
Tipos de revisão bibliográficaTipos de revisão bibliográfica
Tipos de revisão bibliográficaRicardo Alexandre
 

Was ist angesagt? (20)

Aula - Sistemas de Informação Gerencial
Aula - Sistemas de Informação GerencialAula - Sistemas de Informação Gerencial
Aula - Sistemas de Informação Gerencial
 
Revisão Sistemática da Literatura
Revisão Sistemática da LiteraturaRevisão Sistemática da Literatura
Revisão Sistemática da Literatura
 
Análise e interpratação dos dados
Análise e interpratação dos dadosAnálise e interpratação dos dados
Análise e interpratação dos dados
 
Revisão Sistemática e Bases de Pesquisa
Revisão Sistemática e Bases de PesquisaRevisão Sistemática e Bases de Pesquisa
Revisão Sistemática e Bases de Pesquisa
 
Banco De Dados
Banco De DadosBanco De Dados
Banco De Dados
 
Sistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SADSistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SAD
 
Introdução a Bancos de Dados
Introdução a Bancos de DadosIntrodução a Bancos de Dados
Introdução a Bancos de Dados
 
Banco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoBanco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - Apresentação
 
Aula 1. apresentação + frameworks
Aula 1. apresentação + frameworksAula 1. apresentação + frameworks
Aula 1. apresentação + frameworks
 
Aula 2 - Introdução à programação de computadores - parte1
Aula 2 - Introdução à programação de computadores - parte1Aula 2 - Introdução à programação de computadores - parte1
Aula 2 - Introdução à programação de computadores - parte1
 
Aula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SIAula 3 Sistemas de Informação - Tipos de SI
Aula 3 Sistemas de Informação - Tipos de SI
 
Tipos de sistemas de informação nas organizações
Tipos de sistemas de informação nas organizaçõesTipos de sistemas de informação nas organizações
Tipos de sistemas de informação nas organizações
 
Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...
Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...
Estrutura de dados - Aula de Revisão (Linguagem C/C++, Função, Vetor, Matriz,...
 
Estudo de Usuários - Conceitos e Aplicações
Estudo de Usuários - Conceitos e AplicaçõesEstudo de Usuários - Conceitos e Aplicações
Estudo de Usuários - Conceitos e Aplicações
 
Fundamentos de sistemas de informação
Fundamentos de sistemas de informaçãoFundamentos de sistemas de informação
Fundamentos de sistemas de informação
 
Seminário monografia
Seminário monografiaSeminário monografia
Seminário monografia
 
Sistemas Informacao 1
Sistemas Informacao 1Sistemas Informacao 1
Sistemas Informacao 1
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Tipos de revisão bibliográfica
Tipos de revisão bibliográficaTipos de revisão bibliográfica
Tipos de revisão bibliográfica
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 

Ähnlich wie Data Mining: Visão Geral e Técnicas

Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESSelliando dias
 
Data warehousing
Data warehousingData warehousing
Data warehousingacistec
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business IntelligenceDouglas Scheibler
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDBBrunno Gomes
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 

Ähnlich wie Data Mining: Visão Geral e Técnicas (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data mining
Data miningData mining
Data mining
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data science
Data scienceData science
Data science
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESS
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Mineração
MineraçãoMineração
Mineração
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Bi microsoft & pentaho
Bi microsoft & pentahoBi microsoft & pentaho
Bi microsoft & pentaho
 
Mongodb workshop cinlug
Mongodb workshop cinlugMongodb workshop cinlug
Mongodb workshop cinlug
 
DDD > Experiências
DDD > ExperiênciasDDD > Experiências
DDD > Experiências
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDB
 
Big data
Big dataBig data
Big data
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 

Mehr von Eduardo de Lucena Falcão

Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaEduardo de Lucena Falcão
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSEduardo de Lucena Falcão
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Eduardo de Lucena Falcão
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchEduardo de Lucena Falcão
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídosEduardo de Lucena Falcão
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoEduardo de Lucena Falcão
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...Eduardo de Lucena Falcão
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...Eduardo de Lucena Falcão
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Eduardo de Lucena Falcão
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresEduardo de Lucena Falcão
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASEduardo de Lucena Falcão
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaEduardo de Lucena Falcão
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I Eduardo de Lucena Falcão
 

Mehr von Eduardo de Lucena Falcão (20)

Dais 2015
Dais 2015Dais 2015
Dais 2015
 
Wcga 2015
Wcga 2015Wcga 2015
Wcga 2015
 
Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataforma
 
Minicurso sobre X3D
Minicurso sobre X3DMinicurso sobre X3D
Minicurso sobre X3D
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNS
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
 
Introduction to Cloud Computing
Introduction to Cloud ComputingIntroduction to Cloud Computing
Introduction to Cloud Computing
 
Aula 4 - Introdução a aws
Aula 4 - Introdução a awsAula 4 - Introdução a aws
Aula 4 - Introdução a aws
 
Aula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computingAula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computing
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídos
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvido
 
Apresentação do Curso
Apresentação do CursoApresentação do Curso
Apresentação do Curso
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústria
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
 

Data Mining: Visão Geral e Técnicas

  • 1. Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
  • 2. Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
  • 3. Custo de armazenamento Poder de armazenamento Bancos de dados Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004]. Introdução
  • 5. KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
  • 6. Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
  • 8. Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
  • 9. Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
  • 10. Etapa para extrações das informações(KDD)
  • 11. Limpeza dos dados: Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas. Integração dos dados: Unificação de todas as fontes de dados em uma única e consolidada fonte. Etapa para extrações das informações
  • 12. Seleção dos dados: selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
  • 13. Etapas 1 – 4: Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
  • 14. Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
  • 15. Etapa para extrações das informações
  • 18. Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
  • 19. Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
  • 20. Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
  • 21. Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
  • 22. Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
  • 24. Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
  • 25.
  • 26. C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
  • 27. calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
  • 28. Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
  • 29. Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
  • 31. Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
  • 33. O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo @attributeoutlook {sunny, overcast, rainy} @attributetemperaturereal%Atributo e tipo @attributehumidity real @attributewindy {TRUE, FALSE} @attribute play {yes, no} @data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
  • 34. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão <=75 >75
  • 35. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) NumberofLeaves : 5 Sizeofthetree : 8
  • 36. Algoritmo para minerar regras de associação. Weka + Apriori IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
  • 37. Weka - Apriori Best rules found: 1.temperature=cool humidity=normal windy=FALSE ==> play=yes conf:(1) 2. temperature=cool windy=FALSE play=yes ==> humidity=normal conf:(1) 3. outlook=overcast temperature=hot windy=FALSE ==> play=yes conf:(1) 4. temperature=cool windy=FALSE ==> humidity=normal play=yes conf:(1) 5. outlook=rainy temperature=mild windy=FALSE ==> play=yes conf:(1)
  • 38. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
  • 39. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
  • 40. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
  • 41. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
  • 42. Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
  • 44. Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros