SlideShare ist ein Scribd-Unternehmen logo
1 von 14
MINERAÇÃO DE DADOS
COM
ÁRVORES DE DECISÃO
Ângelo Lopes F.
TÓPICOS
• Introdução
• O que é arvore de decisão?
• Breve Historia
• Objetivo de arvore de decisão em DM
• A Heurística & Entropia ID3
• O algoritmo
• Como funciona a arvore na pratica.
• Conclusão
INTRODUÇÃO
As árvores de decisão tornaram-se uma das abordagens
mais poderosas e populares na descoberta do
conhecimento e mineração de dados, a ciência e
tecnologia de explorar corpos grandes e complexas de
dados, a fim de descobrir padrões úteis. A área é de
grande importância, pois permite a modelagem e
conhecimento extracção da abundância de dados
disponíveis.
Um dado se transforma em informação quando ganha um significado para
seu utilizador, caso contrário, continua sendo simplesmente um dado.
O QUE É ARVORE DE DECISÃO
• É um método adequado quando o objectivo do Data Mining
é classificação de dados ou predição de saídas.
• Uma árvore de decisão é formada por um conjunto de nós
de decisão, perguntas, que permitem a classificação de
cada caso. Ela consiste numa hierarquia de testes a
algumas das variáveis envolvidas no problema de decisão.
A árvore pode ser lida a partir do teste encontrado na parte
superior da mesma, normalmente chamado nó raiz da
árvore.
BREVE HISTORIA
Foi um professor da Universidade de Sydney, Austrália,
Ross Quinlan, que desenvolveu a tecnologia que permitiu o
aparecimento das Árvores de Decisão. Muitas pessoas na
indústria de Data Mining consideram Quinlan como o "pai
das Árvores de Decisão". A contribuição de Quinlan foi a
elaboração de um novo algoritmo chamado ID3,
desenvolvido em 1983.
EXEMPLO/OBJECTIVO ARVORE DE
DECISÃO EM DM
US CAMPUS DA
PRAIA
• Uma Árvore de Decisão tem a função de particionar recursivamente
um conjunto de treinamento, até que cada subconjunto obtido deste
particionamento contenha casos de uma única classe, obtendo-se
assim um modelo que servirá para futuras classificações (QUINLAN,
1993).
• Sintetizando, o objectivo é gerar os valores categóricos de um
atributo
chamado "classe".US CAMPUS DA
PRAIA
EXEMPLO/OBJECTIVO ARVORE DE
DECISÃO EM DM
A HEURÍSTICA / ALGORITMO ID3
• O algoritmo ID3 usa o conceito de entropia para calcular
qual o melhor atributo será utilizado para dividir os dados
em subgrupos. Após a construção de uma árvores de
decisão é importante avaliá-la. Esta avaliação é realizada
através da utilização de dados que não tenham sido usados
no treinamento. Esta estratégia permite estimar como a
árvore generaliza os dados e se adapta a novas situações,
podendo, também, se estimar a proporção de erros e
acertos ocorridos na construção da árvore .
US CAMPUS DA
PRAIA
A HEURÍSTICA / ALGORITMO ID3
O algoritmo ID3 segue os seguintes passos:
• Começar com todos os exemplos do treinamento
• Escolher o atributo que melhor divide os exemplos, ou seja agrupar os
exemplos da mesma classe ou exemplos semelhantes
• Para o atributo escolhido, criar um nó filho para cada valor possível do
atributo
• Transportar os exemplos para cada filho tendo em conta o valor do filho
• Repetir o procedimento para cada filho não "puro". Um filho é puro quando
cada atributo X tem o mesmo valor para todos os exemplos.
Na etapa 2
• O algoritmo, para achar o melhor atributo é necessário encontrar a entropia
para cada atributo possível naquele nó.
• Para isto usamos a formula da entropia:
IF Idade =< 30 AND Renda = Baixa THEN
Classe = Não
IF Idade =< 30 AND Renda = Média THEN
Classe = Sim
IF Idade =< 30 AND Renda = Média-Alta
THEN Classe = Sim
IF Idade =< 30 AND Renda = Alta THEN
Classe = Sim
IF Idade 31...50 THEN Classe = Sim
IF Idade 51...60 THEN Classe = Sim
IF Idade > 60 THEN Classe = Não
O ALGORITMO DE AD
• Com base na árvore de decisão
apresentada na Figura acima pode-se
exemplificar a derivação de regras.
Dois exemplos de regras obtidas a
partir desta árvore são mostrados a
seguir.
• SE montante = médio e salário =
baixo
ENTÃO classe = não.
• SE montante = médio e salário = alto
ENTÃO classe = sim.
COMO FUNCIONA NA PRATICA
US CAMPUS DA PRAIA
US CAMPUS DA PRAIA
COMO FUNCIONA NA PRATICA
CONCLUSÃO
• No breve espaço deste trabalho, minha principal missão foi introduzir
um pouco do pensamento que está por trás da técnica de Data
Mining (árvore de decisão).
• A árvore de decisão é muito útil como uma técnica exploratória.
• Ao construir uma árvore de decisão, é possível fazermos uma análise
para determinar a escolha mais favorável, levando em consideração
os custos, as probabilidades e as conseqüências associados.
US CAMPUS DA
PRAIA
AGRADECIMENTO
• A Professora pela compreensão.
• Aos Colegas da turma pelo … Obrigado!!!
•Ate aqui nos ajudou o Senhor…(Ezequiel)
US CAMPUS DA PRAIA

Weitere ähnliche Inhalte

Was ist angesagt?

Tipos de aprendizagem automática
Tipos de aprendizagem automáticaTipos de aprendizagem automática
Tipos de aprendizagem automáticaLuís Nunes
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaLuís Nunes
 
Ordenação de Dados por Distribuição de Chaves
Ordenação de Dados por Distribuição de ChavesOrdenação de Dados por Distribuição de Chaves
Ordenação de Dados por Distribuição de ChavesMauricio Volkweis Astiazara
 
Aprendizagem Supervisionada II
Aprendizagem Supervisionada IIAprendizagem Supervisionada II
Aprendizagem Supervisionada IILuís Nunes
 
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive BayesAhirton Lopes
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoVitor Vieira Vasconcelos
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisFabrício Lopes Sanchez
 
Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02thomasdacosta
 

Was ist angesagt? (10)

Artigo tecnico RNA Iris
Artigo tecnico RNA IrisArtigo tecnico RNA Iris
Artigo tecnico RNA Iris
 
Tipos de aprendizagem automática
Tipos de aprendizagem automáticaTipos de aprendizagem automática
Tipos de aprendizagem automática
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
 
Ordenação de Dados por Distribuição de Chaves
Ordenação de Dados por Distribuição de ChavesOrdenação de Dados por Distribuição de Chaves
Ordenação de Dados por Distribuição de Chaves
 
Aprendizagem Supervisionada II
Aprendizagem Supervisionada IIAprendizagem Supervisionada II
Aprendizagem Supervisionada II
 
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
[José Ahirton Lopes] Treinamento - Árvores de Decisão, SVM e Naive Bayes
 
Análise de Agrupamentos e Regionalização
Análise de Agrupamentos e RegionalizaçãoAnálise de Agrupamentos e Regionalização
Análise de Agrupamentos e Regionalização
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentais
 
Introdução à Estrutura de Dados
Introdução à Estrutura de DadosIntrodução à Estrutura de Dados
Introdução à Estrutura de Dados
 
Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02
 

Andere mochten auch

Cap5 - Parte 3 - Intervalo Da Média
Cap5 - Parte 3 - Intervalo Da MédiaCap5 - Parte 3 - Intervalo Da Média
Cap5 - Parte 3 - Intervalo Da MédiaRegis Andrade
 
Função de densidade normal bom
Função de densidade normal   bomFunção de densidade normal   bom
Função de densidade normal bomjon024
 
Distribuicao normal2.0
Distribuicao normal2.0Distribuicao normal2.0
Distribuicao normal2.0Ronne Seles
 
Tema 7 a_dicionario_de_dados_arvore_e_ta
Tema 7 a_dicionario_de_dados_arvore_e_taTema 7 a_dicionario_de_dados_arvore_e_ta
Tema 7 a_dicionario_de_dados_arvore_e_taPedro A. Uamusse
 
Cap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoCap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoRegis Andrade
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetriaEnio José Bolognini
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02Carlos Barbieri
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
5 intervalo de confiança
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiançaFernando Lucas
 
Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - ronaldo ramos
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMatheus Pereira
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de SaídaSimulação
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreVivaldo Jose Breternitz
 

Andere mochten auch (20)

Árvores de Decisão
Árvores de Decisão Árvores de Decisão
Árvores de Decisão
 
Masters Thesis Defense Presentation
Masters Thesis Defense PresentationMasters Thesis Defense Presentation
Masters Thesis Defense Presentation
 
Cap5 - Parte 3 - Intervalo Da Média
Cap5 - Parte 3 - Intervalo Da MédiaCap5 - Parte 3 - Intervalo Da Média
Cap5 - Parte 3 - Intervalo Da Média
 
Função de densidade normal bom
Função de densidade normal   bomFunção de densidade normal   bom
Função de densidade normal bom
 
Distribuicao normal2.0
Distribuicao normal2.0Distribuicao normal2.0
Distribuicao normal2.0
 
Tema 7 a_dicionario_de_dados_arvore_e_ta
Tema 7 a_dicionario_de_dados_arvore_e_taTema 7 a_dicionario_de_dados_arvore_e_ta
Tema 7 a_dicionario_de_dados_arvore_e_ta
 
Cap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoCap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da Proporção
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetria
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
Bi2 modelagem e qualidade-carlos barbieri-figuras corrigidas v02
 
Confianca Noemi
Confianca NoemiConfianca Noemi
Confianca Noemi
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
5 intervalo de confiança
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiança
 
Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 -
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
Aula 11 estimação
Aula 11   estimaçãoAula 11   estimação
Aula 11 estimação
 
Tópico 2 Intervalo de Confiança
Tópico 2   Intervalo de ConfiançaTópico 2   Intervalo de Confiança
Tópico 2 Intervalo de Confiança
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e Git
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de Saída
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 

Ähnlich wie Árvores de decisão em mineração de dados

Analytics - Data Science - Arvores de decisao
Analytics - Data Science - Arvores de decisaoAnalytics - Data Science - Arvores de decisao
Analytics - Data Science - Arvores de decisaoVitor Nunes
 
Árvore de Decisão | IA
Árvore de Decisão | IA Árvore de Decisão | IA
Árvore de Decisão | IA Cloves da Rocha
 
Introdução a Árvore de Dados Adaptativa (WTA 2011)
Introdução a Árvore de Dados Adaptativa (WTA 2011)Introdução a Árvore de Dados Adaptativa (WTA 2011)
Introdução a Árvore de Dados Adaptativa (WTA 2011)Fabrício Catae
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosCássio Alan Garcia
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaWalter Hugo Lopez Pinaya
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Classificação de imagens não supervisionada - KMEANS e ISODATA
Classificação de imagens não supervisionada - KMEANS e ISODATAClassificação de imagens não supervisionada - KMEANS e ISODATA
Classificação de imagens não supervisionada - KMEANS e ISODATAAndré Andrade
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
Aprendizado de máquina
Aprendizado de máquinaAprendizado de máquina
Aprendizado de máquinaparasite
 
Machine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NETMachine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NETRenato Haddad
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Processo decisório e resoluçao de problema (6)
Processo decisório e resoluçao de problema (6)Processo decisório e resoluçao de problema (6)
Processo decisório e resoluçao de problema (6)Alexandre Pereira
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicasMarcos Castro
 
Apresentacao -aula_14
Apresentacao  -aula_14Apresentacao  -aula_14
Apresentacao -aula_14Mirla Braga
 

Ähnlich wie Árvores de decisão em mineração de dados (20)

Data mining
Data miningData mining
Data mining
 
Analytics - Data Science - Arvores de decisao
Analytics - Data Science - Arvores de decisaoAnalytics - Data Science - Arvores de decisao
Analytics - Data Science - Arvores de decisao
 
Árvore de Decisão | IA
Árvore de Decisão | IA Árvore de Decisão | IA
Árvore de Decisão | IA
 
Introdução a Árvore de Dados Adaptativa (WTA 2011)
Introdução a Árvore de Dados Adaptativa (WTA 2011)Introdução a Árvore de Dados Adaptativa (WTA 2011)
Introdução a Árvore de Dados Adaptativa (WTA 2011)
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociência
 
Mineração
MineraçãoMineração
Mineração
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Apresentação meta-aprendizado
Apresentação meta-aprendizadoApresentação meta-aprendizado
Apresentação meta-aprendizado
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Classificação de imagens não supervisionada - KMEANS e ISODATA
Classificação de imagens não supervisionada - KMEANS e ISODATAClassificação de imagens não supervisionada - KMEANS e ISODATA
Classificação de imagens não supervisionada - KMEANS e ISODATA
 
Tdc mod 3_4_
Tdc mod 3_4_Tdc mod 3_4_
Tdc mod 3_4_
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
Aprendizado de máquina
Aprendizado de máquinaAprendizado de máquina
Aprendizado de máquina
 
Machine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NETMachine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NET
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Big data
Big dataBig data
Big data
 
Processo decisório e resoluçao de problema (6)
Processo decisório e resoluçao de problema (6)Processo decisório e resoluçao de problema (6)
Processo decisório e resoluçao de problema (6)
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
Apresentacao -aula_14
Apresentacao  -aula_14Apresentacao  -aula_14
Apresentacao -aula_14
 

Kürzlich hochgeladen

LEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurançaLEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurançaGuilhermeLucio9
 
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdfLivro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdfSamuel Ramos
 
Tecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade AnhangueraTecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade AnhangueraGuilhermeLucio9
 
Treinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção IndividualTreinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção Individualpablocastilho3
 
A Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboralA Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboralFranciscaArrudadaSil
 
A EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.ppt
A EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.pptA EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.ppt
A EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.pptssuserb964fe
 
Eletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante TamandaréEletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante TamandaréGuilhermeLucio9
 

Kürzlich hochgeladen (7)

LEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurançaLEAN SIX SIGMA - Garantia da qualidade e segurança
LEAN SIX SIGMA - Garantia da qualidade e segurança
 
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdfLivro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
Livro Vibrações Mecânicas - Rao Singiresu - 4ª Ed.pdf
 
Tecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade AnhangueraTecnólogo em Mecatrônica - Universidade Anhanguera
Tecnólogo em Mecatrônica - Universidade Anhanguera
 
Treinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção IndividualTreinamento de NR06 Equipamento de Proteção Individual
Treinamento de NR06 Equipamento de Proteção Individual
 
A Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboralA Importância dos EPI's no trabalho e no dia a dia laboral
A Importância dos EPI's no trabalho e no dia a dia laboral
 
A EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.ppt
A EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.pptA EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.ppt
A EXTENSÃO RURAL NO BRASIL Sociologia e Extensão 1 2014.ppt
 
Eletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante TamandaréEletricista instalador - Senai Almirante Tamandaré
Eletricista instalador - Senai Almirante Tamandaré
 

Árvores de decisão em mineração de dados

  • 1. MINERAÇÃO DE DADOS COM ÁRVORES DE DECISÃO Ângelo Lopes F.
  • 2. TÓPICOS • Introdução • O que é arvore de decisão? • Breve Historia • Objetivo de arvore de decisão em DM • A Heurística & Entropia ID3 • O algoritmo • Como funciona a arvore na pratica. • Conclusão
  • 3. INTRODUÇÃO As árvores de decisão tornaram-se uma das abordagens mais poderosas e populares na descoberta do conhecimento e mineração de dados, a ciência e tecnologia de explorar corpos grandes e complexas de dados, a fim de descobrir padrões úteis. A área é de grande importância, pois permite a modelagem e conhecimento extracção da abundância de dados disponíveis. Um dado se transforma em informação quando ganha um significado para seu utilizador, caso contrário, continua sendo simplesmente um dado.
  • 4. O QUE É ARVORE DE DECISÃO • É um método adequado quando o objectivo do Data Mining é classificação de dados ou predição de saídas. • Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Ela consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na parte superior da mesma, normalmente chamado nó raiz da árvore.
  • 5. BREVE HISTORIA Foi um professor da Universidade de Sydney, Austrália, Ross Quinlan, que desenvolveu a tecnologia que permitiu o aparecimento das Árvores de Decisão. Muitas pessoas na indústria de Data Mining consideram Quinlan como o "pai das Árvores de Decisão". A contribuição de Quinlan foi a elaboração de um novo algoritmo chamado ID3, desenvolvido em 1983.
  • 6. EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM US CAMPUS DA PRAIA
  • 7. • Uma Árvore de Decisão tem a função de particionar recursivamente um conjunto de treinamento, até que cada subconjunto obtido deste particionamento contenha casos de uma única classe, obtendo-se assim um modelo que servirá para futuras classificações (QUINLAN, 1993). • Sintetizando, o objectivo é gerar os valores categóricos de um atributo chamado "classe".US CAMPUS DA PRAIA EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM
  • 8. A HEURÍSTICA / ALGORITMO ID3 • O algoritmo ID3 usa o conceito de entropia para calcular qual o melhor atributo será utilizado para dividir os dados em subgrupos. Após a construção de uma árvores de decisão é importante avaliá-la. Esta avaliação é realizada através da utilização de dados que não tenham sido usados no treinamento. Esta estratégia permite estimar como a árvore generaliza os dados e se adapta a novas situações, podendo, também, se estimar a proporção de erros e acertos ocorridos na construção da árvore . US CAMPUS DA PRAIA
  • 9. A HEURÍSTICA / ALGORITMO ID3 O algoritmo ID3 segue os seguintes passos: • Começar com todos os exemplos do treinamento • Escolher o atributo que melhor divide os exemplos, ou seja agrupar os exemplos da mesma classe ou exemplos semelhantes • Para o atributo escolhido, criar um nó filho para cada valor possível do atributo • Transportar os exemplos para cada filho tendo em conta o valor do filho • Repetir o procedimento para cada filho não "puro". Um filho é puro quando cada atributo X tem o mesmo valor para todos os exemplos. Na etapa 2 • O algoritmo, para achar o melhor atributo é necessário encontrar a entropia para cada atributo possível naquele nó. • Para isto usamos a formula da entropia:
  • 10. IF Idade =< 30 AND Renda = Baixa THEN Classe = Não IF Idade =< 30 AND Renda = Média THEN Classe = Sim IF Idade =< 30 AND Renda = Média-Alta THEN Classe = Sim IF Idade =< 30 AND Renda = Alta THEN Classe = Sim IF Idade 31...50 THEN Classe = Sim IF Idade 51...60 THEN Classe = Sim IF Idade > 60 THEN Classe = Não O ALGORITMO DE AD • Com base na árvore de decisão apresentada na Figura acima pode-se exemplificar a derivação de regras. Dois exemplos de regras obtidas a partir desta árvore são mostrados a seguir. • SE montante = médio e salário = baixo ENTÃO classe = não. • SE montante = médio e salário = alto ENTÃO classe = sim.
  • 11. COMO FUNCIONA NA PRATICA US CAMPUS DA PRAIA
  • 12. US CAMPUS DA PRAIA COMO FUNCIONA NA PRATICA
  • 13. CONCLUSÃO • No breve espaço deste trabalho, minha principal missão foi introduzir um pouco do pensamento que está por trás da técnica de Data Mining (árvore de decisão). • A árvore de decisão é muito útil como uma técnica exploratória. • Ao construir uma árvore de decisão, é possível fazermos uma análise para determinar a escolha mais favorável, levando em consideração os custos, as probabilidades e as conseqüências associados. US CAMPUS DA PRAIA
  • 14. AGRADECIMENTO • A Professora pela compreensão. • Aos Colegas da turma pelo … Obrigado!!! •Ate aqui nos ajudou o Senhor…(Ezequiel) US CAMPUS DA PRAIA

Hinweis der Redaktion

  1. Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Uma árvore de decisão consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na parte superior da mesma, normalmente chamado nó raiz da árvore.
  2. É conveniente usar árvore de decisão quando o objetivo for categorizar dados de arquivos. Também é uma boa escolha quando o objetivo é gerar regras que podem ser facilmente entendidas, explicadas e traduzidas para linguagem natural.
  3. A heurística ID3 A física usa o termo entropia para descrever a quantidade de desordem associada a um sistema. Na teoria da informação, este termo tem uma significado semelhante, -- ele mede o grau de desordem de um conjunto de dados. A heurística ID3 usa este conceito para encontrar o próximo melhor atributo de um dado para ser utilizado como nó de uma árvore de decisão. Logo , a idéia por trás do algoritmo ID3 é achar um atributo que reduza em maior valor a entropia de um conjunto de dados, assim reduzindo a aleatoriedade - dificuldade de previsão - da variável que define classes.
  4. Neste exemplo são trabalhados dados que relatam as condições propícias de uma pessoa receber ou não um empréstimo. Tem-se então duas possíveis classes: sim (receber empréstimo) e não (não receber empréstimo). Os atributos são: montante, salário e conta. O atributo montante pode assumir os valores de médio, alto ou baixo. O atributo salário pode ser baixo ou alto e o atributo conta pode ser "sim" ou "não". Alguns dados são exemplos positivos de uma classe "sim", ou seja, os requisitos exigidos a uma pessoa, por um banco, são satisfatórios à concessão de um empréstimo, e outros são negativos, onde os requisitos exigidos não são satisfatórios à concessão de um empréstimo. Depois de organizar toda essa massa de dados, chegamos a seguinte tabela: A partir de uma árvore de decisão é possível derivar regras.
  5. A física usa o termo entropia para descrever a quantidade de desordem associada a um sistema. , a idéia por trás do algoritmo ID3 é achar um atributo que reduza em maior valor a entropia de um conjunto de dados, assim reduzindo a aleatoriedade - dificuldade de previsão - da variável que define classes. Seguindo esta heurística, você estará essencialmente encontrando o melhor atributo para classificar os registros a fim de que os mesmos tenham utilidade máxima.
  6. Onde calculamos a proporção do número de exemplos positivos e o mesmo para o número de exemplos negativos para aquele atributo em questão multiplicado pelo logaritmo destas proporções. Um exemplo prático: Considere S uma coleção de 14 exemplos, incluindo 9 positivos ("will buy") e 5 negativos ("won't buy"). Logo a entropia para esta coleção S seria : Notação: [+9,-5]  O próximo passo na heurística ID3 é calcular o ganho de informação para cada atributo que pode ser selecionado como nó na árvore. Essencialmente é apenas calcular a entropia de todo o conjunto de dados e diminuir este da entropia do sub-conjunto particionado para tal atributo. Este processo é feito para cada atributo do conjunto de dados, e o atributo com o maior ganhor de informação será o selecionado para o próximo nó da árvore.
  7. Transformando uma árvore de decisão em regras de classificação: Uma árvore de decisão pode ser facilmente transformada num conjunto de regras de classificação. As regras são do tipo: IF L1 AND L2 . . . AND Ln THEN Classe = Valor, onde Li são expressões do tipo Atributo = Valor. Para cada caminho, da raiz até uma folha, tem-se uma regra de classificação. Cada par (atributo,valor) neste caminho dá origem a um Li. Por exemplo, a árvore de decisão do exemplo acima corresponde ao seguinte conjunto de regras de classificação: Idéia geral de como criar uma árvore de decisão. A idéia geral é a que está por trás do algoritmo ID3, criado por Ross Quinlan, da Universidade de Sydney em 1986 e de seus sucessores (um deles, o algoritmo C4.5 também proposto por Ross Quinlan em 1993).