SlideShare ist ein Scribd-Unternehmen logo
1 von 46
UNIVERSIDADE DE PERNAMBUCO




Árvores de Decisão
UNIVERSIDADE DE PERNAMBUCO



Roteiro da Apresentação:
 Conceito de Árvores de Decisão;
  Representação de Árvores de Decisão;
  Características Básicas para o Uso de Árvores de
 Decisão;
  Cálculo da Entropia;
  Ganho de Informação;
  Razão de Ganho;
  Critério de Parada;
  Sobre – Ajustamento (Overfiting);
  Principais Algoritmos Usados Atualmente;
  Apresentação da Aplicação;
  Agradecimentos.
UNIVERSIDADE DE PERNAMBUCO




         Árvores de Decisão
  Árvores de decisão são ferramentas que podem ser utilizadas
para dar ao agente a capacidade de aprender, bem como para
tomar decisões.

  Os elementos do agente são usados também, para aumentar a
capacidade do agente de agir no futuro;

   O aprendizado ocorre na medida em que o agente observa suas
interações com o mundo e seu processo interno de tomada de
decisões.
UNIVERSIDADE DE PERNAMBUCO




   Aprendizado de árvores de decisão é um exemplo de
aprendizado indutivo;

  Árvores de decisão também podem ser representadas
como um conjunto de regras SE- ENTÃO (if-then);

   As árvores de decisão tomam como entrada uma
situação descrita por um conjunto de atributos e retorna
uma decisão.
UNIVERSIDADE DE PERNAMBUCO



  Características Básicas para o Uso
       de Árvores de Decisão
  As instâncias (exemplos) são representadas por
pares atributo-valor;
  A função objetivo assume apenas valores
discretos;
  O conjunto de dados do treinamento pode
conter erros ou valores de atributos faltando.
UNIVERSIDADE DE PERNAMBUCO




         Para         facilitar   o
         entendimento dos conceitos
         que serão vistos durante a
         apresentação, usaremos o
         exemplo do Jogo de Tênis
         para ilustrar.
UNIVERSIDADE DE PERNAMBUCO




Árvore de Decisão para o Exemplo do Jogo de Tênis

Árvore criada para auxiliar na decisão de jogar ou não
                     jogar tênis.

                    Conjunto de
                     Atributos
                      Tempo
                    Temperatura
                     Umidade
                      Vento
UNIVERSIDADE DE PERNAMBUCO



 Base de Treinamento do Jogo de Tênis:
 Tempo    Temperatura   Umidade   Vento   Joga
  Sol        Alta        Media     Não    Não
  Sol        Alta        Alta      Sim    Não
Nublado      Alta        Alta      Não    Sim
 Chuva       Baixa       Alta      Não    Sim
 Chuva       Baixa       Media     Não    Sim
 Chuva       Baixa       Baixa     Sim    Não
Nublado      Baixa       Baixa     Sim    Sim
  Sol        Media       Alta      Não    Não
  Sol        Baixa       Baixa     Não    Sim
 Chuva       Media       Media     Não    Sim
  Sol        Media       Baixa     Sim    Sim
Nublado      Media       Alta      Sim    Sim
Nublado      Alta        Baixa     Não    Sim
 Chuva       Baixa       Alta      Sim    Não
UNIVERSIDADE DE PERNAMBUCO




             Representação
  Cada nó de decisão contem um teste num atributo;
   Cada ramo descendente corresponde a um possível
valor deste atributo;
  Cada nó folha está associado a uma classe;
   Cada percurso na árvore (do nó raiz a um nó folha)
corresponde a uma regra de classificação.
UNIVERSIDADE DE PERNAMBUCO




Figura 1: Representação de uma árvore de decisão.
UNIVERSIDADE DE PERNAMBUCO



Exemplos de Aplicações para
    Árvores de Decisão
  Diagnóstico Médico;
  Diagnóstico de Equipamentos;
  Análise de Crédito;
  Análise de Compra e Venda.
UNIVERSIDADE DE PERNAMBUCO




              Entropia
     A Entropia é uma medida que
caracteriza a aleatoriedade (impureza) de
uma coleção arbitrária de exemplos.
UNIVERSIDADE DE PERNAMBUCO




Dado uma coleção S de exemplos + e – de um
conceito alvo, a entropia de S relativa a esta
classificação booleana é:

Entropia(S) = - p log2 p - p log2 p
  p é a proporção de exemplos positivos em S
  p é a proporção de exemplos negativos em S
UNIVERSIDADE DE PERNAMBUCO



      A função Entropia relativa a uma classificação booleana,
como a proporção, p de exemplos positivos varia entre 0 e 1.




            Figura 2: Representação gráfica da função Entropia.
UNIVERSIDADE DE PERNAMBUCO



              Exemplo do Jogo do Tênis

Uma coleção S com 14 exemplos sendo 9 positivos
(sim) e 5 negativos (não) [9+, 5-] o valor da entropia é:
UNIVERSIDADE DE PERNAMBUCO




      Ganho de Informação
   A construção de uma árvore de decisão é guiada pelo
objetivo de diminuir a entropia, ou seja, a aleatoriedade -
dificuldade de previsão - da variável que define as
classes.

   Ganho de Informação é a redução esperada na
entropia causada pela partição dos exemplos de acordo
com o teste no atributo A.
UNIVERSIDADE DE PERNAMBUCO




                 A

     Sim                    Não

Figura 3: Exemplo de um teste no atributo A.
UNIVERSIDADE DE PERNAMBUCO



 Base de Treinamento do Jogo de Tênis:
 Tempo    Temperatura   Umidade   Vento   Joga
  Sol        Alta        Media     Não    Não
  Sol        Alta        Alta      Sim    Não
Nublado      Alta        Alta      Não    Sim
 Chuva       Baixa       Alta      Não    Sim
 Chuva       Baixa       Media     Não    Sim
 Chuva       Baixa       Baixa     Sim    Não
Nublado      Baixa       Baixa     Sim    Sim
  Sol        Media       Alta      Não    Não
  Sol        Baixa       Baixa     Não    Sim
 Chuva       Media       Media     Não    Sim
  Sol        Media       Baixa     Sim    Sim
Nublado      Media       Alta      Sim    Sim
Nublado      Alta        Baixa     Não    Sim
 Chuva       Baixa       Alta      Sim    Não
UNIVERSIDADE DE PERNAMBUCO



               Exemplo do Jogo de Tênis

Calculando o valor do Ganho de Informação para o atributo
                      Tempo = Sol

  Tempo     Temperatura    Umidade     Vento      Joga
   Sol         Alta         Media       Não       Não
   Sol         Alta         Alta        Sim       Não
   Sol        Media         Alta        Não       Não
   Sol        Baixa         Baixa       Não       Sim
   Sol        Media         Baixa       Sim       Sim
UNIVERSIDADE DE PERNAMBUCO



               Exemplo do Jogo de Tênis

Calculando o valor do Ganho de Informação para o atributo
                      Tempo = Sol

p (sim | tempo = sol) = 2/5
p (não | tempo = sol) = 3/5
Entropia ( joga | tempo = sol) =
= - (2/5) * log2 (2/5) – (3/5) * log2 (3/5) = 0.971
UNIVERSIDADE DE PERNAMBUCO



 Base de Treinamento do Jogo de Tênis:
 Tempo    Temperatura   Umidade   Vento   Joga
  Sol        Alta        Media     Não    Não
  Sol        Alta        Alta      Sim    Não
Nublado      Alta        Alta      Não    Sim
 Chuva       Baixa       Alta      Não    Sim
 Chuva       Baixa       Media     Não    Sim
 Chuva       Baixa       Baixa     Sim    Não
Nublado      Baixa       Baixa     Sim    Sim
  Sol        Media       Alta      Não    Não
  Sol        Baixa       Baixa     Não    Sim
 Chuva       Media       Media     Não    Sim
  Sol        Media       Baixa     Sim    Sim
Nublado      Media       Alta      Sim    Sim
Nublado      Alta        Baixa     Não    Sim
 Chuva       Baixa       Alta      Sim    Não
UNIVERSIDADE DE PERNAMBUCO



               Exemplo do Jogo de Tênis

Calculando o valor do Ganho de Informação para o atributo
                    Tempo = Nublado

  Tempo     Temperatura    Umidade      Vento     Joga
 Nublado        Alta          Alta       Não       Sim
 Nublado       Baixa         Baixa       Sim       Sim
 Nublado       Media          Alta       Sim       Sim
 Nublado        Alta         Baixa       Não       Sim
UNIVERSIDADE DE PERNAMBUCO



               Exemplo do Jogo de Tênis

Calculando o valor do Ganho de Informação para o atributo
                   Tempo = Nublado:

p (sim | tempo = Nublado) = 1
p (não | tempo = Nublado) = 0
Entropia ( joga | tempo = nublado) =
= - (1/5) * log2 (1/5) – 0 * log2 (0) = 0
UNIVERSIDADE DE PERNAMBUCO



 Base de Treinamento do Jogo de Tênis:
 Tempo    Temperatura   Umidade   Vento   Joga
  Sol        Alta        Media     Não    Não
  Sol        Alta        Alta      Sim    Não
Nublado      Alta        Alta      Não    Sim
 Chuva       Baixa       Alta      Não    Sim
 Chuva       Baixa       Media     Não    Sim
 Chuva       Baixa       Baixa     Sim    Não
Nublado      Baixa       Baixa     Sim    Sim
  Sol        Media       Alta      Não    Não
  Sol        Baixa       Baixa     Não    Sim
 Chuva       Media       Media     Não    Sim
  Sol        Media       Baixa     Sim    Sim
Nublado      Media       Alta      Sim    Sim
Nublado      Alta        Baixa     Não    Sim
 Chuva       Baixa       Alta      Sim    Não
UNIVERSIDADE DE PERNAMBUCO



               Exemplo do Jogo de Tênis

Calculando o valor do Ganho de Informação para o atributo
                    Tempo = Chuva

  Tempo     Temperatura    Umidade     Vento     Joga
  Chuva       Baixa         Alta        Não      Sim
  Chuva       Baixa         Media       Não      Sim
  Chuva       Baixa         Baixa       Sim      Não
  Chuva       Media         Media       Não      Sim
  Chuva       Baixa         Alta        Sim      Não
UNIVERSIDADE DE PERNAMBUCO



               Exemplo do Jogo de Tênis

Calculando o valor do Ganho de Informação para o atributo
                    Tempo = Chuva:

p (sim | tempo = Chuva) = 3/5
p (não | tempo = Chuva) = 2/5
Entropia ( joga | tempo = chuva) =
= - (3/5) * log2 (3/5) – (2/5) * log2 (2/5) = 0,971
UNIVERSIDADE DE PERNAMBUCO



                Exemplo do Jogo de Tênis
         Ganho de Informação obtida neste atributo:

Informação (tempo) =
= 5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
Ganho (S, Tempo) = Entropia (joga) – Informação (tempo)
Ganho (S, Tempo) = 0.940 – 0.693 = 0.247
UNIVERSIDADE DE PERNAMBUCO



                Exemplo do Jogo do Tênis

Calculando o valor de Ganho de Informação para todos os outros
atributos temos:

   Ganho (S, Umidade) = 0,057
   Ganho (S, Vento) = 0,048
   Ganho (S, Temperatura) = 0,029
   Ganho (S, Tempo) = 0,247
UNIVERSIDADE DE PERNAMBUCO



    Implicações do Cálculo de
      Ganho de Informação
  O critério de ganho seleciona como atributo-teste
aquele que maximiza o ganho de informação;

   O grande problema ao se utilizar o ganho de
informação é que ele dá preferência a atributos com
muitos valores possíveis;
UNIVERSIDADE DE PERNAMBUCO




    Um exemplo claro desse problema ocorreria ao
utilizar um atributo totalmente irrelevante;

   Nesse caso, seria criado um nó para cada valor
possível, e o número de nós seria igual ao número de
identificadores;

   Essa divisão geraria um ganho máximo, embora seja
totalmente inútil;
UNIVERSIDADE DE PERNAMBUCO



                Razão de Ganho
            Razão de Ganho =        Ganho
                                  Entropia (nó)

   A Razão de Ganho é o ganho de informação relativo
(ponderado) como critério de avaliação;

   A razão não é definida quando o denominador é igual a zero, ou
seja, quando o valor da entropia do nó é zero;

   Além disso, a razão de ganho favorece atributos cujo o valor da
entropia é pequeno.
UNIVERSIDADE DE PERNAMBUCO



                Exemplo do Jogo do Tênis

Calculando o valor da Razão de Ganho para o atributo do tempo
temos:

RazãoGanho (Tempo) = Ganho (S, Tempo)
                        Entropia
                     =   0,247
                         0,940

                     =   0,263
UNIVERSIDADE DE PERNAMBUCO



                Exemplo do Jogo do Tênis

Calculando o valor de Ganho de Informação para todos os outros
atributos temos:

Razão de Ganho (tempo) = 0,263
Razão de Ganho (umidade) = 0,06
Razão de Ganho (vento) = 0,051
Razão de Ganho (temperatura) = 0,031
UNIVERSIDADE DE PERNAMBUCO



              Exemplo do Jogo do Tênis

 Atributo     Ganho de Informação      Razão de Ganho
  Tempo               0,247                0,263
Temperatura           0,029                0,031
 Umidade              0,057                 0,06
  Vento               0,048                0,051

Qual é o melhor atributo para ser selecionado
          como a raiz da árvore?
UNIVERSIDADE DE PERNAMBUCO

 Exemplo do Jogo do Tênis
       S = [9+, 5-]
        E = 0,940
Ganho (S, Tempo) = 0,247
 Razão de Ganho = 0,263

        Tempo


Sol      Nublado      Chuva
UNIVERSIDADE DE PERNAMBUCO


Árvore gerada para o exemplo
      do jogo de Tênis.
UNIVERSIDADE DE PERNAMBUCO




         Critério de Parada
               Quando parar as divisões?

    Quando todos os exemplos pertencem a mesma classe;
    Quando todos os exemplos têm os mesmos valores dos
atributos (mas diferentes classes);
    Quando o número de exemplos é inferior a certo limite;
    Quando o mérito de todos os possíveis testes de
partição dos exemplos é muito baixo.
UNIVERSIDADE DE PERNAMBUCO



          Sobre-Ajustamento
             (Overfitting)
   Arestas ou sub-árvores podem refletir ruídos ou
erros;

   Isso acarreta em um problema conhecido como sobre
ajuste
  significa um aprendizado muito específico do conjunto de treinamento,
  não permitindo ao modelo generalizar.
UNIVERSIDADE DE PERNAMBUCO



 Como Evitar o Sobre – Ajuste?
   Para detectar e excluir essas arestas e sub-árvores,
são utilizados métodos de poda (pruning) para a árvore;

    O objetivo é melhorar a taxa de acerto do modelo
para novos exemplos, os quais não foram utilizados no
treinamento;

   A árvore podada é mais fácil de ser interpretada e
também é mais simples.
UNIVERSIDADE DE PERNAMBUCO




Existem dois métodos de poda em uma árvore:

   Pré – Pruning: Para o crescimento quando a partição
de dados não for estatisticamente significante e
transformar o nó corrente em um nó folha;

   Pós – Pruning: Desenvolve uma árvore completa e
então executa o método de poda, onde tudo que está
abaixo de um nó interno é excluído e esse nó é
transformado em folha.
UNIVERSIDADE DE PERNAMBUCO




   Principais Algoritmos de
Indução de Árvores de Decisão
               ID3
               C4.5
               CART
UNIVERSIDADE DE PERNAMBUCO




 ID3
   Mais simples de entender e de implementar;
   É um algoritmo recursivo;
   É baseado em busca exaustiva;
    Utiliza o Ganho de Informação para selecionar a melhor
divisão;
   A principal limitação do ID3 é que ele só lida com
atributos categóricos não-ordinais;
    Não apresenta nenhuma forma para tratar valores
desconhecidos;
   Não apresenta nenhum método de pós-poda.
UNIVERSIDADE DE PERNAMBUCO




 C4.5
   Usa a técnica de “dividir para conquistar”;
   É baseado em busca exaustiva;
    Lida tanto com atributos categóricos (ordinais ou não-
ordinais) como com atributos contínuos;
   Trata valores desconhecidos;
    Utiliza a medida de razão de ganho para selecionar o
atributo que melhor divide os exemplos;
   Lida com problemas em que os atributos possuem custos
diferenciados;
   Apresenta um método de pós-poda das árvores geradas.
UNIVERSIDADE DE PERNAMBUCO



Classification and Regression Trees (CART)
   Consiste de uma técnica não-paramétrica que induz tanto
árvores de classificação quanto árvores de regressão,
dependendo se o atributo é nominal (classificação) ou contínuo
(regressão);
   Utiliza a técnica de pesquisa exaustiva para definir os
limiares a serem utilizados nos nós para dividir os atributos
contínuos;
   As árvores geradas pelo algoritmo são sempre binárias, de
grande simplicidade e legibilidade;
   Realiza o método de pós-poda por meio da redução do fator
custo-complexidade.
UNIVERSIDADE DE PERNAMBUCO




     Referências Bibliográficas
[1] POZZER, C. T.. Aprendizado Por Árvores de Decisão.
Departamento de Eletrônica e Computação, Universidade Federal de
Santa Maria, 2006. Apostila.


[2] MITCHELL, T.. Machine Learning. Mc-Graw Hill, 1997.


[3] QUINLAN, J. R.. Induction of Decision Trees. In: SHAVLIK J.
W., DIETTERICH, T. G.. Readings in Machine Learning. 1 ed.
Morgan Kaufman, 1986. P. 81-106.
UNIVERSIDADE DE PERNAMBUCO




[4] ZUBEN, F. J. V., ATTUX, R. R. F.. Árvores de Decisão.
Universidade de Campinas, 2004. Apostila.


[5] QUINLAN, J. R.. C4.5: Programs for Machine Learning.
Morgan Kaufman, 1993.


[6] BREIMAN, L. et al. Classification and Regression Trees.
Belmont, California: Wadsworth, 1984.

Weitere ähnliche Inhalte

Was ist angesagt?

Lógica de programação em ppt
Lógica de programação em pptLógica de programação em ppt
Lógica de programação em pptAndrei Bastos
 
Introdução à Aprendizagem de Máquina
Introdução à Aprendizagem de MáquinaIntrodução à Aprendizagem de Máquina
Introdução à Aprendizagem de MáquinaFernando Palma
 
Segurança da informação
Segurança da informaçãoSegurança da informação
Segurança da informaçãoimsp2000
 
Redes de computadores 2 - Protocolos
Redes de computadores 2 - ProtocolosRedes de computadores 2 - Protocolos
Redes de computadores 2 - ProtocolosJosé Ronaldo Trajano
 
Banco de dados exercícios resolvidos
Banco de dados exercícios resolvidosBanco de dados exercícios resolvidos
Banco de dados exercícios resolvidosGleydson Sousa
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de InformaçãoDaniela Brauner
 
Aplicação dos microcontroladores no dia a dia
Aplicação dos microcontroladores no dia a diaAplicação dos microcontroladores no dia a dia
Aplicação dos microcontroladores no dia a diaDaniel Rodrigues de Sousa
 
Conceitos Básicos Sobre Analise de Sistemas
Conceitos Básicos Sobre Analise de SistemasConceitos Básicos Sobre Analise de Sistemas
Conceitos Básicos Sobre Analise de SistemasClayton de Almeida Souza
 
Conceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDConceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDVinicius Buffolo
 
Aula 6 - Estruturas de seleção encadeada - parte 1
Aula 6 - Estruturas de seleção encadeada - parte 1Aula 6 - Estruturas de seleção encadeada - parte 1
Aula 6 - Estruturas de seleção encadeada - parte 1Pacc UAB
 
LGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados PessoaisLGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados PessoaisDouglas Siviotti
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
 
Gerência de redes e computadores
Gerência de redes e computadoresGerência de redes e computadores
Gerência de redes e computadoresEduardo Junior
 

Was ist angesagt? (20)

Lógica de programação em ppt
Lógica de programação em pptLógica de programação em ppt
Lógica de programação em ppt
 
Aula 1 - Introdução a Segurança da Informação
Aula 1 - Introdução a Segurança da InformaçãoAula 1 - Introdução a Segurança da Informação
Aula 1 - Introdução a Segurança da Informação
 
Machine Learning - Introdução e Aplicações
Machine Learning - Introdução e AplicaçõesMachine Learning - Introdução e Aplicações
Machine Learning - Introdução e Aplicações
 
Introdução à Aprendizagem de Máquina
Introdução à Aprendizagem de MáquinaIntrodução à Aprendizagem de Máquina
Introdução à Aprendizagem de Máquina
 
Segurança da informação
Segurança da informaçãoSegurança da informação
Segurança da informação
 
Redes de computadores 2 - Protocolos
Redes de computadores 2 - ProtocolosRedes de computadores 2 - Protocolos
Redes de computadores 2 - Protocolos
 
Informatica Aplicada
Informatica AplicadaInformatica Aplicada
Informatica Aplicada
 
Banco de dados exercícios resolvidos
Banco de dados exercícios resolvidosBanco de dados exercícios resolvidos
Banco de dados exercícios resolvidos
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de Informação
 
Aplicação dos microcontroladores no dia a dia
Aplicação dos microcontroladores no dia a diaAplicação dos microcontroladores no dia a dia
Aplicação dos microcontroladores no dia a dia
 
Conceitos Básicos Sobre Analise de Sistemas
Conceitos Básicos Sobre Analise de SistemasConceitos Básicos Sobre Analise de Sistemas
Conceitos Básicos Sobre Analise de Sistemas
 
Aula 9 - Estruturas Condicionais
Aula 9 - Estruturas CondicionaisAula 9 - Estruturas Condicionais
Aula 9 - Estruturas Condicionais
 
Tecnologia da informação aula 1
Tecnologia da informação    aula 1Tecnologia da informação    aula 1
Tecnologia da informação aula 1
 
Aula 1: Conhecendo o Arduino
Aula 1: Conhecendo o ArduinoAula 1: Conhecendo o Arduino
Aula 1: Conhecendo o Arduino
 
DIREITO AMBIENTAL AULA 05
DIREITO AMBIENTAL AULA 05DIREITO AMBIENTAL AULA 05
DIREITO AMBIENTAL AULA 05
 
Conceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBDConceitos de Banco de dados e SGBD
Conceitos de Banco de dados e SGBD
 
Aula 6 - Estruturas de seleção encadeada - parte 1
Aula 6 - Estruturas de seleção encadeada - parte 1Aula 6 - Estruturas de seleção encadeada - parte 1
Aula 6 - Estruturas de seleção encadeada - parte 1
 
LGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados PessoaisLGPD Lei Geral de Proteção de Dados Pessoais
LGPD Lei Geral de Proteção de Dados Pessoais
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Gerência de redes e computadores
Gerência de redes e computadoresGerência de redes e computadores
Gerência de redes e computadores
 

Andere mochten auch

Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de SaídaSimulação
 
Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5Dafne Morais
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Sistemas De Apoio Ao DiagnóStico
Sistemas De Apoio Ao DiagnóSticoSistemas De Apoio Ao DiagnóStico
Sistemas De Apoio Ao DiagnóSticorodriguesjoao
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricosRosario Cação
 
Algoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_GilcimarAlgoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_Gilcimariaudesc
 
Cap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoCap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoRegis Andrade
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetriaEnio José Bolognini
 
5 intervalo de confiança
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiançaFernando Lucas
 
Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - ronaldo ramos
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02pso2510
 

Andere mochten auch (20)

Ávores de Decisão
Ávores de DecisãoÁvores de Decisão
Ávores de Decisão
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Aula 12 intervalo de confiança
Aula 12   intervalo de confiançaAula 12   intervalo de confiança
Aula 12 intervalo de confiança
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de Saída
 
Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5Tomada de Decisão e Cenários - Módulo 5
Tomada de Decisão e Cenários - Módulo 5
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
2. projetar o fluxo de caixa
2. projetar o fluxo de caixa2. projetar o fluxo de caixa
2. projetar o fluxo de caixa
 
Sistemas De Apoio Ao DiagnóStico
Sistemas De Apoio Ao DiagnóSticoSistemas De Apoio Ao DiagnóStico
Sistemas De Apoio Ao DiagnóStico
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
 
Algoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_GilcimarAlgoritmo_ID3_e_C.45_Gilcimar
Algoritmo_ID3_e_C.45_Gilcimar
 
Cap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da ProporçãoCap5 - Parte 4 - Intervalo Da Proporção
Cap5 - Parte 4 - Intervalo Da Proporção
 
Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetria
 
Confianca Noemi
Confianca NoemiConfianca Noemi
Confianca Noemi
 
5 intervalo de confiança
5   intervalo de confiança5   intervalo de confiança
5 intervalo de confiança
 
Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 - Inteligência Artificial - Parte 5 -
Inteligência Artificial - Parte 5 -
 
Tópico 2 Intervalo de Confiança
Tópico 2   Intervalo de ConfiançaTópico 2   Intervalo de Confiança
Tópico 2 Intervalo de Confiança
 
Contabilidade e analise de custos
Contabilidade e analise de custosContabilidade e analise de custos
Contabilidade e analise de custos
 
Conceitos Básicos de Estatística II
Conceitos Básicos de Estatística IIConceitos Básicos de Estatística II
Conceitos Básicos de Estatística II
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02
 

Mehr von Mayara Mônica

Pronouns and Verb To Be
Pronouns and Verb To BePronouns and Verb To Be
Pronouns and Verb To BeMayara Mônica
 
Aprendendo o Alfabeto em Inglês
Aprendendo o Alfabeto em InglêsAprendendo o Alfabeto em Inglês
Aprendendo o Alfabeto em InglêsMayara Mônica
 
Saúde e Nutrição - Fibras Alimentares
Saúde e Nutrição - Fibras AlimentaresSaúde e Nutrição - Fibras Alimentares
Saúde e Nutrição - Fibras AlimentaresMayara Mônica
 
Biofísica do Sistema Respiratório
Biofísica do Sistema RespiratórioBiofísica do Sistema Respiratório
Biofísica do Sistema RespiratórioMayara Mônica
 
Órgãos em Microchips
Órgãos em MicrochipsÓrgãos em Microchips
Órgãos em MicrochipsMayara Mônica
 
Escolas da Psicologia e Bases Biológicas do Comportamento
Escolas da Psicologia e Bases Biológicas do ComportamentoEscolas da Psicologia e Bases Biológicas do Comportamento
Escolas da Psicologia e Bases Biológicas do ComportamentoMayara Mônica
 
Bioquímica Articular, Articulações e Pele
Bioquímica Articular, Articulações e PeleBioquímica Articular, Articulações e Pele
Bioquímica Articular, Articulações e PeleMayara Mônica
 
Cartilha Educativa sobre Bioética
Cartilha Educativa sobre BioéticaCartilha Educativa sobre Bioética
Cartilha Educativa sobre BioéticaMayara Mônica
 
Estudo Sobre o Músculo Liso
Estudo Sobre o Músculo LisoEstudo Sobre o Músculo Liso
Estudo Sobre o Músculo LisoMayara Mônica
 
LZW - Compressão e Descompressão
LZW - Compressão e Descompressão LZW - Compressão e Descompressão
LZW - Compressão e Descompressão Mayara Mônica
 
Questionário Sobre Teste de Software
Questionário Sobre Teste de SoftwareQuestionário Sobre Teste de Software
Questionário Sobre Teste de SoftwareMayara Mônica
 
Questions About Software Testing
Questions About Software TestingQuestions About Software Testing
Questions About Software TestingMayara Mônica
 
Modelo de Interface para um Prontuário Eletrônico
Modelo de Interface para um Prontuário EletrônicoModelo de Interface para um Prontuário Eletrônico
Modelo de Interface para um Prontuário EletrônicoMayara Mônica
 

Mehr von Mayara Mônica (20)

Pronouns and Verb To Be
Pronouns and Verb To BePronouns and Verb To Be
Pronouns and Verb To Be
 
Aprendendo o Alfabeto em Inglês
Aprendendo o Alfabeto em InglêsAprendendo o Alfabeto em Inglês
Aprendendo o Alfabeto em Inglês
 
Saúde e Nutrição - Fibras Alimentares
Saúde e Nutrição - Fibras AlimentaresSaúde e Nutrição - Fibras Alimentares
Saúde e Nutrição - Fibras Alimentares
 
Biofísica do Sistema Respiratório
Biofísica do Sistema RespiratórioBiofísica do Sistema Respiratório
Biofísica do Sistema Respiratório
 
Tecnologias na Saúde
Tecnologias na SaúdeTecnologias na Saúde
Tecnologias na Saúde
 
Órgãos em Microchips
Órgãos em MicrochipsÓrgãos em Microchips
Órgãos em Microchips
 
Escolas da Psicologia e Bases Biológicas do Comportamento
Escolas da Psicologia e Bases Biológicas do ComportamentoEscolas da Psicologia e Bases Biológicas do Comportamento
Escolas da Psicologia e Bases Biológicas do Comportamento
 
Psicologia na Saúde
Psicologia na SaúdePsicologia na Saúde
Psicologia na Saúde
 
Movimento Body Art
Movimento Body ArtMovimento Body Art
Movimento Body Art
 
Bioquímica Articular, Articulações e Pele
Bioquímica Articular, Articulações e PeleBioquímica Articular, Articulações e Pele
Bioquímica Articular, Articulações e Pele
 
Cartilha Educativa sobre Bioética
Cartilha Educativa sobre BioéticaCartilha Educativa sobre Bioética
Cartilha Educativa sobre Bioética
 
Estudo Sobre o Músculo Liso
Estudo Sobre o Músculo LisoEstudo Sobre o Músculo Liso
Estudo Sobre o Músculo Liso
 
Tipologia Textual
Tipologia TextualTipologia Textual
Tipologia Textual
 
Comando Traceroute
Comando TracerouteComando Traceroute
Comando Traceroute
 
LZW - Compressão e Descompressão
LZW - Compressão e Descompressão LZW - Compressão e Descompressão
LZW - Compressão e Descompressão
 
MaDKit
MaDKitMaDKit
MaDKit
 
UPPAAL
UPPAALUPPAAL
UPPAAL
 
Questionário Sobre Teste de Software
Questionário Sobre Teste de SoftwareQuestionário Sobre Teste de Software
Questionário Sobre Teste de Software
 
Questions About Software Testing
Questions About Software TestingQuestions About Software Testing
Questions About Software Testing
 
Modelo de Interface para um Prontuário Eletrônico
Modelo de Interface para um Prontuário EletrônicoModelo de Interface para um Prontuário Eletrônico
Modelo de Interface para um Prontuário Eletrônico
 

Kürzlich hochgeladen

HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
Educação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPEducação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPanandatss1
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasCenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasRosalina Simão Nunes
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxBiancaNogueira42
 
Caixa jogo da onça. para imprimir e jogar
Caixa jogo da onça. para imprimir e jogarCaixa jogo da onça. para imprimir e jogar
Caixa jogo da onça. para imprimir e jogarIedaGoethe
 
Regência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfRegência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfmirandadudu08
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfAdrianaCunha84
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Mary Alvarenga
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISVitor Vieira Vasconcelos
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxIsabellaGomes58
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxLuizHenriquedeAlmeid6
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniCassio Meira Jr.
 
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfDIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfIedaGoethe
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Centro Jacques Delors
 

Kürzlich hochgeladen (20)

HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
 
Educação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SPEducação São Paulo centro de mídias da SP
Educação São Paulo centro de mídias da SP
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasCenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
 
Caixa jogo da onça. para imprimir e jogar
Caixa jogo da onça. para imprimir e jogarCaixa jogo da onça. para imprimir e jogar
Caixa jogo da onça. para imprimir e jogar
 
Regência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfRegência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdf
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdf
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGIS
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
 
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
 
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfDIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 

Árvores de Decisão

  • 2. UNIVERSIDADE DE PERNAMBUCO Roteiro da Apresentação: Conceito de Árvores de Decisão; Representação de Árvores de Decisão; Características Básicas para o Uso de Árvores de Decisão; Cálculo da Entropia; Ganho de Informação; Razão de Ganho; Critério de Parada; Sobre – Ajustamento (Overfiting); Principais Algoritmos Usados Atualmente; Apresentação da Aplicação; Agradecimentos.
  • 3. UNIVERSIDADE DE PERNAMBUCO Árvores de Decisão Árvores de decisão são ferramentas que podem ser utilizadas para dar ao agente a capacidade de aprender, bem como para tomar decisões. Os elementos do agente são usados também, para aumentar a capacidade do agente de agir no futuro; O aprendizado ocorre na medida em que o agente observa suas interações com o mundo e seu processo interno de tomada de decisões.
  • 4. UNIVERSIDADE DE PERNAMBUCO Aprendizado de árvores de decisão é um exemplo de aprendizado indutivo; Árvores de decisão também podem ser representadas como um conjunto de regras SE- ENTÃO (if-then); As árvores de decisão tomam como entrada uma situação descrita por um conjunto de atributos e retorna uma decisão.
  • 5. UNIVERSIDADE DE PERNAMBUCO Características Básicas para o Uso de Árvores de Decisão As instâncias (exemplos) são representadas por pares atributo-valor; A função objetivo assume apenas valores discretos; O conjunto de dados do treinamento pode conter erros ou valores de atributos faltando.
  • 6. UNIVERSIDADE DE PERNAMBUCO Para facilitar o entendimento dos conceitos que serão vistos durante a apresentação, usaremos o exemplo do Jogo de Tênis para ilustrar.
  • 7. UNIVERSIDADE DE PERNAMBUCO Árvore de Decisão para o Exemplo do Jogo de Tênis Árvore criada para auxiliar na decisão de jogar ou não jogar tênis. Conjunto de Atributos Tempo Temperatura Umidade Vento
  • 8. UNIVERSIDADE DE PERNAMBUCO Base de Treinamento do Jogo de Tênis: Tempo Temperatura Umidade Vento Joga Sol Alta Media Não Não Sol Alta Alta Sim Não Nublado Alta Alta Não Sim Chuva Baixa Alta Não Sim Chuva Baixa Media Não Sim Chuva Baixa Baixa Sim Não Nublado Baixa Baixa Sim Sim Sol Media Alta Não Não Sol Baixa Baixa Não Sim Chuva Media Media Não Sim Sol Media Baixa Sim Sim Nublado Media Alta Sim Sim Nublado Alta Baixa Não Sim Chuva Baixa Alta Sim Não
  • 9. UNIVERSIDADE DE PERNAMBUCO Representação Cada nó de decisão contem um teste num atributo; Cada ramo descendente corresponde a um possível valor deste atributo; Cada nó folha está associado a uma classe; Cada percurso na árvore (do nó raiz a um nó folha) corresponde a uma regra de classificação.
  • 10. UNIVERSIDADE DE PERNAMBUCO Figura 1: Representação de uma árvore de decisão.
  • 11. UNIVERSIDADE DE PERNAMBUCO Exemplos de Aplicações para Árvores de Decisão Diagnóstico Médico; Diagnóstico de Equipamentos; Análise de Crédito; Análise de Compra e Venda.
  • 12. UNIVERSIDADE DE PERNAMBUCO Entropia A Entropia é uma medida que caracteriza a aleatoriedade (impureza) de uma coleção arbitrária de exemplos.
  • 13. UNIVERSIDADE DE PERNAMBUCO Dado uma coleção S de exemplos + e – de um conceito alvo, a entropia de S relativa a esta classificação booleana é: Entropia(S) = - p log2 p - p log2 p p é a proporção de exemplos positivos em S p é a proporção de exemplos negativos em S
  • 14. UNIVERSIDADE DE PERNAMBUCO A função Entropia relativa a uma classificação booleana, como a proporção, p de exemplos positivos varia entre 0 e 1. Figura 2: Representação gráfica da função Entropia.
  • 15. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo do Tênis Uma coleção S com 14 exemplos sendo 9 positivos (sim) e 5 negativos (não) [9+, 5-] o valor da entropia é:
  • 16. UNIVERSIDADE DE PERNAMBUCO Ganho de Informação A construção de uma árvore de decisão é guiada pelo objetivo de diminuir a entropia, ou seja, a aleatoriedade - dificuldade de previsão - da variável que define as classes. Ganho de Informação é a redução esperada na entropia causada pela partição dos exemplos de acordo com o teste no atributo A.
  • 17. UNIVERSIDADE DE PERNAMBUCO A Sim Não Figura 3: Exemplo de um teste no atributo A.
  • 18. UNIVERSIDADE DE PERNAMBUCO Base de Treinamento do Jogo de Tênis: Tempo Temperatura Umidade Vento Joga Sol Alta Media Não Não Sol Alta Alta Sim Não Nublado Alta Alta Não Sim Chuva Baixa Alta Não Sim Chuva Baixa Media Não Sim Chuva Baixa Baixa Sim Não Nublado Baixa Baixa Sim Sim Sol Media Alta Não Não Sol Baixa Baixa Não Sim Chuva Media Media Não Sim Sol Media Baixa Sim Sim Nublado Media Alta Sim Sim Nublado Alta Baixa Não Sim Chuva Baixa Alta Sim Não
  • 19. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Calculando o valor do Ganho de Informação para o atributo Tempo = Sol Tempo Temperatura Umidade Vento Joga Sol Alta Media Não Não Sol Alta Alta Sim Não Sol Media Alta Não Não Sol Baixa Baixa Não Sim Sol Media Baixa Sim Sim
  • 20. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Calculando o valor do Ganho de Informação para o atributo Tempo = Sol p (sim | tempo = sol) = 2/5 p (não | tempo = sol) = 3/5 Entropia ( joga | tempo = sol) = = - (2/5) * log2 (2/5) – (3/5) * log2 (3/5) = 0.971
  • 21. UNIVERSIDADE DE PERNAMBUCO Base de Treinamento do Jogo de Tênis: Tempo Temperatura Umidade Vento Joga Sol Alta Media Não Não Sol Alta Alta Sim Não Nublado Alta Alta Não Sim Chuva Baixa Alta Não Sim Chuva Baixa Media Não Sim Chuva Baixa Baixa Sim Não Nublado Baixa Baixa Sim Sim Sol Media Alta Não Não Sol Baixa Baixa Não Sim Chuva Media Media Não Sim Sol Media Baixa Sim Sim Nublado Media Alta Sim Sim Nublado Alta Baixa Não Sim Chuva Baixa Alta Sim Não
  • 22. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Calculando o valor do Ganho de Informação para o atributo Tempo = Nublado Tempo Temperatura Umidade Vento Joga Nublado Alta Alta Não Sim Nublado Baixa Baixa Sim Sim Nublado Media Alta Sim Sim Nublado Alta Baixa Não Sim
  • 23. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Calculando o valor do Ganho de Informação para o atributo Tempo = Nublado: p (sim | tempo = Nublado) = 1 p (não | tempo = Nublado) = 0 Entropia ( joga | tempo = nublado) = = - (1/5) * log2 (1/5) – 0 * log2 (0) = 0
  • 24. UNIVERSIDADE DE PERNAMBUCO Base de Treinamento do Jogo de Tênis: Tempo Temperatura Umidade Vento Joga Sol Alta Media Não Não Sol Alta Alta Sim Não Nublado Alta Alta Não Sim Chuva Baixa Alta Não Sim Chuva Baixa Media Não Sim Chuva Baixa Baixa Sim Não Nublado Baixa Baixa Sim Sim Sol Media Alta Não Não Sol Baixa Baixa Não Sim Chuva Media Media Não Sim Sol Media Baixa Sim Sim Nublado Media Alta Sim Sim Nublado Alta Baixa Não Sim Chuva Baixa Alta Sim Não
  • 25. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Calculando o valor do Ganho de Informação para o atributo Tempo = Chuva Tempo Temperatura Umidade Vento Joga Chuva Baixa Alta Não Sim Chuva Baixa Media Não Sim Chuva Baixa Baixa Sim Não Chuva Media Media Não Sim Chuva Baixa Alta Sim Não
  • 26. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Calculando o valor do Ganho de Informação para o atributo Tempo = Chuva: p (sim | tempo = Chuva) = 3/5 p (não | tempo = Chuva) = 2/5 Entropia ( joga | tempo = chuva) = = - (3/5) * log2 (3/5) – (2/5) * log2 (2/5) = 0,971
  • 27. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo de Tênis Ganho de Informação obtida neste atributo: Informação (tempo) = = 5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693 Ganho (S, Tempo) = Entropia (joga) – Informação (tempo) Ganho (S, Tempo) = 0.940 – 0.693 = 0.247
  • 28. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo do Tênis Calculando o valor de Ganho de Informação para todos os outros atributos temos: Ganho (S, Umidade) = 0,057 Ganho (S, Vento) = 0,048 Ganho (S, Temperatura) = 0,029 Ganho (S, Tempo) = 0,247
  • 29. UNIVERSIDADE DE PERNAMBUCO Implicações do Cálculo de Ganho de Informação O critério de ganho seleciona como atributo-teste aquele que maximiza o ganho de informação; O grande problema ao se utilizar o ganho de informação é que ele dá preferência a atributos com muitos valores possíveis;
  • 30. UNIVERSIDADE DE PERNAMBUCO Um exemplo claro desse problema ocorreria ao utilizar um atributo totalmente irrelevante; Nesse caso, seria criado um nó para cada valor possível, e o número de nós seria igual ao número de identificadores; Essa divisão geraria um ganho máximo, embora seja totalmente inútil;
  • 31. UNIVERSIDADE DE PERNAMBUCO Razão de Ganho Razão de Ganho = Ganho Entropia (nó) A Razão de Ganho é o ganho de informação relativo (ponderado) como critério de avaliação; A razão não é definida quando o denominador é igual a zero, ou seja, quando o valor da entropia do nó é zero; Além disso, a razão de ganho favorece atributos cujo o valor da entropia é pequeno.
  • 32. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo do Tênis Calculando o valor da Razão de Ganho para o atributo do tempo temos: RazãoGanho (Tempo) = Ganho (S, Tempo) Entropia = 0,247 0,940 = 0,263
  • 33. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo do Tênis Calculando o valor de Ganho de Informação para todos os outros atributos temos: Razão de Ganho (tempo) = 0,263 Razão de Ganho (umidade) = 0,06 Razão de Ganho (vento) = 0,051 Razão de Ganho (temperatura) = 0,031
  • 34. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo do Tênis Atributo Ganho de Informação Razão de Ganho Tempo 0,247 0,263 Temperatura 0,029 0,031 Umidade 0,057 0,06 Vento 0,048 0,051 Qual é o melhor atributo para ser selecionado como a raiz da árvore?
  • 35. UNIVERSIDADE DE PERNAMBUCO Exemplo do Jogo do Tênis S = [9+, 5-] E = 0,940 Ganho (S, Tempo) = 0,247 Razão de Ganho = 0,263 Tempo Sol Nublado Chuva
  • 36. UNIVERSIDADE DE PERNAMBUCO Árvore gerada para o exemplo do jogo de Tênis.
  • 37. UNIVERSIDADE DE PERNAMBUCO Critério de Parada Quando parar as divisões? Quando todos os exemplos pertencem a mesma classe; Quando todos os exemplos têm os mesmos valores dos atributos (mas diferentes classes); Quando o número de exemplos é inferior a certo limite; Quando o mérito de todos os possíveis testes de partição dos exemplos é muito baixo.
  • 38. UNIVERSIDADE DE PERNAMBUCO Sobre-Ajustamento (Overfitting) Arestas ou sub-árvores podem refletir ruídos ou erros; Isso acarreta em um problema conhecido como sobre ajuste significa um aprendizado muito específico do conjunto de treinamento, não permitindo ao modelo generalizar.
  • 39. UNIVERSIDADE DE PERNAMBUCO Como Evitar o Sobre – Ajuste? Para detectar e excluir essas arestas e sub-árvores, são utilizados métodos de poda (pruning) para a árvore; O objetivo é melhorar a taxa de acerto do modelo para novos exemplos, os quais não foram utilizados no treinamento; A árvore podada é mais fácil de ser interpretada e também é mais simples.
  • 40. UNIVERSIDADE DE PERNAMBUCO Existem dois métodos de poda em uma árvore: Pré – Pruning: Para o crescimento quando a partição de dados não for estatisticamente significante e transformar o nó corrente em um nó folha; Pós – Pruning: Desenvolve uma árvore completa e então executa o método de poda, onde tudo que está abaixo de um nó interno é excluído e esse nó é transformado em folha.
  • 41. UNIVERSIDADE DE PERNAMBUCO Principais Algoritmos de Indução de Árvores de Decisão ID3 C4.5 CART
  • 42. UNIVERSIDADE DE PERNAMBUCO ID3 Mais simples de entender e de implementar; É um algoritmo recursivo; É baseado em busca exaustiva; Utiliza o Ganho de Informação para selecionar a melhor divisão; A principal limitação do ID3 é que ele só lida com atributos categóricos não-ordinais; Não apresenta nenhuma forma para tratar valores desconhecidos; Não apresenta nenhum método de pós-poda.
  • 43. UNIVERSIDADE DE PERNAMBUCO C4.5 Usa a técnica de “dividir para conquistar”; É baseado em busca exaustiva; Lida tanto com atributos categóricos (ordinais ou não- ordinais) como com atributos contínuos; Trata valores desconhecidos; Utiliza a medida de razão de ganho para selecionar o atributo que melhor divide os exemplos; Lida com problemas em que os atributos possuem custos diferenciados; Apresenta um método de pós-poda das árvores geradas.
  • 44. UNIVERSIDADE DE PERNAMBUCO Classification and Regression Trees (CART) Consiste de uma técnica não-paramétrica que induz tanto árvores de classificação quanto árvores de regressão, dependendo se o atributo é nominal (classificação) ou contínuo (regressão); Utiliza a técnica de pesquisa exaustiva para definir os limiares a serem utilizados nos nós para dividir os atributos contínuos; As árvores geradas pelo algoritmo são sempre binárias, de grande simplicidade e legibilidade; Realiza o método de pós-poda por meio da redução do fator custo-complexidade.
  • 45. UNIVERSIDADE DE PERNAMBUCO Referências Bibliográficas [1] POZZER, C. T.. Aprendizado Por Árvores de Decisão. Departamento de Eletrônica e Computação, Universidade Federal de Santa Maria, 2006. Apostila. [2] MITCHELL, T.. Machine Learning. Mc-Graw Hill, 1997. [3] QUINLAN, J. R.. Induction of Decision Trees. In: SHAVLIK J. W., DIETTERICH, T. G.. Readings in Machine Learning. 1 ed. Morgan Kaufman, 1986. P. 81-106.
  • 46. UNIVERSIDADE DE PERNAMBUCO [4] ZUBEN, F. J. V., ATTUX, R. R. F.. Árvores de Decisão. Universidade de Campinas, 2004. Apostila. [5] QUINLAN, J. R.. C4.5: Programs for Machine Learning. Morgan Kaufman, 1993. [6] BREIMAN, L. et al. Classification and Regression Trees. Belmont, California: Wadsworth, 1984.