Este documento discute árvores de decisão para mineração de dados. Ele introduz árvores de decisão, explica brevemente sua história e o algoritmo ID3, e mostra como árvores de decisão podem ser usadas para classificação e predição a partir de dados. O documento conclui que árvores de decisão são úteis para análise exploratória de dados e tomada de decisões com base em custos, probabilidades e consequências.
2. TÓPICOS
• Introdução
• O que é arvore de decisão?
• Breve Historia
• Objetivo de arvore de decisão em DM
• A Heurística & Entropia ID3
• O algoritmo
• Como funciona a arvore na pratica.
• Conclusão
3. INTRODUÇÃO
As árvores de decisão tornaram-se uma das abordagens
mais poderosas e populares na descoberta do
conhecimento e mineração de dados, a ciência e
tecnologia de explorar corpos grandes e complexas de
dados, a fim de descobrir padrões úteis. A área é de
grande importância, pois permite a modelagem e
conhecimento extracção da abundância de dados
disponíveis.
Um dado se transforma em informação quando ganha um significado para
seu utilizador, caso contrário, continua sendo simplesmente um dado.
4. O QUE É ARVORE DE DECISÃO
• É um método adequado quando o objectivo do Data Mining
é classificação de dados ou predição de saídas.
• Uma árvore de decisão é formada por um conjunto de nós
de decisão, perguntas, que permitem a classificação de
cada caso. Ela consiste numa hierarquia de testes a
algumas das variáveis envolvidas no problema de decisão.
A árvore pode ser lida a partir do teste encontrado na parte
superior da mesma, normalmente chamado nó raiz da
árvore.
5. BREVE HISTORIA
Foi um professor da Universidade de Sydney, Austrália,
Ross Quinlan, que desenvolveu a tecnologia que permitiu o
aparecimento das Árvores de Decisão. Muitas pessoas na
indústria de Data Mining consideram Quinlan como o "pai
das Árvores de Decisão". A contribuição de Quinlan foi a
elaboração de um novo algoritmo chamado ID3,
desenvolvido em 1983.
7. • Uma Árvore de Decisão tem a função de particionar recursivamente
um conjunto de treinamento, até que cada subconjunto obtido deste
particionamento contenha casos de uma única classe, obtendo-se
assim um modelo que servirá para futuras classificações (QUINLAN,
1993).
• Sintetizando, o objectivo é gerar os valores categóricos de um
atributo
chamado "classe".US CAMPUS DA
PRAIA
EXEMPLO/OBJECTIVO ARVORE DE
DECISÃO EM DM
8. A HEURÍSTICA / ALGORITMO ID3
• O algoritmo ID3 usa o conceito de entropia para calcular
qual o melhor atributo será utilizado para dividir os dados
em subgrupos. Após a construção de uma árvores de
decisão é importante avaliá-la. Esta avaliação é realizada
através da utilização de dados que não tenham sido usados
no treinamento. Esta estratégia permite estimar como a
árvore generaliza os dados e se adapta a novas situações,
podendo, também, se estimar a proporção de erros e
acertos ocorridos na construção da árvore .
US CAMPUS DA
PRAIA
9. A HEURÍSTICA / ALGORITMO ID3
O algoritmo ID3 segue os seguintes passos:
• Começar com todos os exemplos do treinamento
• Escolher o atributo que melhor divide os exemplos, ou seja agrupar os
exemplos da mesma classe ou exemplos semelhantes
• Para o atributo escolhido, criar um nó filho para cada valor possível do
atributo
• Transportar os exemplos para cada filho tendo em conta o valor do filho
• Repetir o procedimento para cada filho não "puro". Um filho é puro quando
cada atributo X tem o mesmo valor para todos os exemplos.
Na etapa 2
• O algoritmo, para achar o melhor atributo é necessário encontrar a entropia
para cada atributo possível naquele nó.
• Para isto usamos a formula da entropia:
10. IF Idade =< 30 AND Renda = Baixa THEN
Classe = Não
IF Idade =< 30 AND Renda = Média THEN
Classe = Sim
IF Idade =< 30 AND Renda = Média-Alta
THEN Classe = Sim
IF Idade =< 30 AND Renda = Alta THEN
Classe = Sim
IF Idade 31...50 THEN Classe = Sim
IF Idade 51...60 THEN Classe = Sim
IF Idade > 60 THEN Classe = Não
O ALGORITMO DE AD
• Com base na árvore de decisão
apresentada na Figura acima pode-se
exemplificar a derivação de regras.
Dois exemplos de regras obtidas a
partir desta árvore são mostrados a
seguir.
• SE montante = médio e salário =
baixo
ENTÃO classe = não.
• SE montante = médio e salário = alto
ENTÃO classe = sim.
13. CONCLUSÃO
• No breve espaço deste trabalho, minha principal missão foi introduzir
um pouco do pensamento que está por trás da técnica de Data
Mining (árvore de decisão).
• A árvore de decisão é muito útil como uma técnica exploratória.
• Ao construir uma árvore de decisão, é possível fazermos uma análise
para determinar a escolha mais favorável, levando em consideração
os custos, as probabilidades e as conseqüências associados.
US CAMPUS DA
PRAIA
14. AGRADECIMENTO
• A Professora pela compreensão.
• Aos Colegas da turma pelo … Obrigado!!!
•Ate aqui nos ajudou o Senhor…(Ezequiel)
US CAMPUS DA PRAIA
Hinweis der Redaktion
Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Uma árvore de decisão
consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na
parte superior da mesma, normalmente chamado nó raiz da árvore.
É conveniente usar árvore de decisão quando o objetivo for categorizar dados de arquivos. Também é uma boa escolha quando o objetivo é gerar regras que podem ser facilmente entendidas, explicadas e traduzidas para linguagem natural.
A heurística ID3
A física usa o termo entropia para descrever a quantidade de desordem associada a um sistema. Na teoria da informação, este termo tem uma significado semelhante, -- ele mede o grau de desordem de um conjunto de dados. A heurística ID3 usa este conceito para encontrar o próximo melhor atributo de um dado para ser utilizado como nó de uma árvore de decisão. Logo , a idéia por trás do algoritmo ID3 é achar um atributo que reduza em maior valor a entropia de um conjunto de dados, assim reduzindo a aleatoriedade - dificuldade de previsão - da variável que define classes.
Neste exemplo são trabalhados dados que relatam as condições propícias de
uma pessoa receber ou não um empréstimo. Tem-se então duas possíveis
classes: sim (receber empréstimo) e não (não receber empréstimo). Os atributos
são: montante, salário e conta. O atributo montante pode assumir os valores de
médio, alto ou baixo. O atributo salário pode ser baixo ou alto e o atributo conta
pode ser "sim" ou "não". Alguns dados são exemplos positivos de uma classe
"sim", ou seja, os requisitos exigidos a uma pessoa, por um banco, são
satisfatórios à concessão de um empréstimo, e outros são negativos, onde os
requisitos exigidos não são satisfatórios à concessão de um empréstimo.
Depois de organizar toda essa massa de dados, chegamos a seguinte tabela:
A partir de uma árvore de decisão é possível derivar regras.
A física usa o termo entropia para descrever a quantidade de desordem associada a um sistema.
, a idéia por trás do algoritmo ID3 é achar um atributo que reduza em maior valor a entropia de um conjunto de dados, assim reduzindo a aleatoriedade - dificuldade de previsão - da variável que define classes. Seguindo esta heurística, você estará essencialmente encontrando o melhor atributo para classificar os registros a fim de que os mesmos tenham utilidade máxima.
Onde calculamos a proporção do número de exemplos positivos e o mesmo para o número de exemplos negativos para aquele atributo em questão multiplicado pelo logaritmo destas proporções. Um exemplo prático: Considere S uma coleção de 14 exemplos, incluindo 9 positivos ("will buy") e 5 negativos ("won't buy"). Logo a entropia para esta coleção S seria : Notação: [+9,-5]
O próximo passo na heurística ID3 é calcular o ganho de informação para cada atributo que pode ser selecionado como nó na árvore. Essencialmente é apenas calcular a entropia de todo o conjunto de dados e diminuir este da entropia do sub-conjunto particionado para tal atributo. Este processo é feito para cada atributo do conjunto de dados, e o atributo com o maior ganhor de informação será o selecionado para o próximo nó da árvore.
Transformando uma árvore de decisão em regras de classificação:
Uma árvore de decisão pode ser facilmente transformada num conjunto de regras de classificação. As regras são do tipo: IF L1 AND L2 . . . AND Ln THEN Classe = Valor, onde
Li são expressões do tipo Atributo = Valor. Para cada caminho, da raiz até uma folha, tem-se
uma regra de classificação. Cada par (atributo,valor) neste caminho dá origem a um Li. Por
exemplo, a árvore de decisão do exemplo acima corresponde ao seguinte conjunto de regras
de classificação:
Idéia geral de como criar uma árvore de decisão.
A idéia geral é a que está por trás do algoritmo ID3, criado por Ross Quinlan, da
Universidade de Sydney em 1986 e de seus sucessores (um deles, o algoritmo C4.5 também
proposto por Ross Quinlan em 1993).