SlideShare ist ein Scribd-Unternehmen logo
1 von 54
Downloaden Sie, um offline zu lesen
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
´Arvores de Decis˜ao
Prof. Dr. Leandro Balby Marinho
An´alise de Dados I
Prof. Leandro Balby Marinho 1 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Classifica¸c˜ao
Classifica¸c˜ao Bin´aria:
Tweet: Positivo/Negativo.
Email: Spam/N˜ao Spam.
Empr´estimo em Banco: Aprovado/N˜ao aprovado.
Tumor: Maligno/Benigno.
Classifica¸c˜ao Multiclasse:
Detec¸c˜ao de d´ıgitos manuscritos: {0, 1, 2, . . . , 9}.
Categoriza¸c˜ao de P´aginas Web: {pol´ıtica, esporte, . . .}.
Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Aprendizagem de M´aquina para Classifica¸c˜ao
Exemplo: Aprova¸c˜ao de Cr´edito
Idade 23
Sexo Masculino
Sal´ario Anual R$60.000
Poupan¸ca R$10.000
Quantidade Pedida R$100.000
... ...
Aprovar cr´edito?
Prof. Leandro Balby Marinho 3 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Componentes da Aprendizagem
Entrada: x (Dados do requerente)
Sa´ıda: y (bom/mal cliente)
Fun¸c˜ao alvo: f : X → Y (fun¸c˜ao ideal de aprova¸c˜ao de cr´edito)
Dados de Treino: Dtrain
:= {(x1, y1), . . . , (xN , yN )} (registros
hist´oricos)
Hip´otese: g : X → Y
Prof. Leandro Balby Marinho 4 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Componentes da Aprendizagem [Yaser, 2012]
Prof. Leandro Balby Marinho 5 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Classificando com ´Arvores de Decis˜ao
Considere o problema de classificar um vertebrado como mam´ıfero ou n˜ao
mam´ıfero.
Nome Temperatura do Corpo Dar `a Luz Mam´ıfero
humano quente sim sim
baleia quente sim sim
salamandra frio n˜ao n˜ao
pombo quente n˜ao n˜ao
morcego quente sim sim
sapo frio n˜ao n˜ao
tubar˜ao-leopardo frio sim n˜ao
salm˜ao frio n˜ao n˜ao
Prof. Leandro Balby Marinho 6 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Classificando com ´Arvores de Decis˜ao
Prof. Leandro Balby Marinho 7 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
O que ´e uma ´Arvore de Decis˜ao?
Uma ´arvore de decis˜ao ´e uma ´arvore que:
Possui um n´o raiz.
Cada n´o interno tem uma regra que atribui instˆancias de
treino unicamente aos n´os filhos.
Cada n´o folha tem um r´otulo de classe.
Tipos de ´Arvore
´Arvore de Regress˜ao: n´os folha cont´em valores num´ericos.
´Arvores Probabil´ısticas: n´os folha cont´em probabilidades.
Prof. Leandro Balby Marinho 8 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
´Arvore de Decis˜ao como Regras de Decis˜ao
Temperatura do Corpo = fria → classe = nao
(Temperatura do Corpo = quente) ∧ (Dar `a Luz = sim) → classe = sim
(Temperatura do Corpo = quente) ∧ (Dar `a Luz = n˜ao) → classe = n˜ao
Prof. Leandro Balby Marinho 9 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Atributos Nominais
Se o atributo for bin´ario, o teste gera duas sa´ıdas poss´ıveis.
Se o atributo for multinomial: (i) h´a uma sa´ıda para cada valor do atributo,
ou os valores de atributos s˜ao combinados para gerar uma sa´ıda bin´aria.
Nesse caso h´a 2k−1
− 1 parti¸c˜oes poss´ıveis para k valores de atributos.
Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Atributos Ordinais
A sa´ıda pode ser bin´aria ou multinomial, mas a ordem dos valores
deve ser preservada.
Prof. Leandro Balby Marinho 11 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Atributos Num´ericos
A sa´ıda pode ser bin´aria ou multinomial. Para sa´ıdas multinomiais
cada valor corresponde a um intervalo do tipo vi ≤ X < vi+1 onde
vi ∈ Dom(X) para i = 1, . . . , k.
Prof. Leandro Balby Marinho 12 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Formaliza¸c˜ao do Problema
Dado um conjunto de treino Dtrain, encontre uma ´arvore
g : X → Y
tal que para um conjunto de teste Dtest ⊆ X × Y (desconhecido
durante o treino), o erro de classifica¸c˜ao no teste
err(g; Dtest
) :=
1
|Dtest|
(x,y)∈Dtest
δ(g(x), y)
seja m´ınimo. δ(g(x), y) = 0 se g(x) = y e 1 caso contr´ario.
Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Formaliza¸c˜ao do Problema
Como Dtest
´e desconhecido, procuramos a ´arvore que minimize o
erro de classifica¸c˜ao em Dtrain
.
Para isso, assume-se que a distribui¸c˜ao de instˆancias nas classes do
treino ≈ a distribui¸c˜ao de instˆancias nas classes do teste.
Uma abordagem for¸ca bruta ´e invi´avel pois o n´umero de ´arvores no
espa¸co de busca cresce exponencialmente com o n´umero de
atributos.
Prof. Leandro Balby Marinho 14 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Busca Gulosa
Sendo assim, uma busca gulosa ´e usada de forma que:
´Arvores s˜ao constru´ıdas a partir da raiz em uma sequˆencia de
passos at´e que a ´arvore final seja encontrada.
Em cado passo a escolha deve ser
1. ´otima localmente.
2. irrevog´avel.
Hip´otese: uma sequˆencia de sele¸c˜oes ´otimas localmente
levar˜ao a uma solu¸c˜ao ´otima global no final.
Prof. Leandro Balby Marinho 15 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Indu¸c˜ao de ´Arvores de Decis˜ao
Ideia: testar os atributos mais importantes primeiro.
Atributos importantes tem maior poder de classifica¸c˜ao.
Condi¸c˜ao de parada:
1. expandir um n´o at´e que (quase) todas as instˆancias possuam a
mesma classe, ou
2. nenhum dos atributos apresentem “ganho de informa¸c˜ao”.
3. n˜ao existam mais atributos para discriminar as instˆancias.
4. a ´arvore atingiu uma altura predefinida.
Prof. Leandro Balby Marinho 16 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2
Considere os dados do Exemplo 1 novamente com a adi¸c˜ao do atributo
bin´ario Pernas.
Tid Nome Temperatura do Corpo Pernas Dar `a Luz Mam´ıfero
1 humano quente sim sim sim
2 baleia quente n˜ao sim sim
3 salamandra frio sim n˜ao n˜ao
4 pombo quente sim n˜ao n˜ao
5 morcego quente sim sim sim
6 sapo frio sim n˜ao n˜ao
7 tubar˜ao-leopardo frio n˜ao sim n˜ao
8 salm˜ao frio sim n˜ao n˜ao
Prof. Leandro Balby Marinho 17 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
Qual atributo tem maior poder de classifica¸c˜ao?
Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
Qual atributo tem maior poder de classifica¸c˜ao?
Para Temperatura do Corpo=fria e Dar `a Luz=n˜ao todas as instˆancias
s˜ao classificadas como N˜ao.
Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
Repetimos o processo para as instˆancias onde Temperatura do Cor-
po=quente.
Prof. Leandro Balby Marinho 19 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Sele¸c˜ao de Atributos
O processo termina quando todos os n´os folha possuem somente instˆancias
de uma mesma classe.
Prof. Leandro Balby Marinho 20 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Tratando Casos Especiais
Se algum dos n´os filho estiver vazio (i.e., nenhuma instˆancia
associada), o n´o ´e declarado folha com o r´otulo da classe
majorit´aria.
Se n˜ao houverem mais atributos, mas ainda existirem
exemplos positivos e negativos, o n´o ´e declarado folha com o
r´otulo da classe majorit´aria.
Prof. Leandro Balby Marinho 21 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Fronteira de Decis˜ao [Tan, 2007]
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
0.1
0.1
q
q
q
q
q
q
q
As fronteiras de decis˜ao s˜ao retil´ıneas.
Prof. Leandro Balby Marinho 22 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Medidas de Impureza de Atributos
As medidas mais usadas para a sele¸c˜ao de atributos s˜ao entropia,
coeficiente de Gini e erro de classifica¸c˜ao.
Seja p(y|t) a probabilidade condicional da classe y ∈ Y no n´o t. As
medidas s˜ao dadas abaixo:
Entropia(t) := −
y∈Y
p(y|t) log2 p(y|t)
Gini(t) := 1 −
y∈Y
p(y|t)2
Erro Class(t) := 1 − max
y∈Y
[p(y|t)]
Prof. Leandro Balby Marinho 23 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Medidas de Impureza para Classifica¸c˜ao Bin´aria
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
medida
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
medida
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
medida
Entropia
Gini
Erro de Classificacao
Prof. Leandro Balby Marinho 24 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 3
N´o N1 # Instˆancias
Classe=0 0
Classe=1 6
Gini = 1 − (0/6)2
− (6/6)2
= 0
Entropia = − (0/6) log2(0/6) − (6/6) log2(6/6) = 0
Erro Class = 1 − max[0/6, 6/6] = 0
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 3
N´o N2 # Instˆancias
Classe=0 1
Classe=1 5
Gini = 1 − (1/6)2
− (5/6)2
= 0.278
Entropia = − (1/6) log2(1/6) − (5/6) log2(5/6) = 0.650
Erro Class = 1 − max[1/6, 5/6] = 0.167
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 3
N´o N3 # Instˆancias
Classe=0 3
Classe=1 3
Gini = 1 − (3/6)2
− (3/6)2
= 0.5
Entropia = − (3/6) log2(3/6) − (3/6) log2(3/6) = 1
Erro Class = 1 − max[3/6, 3/6] = 0.5
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Qualidade da Parti¸c˜ao de Atributos
Para medir a qualidade da parti¸c˜ao para um atributo x, comparamos os
graus de impureza da parti¸c˜ao anterior a x com os das parti¸c˜oes geradas
pelos valores de x. Quanto maior a diferen¸ca melhor.
Chamamos isso de ganho de informa¸c˜ao que ´e calculado como segue:
∆(x) = I(P1) −
k
j=1
N(Pj )
N
I(Pj )
onde I(.) ´e a medida de impureza de um dado n´o, N ´e o n´umero de
registros da parti¸c˜ao P1, k ´e o n´umero de valores do atributo e N(Pj ) ´e o
n´umero de registros associados ´a parti¸c˜ao Pj .
Prof. Leandro Balby Marinho 26 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2 Revisitado
Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da
parti¸c˜ao, a distribui¸c˜ao das classes ´e
p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375)
Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2 Revisitado
Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da
parti¸c˜ao, a distribui¸c˜ao das classes ´e
p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375)
Gini(t1) = Gini(t2) = Gini(t3) = 1 − (0.625)2
− (0.375)2
= 0.468
Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t1)
∆ = 0.468 − (
4
8
0.375 +
4
8
0) = 0.2805
Prof. Leandro Balby Marinho 28 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t2)
∆ = 0.468 − (
4
8
0.375 +
4
8
0) = 0.2805
Prof. Leandro Balby Marinho 29 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t3)
∆ = 0.468 − (
6
8
0.44 +
2
8
0.5) = 0.013
Prof. Leandro Balby Marinho 30 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: Chamada Recursiva no Atributo Escolhido
Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e P(c|t1) = P(c|t2) =
(0.25, 0.75).
Gini(t1) = Gini(t3) = 1 − (0.75)2
− (0.25)2
= 0.375
Prof. Leandro Balby Marinho 31 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t2 → t1)
∆ = 0.375 − (
3
4
0 +
1
4
0) = 0.375
Prof. Leandro Balby Marinho 32 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Exemplo 2: C´alculo do Ganho (t2 → t3)
∆ = 0.375 − (
3
4
0.44 +
1
4
0) = 0.045
Prof. Leandro Balby Marinho 33 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Regulariza¸c˜ao (Pr´e-Poda)
Pare o algoritmo antes que a ´arvore esteja completa.
Outras condi¸c˜oes t´ıpicas de parada:
Pare se a expans˜ao do n´o corrente n˜ao melhora o ganho.
Pare quando o ganho n˜ao satisfizer um limiar pr´e-definido.
Pare se o n´umero de instˆancias for menor que um limiar
pr´e-definido.
Pare se o n´umero de n´os-folha for menor que um limiar
pr´e-definido.
Prof. Leandro Balby Marinho 34 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Regulariza¸c˜ao (P´os-Poda)
´Arvore cresce at´e o final.
N´os s˜ao podados de baixo para cima.
Por exemplo, substituir uma sub´arvore por um n´o-folha cuja
classifica¸c˜ao ´e feita pelo voto majorit´ario.
Prof. Leandro Balby Marinho 35 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Algoritmo DecisionTree [Lars, 2011]
DecisionTree(NodeT, Dtrain)
1 if stop criterion(Dtrain)
2 T.class = argmaxy∈Y p(y|t)
3 return
4 s = find best split(Dtrain)
5 T.split = s
6 for z ∈ Im(s)
7 cria no T
8 T.child[z] = T
9 DecisionTree(T , {(x, y) ∈ Dtrain | s(x) = z})
Prof. Leandro Balby Marinho 36 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Sum´ario
Modelo n˜ao param´etrico e de f´acil interpreta¸c˜ao.
Encontrar uma ´arvore de decis˜ao ´otima ´e um probema
NP-Completo, portanto as solu¸c˜oes s˜ao baseadas em
heur´ısticas.
Baixo custo de indu¸c˜ao predi¸c˜ao (O(w) onde w =altura da
´arvore).
´Arvores muito profundas tendem a sofrer overfitting.
S˜ao robustas contra ru´ıdo e overfitting, quando t´ecnicas de
regulariza¸c˜ao s˜ao usadas.
Prof. Leandro Balby Marinho 37 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Florestas Aleat´orias
Modelo estado-da-arte para classifica¸c˜ao e regress˜ao.
Constr´oi uma floresta de ´arvores de decis˜ao.
Cada ´arvore usa uma amostra aleat´oria dos dados de treino.
A classifica¸c˜ao ´e feita por meio da agrega¸c˜ao dos resultados
de cada ´arvore.
Florestas s˜ao robustas `a overfitting.
Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Tree Bagging [Wikipedia, 2013]
Existem muitos algoritmos de florestas aleat´orias. Abaixo
descrevemos um dos mais simples.
Para b = 1, . . . , B (B =nr. de ´arvores):
1. Amostre n instˆancias aleat´orias de treino sem repeti¸c˜ao e
chame-as de Tb ∈ Dtrain
.
2. Treine uma ´arvore de decis˜ao gb para cada Tb.
Agora a predi¸c˜ao para algum x cuja classe ´e desconhecida ´e
feita por:
ˆg(x ) = argmax
y∈Y
B
b=1
δ ˆgb(x , y)
Ou seja, use o voto majorit´ario entre as ´arvores da floresta.
Prof. Leandro Balby Marinho 39 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Roteiro
1. Introdu¸c˜ao
2. Tipos de Parti¸c˜oes de Atributos
3. Indu¸c˜ao de ´Arvores de Decis˜ao
4. Florestas Aleat´orias
5. Avalia¸c˜ao de Classificadores
Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Matriz de Confus˜ao
Avalia¸c˜ao do desempenho de classificadores ´e baseada na propor¸c˜ao
de instˆancias corretamente classificadas.
Esses valores podem ser extra´ıdos de uma tabela de confus˜ao.
PPPPPPPPPReal
Prevista
Classe=1 Classe=0
Classe=1 TP FN
Classe=0 FP TN
Onde TP e TN denotam o n´umero de instˆancias das classes 1 e 0
classificadas como 1 e 0 respectivamente, e FP e FN o contr´ario.
Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
M´etricas de Avalia¸c˜ao
Acur´acia:
acc =
TP + TN
TN + FN + FP + TP
Taxa de erro:
err =
FP + FN
TN + FN + FP + TP
Recall (sensitivity):
recall =
TP
TP + FN
Precision:
precision =
TP
TP + FP
Prof. Leandro Balby Marinho 41 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
M´etodo Holdout
Os dados s˜ao particionados aleatoriamente em dois conjuntos
disjuntos chamados treino e teste (e.g. 2/3 para treino e 1/3 para
teste).
O classificador ´e induzido no treino e avaliado no teste.
O m´etodo pode ser repetido v´arias vezes para melhorar a
confiabilidade das predi¸c˜oes (random subsampling).
Nesse caso, a acur´acia ´e dada por:
acc =
1
S
k
i=1
acci
onde S ´e o n´umero de parti¸c˜oes treino-teste geradas e acci a
acur´acia na parti¸c˜ao i.
Prof. Leandro Balby Marinho 42 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Valida¸c˜ao Cruzada
Cada instˆancia ´e usada exatamente uma vez para treino e
uma vez para teste.
No caso de uma parti¸c˜ao (1/2, 1/2) dos dados,
1. A primeira parte ´e usada para treino e a segunda para teste.
2. A segunda parte ´e usada para treino e a segunda para teste.
Essa ideia pode ser generalizada para k parti¸c˜oes de igual
tamanho.
Em cada execu¸c˜ao, k − 1 parti¸c˜oes s˜ao usadas para treino e
uma para teste.
O procedimento ´e repetido k vezes e a m´edia da acur´acia
calculada.
Prof. Leandro Balby Marinho 43 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Valida¸c˜ao Cruzada 5-fold
Prof. Leandro Balby Marinho 44 / 45 UFCG DSC
Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores
Referˆencias
Larry Wasserman. All of Statistics: A Concise Course in Statistical
Inference. Springer, 2003.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to
Data Minig. Primeira Edi¸c˜ao. Addison Wesley, 2006.
Lars Schmidt-Thieme. Notas de aula em aprendizagem de m´aquina.
Dispon´ıvel em: http://www.ismll.uni-hildesheim.de/lehre/
ml-11w/index_en.html
Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin.
Learning from Data. Primeira Edi¸c˜ao. AMLBook, 2012.
“Random Forests.” Wikipedia. Wikimedia Foundation Inc.. Jan, 1st,
2015. http://en.wikipedia.org/wiki/Random_forest .
Prof. Leandro Balby Marinho 45 / 45 UFCG DSC

Weitere ähnliche Inhalte

Andere mochten auch

Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetriaEnio José Bolognini
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cdUNIP - Universidade Paulista
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de SaídaSimulação
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatísticoJosimar Nunes
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02pso2510
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Estatística aplicada
Estatística aplicadaEstatística aplicada
Estatística aplicadaTiago Tomas
 
Estatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarialEstatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarialAdriano Bruni
 

Andere mochten auch (11)

Aula 10 coeficientes de variabilidade e assimetria
Aula 10   coeficientes de variabilidade e assimetriaAula 10   coeficientes de variabilidade e assimetria
Aula 10 coeficientes de variabilidade e assimetria
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd
 
664 2639-1-pb
664 2639-1-pb664 2639-1-pb
664 2639-1-pb
 
Análise de Dados de Saída
Análise de Dados de SaídaAnálise de Dados de Saída
Análise de Dados de Saída
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatístico
 
Estatistica aula 02
Estatistica aula 02Estatistica aula 02
Estatistica aula 02
 
Árvores de Decisão
Árvores de Decisão Árvores de Decisão
Árvores de Decisão
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
Estatística aplicada
Estatística aplicadaEstatística aplicada
Estatística aplicada
 
Slides de estatística aplicada
Slides de estatística aplicadaSlides de estatística aplicada
Slides de estatística aplicada
 
Estatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarialEstatística aplicada à gestão empresarial
Estatística aplicada à gestão empresarial
 

Kürzlich hochgeladen

Aula 1, 2 Bacterias Características e Morfologia.pptx
Aula 1, 2  Bacterias Características e Morfologia.pptxAula 1, 2  Bacterias Características e Morfologia.pptx
Aula 1, 2 Bacterias Características e Morfologia.pptxpamelacastro71
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Empreendedorismo: O que é ser empreendedor?
Empreendedorismo: O que é ser empreendedor?Empreendedorismo: O que é ser empreendedor?
Empreendedorismo: O que é ser empreendedor?MrciaRocha48
 
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbv19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbyasminlarissa371
 
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino FundamentalCartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamentalgeone480617
 
O guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdfO guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdfErasmo Portavoz
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISVitor Vieira Vasconcelos
 
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...Martin M Flynn
 
19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileirosMary Alvarenga
 
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
Geometria  5to Educacion Primaria EDU  Ccesa007.pdfGeometria  5to Educacion Primaria EDU  Ccesa007.pdf
Geometria 5to Educacion Primaria EDU Ccesa007.pdfDemetrio Ccesa Rayme
 
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕESPRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕESpatriciasofiacunha18
 
PRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basicoPRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basicoSilvaDias3
 
VALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSO
VALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSOVALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSO
VALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSOBiatrizGomes1
 
Noções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdf
Noções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdfNoções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdf
Noções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdfdottoor
 
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do  3ANO fundamental 1 MG.pdfPLANEJAMENTO anual do  3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdfProfGleide
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxIsabellaGomes58
 
Recurso Casa das Ciências: Sistemas de Partículas
Recurso Casa das Ciências: Sistemas de PartículasRecurso Casa das Ciências: Sistemas de Partículas
Recurso Casa das Ciências: Sistemas de PartículasCasa Ciências
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfaulasgege
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 

Kürzlich hochgeladen (20)

Aula 1, 2 Bacterias Características e Morfologia.pptx
Aula 1, 2  Bacterias Características e Morfologia.pptxAula 1, 2  Bacterias Características e Morfologia.pptx
Aula 1, 2 Bacterias Características e Morfologia.pptx
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
Empreendedorismo: O que é ser empreendedor?
Empreendedorismo: O que é ser empreendedor?Empreendedorismo: O que é ser empreendedor?
Empreendedorismo: O que é ser empreendedor?
 
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbv19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
v19n2s3a25.pdfgcbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb
 
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino FundamentalCartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
 
O guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdfO guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdf
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGIS
 
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
 
19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros
 
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
Geometria  5to Educacion Primaria EDU  Ccesa007.pdfGeometria  5to Educacion Primaria EDU  Ccesa007.pdf
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
 
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕESPRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
 
treinamento brigada incendio 2024 no.ppt
treinamento brigada incendio 2024 no.ppttreinamento brigada incendio 2024 no.ppt
treinamento brigada incendio 2024 no.ppt
 
PRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basicoPRIMEIRO---RCP - DEA - BLS estudos - basico
PRIMEIRO---RCP - DEA - BLS estudos - basico
 
VALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSO
VALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSOVALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSO
VALORES HUMANOS NA DISCIPLINA DE ENSINO RELIGIOSO
 
Noções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdf
Noções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdfNoções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdf
Noções de Orçamento Público AFO - CNU - Aula 1 - Alunos.pdf
 
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do  3ANO fundamental 1 MG.pdfPLANEJAMENTO anual do  3ANO fundamental 1 MG.pdf
PLANEJAMENTO anual do 3ANO fundamental 1 MG.pdf
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
 
Recurso Casa das Ciências: Sistemas de Partículas
Recurso Casa das Ciências: Sistemas de PartículasRecurso Casa das Ciências: Sistemas de Partículas
Recurso Casa das Ciências: Sistemas de Partículas
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdf
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 

Classificação de Vertebrados com Árvores de Decisão

  • 1. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores ´Arvores de Decis˜ao Prof. Dr. Leandro Balby Marinho An´alise de Dados I Prof. Leandro Balby Marinho 1 / 45 UFCG DSC
  • 2. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
  • 3. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Classifica¸c˜ao Classifica¸c˜ao Bin´aria: Tweet: Positivo/Negativo. Email: Spam/N˜ao Spam. Empr´estimo em Banco: Aprovado/N˜ao aprovado. Tumor: Maligno/Benigno. Classifica¸c˜ao Multiclasse: Detec¸c˜ao de d´ıgitos manuscritos: {0, 1, 2, . . . , 9}. Categoriza¸c˜ao de P´aginas Web: {pol´ıtica, esporte, . . .}. Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
  • 4. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Aprendizagem de M´aquina para Classifica¸c˜ao Exemplo: Aprova¸c˜ao de Cr´edito Idade 23 Sexo Masculino Sal´ario Anual R$60.000 Poupan¸ca R$10.000 Quantidade Pedida R$100.000 ... ... Aprovar cr´edito? Prof. Leandro Balby Marinho 3 / 45 UFCG DSC
  • 5. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Componentes da Aprendizagem Entrada: x (Dados do requerente) Sa´ıda: y (bom/mal cliente) Fun¸c˜ao alvo: f : X → Y (fun¸c˜ao ideal de aprova¸c˜ao de cr´edito) Dados de Treino: Dtrain := {(x1, y1), . . . , (xN , yN )} (registros hist´oricos) Hip´otese: g : X → Y Prof. Leandro Balby Marinho 4 / 45 UFCG DSC
  • 6. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Componentes da Aprendizagem [Yaser, 2012] Prof. Leandro Balby Marinho 5 / 45 UFCG DSC
  • 7. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Classificando com ´Arvores de Decis˜ao Considere o problema de classificar um vertebrado como mam´ıfero ou n˜ao mam´ıfero. Nome Temperatura do Corpo Dar `a Luz Mam´ıfero humano quente sim sim baleia quente sim sim salamandra frio n˜ao n˜ao pombo quente n˜ao n˜ao morcego quente sim sim sapo frio n˜ao n˜ao tubar˜ao-leopardo frio sim n˜ao salm˜ao frio n˜ao n˜ao Prof. Leandro Balby Marinho 6 / 45 UFCG DSC
  • 8. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Classificando com ´Arvores de Decis˜ao Prof. Leandro Balby Marinho 7 / 45 UFCG DSC
  • 9. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores O que ´e uma ´Arvore de Decis˜ao? Uma ´arvore de decis˜ao ´e uma ´arvore que: Possui um n´o raiz. Cada n´o interno tem uma regra que atribui instˆancias de treino unicamente aos n´os filhos. Cada n´o folha tem um r´otulo de classe. Tipos de ´Arvore ´Arvore de Regress˜ao: n´os folha cont´em valores num´ericos. ´Arvores Probabil´ısticas: n´os folha cont´em probabilidades. Prof. Leandro Balby Marinho 8 / 45 UFCG DSC
  • 10. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores ´Arvore de Decis˜ao como Regras de Decis˜ao Temperatura do Corpo = fria → classe = nao (Temperatura do Corpo = quente) ∧ (Dar `a Luz = sim) → classe = sim (Temperatura do Corpo = quente) ∧ (Dar `a Luz = n˜ao) → classe = n˜ao Prof. Leandro Balby Marinho 9 / 45 UFCG DSC
  • 11. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
  • 12. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Atributos Nominais Se o atributo for bin´ario, o teste gera duas sa´ıdas poss´ıveis. Se o atributo for multinomial: (i) h´a uma sa´ıda para cada valor do atributo, ou os valores de atributos s˜ao combinados para gerar uma sa´ıda bin´aria. Nesse caso h´a 2k−1 − 1 parti¸c˜oes poss´ıveis para k valores de atributos. Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
  • 13. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Atributos Ordinais A sa´ıda pode ser bin´aria ou multinomial, mas a ordem dos valores deve ser preservada. Prof. Leandro Balby Marinho 11 / 45 UFCG DSC
  • 14. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Atributos Num´ericos A sa´ıda pode ser bin´aria ou multinomial. Para sa´ıdas multinomiais cada valor corresponde a um intervalo do tipo vi ≤ X < vi+1 onde vi ∈ Dom(X) para i = 1, . . . , k. Prof. Leandro Balby Marinho 12 / 45 UFCG DSC
  • 15. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
  • 16. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Formaliza¸c˜ao do Problema Dado um conjunto de treino Dtrain, encontre uma ´arvore g : X → Y tal que para um conjunto de teste Dtest ⊆ X × Y (desconhecido durante o treino), o erro de classifica¸c˜ao no teste err(g; Dtest ) := 1 |Dtest| (x,y)∈Dtest δ(g(x), y) seja m´ınimo. δ(g(x), y) = 0 se g(x) = y e 1 caso contr´ario. Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
  • 17. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Formaliza¸c˜ao do Problema Como Dtest ´e desconhecido, procuramos a ´arvore que minimize o erro de classifica¸c˜ao em Dtrain . Para isso, assume-se que a distribui¸c˜ao de instˆancias nas classes do treino ≈ a distribui¸c˜ao de instˆancias nas classes do teste. Uma abordagem for¸ca bruta ´e invi´avel pois o n´umero de ´arvores no espa¸co de busca cresce exponencialmente com o n´umero de atributos. Prof. Leandro Balby Marinho 14 / 45 UFCG DSC
  • 18. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Busca Gulosa Sendo assim, uma busca gulosa ´e usada de forma que: ´Arvores s˜ao constru´ıdas a partir da raiz em uma sequˆencia de passos at´e que a ´arvore final seja encontrada. Em cado passo a escolha deve ser 1. ´otima localmente. 2. irrevog´avel. Hip´otese: uma sequˆencia de sele¸c˜oes ´otimas localmente levar˜ao a uma solu¸c˜ao ´otima global no final. Prof. Leandro Balby Marinho 15 / 45 UFCG DSC
  • 19. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Indu¸c˜ao de ´Arvores de Decis˜ao Ideia: testar os atributos mais importantes primeiro. Atributos importantes tem maior poder de classifica¸c˜ao. Condi¸c˜ao de parada: 1. expandir um n´o at´e que (quase) todas as instˆancias possuam a mesma classe, ou 2. nenhum dos atributos apresentem “ganho de informa¸c˜ao”. 3. n˜ao existam mais atributos para discriminar as instˆancias. 4. a ´arvore atingiu uma altura predefinida. Prof. Leandro Balby Marinho 16 / 45 UFCG DSC
  • 20. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2 Considere os dados do Exemplo 1 novamente com a adi¸c˜ao do atributo bin´ario Pernas. Tid Nome Temperatura do Corpo Pernas Dar `a Luz Mam´ıfero 1 humano quente sim sim sim 2 baleia quente n˜ao sim sim 3 salamandra frio sim n˜ao n˜ao 4 pombo quente sim n˜ao n˜ao 5 morcego quente sim sim sim 6 sapo frio sim n˜ao n˜ao 7 tubar˜ao-leopardo frio n˜ao sim n˜ao 8 salm˜ao frio sim n˜ao n˜ao Prof. Leandro Balby Marinho 17 / 45 UFCG DSC
  • 21. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos Qual atributo tem maior poder de classifica¸c˜ao? Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
  • 22. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos Qual atributo tem maior poder de classifica¸c˜ao? Para Temperatura do Corpo=fria e Dar `a Luz=n˜ao todas as instˆancias s˜ao classificadas como N˜ao. Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
  • 23. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos Repetimos o processo para as instˆancias onde Temperatura do Cor- po=quente. Prof. Leandro Balby Marinho 19 / 45 UFCG DSC
  • 24. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Sele¸c˜ao de Atributos O processo termina quando todos os n´os folha possuem somente instˆancias de uma mesma classe. Prof. Leandro Balby Marinho 20 / 45 UFCG DSC
  • 25. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Tratando Casos Especiais Se algum dos n´os filho estiver vazio (i.e., nenhuma instˆancia associada), o n´o ´e declarado folha com o r´otulo da classe majorit´aria. Se n˜ao houverem mais atributos, mas ainda existirem exemplos positivos e negativos, o n´o ´e declarado folha com o r´otulo da classe majorit´aria. Prof. Leandro Balby Marinho 21 / 45 UFCG DSC
  • 26. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Fronteira de Decis˜ao [Tan, 2007] 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 0.1 0.1 q q q q q q q As fronteiras de decis˜ao s˜ao retil´ıneas. Prof. Leandro Balby Marinho 22 / 45 UFCG DSC
  • 27. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Medidas de Impureza de Atributos As medidas mais usadas para a sele¸c˜ao de atributos s˜ao entropia, coeficiente de Gini e erro de classifica¸c˜ao. Seja p(y|t) a probabilidade condicional da classe y ∈ Y no n´o t. As medidas s˜ao dadas abaixo: Entropia(t) := − y∈Y p(y|t) log2 p(y|t) Gini(t) := 1 − y∈Y p(y|t)2 Erro Class(t) := 1 − max y∈Y [p(y|t)] Prof. Leandro Balby Marinho 23 / 45 UFCG DSC
  • 28. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Medidas de Impureza para Classifica¸c˜ao Bin´aria 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 p medida 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 p medida 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 p medida Entropia Gini Erro de Classificacao Prof. Leandro Balby Marinho 24 / 45 UFCG DSC
  • 29. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 3 N´o N1 # Instˆancias Classe=0 0 Classe=1 6 Gini = 1 − (0/6)2 − (6/6)2 = 0 Entropia = − (0/6) log2(0/6) − (6/6) log2(6/6) = 0 Erro Class = 1 − max[0/6, 6/6] = 0 Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
  • 30. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 3 N´o N2 # Instˆancias Classe=0 1 Classe=1 5 Gini = 1 − (1/6)2 − (5/6)2 = 0.278 Entropia = − (1/6) log2(1/6) − (5/6) log2(5/6) = 0.650 Erro Class = 1 − max[1/6, 5/6] = 0.167 Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
  • 31. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 3 N´o N3 # Instˆancias Classe=0 3 Classe=1 3 Gini = 1 − (3/6)2 − (3/6)2 = 0.5 Entropia = − (3/6) log2(3/6) − (3/6) log2(3/6) = 1 Erro Class = 1 − max[3/6, 3/6] = 0.5 Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
  • 32. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Qualidade da Parti¸c˜ao de Atributos Para medir a qualidade da parti¸c˜ao para um atributo x, comparamos os graus de impureza da parti¸c˜ao anterior a x com os das parti¸c˜oes geradas pelos valores de x. Quanto maior a diferen¸ca melhor. Chamamos isso de ganho de informa¸c˜ao que ´e calculado como segue: ∆(x) = I(P1) − k j=1 N(Pj ) N I(Pj ) onde I(.) ´e a medida de impureza de um dado n´o, N ´e o n´umero de registros da parti¸c˜ao P1, k ´e o n´umero de valores do atributo e N(Pj ) ´e o n´umero de registros associados ´a parti¸c˜ao Pj . Prof. Leandro Balby Marinho 26 / 45 UFCG DSC
  • 33. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2 Revisitado Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375) Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
  • 34. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2 Revisitado Seja Dar `a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e p(y|t1) = p(y|t2) = p(y|t3) = (0.625, 0.375) Gini(t1) = Gini(t2) = Gini(t3) = 1 − (0.625)2 − (0.375)2 = 0.468 Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
  • 35. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t1) ∆ = 0.468 − ( 4 8 0.375 + 4 8 0) = 0.2805 Prof. Leandro Balby Marinho 28 / 45 UFCG DSC
  • 36. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t2) ∆ = 0.468 − ( 4 8 0.375 + 4 8 0) = 0.2805 Prof. Leandro Balby Marinho 29 / 45 UFCG DSC
  • 37. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t3) ∆ = 0.468 − ( 6 8 0.44 + 2 8 0.5) = 0.013 Prof. Leandro Balby Marinho 30 / 45 UFCG DSC
  • 38. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: Chamada Recursiva no Atributo Escolhido Antes da parti¸c˜ao, a distribui¸c˜ao das classes ´e P(c|t1) = P(c|t2) = (0.25, 0.75). Gini(t1) = Gini(t3) = 1 − (0.75)2 − (0.25)2 = 0.375 Prof. Leandro Balby Marinho 31 / 45 UFCG DSC
  • 39. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t2 → t1) ∆ = 0.375 − ( 3 4 0 + 1 4 0) = 0.375 Prof. Leandro Balby Marinho 32 / 45 UFCG DSC
  • 40. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Exemplo 2: C´alculo do Ganho (t2 → t3) ∆ = 0.375 − ( 3 4 0.44 + 1 4 0) = 0.045 Prof. Leandro Balby Marinho 33 / 45 UFCG DSC
  • 41. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Regulariza¸c˜ao (Pr´e-Poda) Pare o algoritmo antes que a ´arvore esteja completa. Outras condi¸c˜oes t´ıpicas de parada: Pare se a expans˜ao do n´o corrente n˜ao melhora o ganho. Pare quando o ganho n˜ao satisfizer um limiar pr´e-definido. Pare se o n´umero de instˆancias for menor que um limiar pr´e-definido. Pare se o n´umero de n´os-folha for menor que um limiar pr´e-definido. Prof. Leandro Balby Marinho 34 / 45 UFCG DSC
  • 42. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Regulariza¸c˜ao (P´os-Poda) ´Arvore cresce at´e o final. N´os s˜ao podados de baixo para cima. Por exemplo, substituir uma sub´arvore por um n´o-folha cuja classifica¸c˜ao ´e feita pelo voto majorit´ario. Prof. Leandro Balby Marinho 35 / 45 UFCG DSC
  • 43. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Algoritmo DecisionTree [Lars, 2011] DecisionTree(NodeT, Dtrain) 1 if stop criterion(Dtrain) 2 T.class = argmaxy∈Y p(y|t) 3 return 4 s = find best split(Dtrain) 5 T.split = s 6 for z ∈ Im(s) 7 cria no T 8 T.child[z] = T 9 DecisionTree(T , {(x, y) ∈ Dtrain | s(x) = z}) Prof. Leandro Balby Marinho 36 / 45 UFCG DSC
  • 44. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Sum´ario Modelo n˜ao param´etrico e de f´acil interpreta¸c˜ao. Encontrar uma ´arvore de decis˜ao ´otima ´e um probema NP-Completo, portanto as solu¸c˜oes s˜ao baseadas em heur´ısticas. Baixo custo de indu¸c˜ao predi¸c˜ao (O(w) onde w =altura da ´arvore). ´Arvores muito profundas tendem a sofrer overfitting. S˜ao robustas contra ru´ıdo e overfitting, quando t´ecnicas de regulariza¸c˜ao s˜ao usadas. Prof. Leandro Balby Marinho 37 / 45 UFCG DSC
  • 45. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
  • 46. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Florestas Aleat´orias Modelo estado-da-arte para classifica¸c˜ao e regress˜ao. Constr´oi uma floresta de ´arvores de decis˜ao. Cada ´arvore usa uma amostra aleat´oria dos dados de treino. A classifica¸c˜ao ´e feita por meio da agrega¸c˜ao dos resultados de cada ´arvore. Florestas s˜ao robustas `a overfitting. Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
  • 47. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Tree Bagging [Wikipedia, 2013] Existem muitos algoritmos de florestas aleat´orias. Abaixo descrevemos um dos mais simples. Para b = 1, . . . , B (B =nr. de ´arvores): 1. Amostre n instˆancias aleat´orias de treino sem repeti¸c˜ao e chame-as de Tb ∈ Dtrain . 2. Treine uma ´arvore de decis˜ao gb para cada Tb. Agora a predi¸c˜ao para algum x cuja classe ´e desconhecida ´e feita por: ˆg(x ) = argmax y∈Y B b=1 δ ˆgb(x , y) Ou seja, use o voto majorit´ario entre as ´arvores da floresta. Prof. Leandro Balby Marinho 39 / 45 UFCG DSC
  • 48. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Roteiro 1. Introdu¸c˜ao 2. Tipos de Parti¸c˜oes de Atributos 3. Indu¸c˜ao de ´Arvores de Decis˜ao 4. Florestas Aleat´orias 5. Avalia¸c˜ao de Classificadores Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
  • 49. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Matriz de Confus˜ao Avalia¸c˜ao do desempenho de classificadores ´e baseada na propor¸c˜ao de instˆancias corretamente classificadas. Esses valores podem ser extra´ıdos de uma tabela de confus˜ao. PPPPPPPPPReal Prevista Classe=1 Classe=0 Classe=1 TP FN Classe=0 FP TN Onde TP e TN denotam o n´umero de instˆancias das classes 1 e 0 classificadas como 1 e 0 respectivamente, e FP e FN o contr´ario. Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
  • 50. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores M´etricas de Avalia¸c˜ao Acur´acia: acc = TP + TN TN + FN + FP + TP Taxa de erro: err = FP + FN TN + FN + FP + TP Recall (sensitivity): recall = TP TP + FN Precision: precision = TP TP + FP Prof. Leandro Balby Marinho 41 / 45 UFCG DSC
  • 51. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores M´etodo Holdout Os dados s˜ao particionados aleatoriamente em dois conjuntos disjuntos chamados treino e teste (e.g. 2/3 para treino e 1/3 para teste). O classificador ´e induzido no treino e avaliado no teste. O m´etodo pode ser repetido v´arias vezes para melhorar a confiabilidade das predi¸c˜oes (random subsampling). Nesse caso, a acur´acia ´e dada por: acc = 1 S k i=1 acci onde S ´e o n´umero de parti¸c˜oes treino-teste geradas e acci a acur´acia na parti¸c˜ao i. Prof. Leandro Balby Marinho 42 / 45 UFCG DSC
  • 52. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Valida¸c˜ao Cruzada Cada instˆancia ´e usada exatamente uma vez para treino e uma vez para teste. No caso de uma parti¸c˜ao (1/2, 1/2) dos dados, 1. A primeira parte ´e usada para treino e a segunda para teste. 2. A segunda parte ´e usada para treino e a segunda para teste. Essa ideia pode ser generalizada para k parti¸c˜oes de igual tamanho. Em cada execu¸c˜ao, k − 1 parti¸c˜oes s˜ao usadas para treino e uma para teste. O procedimento ´e repetido k vezes e a m´edia da acur´acia calculada. Prof. Leandro Balby Marinho 43 / 45 UFCG DSC
  • 53. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Valida¸c˜ao Cruzada 5-fold Prof. Leandro Balby Marinho 44 / 45 UFCG DSC
  • 54. Introdu¸c˜ao Tipos de Parti¸c˜oes de Atributos Indu¸c˜ao de ´Arvores de Decis˜ao Florestas Aleat´orias Avalia¸c˜ao de Classificadores Referˆencias Larry Wasserman. All of Statistics: A Concise Course in Statistical Inference. Springer, 2003. Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Minig. Primeira Edi¸c˜ao. Addison Wesley, 2006. Lars Schmidt-Thieme. Notas de aula em aprendizagem de m´aquina. Dispon´ıvel em: http://www.ismll.uni-hildesheim.de/lehre/ ml-11w/index_en.html Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin. Learning from Data. Primeira Edi¸c˜ao. AMLBook, 2012. “Random Forests.” Wikipedia. Wikimedia Foundation Inc.. Jan, 1st, 2015. http://en.wikipedia.org/wiki/Random_forest . Prof. Leandro Balby Marinho 45 / 45 UFCG DSC