SlideShare ist ein Scribd-Unternehmen logo
1 von 2
Downloaden Sie, um offline zu lesen
DM2007 model theorie-opgaven week 3
1. Verdeel de numerieke temperatuurdata bij het voorbeeld van 1R in groepen met een grootte van min-
stens 2 en vergelijk uw verdeling met de standaarddiscretisatie en die met een minimale groepsgrootte
van 3. Welke van de drie heeft uw voorkeur?
• Indelingen (1/2 punt)
– Geen beperking groepsgrootte, errorrate: 1/14 (pas op bij 72!)
yes no yes yes yes no no yes yes yes no yes yes no
– Groepsgrootte minimaal 2, errorrate: 4/14 (meerdere goede antwoorden)
yes no yes yes yes no no yes yes yes no yes yes no
yes no yes yes yes no no yes yes yes no yes yes no
– Groepsgrootte minimaal 3, errorrate: 5/14 (meerdere goede antwoorden)
yes no yes yes yes no no yes yes yes no yes yes no
yes no yes yes yes no no yes yes yes no yes yes no
• Voorkeur: groepsgrootte 1 heeft het meest last van overfitting en groepsgrootte 3 heeft
de hoogste errorrate (op de trainingsdata). We kiezen groepsgrootte 2. (1/2 punt)
2. Reken voor de nominale weerdata uit wat de waarschijnlijkheid is op spelen en op niet spelen voor de
attribuutwaarden (sunny, hot, high, false) volgens de statistische methode gebaseerd op de Bayesregel.
(1 punt)
Met behulp van Tabel 4.2, (bladzijde 89, tweede editie):
likelyhood van yes = P(O=s|y)P(T=h|y)P(H=h|y)P(W=f|y)P(P=y)
=
2
9
·
2
9
·
3
9
·
6
9
·
9
14
= 0.0071
likelyhood van no = P(O=s|n)P(T=h|n)P(H=h|n)P(W=f|n)P(P=n)
=
3
5
·
2
5
·
4
5
·
2
5
·
5
14
= 0.027
P(yes|E) =
0.0071
0.0071 + 0.027
= 21%
P(no|E) =
0.027
0.0071 + 0.027
= 79%
3. Bij de traininginstanties van de weerdata staat een instantie (sunny, hot, high, false) met klasse “no”
(Tabel 1.2). Leg uit waarom bij de vorige opgave de kans op niet spelen desondanks kleiner is dan
100%.
De voorspelling van Naive Bayes is gebaseerd op de kans dat bij individuele attribuutwaar-
den klasse ”no” optreedt. De kans 100% voor klasse ”no” kan alleen worden voorspeld
als hier bij minstens 1 van de vier attributenwaarden van de testinstantie altijd klasse ”no”
optreedt. Bij deze testinstantie is dit niet het geval.
4. Bij de weerdata (Tabel 1.2) wordt de waarde van het windattribuut voor de trainingsinstantie (sunny,
hot, high, false) vervangen door OnbekendeWaarde. Wat voor invloed heeft dit op de kansen op de
attribuutwaarden van Outlook, Temperature, Humidity en Wind? Laat zien wat de vier windkansen
(eerst 6/9, 3/9, 2/5 en 3/5, Tabel 4.2) zijn na deze verandering.
De kansen voor Outlook, Temperature en Humidity en de kansen voor Windy in combinatie
met Play=yes blijven hetzelfde maar de kansen voor Windy in combinatie met Play=no ver-
anderen: 1/4 en 3/4 (eerst 2/5 en 2/5, zie Tabel 4.2, bladzijde 89, tweede editie).
5. Reken voor de nominale weerdata uit wat de waarschijnlijkheid is op spelen en op niet spelen voor
de attribuutwaarden (overcast, cool, normal, false) volgens de statistische methode gebaseerd op de
Bayesregel na het toepassen van add-one-smoothing (sectie 4.2, blz. 91 van de 2e editie). (1 punt)
Met behulp van Tabel 4.2, (bladzijde 89, tweede editie):
likelyhood van yes = P(O=o|y)P(T=c|y)P(H=n|y)P(W=f|y)P(P=y)
=
4 + 1
9 + 3
·
3 + 1
9 + 3
·
6 + 1
9 + 2
·
6 + 1
9 + 2
·
9 + 1
14 + 2
= 0.035
likelyhood van no = P(O=o|n)P(T=c|n)P(H=n|n)P(W=f|n)P(P=n)
=
0 + 1
5 + 3
·
1 + 1
5 + 3
·
1 + 1
5 + 2
·
2 + 1
5 + 2
·
5 + 1
14 + 2
= 0.0014
P(yes|E) =
0.035
0.035 + 0.0014
= 96%
P(yes|E) =
0.0014
0.035 + 0.0014
= 4%
6. Bereken de waarde van de probability density function voor de temperatuur 66 als bekend is dat er
niet gespeeld wordt. Opgelet: in de functie in het boek (blz 93 van de 2e editie) ontbreekt een minteken
voor de exponent van e!
Met behulp van Tabel 4.4, (bladzijde 93, tweede editie): µ = 74.6, σ = 7.9
f(t = 66|no) =
1
σ
√
2π
· e−(
(t−µ)2
2σ2 )
=
1
7.9
√
2π
· e−(
(66−74.6)2
2·7.92 )
= 0.028
7. Welke taak probeert TAR2 zo goed mogelijk uit te voeren?
De TAR2 treatment learner zoekt naar een minimale verzameling van verschillen tussen
traininginstanties, en probeert een klein en simpel model te leren door alleen essentiele ver-
schillen te gebruiken. (1 punt)
8. Leg uit wat in het artikel wordt bedoeld met Lift.
Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een
taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt)
9. Leg uit waarom in figuur 2, A2 beter is dan zowel A1 als C2.
• Beter dan A1: geen high-risk incidenten en minder incidenten in totaal (1/2 punt)
• Beter dan C2: bijna zelfde performance, maar met veel eenvoudiger regels (1/2 punt)
10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee eens? Waarom?
In de praktijk zijn grote modellen met vele duizenden regels of bomen met duizenden ver-
takkingen niet nuttig voor mensen om van te leren. Treatment learning kan kleinere mod-
ellen genereren die daarvoor meer geschikt zijn. (1/2 punt). Eigen mening (1/2 punt)

Weitere ähnliche Inhalte

Mehr von okeee

Dm part03 neural-networks-homework
Dm part03 neural-networks-homeworkDm part03 neural-networks-homework
Dm part03 neural-networks-homeworkokeee
 
10[1].1.1.115.9508
10[1].1.1.115.950810[1].1.1.115.9508
10[1].1.1.115.9508okeee
 
Prob18
Prob18Prob18
Prob18okeee
 
Overfit10
Overfit10Overfit10
Overfit10okeee
 
Decision tree.10.11
Decision tree.10.11Decision tree.10.11
Decision tree.10.11okeee
 
Dm week01 linreg.handout
Dm week01 linreg.handoutDm week01 linreg.handout
Dm week01 linreg.handoutokeee
 
Dm week02 decision-trees-handout
Dm week02 decision-trees-handoutDm week02 decision-trees-handout
Dm week02 decision-trees-handoutokeee
 
Dm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutDm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutokeee
 
Dm week01 intro.handout
Dm week01 intro.handoutDm week01 intro.handout
Dm week01 intro.handoutokeee
 
Dm week01 homework(1)
Dm week01 homework(1)Dm week01 homework(1)
Dm week01 homework(1)okeee
 
Chapter7 huizing
Chapter7 huizingChapter7 huizing
Chapter7 huizingokeee
 
Chapter8 choo
Chapter8 chooChapter8 choo
Chapter8 choookeee
 
Chapter6 huizing
Chapter6 huizingChapter6 huizing
Chapter6 huizingokeee
 
Kbms text-image
Kbms text-imageKbms text-image
Kbms text-imageokeee
 
Kbms audio
Kbms audioKbms audio
Kbms audiookeee
 
Kbms jan catin cont(1)
Kbms jan catin cont(1)Kbms jan catin cont(1)
Kbms jan catin cont(1)okeee
 
Kbms video-app
Kbms video-appKbms video-app
Kbms video-appokeee
 
Sw owl rules-proposal
Sw owl rules-proposalSw owl rules-proposal
Sw owl rules-proposalokeee
 
Sw practicumopdracht 4
Sw practicumopdracht 4Sw practicumopdracht 4
Sw practicumopdracht 4okeee
 
Sw cursusoverzicht
Sw cursusoverzichtSw cursusoverzicht
Sw cursusoverzichtokeee
 

Mehr von okeee (20)

Dm part03 neural-networks-homework
Dm part03 neural-networks-homeworkDm part03 neural-networks-homework
Dm part03 neural-networks-homework
 
10[1].1.1.115.9508
10[1].1.1.115.950810[1].1.1.115.9508
10[1].1.1.115.9508
 
Prob18
Prob18Prob18
Prob18
 
Overfit10
Overfit10Overfit10
Overfit10
 
Decision tree.10.11
Decision tree.10.11Decision tree.10.11
Decision tree.10.11
 
Dm week01 linreg.handout
Dm week01 linreg.handoutDm week01 linreg.handout
Dm week01 linreg.handout
 
Dm week02 decision-trees-handout
Dm week02 decision-trees-handoutDm week02 decision-trees-handout
Dm week02 decision-trees-handout
 
Dm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutDm week01 prob-refresher.handout
Dm week01 prob-refresher.handout
 
Dm week01 intro.handout
Dm week01 intro.handoutDm week01 intro.handout
Dm week01 intro.handout
 
Dm week01 homework(1)
Dm week01 homework(1)Dm week01 homework(1)
Dm week01 homework(1)
 
Chapter7 huizing
Chapter7 huizingChapter7 huizing
Chapter7 huizing
 
Chapter8 choo
Chapter8 chooChapter8 choo
Chapter8 choo
 
Chapter6 huizing
Chapter6 huizingChapter6 huizing
Chapter6 huizing
 
Kbms text-image
Kbms text-imageKbms text-image
Kbms text-image
 
Kbms audio
Kbms audioKbms audio
Kbms audio
 
Kbms jan catin cont(1)
Kbms jan catin cont(1)Kbms jan catin cont(1)
Kbms jan catin cont(1)
 
Kbms video-app
Kbms video-appKbms video-app
Kbms video-app
 
Sw owl rules-proposal
Sw owl rules-proposalSw owl rules-proposal
Sw owl rules-proposal
 
Sw practicumopdracht 4
Sw practicumopdracht 4Sw practicumopdracht 4
Sw practicumopdracht 4
 
Sw cursusoverzicht
Sw cursusoverzichtSw cursusoverzicht
Sw cursusoverzicht
 

Dm uitwerkingen wc3

  • 1. DM2007 model theorie-opgaven week 3 1. Verdeel de numerieke temperatuurdata bij het voorbeeld van 1R in groepen met een grootte van min- stens 2 en vergelijk uw verdeling met de standaarddiscretisatie en die met een minimale groepsgrootte van 3. Welke van de drie heeft uw voorkeur? • Indelingen (1/2 punt) – Geen beperking groepsgrootte, errorrate: 1/14 (pas op bij 72!) yes no yes yes yes no no yes yes yes no yes yes no – Groepsgrootte minimaal 2, errorrate: 4/14 (meerdere goede antwoorden) yes no yes yes yes no no yes yes yes no yes yes no yes no yes yes yes no no yes yes yes no yes yes no – Groepsgrootte minimaal 3, errorrate: 5/14 (meerdere goede antwoorden) yes no yes yes yes no no yes yes yes no yes yes no yes no yes yes yes no no yes yes yes no yes yes no • Voorkeur: groepsgrootte 1 heeft het meest last van overfitting en groepsgrootte 3 heeft de hoogste errorrate (op de trainingsdata). We kiezen groepsgrootte 2. (1/2 punt) 2. Reken voor de nominale weerdata uit wat de waarschijnlijkheid is op spelen en op niet spelen voor de attribuutwaarden (sunny, hot, high, false) volgens de statistische methode gebaseerd op de Bayesregel. (1 punt) Met behulp van Tabel 4.2, (bladzijde 89, tweede editie): likelyhood van yes = P(O=s|y)P(T=h|y)P(H=h|y)P(W=f|y)P(P=y) = 2 9 · 2 9 · 3 9 · 6 9 · 9 14 = 0.0071 likelyhood van no = P(O=s|n)P(T=h|n)P(H=h|n)P(W=f|n)P(P=n) = 3 5 · 2 5 · 4 5 · 2 5 · 5 14 = 0.027 P(yes|E) = 0.0071 0.0071 + 0.027 = 21% P(no|E) = 0.027 0.0071 + 0.027 = 79% 3. Bij de traininginstanties van de weerdata staat een instantie (sunny, hot, high, false) met klasse “no” (Tabel 1.2). Leg uit waarom bij de vorige opgave de kans op niet spelen desondanks kleiner is dan 100%. De voorspelling van Naive Bayes is gebaseerd op de kans dat bij individuele attribuutwaar- den klasse ”no” optreedt. De kans 100% voor klasse ”no” kan alleen worden voorspeld als hier bij minstens 1 van de vier attributenwaarden van de testinstantie altijd klasse ”no” optreedt. Bij deze testinstantie is dit niet het geval. 4. Bij de weerdata (Tabel 1.2) wordt de waarde van het windattribuut voor de trainingsinstantie (sunny, hot, high, false) vervangen door OnbekendeWaarde. Wat voor invloed heeft dit op de kansen op de attribuutwaarden van Outlook, Temperature, Humidity en Wind? Laat zien wat de vier windkansen (eerst 6/9, 3/9, 2/5 en 3/5, Tabel 4.2) zijn na deze verandering. De kansen voor Outlook, Temperature en Humidity en de kansen voor Windy in combinatie met Play=yes blijven hetzelfde maar de kansen voor Windy in combinatie met Play=no ver- anderen: 1/4 en 3/4 (eerst 2/5 en 2/5, zie Tabel 4.2, bladzijde 89, tweede editie).
  • 2. 5. Reken voor de nominale weerdata uit wat de waarschijnlijkheid is op spelen en op niet spelen voor de attribuutwaarden (overcast, cool, normal, false) volgens de statistische methode gebaseerd op de Bayesregel na het toepassen van add-one-smoothing (sectie 4.2, blz. 91 van de 2e editie). (1 punt) Met behulp van Tabel 4.2, (bladzijde 89, tweede editie): likelyhood van yes = P(O=o|y)P(T=c|y)P(H=n|y)P(W=f|y)P(P=y) = 4 + 1 9 + 3 · 3 + 1 9 + 3 · 6 + 1 9 + 2 · 6 + 1 9 + 2 · 9 + 1 14 + 2 = 0.035 likelyhood van no = P(O=o|n)P(T=c|n)P(H=n|n)P(W=f|n)P(P=n) = 0 + 1 5 + 3 · 1 + 1 5 + 3 · 1 + 1 5 + 2 · 2 + 1 5 + 2 · 5 + 1 14 + 2 = 0.0014 P(yes|E) = 0.035 0.035 + 0.0014 = 96% P(yes|E) = 0.0014 0.035 + 0.0014 = 4% 6. Bereken de waarde van de probability density function voor de temperatuur 66 als bekend is dat er niet gespeeld wordt. Opgelet: in de functie in het boek (blz 93 van de 2e editie) ontbreekt een minteken voor de exponent van e! Met behulp van Tabel 4.4, (bladzijde 93, tweede editie): µ = 74.6, σ = 7.9 f(t = 66|no) = 1 σ √ 2π · e−( (t−µ)2 2σ2 ) = 1 7.9 √ 2π · e−( (66−74.6)2 2·7.92 ) = 0.028 7. Welke taak probeert TAR2 zo goed mogelijk uit te voeren? De TAR2 treatment learner zoekt naar een minimale verzameling van verschillen tussen traininginstanties, en probeert een klein en simpel model te leren door alleen essentiele ver- schillen te gebruiken. (1 punt) 8. Leg uit wat in het artikel wordt bedoeld met Lift. Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt) 9. Leg uit waarom in figuur 2, A2 beter is dan zowel A1 als C2. • Beter dan A1: geen high-risk incidenten en minder incidenten in totaal (1/2 punt) • Beter dan C2: bijna zelfde performance, maar met veel eenvoudiger regels (1/2 punt) 10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee eens? Waarom? In de praktijk zijn grote modellen met vele duizenden regels of bomen met duizenden ver- takkingen niet nuttig voor mensen om van te leren. Treatment learning kan kleinere mod- ellen genereren die daarvoor meer geschikt zijn. (1/2 punt). Eigen mening (1/2 punt)