SlideShare ist ein Scribd-Unternehmen logo
1 von 20
Handson lab
met Decision
Trees
Inhoud
• Introductie in R
• R syntax
• Introductie Decision Tree model
• Voorbeeld Decision Tree model
• Handson met Decision Trees
Introductie in R 2
Introductie in R
Introductie R
• High level scripttaal
• Ontwikkeld voor statistische
berekeningen
• Visualiseert modellen zeer gemakkelijk
• Vergelijkbaar met Matlab en Python
Introductie in R 4
Introductie R
• Grootste marktaandeel binnen data
science
• Gratis en open source
• Grote hoeveelheid libraries
• Grote community
Introductie in R 5
Installatie R
• Download en installeer R:
• https://www.r-project.org/
• Download en installeer Rstudio (een
goede en gratis IDE voor R)
• https://www.rstudio.com/
Introductie in R 6
Introductie in R 7
R syntax
Toekenning
• Merk op: de x’te machtswortel van y is y^(1/x)
Berekeningen
Introductie in R 8
R syntax
• Merk op: vectoren beginnen bij 1!
• [0] geeft het type vector
• Out of bounds geeft NA, geen error
Vectoren
• Merk op: default operaties zijn scalair
• Matrices beginnen bij 1.
Matrices
R syntax
• Packages installeren en aanroepen:
(Je “import” statements)
Introductie in R 9
Introductie
Decision Tree
model
Intuïtief voorbeeld
Je vraagt aan een vriend: “Welke sport
moet ik gaan doen?”
• Teamsport?
• Hou je van balsporten?
• Werk je het liefst met je handen?
• Hou je van stoeien?
• Doe je graag zwaar werk?
Introductie in R 11
Teamsport
Balsport
Handen
Basketbal Voetbal Stoeien
ZwaarJiu jitsu
Krachttraining Hardlopen
Touwtrekken
Introductie
• Classification and Regression Tree
(CART)
• Zeer gemakkelijk qua interpretatie
• Predictief niet het beste
 Methoden om CART te verbeteren:
• Bagging
• Boosting
• Random Forest
• Voorbeeld hiernaast: huisprijs
Introductie in R 12
Voordelen
• Conceptueel gemakkelijk
• Gemakkelijke interpretatie
• Werkt even goed voor classificatie als
regressie
• Snel
• Gaat goed om met missing values
Introductie in R 13
Nadelen
• Overfitting
• Instabiel
• “Groot”
Introductie in R 14
Opbouw
• 1 grote dataset: veel
onzekerheid/variantie
• Opsplitsen in categorieën, steeds
minder variantie per categorie
• Opsplitsing die de meeste variantie
verklaart eerst
• Dan de volgende binnen die
categorie
Introductie in R 15
Interpretatie
• Voldoet aan conditie: links, anders:
rechts
• Bovenaan: belangrijkste opsplitsing
• Lengte van de “tak” geeft aan hoe
veel variantie verklaard wordt door
deze variabele
Introductie in R 16
Titel van de presentatie 17
Voorbeeld: huisprijs
Woningprijzen inladen
• Prijs afhankelijk van periode en regio
• Summary geeft een overzicht van hoe goed de
voorspelling is (residuals)
Decision tree bouwen
• Package installeren en laden
• Working directory setten
• CSV inladen
• Head() toont de eerste regels van de dataset
Data Science 101
1. Inspecteer de dataset
2. Denk na: wat zit er in de data
3. Stel dan een model op dat voor jou
logisch is. Wat is je afhankelijke? Wat
zijn je onafhankelijken?
Je moet kunnen verklaren waarom je
dat model hebt opgesteld!
4. Bouw je model in R
5. Interpreteer je model
Introductie in R 18
Titel van de presentatie 19
Hands on met Decision Trees!
Moeilijk:
https://github.com/AMIS-Services/machine-learning-
session-one-7-may-2018/tree/master/technical-handson
Makkelijk:
https://bit.ly/2HVgKat
Tips:
Inspecteer eerst de data!
Stel dan een model op dat voor jou logisch is.
Maak je model in R.
Interpreteer je model.
Naslagwerk
Voor zij die meer willen weten:
http://www-
bcf.usc.edu/~gareth/ISL/ISLR%20First%20
Printing.pdf
Een uitgebreid naslagwerk over
gebruikelijke machine learning methoden en
de achterliggende theorie.
Aan te raden als je dieper in wilt gaan op de
achterliggende wiskunde en theorie.
Introductie in R 20

Weitere ähnliche Inhalte

Mehr von Getting value from IoT, Integration and Data Analytics

Mehr von Getting value from IoT, Integration and Data Analytics (20)

IoT Fit for purpose - how to be successful in IOT Conclusion Connect
IoT Fit for purpose - how to be successful in IOT Conclusion Connect IoT Fit for purpose - how to be successful in IOT Conclusion Connect
IoT Fit for purpose - how to be successful in IOT Conclusion Connect
 
Industry and IOT Overview of protocols and best practices Conclusion Connect
Industry and IOT Overview of protocols and best practices  Conclusion ConnectIndustry and IOT Overview of protocols and best practices  Conclusion Connect
Industry and IOT Overview of protocols and best practices Conclusion Connect
 
IoT practical case using the people counter sensing traffic density build usi...
IoT practical case using the people counter sensing traffic density build usi...IoT practical case using the people counter sensing traffic density build usi...
IoT practical case using the people counter sensing traffic density build usi...
 
Introduction overviewmachinelearning sig Door Lucas Jellema
Introduction overviewmachinelearning sig Door Lucas JellemaIntroduction overviewmachinelearning sig Door Lucas Jellema
Introduction overviewmachinelearning sig Door Lucas Jellema
 
IoT and the Future of work
IoT and the Future of work IoT and the Future of work
IoT and the Future of work
 
Oracle OpenWorld 2017 Review (31st October 2017 - 250 slides)
Oracle OpenWorld 2017 Review (31st October 2017 - 250 slides)Oracle OpenWorld 2017 Review (31st October 2017 - 250 slides)
Oracle OpenWorld 2017 Review (31st October 2017 - 250 slides)
 
Ethereum smart contracts - door Peter Reitsma
Ethereum smart contracts - door Peter ReitsmaEthereum smart contracts - door Peter Reitsma
Ethereum smart contracts - door Peter Reitsma
 
Blockchain - Techniek en usecases door Robert van Molken - AMIS - Conclusion
Blockchain - Techniek en usecases door Robert van Molken - AMIS - ConclusionBlockchain - Techniek en usecases door Robert van Molken - AMIS - Conclusion
Blockchain - Techniek en usecases door Robert van Molken - AMIS - Conclusion
 
kennissessie blockchain - Wat is Blockchain en smart contracts @Conclusion
kennissessie blockchain -  Wat is Blockchain en smart contracts @Conclusion kennissessie blockchain -  Wat is Blockchain en smart contracts @Conclusion
kennissessie blockchain - Wat is Blockchain en smart contracts @Conclusion
 
Internet of Things propositie - Enterprise IOT - AMIS - Conclusion
Internet of Things propositie - Enterprise IOT - AMIS - Conclusion Internet of Things propositie - Enterprise IOT - AMIS - Conclusion
Internet of Things propositie - Enterprise IOT - AMIS - Conclusion
 
Omc AMIS evenement 26012017 Dennis van Soest
Omc AMIS evenement 26012017 Dennis van SoestOmc AMIS evenement 26012017 Dennis van Soest
Omc AMIS evenement 26012017 Dennis van Soest
 
Oow2016 review-db-dev-bigdata-BI
Oow2016 review-db-dev-bigdata-BIOow2016 review-db-dev-bigdata-BI
Oow2016 review-db-dev-bigdata-BI
 
Oow2016 review--paas-microservices-
Oow2016 review--paas-microservices-Oow2016 review--paas-microservices-
Oow2016 review--paas-microservices-
 
Oow2016 review-iaas-paas-13th-18thoctober
Oow2016 review-iaas-paas-13th-18thoctoberOow2016 review-iaas-paas-13th-18thoctober
Oow2016 review-iaas-paas-13th-18thoctober
 
Oow2016 review-13th october 2016
Oow2016 review-13th october 2016Oow2016 review-13th october 2016
Oow2016 review-13th october 2016
 
oracle openworld review UX presentation 2016
oracle openworld review UX presentation 2016oracle openworld review UX presentation 2016
oracle openworld review UX presentation 2016
 
Innovation tour presentation paul oow16 review
Innovation tour presentation paul oow16 reviewInnovation tour presentation paul oow16 review
Innovation tour presentation paul oow16 review
 
First8 java one review 2016
First8 java one review 2016First8 java one review 2016
First8 java one review 2016
 
introduction to Beacons --- Conclusion disruptive
introduction to Beacons --- Conclusion disruptiveintroduction to Beacons --- Conclusion disruptive
introduction to Beacons --- Conclusion disruptive
 
Oracle application container cloud back end integration using node final
Oracle application container cloud back end integration using node finalOracle application container cloud back end integration using node final
Oracle application container cloud back end integration using node final
 

R introduction decision_trees

  • 2. Inhoud • Introductie in R • R syntax • Introductie Decision Tree model • Voorbeeld Decision Tree model • Handson met Decision Trees Introductie in R 2
  • 4. Introductie R • High level scripttaal • Ontwikkeld voor statistische berekeningen • Visualiseert modellen zeer gemakkelijk • Vergelijkbaar met Matlab en Python Introductie in R 4
  • 5. Introductie R • Grootste marktaandeel binnen data science • Gratis en open source • Grote hoeveelheid libraries • Grote community Introductie in R 5
  • 6. Installatie R • Download en installeer R: • https://www.r-project.org/ • Download en installeer Rstudio (een goede en gratis IDE voor R) • https://www.rstudio.com/ Introductie in R 6
  • 7. Introductie in R 7 R syntax Toekenning • Merk op: de x’te machtswortel van y is y^(1/x) Berekeningen
  • 8. Introductie in R 8 R syntax • Merk op: vectoren beginnen bij 1! • [0] geeft het type vector • Out of bounds geeft NA, geen error Vectoren • Merk op: default operaties zijn scalair • Matrices beginnen bij 1. Matrices
  • 9. R syntax • Packages installeren en aanroepen: (Je “import” statements) Introductie in R 9
  • 11. Intuïtief voorbeeld Je vraagt aan een vriend: “Welke sport moet ik gaan doen?” • Teamsport? • Hou je van balsporten? • Werk je het liefst met je handen? • Hou je van stoeien? • Doe je graag zwaar werk? Introductie in R 11 Teamsport Balsport Handen Basketbal Voetbal Stoeien ZwaarJiu jitsu Krachttraining Hardlopen Touwtrekken
  • 12. Introductie • Classification and Regression Tree (CART) • Zeer gemakkelijk qua interpretatie • Predictief niet het beste  Methoden om CART te verbeteren: • Bagging • Boosting • Random Forest • Voorbeeld hiernaast: huisprijs Introductie in R 12
  • 13. Voordelen • Conceptueel gemakkelijk • Gemakkelijke interpretatie • Werkt even goed voor classificatie als regressie • Snel • Gaat goed om met missing values Introductie in R 13
  • 14. Nadelen • Overfitting • Instabiel • “Groot” Introductie in R 14
  • 15. Opbouw • 1 grote dataset: veel onzekerheid/variantie • Opsplitsen in categorieën, steeds minder variantie per categorie • Opsplitsing die de meeste variantie verklaart eerst • Dan de volgende binnen die categorie Introductie in R 15
  • 16. Interpretatie • Voldoet aan conditie: links, anders: rechts • Bovenaan: belangrijkste opsplitsing • Lengte van de “tak” geeft aan hoe veel variantie verklaard wordt door deze variabele Introductie in R 16
  • 17. Titel van de presentatie 17 Voorbeeld: huisprijs Woningprijzen inladen • Prijs afhankelijk van periode en regio • Summary geeft een overzicht van hoe goed de voorspelling is (residuals) Decision tree bouwen • Package installeren en laden • Working directory setten • CSV inladen • Head() toont de eerste regels van de dataset
  • 18. Data Science 101 1. Inspecteer de dataset 2. Denk na: wat zit er in de data 3. Stel dan een model op dat voor jou logisch is. Wat is je afhankelijke? Wat zijn je onafhankelijken? Je moet kunnen verklaren waarom je dat model hebt opgesteld! 4. Bouw je model in R 5. Interpreteer je model Introductie in R 18
  • 19. Titel van de presentatie 19 Hands on met Decision Trees! Moeilijk: https://github.com/AMIS-Services/machine-learning- session-one-7-may-2018/tree/master/technical-handson Makkelijk: https://bit.ly/2HVgKat Tips: Inspecteer eerst de data! Stel dan een model op dat voor jou logisch is. Maak je model in R. Interpreteer je model.
  • 20. Naslagwerk Voor zij die meer willen weten: http://www- bcf.usc.edu/~gareth/ISL/ISLR%20First%20 Printing.pdf Een uitgebreid naslagwerk over gebruikelijke machine learning methoden en de achterliggende theorie. Aan te raden als je dieper in wilt gaan op de achterliggende wiskunde en theorie. Introductie in R 20