SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Entscheidungsbäume
Eine Einführung
Mathematischer Hintergrund
• Kapitels 8 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Tree Methods by Datamics, 2018
Beispiel
• Beginnen wir mit einem schwierigen Experiment, um die Motivation
hinter der Entscheidungsbaum Methode zu verstehen
Tree Methods by Datamics, 2018
Beispiel
• Stellt euch vor ich spiele jeden Samstag Tennis und lade dazu immer
einen Freund ein.
• Manchmal taucht meine Freund auf, manchmal nicht.
• Für ihn liegt das an verschiedenen Faktoren wie z.B. das Wetter, die
Temperatur, die Luftfeuchtigkeit, der Wind usw.
• Ich habe damit begonnen festzuhalten, ob er auftaucht oder nicht
und welche Bedingungen jeweils vorliegen.
Tree Methods by Datamics, 2018
Bedingungen
Tree Methods by Datamics, 2018
Baumstruktur
Tree Methods
• Ich möchte diese Daten
verwenden, um
vorherzusagen, ob er
auftauchen wird oder nicht.
• Ein intuitiver Weg das zu tun
ist ein Entscheidungsbaum
(Decision Tree).
by Datamics, 2018
Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Knoten (Nodes)
• Teilen sich für einen Bestimmten
Wert des Attributs auf
• Kanten (Edges)
• Ergebnis einer Aufteilung zum
nächsten Node
by Datamics, 2018
Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Wurzel (Root)
• Erste Knoten, der eine Aufteilung
durchführt
• Blätter (Leaves)
• Letzte Knoten, die das Ergebnis
vorhersagen
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor
und zwei möglichen Klassen:
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Nach Y aufzuteilen gibt uns eine klare Trennung zwischen den Klassen
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor
und zwei möglichen Klassen:
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Wir hätten auch nach den anderen Features aufteilen können:
Erste Aufteilung
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Die Entropie und der Informationsgewinn sind die mathematischen Methoden,
die bei der Auswahl des besten ersten (bzw. nächsten) Splits helfen:
Weiterführende Erklärungen sind im ISLR-Buch!
by Datamics, 2018
Random Forests
• Um die Performance zu verbessern können wir viele Bäume mit
zufälligen Stichproben (mit zurücklegen) der Features als Split nutzen.
• Eine neue zufällige Stichprobe von m Features wird für jeden
einzelnen Split jedes einzelnen Baumes gewählt.
• Zur Klassifizierung wird m meist als Quadratwurzel von p gewählt.
Tree Methods by Datamics, 2018
Random Forests
• Warum machen wir das?
• Nehmen wir an es gibt ein sehr starkes Feature im Datensatz. Wenn wir dann
die „bagged“ Trees verwenden, werden die meisten Bäume dieses Feature als
ersten Split wählen, was zu einer Zusammenstellung von vielen gleichen
Bäumen führt. Diese sind stark korreliert.
• Einen Durchschnitt über stark korrelierte Mengen zu bilden verringert die
Varianz nicht signifikant.
• Durch die zufällige Auswahl bzw. Nicht-Auswahl von Features für jeden Split,
können Random Forests die Entscheidungsbäume „dekorrelieren“. Dadurch
kann der Prozess der Durchschnittsbildung die Varianz im Ergebnismodell
reduzieren.
Tree Methods by Datamics, 2018
Beispiel mit Python
Wir beginnen mit einem kleinen Beispiel für Kyphosis (konvexe
Krümmung der Wirbelsäule) um vorherzusagen ob ein chirurgischer
Eingriff erfolgreich sein wird.
Für das Portfolioprojekt werden wir die Daten eines Kreditverleihs
anschauen und die Kreditwürdigkeit der Personen vorhersagen.
Tree Methods by Datamics, 2018

Weitere ähnliche Inhalte

Was ist angesagt?

A presentation for Retail Sales Projects
A presentation for Retail Sales ProjectsA presentation for Retail Sales Projects
A presentation for Retail Sales ProjectsAmjad Raza, Ph.D.
 
Decision trees & random forests
Decision trees & random forestsDecision trees & random forests
Decision trees & random forestsSC5.io
 
Applied Data Science Part 3: Getting dirty; data preparation and feature crea...
Applied Data Science Part 3: Getting dirty; data preparation and feature crea...Applied Data Science Part 3: Getting dirty; data preparation and feature crea...
Applied Data Science Part 3: Getting dirty; data preparation and feature crea...Dataiku
 
Anomaly detection with machine learning at scale
Anomaly detection with machine learning at scaleAnomaly detection with machine learning at scale
Anomaly detection with machine learning at scaleImpetus Technologies
 
Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...
Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...
Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...Simplilearn
 
Prediction of House Sales Price
Prediction of House Sales PricePrediction of House Sales Price
Prediction of House Sales PriceAnirvan Ghosh
 
Anomaly detection
Anomaly detectionAnomaly detection
Anomaly detection철 김
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.pptnicoals2
 
Stock prediction using social network
Stock prediction using social networkStock prediction using social network
Stock prediction using social networkChanon Hongsirikulkit
 
Machine learning algorithms
Machine learning algorithmsMachine learning algorithms
Machine learning algorithmsShalitha Suranga
 
Structured Data Extraction
Structured Data ExtractionStructured Data Extraction
Structured Data ExtractionKaustubhPatange2
 
K nearest neighbor
K nearest neighborK nearest neighbor
K nearest neighborUjjawal
 
Aula 5 - Dicionário de Dados
Aula 5 - Dicionário de DadosAula 5 - Dicionário de Dados
Aula 5 - Dicionário de DadosJanynne Gomes
 
Quora questions pair duplication analysis using semantic analysis
Quora questions pair duplication analysis using semantic analysisQuora questions pair duplication analysis using semantic analysis
Quora questions pair duplication analysis using semantic analysisAkshata Talankar
 
Programação Orientada a Objetos parte 1
Programação Orientada a Objetos parte 1Programação Orientada a Objetos parte 1
Programação Orientada a Objetos parte 1Elaine Cecília Gatto
 
Decision Tree in Machine Learning
Decision Tree in Machine Learning  Decision Tree in Machine Learning
Decision Tree in Machine Learning Souma Maiti
 
Big Data Visualization
Big Data VisualizationBig Data Visualization
Big Data VisualizationRaffael Marty
 

Was ist angesagt? (20)

A presentation for Retail Sales Projects
A presentation for Retail Sales ProjectsA presentation for Retail Sales Projects
A presentation for Retail Sales Projects
 
Decision trees & random forests
Decision trees & random forestsDecision trees & random forests
Decision trees & random forests
 
Applied Data Science Part 3: Getting dirty; data preparation and feature crea...
Applied Data Science Part 3: Getting dirty; data preparation and feature crea...Applied Data Science Part 3: Getting dirty; data preparation and feature crea...
Applied Data Science Part 3: Getting dirty; data preparation and feature crea...
 
Anomaly detection with machine learning at scale
Anomaly detection with machine learning at scaleAnomaly detection with machine learning at scale
Anomaly detection with machine learning at scale
 
Machine Learning & Apache Mahout
Machine Learning & Apache MahoutMachine Learning & Apache Mahout
Machine Learning & Apache Mahout
 
Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...
Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...
Naive Bayes Classifier | Naive Bayes Algorithm | Naive Bayes Classifier With ...
 
Tutorial sobre iptables
Tutorial sobre iptablesTutorial sobre iptables
Tutorial sobre iptables
 
Prediction of House Sales Price
Prediction of House Sales PricePrediction of House Sales Price
Prediction of House Sales Price
 
Anomaly detection
Anomaly detectionAnomaly detection
Anomaly detection
 
Clustering.ppt
Clustering.pptClustering.ppt
Clustering.ppt
 
Stock prediction using social network
Stock prediction using social networkStock prediction using social network
Stock prediction using social network
 
Machine learning algorithms
Machine learning algorithmsMachine learning algorithms
Machine learning algorithms
 
Machine learning & Time Series Analysis
Machine learning & Time Series AnalysisMachine learning & Time Series Analysis
Machine learning & Time Series Analysis
 
Structured Data Extraction
Structured Data ExtractionStructured Data Extraction
Structured Data Extraction
 
K nearest neighbor
K nearest neighborK nearest neighbor
K nearest neighbor
 
Aula 5 - Dicionário de Dados
Aula 5 - Dicionário de DadosAula 5 - Dicionário de Dados
Aula 5 - Dicionário de Dados
 
Quora questions pair duplication analysis using semantic analysis
Quora questions pair duplication analysis using semantic analysisQuora questions pair duplication analysis using semantic analysis
Quora questions pair duplication analysis using semantic analysis
 
Programação Orientada a Objetos parte 1
Programação Orientada a Objetos parte 1Programação Orientada a Objetos parte 1
Programação Orientada a Objetos parte 1
 
Decision Tree in Machine Learning
Decision Tree in Machine Learning  Decision Tree in Machine Learning
Decision Tree in Machine Learning
 
Big Data Visualization
Big Data VisualizationBig Data Visualization
Big Data Visualization
 

Mehr von Datamics

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science ToolboxDatamics
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science SoftskillsDatamics
 
Slideshare reinforcement learning
Slideshare reinforcement learningSlideshare reinforcement learning
Slideshare reinforcement learningDatamics
 
Slideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenSlideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenDatamics
 
Slideshare GAN
Slideshare GANSlideshare GAN
Slideshare GANDatamics
 
Slideshare AutoEncoder
Slideshare AutoEncoderSlideshare AutoEncoder
Slideshare AutoEncoderDatamics
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Datamics
 
R für Data Science und Machine Learning
R für Data Science und Machine LearningR für Data Science und Machine Learning
R für Data Science und Machine LearningDatamics
 
Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - GrundlagenDatamics
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit PythonDatamics
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit PythonDatamics
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit PythonDatamics
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit PythonDatamics
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit PythonDatamics
 

Mehr von Datamics (14)

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science Toolbox
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science Softskills
 
Slideshare reinforcement learning
Slideshare reinforcement learningSlideshare reinforcement learning
Slideshare reinforcement learning
 
Slideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenSlideshare TensorFlow Grundlagen
Slideshare TensorFlow Grundlagen
 
Slideshare GAN
Slideshare GANSlideshare GAN
Slideshare GAN
 
Slideshare AutoEncoder
Slideshare AutoEncoderSlideshare AutoEncoder
Slideshare AutoEncoder
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)
 
R für Data Science und Machine Learning
R für Data Science und Machine LearningR für Data Science und Machine Learning
R für Data Science und Machine Learning
 
Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - Grundlagen
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit Python
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit Python
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit Python
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit Python
 

Decision Trees und Random Forest mit Python

  • 2. Mathematischer Hintergrund • Kapitels 8 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Tree Methods by Datamics, 2018
  • 3. Beispiel • Beginnen wir mit einem schwierigen Experiment, um die Motivation hinter der Entscheidungsbaum Methode zu verstehen Tree Methods by Datamics, 2018
  • 4. Beispiel • Stellt euch vor ich spiele jeden Samstag Tennis und lade dazu immer einen Freund ein. • Manchmal taucht meine Freund auf, manchmal nicht. • Für ihn liegt das an verschiedenen Faktoren wie z.B. das Wetter, die Temperatur, die Luftfeuchtigkeit, der Wind usw. • Ich habe damit begonnen festzuhalten, ob er auftaucht oder nicht und welche Bedingungen jeweils vorliegen. Tree Methods by Datamics, 2018
  • 6. Baumstruktur Tree Methods • Ich möchte diese Daten verwenden, um vorherzusagen, ob er auftauchen wird oder nicht. • Ein intuitiver Weg das zu tun ist ein Entscheidungsbaum (Decision Tree). by Datamics, 2018
  • 7. Baumstruktur Tree Methods • In diesem Baum (en. Tree) haben wir: • Knoten (Nodes) • Teilen sich für einen Bestimmten Wert des Attributs auf • Kanten (Edges) • Ergebnis einer Aufteilung zum nächsten Node by Datamics, 2018
  • 8. Baumstruktur Tree Methods • In diesem Baum (en. Tree) haben wir: • Wurzel (Root) • Erste Knoten, der eine Aufteilung durchführt • Blätter (Leaves) • Letzte Knoten, die das Ergebnis vorhersagen by Datamics, 2018
  • 9. Herleitung der Aufteilungen Tree Methods • Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor und zwei möglichen Klassen: by Datamics, 2018
  • 10. Herleitung der Aufteilungen Tree Methods • Nach Y aufzuteilen gibt uns eine klare Trennung zwischen den Klassen by Datamics, 2018
  • 11. Herleitung der Aufteilungen Tree Methods • Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor und zwei möglichen Klassen: by Datamics, 2018
  • 12. Herleitung der Aufteilungen Tree Methods • Wir hätten auch nach den anderen Features aufteilen können: Erste Aufteilung by Datamics, 2018
  • 13. Herleitung der Aufteilungen Tree Methods • Die Entropie und der Informationsgewinn sind die mathematischen Methoden, die bei der Auswahl des besten ersten (bzw. nächsten) Splits helfen: Weiterführende Erklärungen sind im ISLR-Buch! by Datamics, 2018
  • 14. Random Forests • Um die Performance zu verbessern können wir viele Bäume mit zufälligen Stichproben (mit zurücklegen) der Features als Split nutzen. • Eine neue zufällige Stichprobe von m Features wird für jeden einzelnen Split jedes einzelnen Baumes gewählt. • Zur Klassifizierung wird m meist als Quadratwurzel von p gewählt. Tree Methods by Datamics, 2018
  • 15. Random Forests • Warum machen wir das? • Nehmen wir an es gibt ein sehr starkes Feature im Datensatz. Wenn wir dann die „bagged“ Trees verwenden, werden die meisten Bäume dieses Feature als ersten Split wählen, was zu einer Zusammenstellung von vielen gleichen Bäumen führt. Diese sind stark korreliert. • Einen Durchschnitt über stark korrelierte Mengen zu bilden verringert die Varianz nicht signifikant. • Durch die zufällige Auswahl bzw. Nicht-Auswahl von Features für jeden Split, können Random Forests die Entscheidungsbäume „dekorrelieren“. Dadurch kann der Prozess der Durchschnittsbildung die Varianz im Ergebnismodell reduzieren. Tree Methods by Datamics, 2018
  • 16. Beispiel mit Python Wir beginnen mit einem kleinen Beispiel für Kyphosis (konvexe Krümmung der Wirbelsäule) um vorherzusagen ob ein chirurgischer Eingriff erfolgreich sein wird. Für das Portfolioprojekt werden wir die Daten eines Kreditverleihs anschauen und die Kreditwürdigkeit der Personen vorhersagen. Tree Methods by Datamics, 2018