Decision Trees und Random Forest mit Python

Entscheidungsbäume
Eine Einführung

Mathematischer Hintergrund
• Kapitels 8 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Tree Methods by Datamics, 2018

Beispiel
• Beginnen wir mit einem schwierigen Experiment, um die Motivation
hinter der Entscheidungsbaum Methode zu verstehen

Beispiel
• Stellt euch vor ich spiele jeden Samstag Tennis und lade dazu immer
einen Freund ein.
• Manchmal taucht meine Freund auf, manchmal nicht.
• Für ihn liegt das an verschiedenen Faktoren wie z.B. das Wetter, die
Temperatur, die Luftfeuchtigkeit, der Wind usw.
• Ich habe damit begonnen festzuhalten, ob er auftaucht oder nicht
und welche Bedingungen jeweils vorliegen.

Bedingungen

Baumstruktur
Tree Methods
• Ich möchte diese Daten
verwenden, um
vorherzusagen, ob er
auftauchen wird oder nicht.
• Ein intuitiver Weg das zu tun
ist ein Entscheidungsbaum
(Decision Tree).
by Datamics, 2018

Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Knoten (Nodes)
• Teilen sich für einen Bestimmten
Wert des Attributs auf
• Kanten (Edges)
• Ergebnis einer Aufteilung zum
nächsten Node
by Datamics, 2018

Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Wurzel (Root)
• Erste Knoten, der eine Aufteilung
durchführt
• Blätter (Leaves)
• Letzte Knoten, die das Ergebnis
vorhersagen
by Datamics, 2018

Herleitung der Aufteilungen
Tree Methods
• Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor
und zwei möglichen Klassen:
by Datamics, 2018

Tree Methods
• Nach Y aufzuteilen gibt uns eine klare Trennung zwischen den Klassen
by Datamics, 2018

Tree Methods
• Wir hätten auch nach den anderen Features aufteilen können:
Erste Aufteilung
by Datamics, 2018

Tree Methods
• Die Entropie und der Informationsgewinn sind die mathematischen Methoden,
die bei der Auswahl des besten ersten (bzw. nächsten) Splits helfen:
Weiterführende Erklärungen sind im ISLR-Buch!
by Datamics, 2018

Random Forests
• Um die Performance zu verbessern können wir viele Bäume mit
zufälligen Stichproben (mit zurücklegen) der Features als Split nutzen.
• Eine neue zufällige Stichprobe von m Features wird für jeden
einzelnen Split jedes einzelnen Baumes gewählt.
• Zur Klassifizierung wird m meist als Quadratwurzel von p gewählt.

Random Forests
• Warum machen wir das?
• Nehmen wir an es gibt ein sehr starkes Feature im Datensatz. Wenn wir dann
die „bagged“ Trees verwenden, werden die meisten Bäume dieses Feature als
ersten Split wählen, was zu einer Zusammenstellung von vielen gleichen
Bäumen führt. Diese sind stark korreliert.
• Einen Durchschnitt über stark korrelierte Mengen zu bilden verringert die
Varianz nicht signifikant.
• Durch die zufällige Auswahl bzw. Nicht-Auswahl von Features für jeden Split,
können Random Forests die Entscheidungsbäume „dekorrelieren“. Dadurch
kann der Prozess der Durchschnittsbildung die Varianz im Ergebnismodell
reduzieren.

Beispiel mit Python
Wir beginnen mit einem kleinen Beispiel für Kyphosis (konvexe
Krümmung der Wirbelsäule) um vorherzusagen ob ein chirurgischer
Eingriff erfolgreich sein wird.
Für das Portfolioprojekt werden wir die Daten eines Kreditverleihs
anschauen und die Kreditwürdigkeit der Personen vorhersagen.

Decision Trees und Random Forest mit Python

Weitere ähnliche Inhalte

Mehr von Datamics

Decision Trees und Random Forest mit Python