Entscheidungsbäume
Eine Einführung
Mathematischer Hintergrund
• Kapitels 8 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Tree Methods by Datamics, 2018
Beispiel
• Beginnen wir mit einem schwierigen Experiment, um die Motivation
hinter der Entscheidungsbaum Methode zu verstehen
Tree Methods by Datamics, 2018
Beispiel
• Stellt euch vor ich spiele jeden Samstag Tennis und lade dazu immer
einen Freund ein.
• Manchmal taucht meine Freund auf, manchmal nicht.
• Für ihn liegt das an verschiedenen Faktoren wie z.B. das Wetter, die
Temperatur, die Luftfeuchtigkeit, der Wind usw.
• Ich habe damit begonnen festzuhalten, ob er auftaucht oder nicht
und welche Bedingungen jeweils vorliegen.
Tree Methods by Datamics, 2018
Bedingungen
Tree Methods by Datamics, 2018
Baumstruktur
Tree Methods
• Ich möchte diese Daten
verwenden, um
vorherzusagen, ob er
auftauchen wird oder nicht.
• Ein intuitiver Weg das zu tun
ist ein Entscheidungsbaum
(Decision Tree).
by Datamics, 2018
Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Knoten (Nodes)
• Teilen sich für einen Bestimmten
Wert des Attributs auf
• Kanten (Edges)
• Ergebnis einer Aufteilung zum
nächsten Node
by Datamics, 2018
Baumstruktur
Tree Methods
• In diesem Baum (en. Tree)
haben wir:
• Wurzel (Root)
• Erste Knoten, der eine Aufteilung
durchführt
• Blätter (Leaves)
• Letzte Knoten, die das Ergebnis
vorhersagen
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor
und zwei möglichen Klassen:
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Nach Y aufzuteilen gibt uns eine klare Trennung zwischen den Klassen
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor
und zwei möglichen Klassen:
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Wir hätten auch nach den anderen Features aufteilen können:
Erste Aufteilung
by Datamics, 2018
Herleitung der Aufteilungen
Tree Methods
• Die Entropie und der Informationsgewinn sind die mathematischen Methoden,
die bei der Auswahl des besten ersten (bzw. nächsten) Splits helfen:
Weiterführende Erklärungen sind im ISLR-Buch!
by Datamics, 2018
Random Forests
• Um die Performance zu verbessern können wir viele Bäume mit
zufälligen Stichproben (mit zurücklegen) der Features als Split nutzen.
• Eine neue zufällige Stichprobe von m Features wird für jeden
einzelnen Split jedes einzelnen Baumes gewählt.
• Zur Klassifizierung wird m meist als Quadratwurzel von p gewählt.
Tree Methods by Datamics, 2018
Random Forests
• Warum machen wir das?
• Nehmen wir an es gibt ein sehr starkes Feature im Datensatz. Wenn wir dann
die „bagged“ Trees verwenden, werden die meisten Bäume dieses Feature als
ersten Split wählen, was zu einer Zusammenstellung von vielen gleichen
Bäumen führt. Diese sind stark korreliert.
• Einen Durchschnitt über stark korrelierte Mengen zu bilden verringert die
Varianz nicht signifikant.
• Durch die zufällige Auswahl bzw. Nicht-Auswahl von Features für jeden Split,
können Random Forests die Entscheidungsbäume „dekorrelieren“. Dadurch
kann der Prozess der Durchschnittsbildung die Varianz im Ergebnismodell
reduzieren.
Tree Methods by Datamics, 2018
Beispiel mit Python
Wir beginnen mit einem kleinen Beispiel für Kyphosis (konvexe
Krümmung der Wirbelsäule) um vorherzusagen ob ein chirurgischer
Eingriff erfolgreich sein wird.
Für das Portfolioprojekt werden wir die Daten eines Kreditverleihs
anschauen und die Kreditwürdigkeit der Personen vorhersagen.
Tree Methods by Datamics, 2018

Decision Trees und Random Forest mit Python

  • 1.
  • 2.
    Mathematischer Hintergrund • Kapitels8 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Tree Methods by Datamics, 2018
  • 3.
    Beispiel • Beginnen wirmit einem schwierigen Experiment, um die Motivation hinter der Entscheidungsbaum Methode zu verstehen Tree Methods by Datamics, 2018
  • 4.
    Beispiel • Stellt euchvor ich spiele jeden Samstag Tennis und lade dazu immer einen Freund ein. • Manchmal taucht meine Freund auf, manchmal nicht. • Für ihn liegt das an verschiedenen Faktoren wie z.B. das Wetter, die Temperatur, die Luftfeuchtigkeit, der Wind usw. • Ich habe damit begonnen festzuhalten, ob er auftaucht oder nicht und welche Bedingungen jeweils vorliegen. Tree Methods by Datamics, 2018
  • 5.
  • 6.
    Baumstruktur Tree Methods • Ichmöchte diese Daten verwenden, um vorherzusagen, ob er auftauchen wird oder nicht. • Ein intuitiver Weg das zu tun ist ein Entscheidungsbaum (Decision Tree). by Datamics, 2018
  • 7.
    Baumstruktur Tree Methods • Indiesem Baum (en. Tree) haben wir: • Knoten (Nodes) • Teilen sich für einen Bestimmten Wert des Attributs auf • Kanten (Edges) • Ergebnis einer Aufteilung zum nächsten Node by Datamics, 2018
  • 8.
    Baumstruktur Tree Methods • Indiesem Baum (en. Tree) haben wir: • Wurzel (Root) • Erste Knoten, der eine Aufteilung durchführt • Blätter (Leaves) • Letzte Knoten, die das Ergebnis vorhersagen by Datamics, 2018
  • 9.
    Herleitung der Aufteilungen TreeMethods • Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor und zwei möglichen Klassen: by Datamics, 2018
  • 10.
    Herleitung der Aufteilungen TreeMethods • Nach Y aufzuteilen gibt uns eine klare Trennung zwischen den Klassen by Datamics, 2018
  • 11.
    Herleitung der Aufteilungen TreeMethods • Stellen wir uns die folgenden Daten mit 3 Features (X, Y und Z) vor und zwei möglichen Klassen: by Datamics, 2018
  • 12.
    Herleitung der Aufteilungen TreeMethods • Wir hätten auch nach den anderen Features aufteilen können: Erste Aufteilung by Datamics, 2018
  • 13.
    Herleitung der Aufteilungen TreeMethods • Die Entropie und der Informationsgewinn sind die mathematischen Methoden, die bei der Auswahl des besten ersten (bzw. nächsten) Splits helfen: Weiterführende Erklärungen sind im ISLR-Buch! by Datamics, 2018
  • 14.
    Random Forests • Umdie Performance zu verbessern können wir viele Bäume mit zufälligen Stichproben (mit zurücklegen) der Features als Split nutzen. • Eine neue zufällige Stichprobe von m Features wird für jeden einzelnen Split jedes einzelnen Baumes gewählt. • Zur Klassifizierung wird m meist als Quadratwurzel von p gewählt. Tree Methods by Datamics, 2018
  • 15.
    Random Forests • Warummachen wir das? • Nehmen wir an es gibt ein sehr starkes Feature im Datensatz. Wenn wir dann die „bagged“ Trees verwenden, werden die meisten Bäume dieses Feature als ersten Split wählen, was zu einer Zusammenstellung von vielen gleichen Bäumen führt. Diese sind stark korreliert. • Einen Durchschnitt über stark korrelierte Mengen zu bilden verringert die Varianz nicht signifikant. • Durch die zufällige Auswahl bzw. Nicht-Auswahl von Features für jeden Split, können Random Forests die Entscheidungsbäume „dekorrelieren“. Dadurch kann der Prozess der Durchschnittsbildung die Varianz im Ergebnismodell reduzieren. Tree Methods by Datamics, 2018
  • 16.
    Beispiel mit Python Wirbeginnen mit einem kleinen Beispiel für Kyphosis (konvexe Krümmung der Wirbelsäule) um vorherzusagen ob ein chirurgischer Eingriff erfolgreich sein wird. Für das Portfolioprojekt werden wir die Daten eines Kreditverleihs anschauen und die Kreditwürdigkeit der Personen vorhersagen. Tree Methods by Datamics, 2018