Logistische Regression
Eine Einführung
Mathematischer Hintergrund
• Kapitel 4 – 4.3 im ISLR-Buch gibt einen tieferen Einblick in die
Thematik
Logistische Regression by Datamics, 2018
Hintergrund
• Wir wollen mehr über logistische Regression als Methode der
Klassifizierung lernen.
• Einige Beispiele von Klassifizierungsproblemen sind:
• Erkennen von Spam-Emails
• Kreditausfall (ja/nein)
• Krankheitsdiagnose
• Diese Beispiele waren alle binäre Klassifikationen
Logistische Regression by Datamics, 2018
Hintergrund
• Bisher haben wir nur Regressionen gesehen, die einen
kontinuierlichen Wert vorhersagen sollen.
• Auch wenn der Name anfangs etwas verwirrend sein könnte erlauben
es uns logistische Regressionen Klassifizierungsprobleme zu lösen, bei
denen es um diskrete Kategorien geht.
• Die Konvention für binäre Klassifikation ist es 0 und 1 zu verwenden.
Logistische Regression by Datamics, 2018
Hintergrund
• Wir können ein lineares Regressionsmodell nur schlecht für binäre
Gruppen verwenden. Es würde keine gute Schätzung liefern:
Logistische Regression
Wahrscheinlichkeit
unter 0
by Datamics, 2018
Hintergrund
• Statt dessen können wir eine lineare Regression zu einer logistischen
Regressionslinie umwandeln:
Logistische Regression
Wahrscheinlichkeit
Wahrscheinlichkeit
unter 0
by Datamics, 2018
Sigmoid Funktion
• Die Sigmoid (Logistische) Funktion nimmt jeden Wert und wandelt ihn
in einen Output zwischen 0 und 1 um.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Das bedeutet wir können unsere Lösung der linearen Regression
verwenden und sie in die Sigmoid Funktion einsetzen.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Das bedeutet wir können unsere Lösung der linearen Regression
verwenden und sie in die Sigmoid Funktion einsetzen.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Das Ergebnis ist eine Wahrscheinlichkeit zwischen 0 und 1, die die
Zugehörigkeitswahrscheinlichkeit zur Klasse 1 angibt.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Wir können eine Grenze bei 0.5 setzen: Alles darunter zählt zu Klasse
0 und alles darüber zählt zu Klasse 1.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Wir verwenden die logistische Funktion um einen Wert zwischen 0 und 1
auszugeben. Anhand dieser Wahrscheinlichkeit weisen wir eine Klasse zu.
Logistische Regression by Datamics, 2018
Modell Auswertung
• Nachdem wir unser logistisches Regressionsmodell mit unserem
Trainingsset trainiert haben können wir seine Güte durch das Testset
auswerten.
• Dazu verwenden wir die Konfusionsmatrix (Confusion Matrix).
Logistische Regression by Datamics, 2018
Modell Auswertung
• Wir verwenden wir die Konfusionsmatrix, um unser Modell
auszuwerten.
• Zum Beispiel ein Krankheitstest.
Logistische Regression
Beispiel:
NO = Negativer Test = Falsch = 0
YES = Positiver Test = Wahr = 1
by Datamics, 2018
Konfusionsmatrix
Logistische Regression
Terminologie:
-Richtig Positiv (True Positiv TP)
-Richtig Negativ (True Negatives TN)
-Falsch Positiv (False Positive FP)
-Falsch Negativ (False Negative FN)
by Datamics, 2018
Konfusionsmatrix
Logistische Regression
Genauigkeit:
• Korrekte Aussagen insgesamt?
• (TP + TN) / n = 150/165 = 0.91
by Datamics, 2018
Konfusionsmatrix
Logistische Regression
Ungenauigkeit (Error Rate):
• Falsche Aussagen insgesamt?
• (FP+ FN) / n = 15/165 = 0.09
by Datamics, 2018
Konfusionsmatrix
Logistische Regression by Datamics, 2018
Konfusionsmatrix
Logistische Regression by Datamics, 2018

Logistische Regression mit Python

  • 1.
  • 2.
    Mathematischer Hintergrund • Kapitel4 – 4.3 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Logistische Regression by Datamics, 2018
  • 3.
    Hintergrund • Wir wollenmehr über logistische Regression als Methode der Klassifizierung lernen. • Einige Beispiele von Klassifizierungsproblemen sind: • Erkennen von Spam-Emails • Kreditausfall (ja/nein) • Krankheitsdiagnose • Diese Beispiele waren alle binäre Klassifikationen Logistische Regression by Datamics, 2018
  • 4.
    Hintergrund • Bisher habenwir nur Regressionen gesehen, die einen kontinuierlichen Wert vorhersagen sollen. • Auch wenn der Name anfangs etwas verwirrend sein könnte erlauben es uns logistische Regressionen Klassifizierungsprobleme zu lösen, bei denen es um diskrete Kategorien geht. • Die Konvention für binäre Klassifikation ist es 0 und 1 zu verwenden. Logistische Regression by Datamics, 2018
  • 5.
    Hintergrund • Wir könnenein lineares Regressionsmodell nur schlecht für binäre Gruppen verwenden. Es würde keine gute Schätzung liefern: Logistische Regression Wahrscheinlichkeit unter 0 by Datamics, 2018
  • 6.
    Hintergrund • Statt dessenkönnen wir eine lineare Regression zu einer logistischen Regressionslinie umwandeln: Logistische Regression Wahrscheinlichkeit Wahrscheinlichkeit unter 0 by Datamics, 2018
  • 7.
    Sigmoid Funktion • DieSigmoid (Logistische) Funktion nimmt jeden Wert und wandelt ihn in einen Output zwischen 0 und 1 um. Logistische Regression by Datamics, 2018
  • 8.
    Sigmoid Funktion • Dasbedeutet wir können unsere Lösung der linearen Regression verwenden und sie in die Sigmoid Funktion einsetzen. Logistische Regression by Datamics, 2018
  • 9.
    Sigmoid Funktion • Dasbedeutet wir können unsere Lösung der linearen Regression verwenden und sie in die Sigmoid Funktion einsetzen. Logistische Regression by Datamics, 2018
  • 10.
    Sigmoid Funktion • DasErgebnis ist eine Wahrscheinlichkeit zwischen 0 und 1, die die Zugehörigkeitswahrscheinlichkeit zur Klasse 1 angibt. Logistische Regression by Datamics, 2018
  • 11.
    Sigmoid Funktion • Wirkönnen eine Grenze bei 0.5 setzen: Alles darunter zählt zu Klasse 0 und alles darüber zählt zu Klasse 1. Logistische Regression by Datamics, 2018
  • 12.
    Sigmoid Funktion • Wirverwenden die logistische Funktion um einen Wert zwischen 0 und 1 auszugeben. Anhand dieser Wahrscheinlichkeit weisen wir eine Klasse zu. Logistische Regression by Datamics, 2018
  • 13.
    Modell Auswertung • Nachdemwir unser logistisches Regressionsmodell mit unserem Trainingsset trainiert haben können wir seine Güte durch das Testset auswerten. • Dazu verwenden wir die Konfusionsmatrix (Confusion Matrix). Logistische Regression by Datamics, 2018
  • 14.
    Modell Auswertung • Wirverwenden wir die Konfusionsmatrix, um unser Modell auszuwerten. • Zum Beispiel ein Krankheitstest. Logistische Regression Beispiel: NO = Negativer Test = Falsch = 0 YES = Positiver Test = Wahr = 1 by Datamics, 2018
  • 15.
    Konfusionsmatrix Logistische Regression Terminologie: -Richtig Positiv(True Positiv TP) -Richtig Negativ (True Negatives TN) -Falsch Positiv (False Positive FP) -Falsch Negativ (False Negative FN) by Datamics, 2018
  • 16.
    Konfusionsmatrix Logistische Regression Genauigkeit: • KorrekteAussagen insgesamt? • (TP + TN) / n = 150/165 = 0.91 by Datamics, 2018
  • 17.
    Konfusionsmatrix Logistische Regression Ungenauigkeit (ErrorRate): • Falsche Aussagen insgesamt? • (FP+ FN) / n = 15/165 = 0.09 by Datamics, 2018
  • 18.
  • 19.