SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Logistische Regression
Eine Einführung
Mathematischer Hintergrund
• Kapitel 4 – 4.3 im ISLR-Buch gibt einen tieferen Einblick in die
Thematik
Logistische Regression by Datamics, 2018
Hintergrund
• Wir wollen mehr über logistische Regression als Methode der
Klassifizierung lernen.
• Einige Beispiele von Klassifizierungsproblemen sind:
• Erkennen von Spam-Emails
• Kreditausfall (ja/nein)
• Krankheitsdiagnose
• Diese Beispiele waren alle binäre Klassifikationen
Logistische Regression by Datamics, 2018
Hintergrund
• Bisher haben wir nur Regressionen gesehen, die einen
kontinuierlichen Wert vorhersagen sollen.
• Auch wenn der Name anfangs etwas verwirrend sein könnte erlauben
es uns logistische Regressionen Klassifizierungsprobleme zu lösen, bei
denen es um diskrete Kategorien geht.
• Die Konvention für binäre Klassifikation ist es 0 und 1 zu verwenden.
Logistische Regression by Datamics, 2018
Hintergrund
• Wir können ein lineares Regressionsmodell nur schlecht für binäre
Gruppen verwenden. Es würde keine gute Schätzung liefern:
Logistische Regression
Wahrscheinlichkeit
unter 0
by Datamics, 2018
Hintergrund
• Statt dessen können wir eine lineare Regression zu einer logistischen
Regressionslinie umwandeln:
Logistische Regression
Wahrscheinlichkeit
Wahrscheinlichkeit
unter 0
by Datamics, 2018
Sigmoid Funktion
• Die Sigmoid (Logistische) Funktion nimmt jeden Wert und wandelt ihn
in einen Output zwischen 0 und 1 um.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Das bedeutet wir können unsere Lösung der linearen Regression
verwenden und sie in die Sigmoid Funktion einsetzen.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Das bedeutet wir können unsere Lösung der linearen Regression
verwenden und sie in die Sigmoid Funktion einsetzen.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Das Ergebnis ist eine Wahrscheinlichkeit zwischen 0 und 1, die die
Zugehörigkeitswahrscheinlichkeit zur Klasse 1 angibt.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Wir können eine Grenze bei 0.5 setzen: Alles darunter zählt zu Klasse
0 und alles darüber zählt zu Klasse 1.
Logistische Regression by Datamics, 2018
Sigmoid Funktion
• Wir verwenden die logistische Funktion um einen Wert zwischen 0 und 1
auszugeben. Anhand dieser Wahrscheinlichkeit weisen wir eine Klasse zu.
Logistische Regression by Datamics, 2018
Modell Auswertung
• Nachdem wir unser logistisches Regressionsmodell mit unserem
Trainingsset trainiert haben können wir seine Güte durch das Testset
auswerten.
• Dazu verwenden wir die Konfusionsmatrix (Confusion Matrix).
Logistische Regression by Datamics, 2018
Modell Auswertung
• Wir verwenden wir die Konfusionsmatrix, um unser Modell
auszuwerten.
• Zum Beispiel ein Krankheitstest.
Logistische Regression
Beispiel:
NO = Negativer Test = Falsch = 0
YES = Positiver Test = Wahr = 1
by Datamics, 2018
Konfusionsmatrix
Logistische Regression
Terminologie:
-Richtig Positiv (True Positiv TP)
-Richtig Negativ (True Negatives TN)
-Falsch Positiv (False Positive FP)
-Falsch Negativ (False Negative FN)
by Datamics, 2018
Konfusionsmatrix
Logistische Regression
Genauigkeit:
• Korrekte Aussagen insgesamt?
• (TP + TN) / n = 150/165 = 0.91
by Datamics, 2018
Konfusionsmatrix
Logistische Regression
Ungenauigkeit (Error Rate):
• Falsche Aussagen insgesamt?
• (FP+ FN) / n = 15/165 = 0.09
by Datamics, 2018
Konfusionsmatrix
Logistische Regression by Datamics, 2018
Konfusionsmatrix
Logistische Regression by Datamics, 2018

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (14)

Linguagem de Programação Java para Iniciantes
Linguagem de Programação Java para IniciantesLinguagem de Programação Java para Iniciantes
Linguagem de Programação Java para Iniciantes
 
Desmistificando o DialogFlow
Desmistificando o DialogFlowDesmistificando o DialogFlow
Desmistificando o DialogFlow
 
Git e GitHub - Conceitos Básicos
Git e GitHub - Conceitos BásicosGit e GitHub - Conceitos Básicos
Git e GitHub - Conceitos Básicos
 
EBAC Django
EBAC DjangoEBAC Django
EBAC Django
 
Amazon Rekognition: Deep Learning-Based Image and Video Analysis
Amazon Rekognition: Deep Learning-Based Image and Video AnalysisAmazon Rekognition: Deep Learning-Based Image and Video Analysis
Amazon Rekognition: Deep Learning-Based Image and Video Analysis
 
Welcome to the Meta-World
Welcome to the Meta-WorldWelcome to the Meta-World
Welcome to the Meta-World
 
JAVA - Herança
JAVA - HerançaJAVA - Herança
JAVA - Herança
 
PostgreSQL: O melhor banco de dados Universo
PostgreSQL: O melhor banco de dados UniversoPostgreSQL: O melhor banco de dados Universo
PostgreSQL: O melhor banco de dados Universo
 
Tipos de dados em MySQL
Tipos de dados em MySQLTipos de dados em MySQL
Tipos de dados em MySQL
 
Aula 07 Css - Parte 1
Aula 07   Css - Parte 1Aula 07   Css - Parte 1
Aula 07 Css - Parte 1
 
Como Desenvolver CompetêNcias Dentro Da Empresa
Como Desenvolver CompetêNcias Dentro Da EmpresaComo Desenvolver CompetêNcias Dentro Da Empresa
Como Desenvolver CompetêNcias Dentro Da Empresa
 
Proposta de um modelo de escalonamento de metodologia ágil para grandes organ...
Proposta de um modelo de escalonamento de metodologia ágil para grandes organ...Proposta de um modelo de escalonamento de metodologia ágil para grandes organ...
Proposta de um modelo de escalonamento de metodologia ágil para grandes organ...
 
Qualidade de Software: MPS.BR
Qualidade de Software: MPS.BRQualidade de Software: MPS.BR
Qualidade de Software: MPS.BR
 
Raid
RaidRaid
Raid
 

Mehr von Datamics

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science ToolboxDatamics
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science SoftskillsDatamics
 
Slideshare reinforcement learning
Slideshare reinforcement learningSlideshare reinforcement learning
Slideshare reinforcement learningDatamics
 
Slideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenSlideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenDatamics
 
Slideshare GAN
Slideshare GANSlideshare GAN
Slideshare GANDatamics
 
Slideshare AutoEncoder
Slideshare AutoEncoderSlideshare AutoEncoder
Slideshare AutoEncoderDatamics
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Datamics
 
R für Data Science und Machine Learning
R für Data Science und Machine LearningR für Data Science und Machine Learning
R für Data Science und Machine LearningDatamics
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit PythonDatamics
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit PythonDatamics
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit PythonDatamics
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit PythonDatamics
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit PythonDatamics
 

Mehr von Datamics (13)

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science Toolbox
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science Softskills
 
Slideshare reinforcement learning
Slideshare reinforcement learningSlideshare reinforcement learning
Slideshare reinforcement learning
 
Slideshare TensorFlow Grundlagen
Slideshare TensorFlow GrundlagenSlideshare TensorFlow Grundlagen
Slideshare TensorFlow Grundlagen
 
Slideshare GAN
Slideshare GANSlideshare GAN
Slideshare GAN
 
Slideshare AutoEncoder
Slideshare AutoEncoderSlideshare AutoEncoder
Slideshare AutoEncoder
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)
 
R für Data Science und Machine Learning
R für Data Science und Machine LearningR für Data Science und Machine Learning
R für Data Science und Machine Learning
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit Python
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit Python
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit Python
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit Python
 

Logistische Regression mit Python

  • 2. Mathematischer Hintergrund • Kapitel 4 – 4.3 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Logistische Regression by Datamics, 2018
  • 3. Hintergrund • Wir wollen mehr über logistische Regression als Methode der Klassifizierung lernen. • Einige Beispiele von Klassifizierungsproblemen sind: • Erkennen von Spam-Emails • Kreditausfall (ja/nein) • Krankheitsdiagnose • Diese Beispiele waren alle binäre Klassifikationen Logistische Regression by Datamics, 2018
  • 4. Hintergrund • Bisher haben wir nur Regressionen gesehen, die einen kontinuierlichen Wert vorhersagen sollen. • Auch wenn der Name anfangs etwas verwirrend sein könnte erlauben es uns logistische Regressionen Klassifizierungsprobleme zu lösen, bei denen es um diskrete Kategorien geht. • Die Konvention für binäre Klassifikation ist es 0 und 1 zu verwenden. Logistische Regression by Datamics, 2018
  • 5. Hintergrund • Wir können ein lineares Regressionsmodell nur schlecht für binäre Gruppen verwenden. Es würde keine gute Schätzung liefern: Logistische Regression Wahrscheinlichkeit unter 0 by Datamics, 2018
  • 6. Hintergrund • Statt dessen können wir eine lineare Regression zu einer logistischen Regressionslinie umwandeln: Logistische Regression Wahrscheinlichkeit Wahrscheinlichkeit unter 0 by Datamics, 2018
  • 7. Sigmoid Funktion • Die Sigmoid (Logistische) Funktion nimmt jeden Wert und wandelt ihn in einen Output zwischen 0 und 1 um. Logistische Regression by Datamics, 2018
  • 8. Sigmoid Funktion • Das bedeutet wir können unsere Lösung der linearen Regression verwenden und sie in die Sigmoid Funktion einsetzen. Logistische Regression by Datamics, 2018
  • 9. Sigmoid Funktion • Das bedeutet wir können unsere Lösung der linearen Regression verwenden und sie in die Sigmoid Funktion einsetzen. Logistische Regression by Datamics, 2018
  • 10. Sigmoid Funktion • Das Ergebnis ist eine Wahrscheinlichkeit zwischen 0 und 1, die die Zugehörigkeitswahrscheinlichkeit zur Klasse 1 angibt. Logistische Regression by Datamics, 2018
  • 11. Sigmoid Funktion • Wir können eine Grenze bei 0.5 setzen: Alles darunter zählt zu Klasse 0 und alles darüber zählt zu Klasse 1. Logistische Regression by Datamics, 2018
  • 12. Sigmoid Funktion • Wir verwenden die logistische Funktion um einen Wert zwischen 0 und 1 auszugeben. Anhand dieser Wahrscheinlichkeit weisen wir eine Klasse zu. Logistische Regression by Datamics, 2018
  • 13. Modell Auswertung • Nachdem wir unser logistisches Regressionsmodell mit unserem Trainingsset trainiert haben können wir seine Güte durch das Testset auswerten. • Dazu verwenden wir die Konfusionsmatrix (Confusion Matrix). Logistische Regression by Datamics, 2018
  • 14. Modell Auswertung • Wir verwenden wir die Konfusionsmatrix, um unser Modell auszuwerten. • Zum Beispiel ein Krankheitstest. Logistische Regression Beispiel: NO = Negativer Test = Falsch = 0 YES = Positiver Test = Wahr = 1 by Datamics, 2018
  • 15. Konfusionsmatrix Logistische Regression Terminologie: -Richtig Positiv (True Positiv TP) -Richtig Negativ (True Negatives TN) -Falsch Positiv (False Positive FP) -Falsch Negativ (False Negative FN) by Datamics, 2018
  • 16. Konfusionsmatrix Logistische Regression Genauigkeit: • Korrekte Aussagen insgesamt? • (TP + TN) / n = 150/165 = 0.91 by Datamics, 2018
  • 17. Konfusionsmatrix Logistische Regression Ungenauigkeit (Error Rate): • Falsche Aussagen insgesamt? • (FP+ FN) / n = 15/165 = 0.09 by Datamics, 2018