SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Lineare Regression
Eine Einführung
Mathematischer Hintergrund
• Kapitel 2 & 3 im ISLR-Buch
Lineare Regression by Datamics, 2018
Geschichtlicher Hintergrund
• Alles begann in den 1800er Jahren mit Francis Galton
• Galton untersuchte die Beziehung zwischen Eltern und ihren Kindern
• Insbesondere untersuchte er den Zusammenhang zwischen der
Größe des Vaters mit der des Sohnes
• Er fand heraus, dass ein Sohn ungefähr so groß wie sein Vater war,
plus minus einige Zentimeter
• Sein Durchbruch war jedoch die Entdeckung, dass die Größe des
Sohns näher mit der durchschnittlichen Größe aller Leute
zusammenhängt, als mit der des Vaters
Lineare Regression by Datamics, 2018
Beispielhafte Veranschaulichung
• Der Basketballspieler Shaquille O‘Neal ist 2,16 Meter groß.
• Sein Sohn wird wahrscheinlich auch relativ groß sein.
• Da Shaq aber selbst schon „außergewöhnlich“ groß (deutlich über
dem Durchschnitt) ist, gibt es eine hohe Wahrscheinlichkeit dafür,
dass sein Sohn nicht genau so groß wie er sein wird
• Und tatsächlich ist sein Sohn ebenfalls relativ groß: 2 Meter
• Galton nannte dieses Phänomen Regression:
• „A father‘s son‘s height trends to regress (or drift towards) the mean
(average) height.“
Lineare Regression by Datamics, 2018
Beispielhafte Berechnung
• Das einfachste mögliche Beispiel:
• Eine Regression zwischen nur 2
Datenpunkten
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018
Beispielhafte Berechnung
• Alles was wir versuchen, wenn
wir unsere Regressionslinie
einzeichnen, ist sie so zu
zeichnen, dass sie so nah wie
möglich an allen Punkten liegt
• Für die klassische lineare
Regression oder „Kleinste
Quadrate Methode“ messen wir
nur die Nähe in die Richtungen
„hoch und runter“
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018
Beispielhafte Berechnung
• Wäre es nicht toll wir könnten
das auch für mehr als zwei
Punkte anwenden?
• So könnten wir einem Mann die
wahrscheinliche Größe seines
zukünftigen Sohnes vorhersagen,
noch bevor er geboren wurde.
• Dafür gibt es verschiedene
Methoden, doch alle minimieren
die Distanz zwischen Punkten
und Linie
Lineare Regression
Größe des Vaters
GrößedesSohns by Datamics, 2018
Beispielhafte Berechnung
• Die häufigste Methode ist die
„Least Squares Method“
(Methode der kleinsten
Quadrate oder kurz KQ-
Methode)
• Wir haben wie im gezeigten
Beispiel viele blaue Datenpunkte
Lineare Regression
Beispielhafte Berechnung
• Durch diese Datenpunkte legen
wir eine lineare Regressionslinie
hindurch
• Dabei ist die Frage wie man die
beste Linie findet?
Lineare Regression by Datamics, 2018
Beispielhafte Berechnung
• Um zu erfahren welche die beste
Linie ist minimieren wir die
Summe der Quadrierten
Residuen
• In unserem Beispiel rechts
werden diese Residuen durch die
Linien zwischen Punkten und der
Regressionslinie dargestellt
Lineare Regression by Datamics, 2018
Ausblick
• In der nächsten Lektion werden wir SciKit-learn und Python
verwenden, um ein lineares Regressionsmodell zu erstellen.
• Dann folgt ein Projekt für dein eigenes Portfolio und anschließend die
Lösungen zu diesem Projekt.
• Los geht‘s!
Lineare Regression by Datamics, 2018

Weitere ähnliche Inhalte

Mehr von Datamics

Mehr von Datamics (10)

Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - Grundlagen
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data Science
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit Python
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit Python
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit Python
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit Python
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit Python
 
Verzerrung Varianz Dilemma
Verzerrung Varianz DilemmaVerzerrung Varianz Dilemma
Verzerrung Varianz Dilemma
 
Machine Learning mit Python
Machine Learning mit PythonMachine Learning mit Python
Machine Learning mit Python
 

Lineare Regression mit Python

  • 2. Mathematischer Hintergrund • Kapitel 2 & 3 im ISLR-Buch Lineare Regression by Datamics, 2018
  • 3. Geschichtlicher Hintergrund • Alles begann in den 1800er Jahren mit Francis Galton • Galton untersuchte die Beziehung zwischen Eltern und ihren Kindern • Insbesondere untersuchte er den Zusammenhang zwischen der Größe des Vaters mit der des Sohnes • Er fand heraus, dass ein Sohn ungefähr so groß wie sein Vater war, plus minus einige Zentimeter • Sein Durchbruch war jedoch die Entdeckung, dass die Größe des Sohns näher mit der durchschnittlichen Größe aller Leute zusammenhängt, als mit der des Vaters Lineare Regression by Datamics, 2018
  • 4. Beispielhafte Veranschaulichung • Der Basketballspieler Shaquille O‘Neal ist 2,16 Meter groß. • Sein Sohn wird wahrscheinlich auch relativ groß sein. • Da Shaq aber selbst schon „außergewöhnlich“ groß (deutlich über dem Durchschnitt) ist, gibt es eine hohe Wahrscheinlichkeit dafür, dass sein Sohn nicht genau so groß wie er sein wird • Und tatsächlich ist sein Sohn ebenfalls relativ groß: 2 Meter • Galton nannte dieses Phänomen Regression: • „A father‘s son‘s height trends to regress (or drift towards) the mean (average) height.“ Lineare Regression by Datamics, 2018
  • 5. Beispielhafte Berechnung • Das einfachste mögliche Beispiel: • Eine Regression zwischen nur 2 Datenpunkten Lineare Regression 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 0 1 2 3 4 5 by Datamics, 2018
  • 6. Beispielhafte Berechnung • Alles was wir versuchen, wenn wir unsere Regressionslinie einzeichnen, ist sie so zu zeichnen, dass sie so nah wie möglich an allen Punkten liegt • Für die klassische lineare Regression oder „Kleinste Quadrate Methode“ messen wir nur die Nähe in die Richtungen „hoch und runter“ Lineare Regression 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 0 1 2 3 4 5 by Datamics, 2018
  • 7. Beispielhafte Berechnung • Wäre es nicht toll wir könnten das auch für mehr als zwei Punkte anwenden? • So könnten wir einem Mann die wahrscheinliche Größe seines zukünftigen Sohnes vorhersagen, noch bevor er geboren wurde. • Dafür gibt es verschiedene Methoden, doch alle minimieren die Distanz zwischen Punkten und Linie Lineare Regression Größe des Vaters GrößedesSohns by Datamics, 2018
  • 8. Beispielhafte Berechnung • Die häufigste Methode ist die „Least Squares Method“ (Methode der kleinsten Quadrate oder kurz KQ- Methode) • Wir haben wie im gezeigten Beispiel viele blaue Datenpunkte Lineare Regression
  • 9. Beispielhafte Berechnung • Durch diese Datenpunkte legen wir eine lineare Regressionslinie hindurch • Dabei ist die Frage wie man die beste Linie findet? Lineare Regression by Datamics, 2018
  • 10. Beispielhafte Berechnung • Um zu erfahren welche die beste Linie ist minimieren wir die Summe der Quadrierten Residuen • In unserem Beispiel rechts werden diese Residuen durch die Linien zwischen Punkten und der Regressionslinie dargestellt Lineare Regression by Datamics, 2018
  • 11. Ausblick • In der nächsten Lektion werden wir SciKit-learn und Python verwenden, um ein lineares Regressionsmodell zu erstellen. • Dann folgt ein Projekt für dein eigenes Portfolio und anschließend die Lösungen zu diesem Projekt. • Los geht‘s! Lineare Regression by Datamics, 2018