Lineare Regression mit Python

Lineare Regression
Eine Einführung

Mathematischer Hintergrund
• Kapitel 2 & 3 im ISLR-Buch
Lineare Regression by Datamics, 2018

Geschichtlicher Hintergrund
• Alles begann in den 1800er Jahren mit Francis Galton
• Galton untersuchte die Beziehung zwischen Eltern und ihren Kindern
• Insbesondere untersuchte er den Zusammenhang zwischen der
Größe des Vaters mit der des Sohnes
• Er fand heraus, dass ein Sohn ungefähr so groß wie sein Vater war,
plus minus einige Zentimeter
• Sein Durchbruch war jedoch die Entdeckung, dass die Größe des
Sohns näher mit der durchschnittlichen Größe aller Leute
zusammenhängt, als mit der des Vaters

Beispielhafte Veranschaulichung
• Der Basketballspieler Shaquille O‘Neal ist 2,16 Meter groß.
• Sein Sohn wird wahrscheinlich auch relativ groß sein.
• Da Shaq aber selbst schon „außergewöhnlich“ groß (deutlich über
dem Durchschnitt) ist, gibt es eine hohe Wahrscheinlichkeit dafür,
dass sein Sohn nicht genau so groß wie er sein wird
• Und tatsächlich ist sein Sohn ebenfalls relativ groß: 2 Meter
• Galton nannte dieses Phänomen Regression:
• „A father‘s son‘s height trends to regress (or drift towards) the mean
(average) height.“

Beispielhafte Berechnung
• Das einfachste mögliche Beispiel:
• Eine Regression zwischen nur 2
Datenpunkten
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018

• Alles was wir versuchen, wenn
wir unsere Regressionslinie
einzeichnen, ist sie so zu
zeichnen, dass sie so nah wie
möglich an allen Punkten liegt
• Für die klassische lineare
Regression oder „Kleinste
Quadrate Methode“ messen wir
nur die Nähe in die Richtungen
„hoch und runter“
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018

• Wäre es nicht toll wir könnten
das auch für mehr als zwei
Punkte anwenden?
• So könnten wir einem Mann die
wahrscheinliche Größe seines
zukünftigen Sohnes vorhersagen,
noch bevor er geboren wurde.
• Dafür gibt es verschiedene
Methoden, doch alle minimieren
die Distanz zwischen Punkten
und Linie
Lineare Regression
Größe des Vaters
GrößedesSohns by Datamics, 2018

• Die häufigste Methode ist die
„Least Squares Method“
(Methode der kleinsten
Quadrate oder kurz KQ-
Methode)
• Wir haben wie im gezeigten
Beispiel viele blaue Datenpunkte
Lineare Regression

• Durch diese Datenpunkte legen
wir eine lineare Regressionslinie
hindurch
• Dabei ist die Frage wie man die
beste Linie findet?

• Um zu erfahren welche die beste
Linie ist minimieren wir die
Summe der Quadrierten
Residuen
• In unserem Beispiel rechts
werden diese Residuen durch die
Linien zwischen Punkten und der
Regressionslinie dargestellt

Ausblick
• In der nächsten Lektion werden wir SciKit-learn und Python
verwenden, um ein lineares Regressionsmodell zu erstellen.
• Dann folgt ein Projekt für dein eigenes Portfolio und anschließend die
Lösungen zu diesem Projekt.
• Los geht‘s!

Lineare Regression mit Python

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Datamics

Mehr von Datamics (10)

Lineare Regression mit Python