3. Geschichtlicher Hintergrund
• Alles begann in den 1800er Jahren mit Francis Galton
• Galton untersuchte die Beziehung zwischen Eltern und ihren Kindern
• Insbesondere untersuchte er den Zusammenhang zwischen der
Größe des Vaters mit der des Sohnes
• Er fand heraus, dass ein Sohn ungefähr so groß wie sein Vater war,
plus minus einige Zentimeter
• Sein Durchbruch war jedoch die Entdeckung, dass die Größe des
Sohns näher mit der durchschnittlichen Größe aller Leute
zusammenhängt, als mit der des Vaters
Lineare Regression by Datamics, 2018
4. Beispielhafte Veranschaulichung
• Der Basketballspieler Shaquille O‘Neal ist 2,16 Meter groß.
• Sein Sohn wird wahrscheinlich auch relativ groß sein.
• Da Shaq aber selbst schon „außergewöhnlich“ groß (deutlich über
dem Durchschnitt) ist, gibt es eine hohe Wahrscheinlichkeit dafür,
dass sein Sohn nicht genau so groß wie er sein wird
• Und tatsächlich ist sein Sohn ebenfalls relativ groß: 2 Meter
• Galton nannte dieses Phänomen Regression:
• „A father‘s son‘s height trends to regress (or drift towards) the mean
(average) height.“
Lineare Regression by Datamics, 2018
5. Beispielhafte Berechnung
• Das einfachste mögliche Beispiel:
• Eine Regression zwischen nur 2
Datenpunkten
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018
6. Beispielhafte Berechnung
• Alles was wir versuchen, wenn
wir unsere Regressionslinie
einzeichnen, ist sie so zu
zeichnen, dass sie so nah wie
möglich an allen Punkten liegt
• Für die klassische lineare
Regression oder „Kleinste
Quadrate Methode“ messen wir
nur die Nähe in die Richtungen
„hoch und runter“
Lineare Regression
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5
by Datamics, 2018
7. Beispielhafte Berechnung
• Wäre es nicht toll wir könnten
das auch für mehr als zwei
Punkte anwenden?
• So könnten wir einem Mann die
wahrscheinliche Größe seines
zukünftigen Sohnes vorhersagen,
noch bevor er geboren wurde.
• Dafür gibt es verschiedene
Methoden, doch alle minimieren
die Distanz zwischen Punkten
und Linie
Lineare Regression
Größe des Vaters
GrößedesSohns by Datamics, 2018
8. Beispielhafte Berechnung
• Die häufigste Methode ist die
„Least Squares Method“
(Methode der kleinsten
Quadrate oder kurz KQ-
Methode)
• Wir haben wie im gezeigten
Beispiel viele blaue Datenpunkte
Lineare Regression
9. Beispielhafte Berechnung
• Durch diese Datenpunkte legen
wir eine lineare Regressionslinie
hindurch
• Dabei ist die Frage wie man die
beste Linie findet?
Lineare Regression by Datamics, 2018
10. Beispielhafte Berechnung
• Um zu erfahren welche die beste
Linie ist minimieren wir die
Summe der Quadrierten
Residuen
• In unserem Beispiel rechts
werden diese Residuen durch die
Linien zwischen Punkten und der
Regressionslinie dargestellt
Lineare Regression by Datamics, 2018
11. Ausblick
• In der nächsten Lektion werden wir SciKit-learn und Python
verwenden, um ein lineares Regressionsmodell zu erstellen.
• Dann folgt ein Projekt für dein eigenes Portfolio und anschließend die
Lösungen zu diesem Projekt.
• Los geht‘s!
Lineare Regression by Datamics, 2018