Principal Component Analysis
Eine Einführung
Mathematischer Hintergrund
• Kapitel 10.2 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Principal Component Analysis by Datamics, 2018
Übersicht
• Lasst uns die grundsätzliche Idee hinter der PCA (deutsch
Hauptkomponentenanalyse) besprechen.
• Das mathematische Verfahren ist auch bekannt als
Hauptachsentransformation oder Singulärwertzerlegung
• Es ist eine „unsupervised“ multivarianten Statistik, um die Beziehung
zwischen Variablen eines Datensatzes zu untersuchen.
• Sie dient dazu, umfangreiche Datensätze zu strukturieren, zu
vereinfachen und zu veranschaulichen
• Sie ist auch manchmal als allgemeine Faktor Analyse bekannt.
Principal Component Analysis by Datamics, 2018
Anwendungsbeispiel 1
Bei der Betrachtung von Schiffen wurden die Merkmale Länge, Breite,
Wasserverdrängung, Tiefgang, Leistung der Maschinen,
Geschwindigkeit (längerfristig mögliche Höchstgeschwindigkeit),
erfasst.
• Die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang
können so aufgefasst werden, dass sie alle einen ähnlichen
Sachverhalt messen, den man als den Faktor „Größe“ beschreiben
könnte.
• Die Leistung der Maschinen und die Höchstgeschwindigkeit könnte zu
einem Faktor „Geschwindigkeit“ zusammengefasst werden.
Principal Component Analysis by Datamics, 2018
Anwendungsbeispiel 2
• Bei dem Kaufverhalten von Konsumenten, gibt es möglicherweise
latente Faktoren wie sozialer Status, Alter oder Familienstand, die
bestimmte Käufe motivieren.
• Hier könnte man durch gezielte Werbung die “Kauflust” entsprechend
kanalisieren.
Principal Component Analysis by Datamics, 2018
Verfahren
• Die bereits behandelte Regression bestimmt eine Linie, die den
gesamten Datensatz bestmöglich repräsentiert.
• Die PCA bestimmt mehrere orthogonale Linien, die das selbe tun
sollen.
• Orthogonal bedeutet „im rechten Winkel“.
• Genau genommen sind die Linien senkrecht zueinander im n-dimensionalen
Raum.
• n-dimensionaler Raum ist der Raum der verschiedenen Variablen
• Es gibt so viele Dimensionen wie es Variablen gibt. D.h. in einem Datensatz
mit 4 Variablen gibt es auch 4 Dimensionen im Raum.
Principal Component Analysis by Datamics, 2018
Verfahren
• Hier sehen wir einige Daten
entlang der beiden Features (bzw.
Achsen) x und y dargestellt.
Principal Component Analysis by Datamics, 2018
Verfahren
• Wir können jetzt eine
orthogonale Linie hinzufügen.
• Jetzt können wir damit beginnen
die “Components“ zu verstehen!
Principal Component Analysis by Datamics, 2018
Verfahren
• Components sind eine lineare
Transformation die ein
Variablensystem des Datensatzes
wählt, damit folgendes Ziel erfüllt
wird:
• Der größtmögliche Anteil der
Varianz im Datensatz soll durch
die erste Achse erklärt werden.
Principal Component Analysis by Datamics, 2018
Verfahren
• Der zweitgrößte Anteil der Varianz
im Datensatz soll durch die zweite
Achse erklärt werden.
• Und so weiter...
• Dieser Prozess erlaub es uns die
Anzahl an Variablen für spätere
Analyse zu reduzieren.
Principal Component Analysis by Datamics, 2018
Verfahren
• Der zweitgrößte Anteil der Varianz
im Datensatz soll durch die zweite
Achse erklärt werden.
• Und so weiter...
• Dieser Prozess erlaub es uns die
Anzahl an Variablen für spätere
Analyse zu reduzieren.
Principal Component Analysis by Datamics, 2018
Verfahren
• Die Components sind dabei nicht
korreliert, da sie im Raum der
Samples gegeneinander
orthogonal sind.
Principal Component Analysis by Datamics, 2018
Verfahren
• Und wir können diesen Prozess
auch in höhere Dimensionen
fortsetzen.
Principal Component Analysis by Datamics, 2018
Verfahren
• Wenn wir diese Technik jetzt auf einen Datensatz mit eine Vielzahl an
Variablen anwenden, dann können wir die erklärte Varianz in einige
wenige Components übertragen.
• Die größte Herausforderung dabei ist es, die Components richtig zu
interpretieren!
Principal Component Analysis by Datamics, 2018
PCA mit Python
• Für unsere Anwendung mit Python werden wir uns ein Beispiel einer
PCA mit SciKit Learn anschauen.
• Wir wollen dafür unsere Daten standardisieren, bevor wir sie in einer
PCA verwenden, deshalb behandeln wir diesen Schritt ebenfalls.
• Da dieser Algorithmus üblicherweise für Analyse von Daten und nicht
für ein voll einsetzbares Modell wird es zu diesem Kapitel kein
Portfolio Projekt geben.
Principal Component Analysis by Datamics, 2018

Principal Component Analysis mit Python

  • 1.
  • 2.
    Mathematischer Hintergrund • Kapitel10.2 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Principal Component Analysis by Datamics, 2018
  • 3.
    Übersicht • Lasst unsdie grundsätzliche Idee hinter der PCA (deutsch Hauptkomponentenanalyse) besprechen. • Das mathematische Verfahren ist auch bekannt als Hauptachsentransformation oder Singulärwertzerlegung • Es ist eine „unsupervised“ multivarianten Statistik, um die Beziehung zwischen Variablen eines Datensatzes zu untersuchen. • Sie dient dazu, umfangreiche Datensätze zu strukturieren, zu vereinfachen und zu veranschaulichen • Sie ist auch manchmal als allgemeine Faktor Analyse bekannt. Principal Component Analysis by Datamics, 2018
  • 4.
    Anwendungsbeispiel 1 Bei derBetrachtung von Schiffen wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, Leistung der Maschinen, Geschwindigkeit (längerfristig mögliche Höchstgeschwindigkeit), erfasst. • Die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang können so aufgefasst werden, dass sie alle einen ähnlichen Sachverhalt messen, den man als den Faktor „Größe“ beschreiben könnte. • Die Leistung der Maschinen und die Höchstgeschwindigkeit könnte zu einem Faktor „Geschwindigkeit“ zusammengefasst werden. Principal Component Analysis by Datamics, 2018
  • 5.
    Anwendungsbeispiel 2 • Beidem Kaufverhalten von Konsumenten, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. • Hier könnte man durch gezielte Werbung die “Kauflust” entsprechend kanalisieren. Principal Component Analysis by Datamics, 2018
  • 6.
    Verfahren • Die bereitsbehandelte Regression bestimmt eine Linie, die den gesamten Datensatz bestmöglich repräsentiert. • Die PCA bestimmt mehrere orthogonale Linien, die das selbe tun sollen. • Orthogonal bedeutet „im rechten Winkel“. • Genau genommen sind die Linien senkrecht zueinander im n-dimensionalen Raum. • n-dimensionaler Raum ist der Raum der verschiedenen Variablen • Es gibt so viele Dimensionen wie es Variablen gibt. D.h. in einem Datensatz mit 4 Variablen gibt es auch 4 Dimensionen im Raum. Principal Component Analysis by Datamics, 2018
  • 7.
    Verfahren • Hier sehenwir einige Daten entlang der beiden Features (bzw. Achsen) x und y dargestellt. Principal Component Analysis by Datamics, 2018
  • 8.
    Verfahren • Wir könnenjetzt eine orthogonale Linie hinzufügen. • Jetzt können wir damit beginnen die “Components“ zu verstehen! Principal Component Analysis by Datamics, 2018
  • 9.
    Verfahren • Components sindeine lineare Transformation die ein Variablensystem des Datensatzes wählt, damit folgendes Ziel erfüllt wird: • Der größtmögliche Anteil der Varianz im Datensatz soll durch die erste Achse erklärt werden. Principal Component Analysis by Datamics, 2018
  • 10.
    Verfahren • Der zweitgrößteAnteil der Varianz im Datensatz soll durch die zweite Achse erklärt werden. • Und so weiter... • Dieser Prozess erlaub es uns die Anzahl an Variablen für spätere Analyse zu reduzieren. Principal Component Analysis by Datamics, 2018
  • 11.
    Verfahren • Der zweitgrößteAnteil der Varianz im Datensatz soll durch die zweite Achse erklärt werden. • Und so weiter... • Dieser Prozess erlaub es uns die Anzahl an Variablen für spätere Analyse zu reduzieren. Principal Component Analysis by Datamics, 2018
  • 12.
    Verfahren • Die Componentssind dabei nicht korreliert, da sie im Raum der Samples gegeneinander orthogonal sind. Principal Component Analysis by Datamics, 2018
  • 13.
    Verfahren • Und wirkönnen diesen Prozess auch in höhere Dimensionen fortsetzen. Principal Component Analysis by Datamics, 2018
  • 14.
    Verfahren • Wenn wirdiese Technik jetzt auf einen Datensatz mit eine Vielzahl an Variablen anwenden, dann können wir die erklärte Varianz in einige wenige Components übertragen. • Die größte Herausforderung dabei ist es, die Components richtig zu interpretieren! Principal Component Analysis by Datamics, 2018
  • 15.
    PCA mit Python •Für unsere Anwendung mit Python werden wir uns ein Beispiel einer PCA mit SciKit Learn anschauen. • Wir wollen dafür unsere Daten standardisieren, bevor wir sie in einer PCA verwenden, deshalb behandeln wir diesen Schritt ebenfalls. • Da dieser Algorithmus üblicherweise für Analyse von Daten und nicht für ein voll einsetzbares Modell wird es zu diesem Kapitel kein Portfolio Projekt geben. Principal Component Analysis by Datamics, 2018