Support Vector Machines
Eine Einführung
Mathematischer Hintergrund
• Kapitels 9 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Support Vector Machines by Datamics, 2018
Übersicht
• Support Vector Machines (SVMs) sind Supervised Learning
Algorithmen, die Daten analysieren und versuchen die
zugrundeliegenden Muster in den Daten zu erkennen, die zur
Klassifizierung und Regressionsanalyse genutzt werden.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Gegeben ist ein Set an Trainingsdaten, in dem jede Beobachtung zu
einer von zwei Klassen/Kategorien zugeordnet ist.
• Ein SVM Algorithmus bildet ein Modell, dass neue Beobachtungen in
eine der Kategorien einordnet. Somit ist es ein nicht-probabilistischer
binärer Klassifizierer
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Ein SVM Modell ist eine Repräsentation der Beobachtungen im Raum,
die so platziert werden, dass die klare Lücke zwischen den Gruppen
möglichst groß wird.
• Neue Beobachtungen werden dann im selben Raum platziert und
deren Zugehörigkeit zu einer der beiden Kategorien vorhergesagt.
Dabei dient ihre räumliche Position auf einer der Seiten der Lücke als
Grundlage.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Schauen wir uns die grundlegende Intuition dahinter anhand eines
Beispiel an. Die klassifizierten Trainingsdaten wurden anhand zweier
Eigenschaften wie folgt platziert:
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir können eine „Hyperebene“ zwischen die beiden Klassen legen.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Allerdings kommen viele „Hyperebenen“ in Frage
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir suchen „Hyperebenen“ die den Bereich zwischen den beiden Klassen
maximiert
• Die Vektoren, die die Grenzlinien berühren sind als Support Vectors bekannt ->
Daher der Name
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir können diese Idee auf nicht-linear trennbare Daten übertragen.
Dazu verwenden wir den „Kern-Trick“.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Durch hinzufügen einer weiteren Dimension erhalten wir unsere
Hyperebene.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir werden anschließend ein Beispiel durchgehen und Support
Vector Machines nutzen, um zu verstehen, ob ein Tumor gutartig oder
bösartig ist.
• Darauf folgt ein Projekt für euer persönliches Machine Learning
Portfolio. Dazu verwenden wir den berühmten Iris (dt. Lilie) Datensatz
• Danach lernen wir noch, wie wir unsere Modelle durch das
GridSearch-Verfahren verbessern können.
Support Vector Machines by Datamics, 2018

Support Vector Machines mit Python

  • 1.
  • 2.
    Mathematischer Hintergrund • Kapitels9 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Support Vector Machines by Datamics, 2018
  • 3.
    Übersicht • Support VectorMachines (SVMs) sind Supervised Learning Algorithmen, die Daten analysieren und versuchen die zugrundeliegenden Muster in den Daten zu erkennen, die zur Klassifizierung und Regressionsanalyse genutzt werden. Support Vector Machines by Datamics, 2018
  • 4.
    Support Vector Machines •Gegeben ist ein Set an Trainingsdaten, in dem jede Beobachtung zu einer von zwei Klassen/Kategorien zugeordnet ist. • Ein SVM Algorithmus bildet ein Modell, dass neue Beobachtungen in eine der Kategorien einordnet. Somit ist es ein nicht-probabilistischer binärer Klassifizierer Support Vector Machines by Datamics, 2018
  • 5.
    Support Vector Machines •Ein SVM Modell ist eine Repräsentation der Beobachtungen im Raum, die so platziert werden, dass die klare Lücke zwischen den Gruppen möglichst groß wird. • Neue Beobachtungen werden dann im selben Raum platziert und deren Zugehörigkeit zu einer der beiden Kategorien vorhergesagt. Dabei dient ihre räumliche Position auf einer der Seiten der Lücke als Grundlage. Support Vector Machines by Datamics, 2018
  • 6.
    Support Vector Machines •Schauen wir uns die grundlegende Intuition dahinter anhand eines Beispiel an. Die klassifizierten Trainingsdaten wurden anhand zweier Eigenschaften wie folgt platziert: Support Vector Machines by Datamics, 2018
  • 7.
    Support Vector Machines •Wir können eine „Hyperebene“ zwischen die beiden Klassen legen. Support Vector Machines by Datamics, 2018
  • 8.
    Support Vector Machines •Allerdings kommen viele „Hyperebenen“ in Frage Support Vector Machines by Datamics, 2018
  • 9.
    Support Vector Machines •Wir suchen „Hyperebenen“ die den Bereich zwischen den beiden Klassen maximiert • Die Vektoren, die die Grenzlinien berühren sind als Support Vectors bekannt -> Daher der Name Support Vector Machines by Datamics, 2018
  • 10.
    Support Vector Machines •Wir können diese Idee auf nicht-linear trennbare Daten übertragen. Dazu verwenden wir den „Kern-Trick“. Support Vector Machines by Datamics, 2018
  • 11.
    Support Vector Machines •Durch hinzufügen einer weiteren Dimension erhalten wir unsere Hyperebene. Support Vector Machines by Datamics, 2018
  • 12.
    Support Vector Machines •Wir werden anschließend ein Beispiel durchgehen und Support Vector Machines nutzen, um zu verstehen, ob ein Tumor gutartig oder bösartig ist. • Darauf folgt ein Projekt für euer persönliches Machine Learning Portfolio. Dazu verwenden wir den berühmten Iris (dt. Lilie) Datensatz • Danach lernen wir noch, wie wir unsere Modelle durch das GridSearch-Verfahren verbessern können. Support Vector Machines by Datamics, 2018