Support Vector Machines mit Python

Support Vector Machines
Eine Einführung

Mathematischer Hintergrund
• Kapitels 9 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Support Vector Machines by Datamics, 2018

Übersicht
• Support Vector Machines (SVMs) sind Supervised Learning
Algorithmen, die Daten analysieren und versuchen die
zugrundeliegenden Muster in den Daten zu erkennen, die zur
Klassifizierung und Regressionsanalyse genutzt werden.

• Gegeben ist ein Set an Trainingsdaten, in dem jede Beobachtung zu
einer von zwei Klassen/Kategorien zugeordnet ist.
• Ein SVM Algorithmus bildet ein Modell, dass neue Beobachtungen in
eine der Kategorien einordnet. Somit ist es ein nicht-probabilistischer
binärer Klassifizierer

• Ein SVM Modell ist eine Repräsentation der Beobachtungen im Raum,
die so platziert werden, dass die klare Lücke zwischen den Gruppen
möglichst groß wird.
• Neue Beobachtungen werden dann im selben Raum platziert und
deren Zugehörigkeit zu einer der beiden Kategorien vorhergesagt.
Dabei dient ihre räumliche Position auf einer der Seiten der Lücke als
Grundlage.

• Schauen wir uns die grundlegende Intuition dahinter anhand eines
Beispiel an. Die klassifizierten Trainingsdaten wurden anhand zweier
Eigenschaften wie folgt platziert:

• Wir können eine „Hyperebene“ zwischen die beiden Klassen legen.

• Allerdings kommen viele „Hyperebenen“ in Frage

• Wir suchen „Hyperebenen“ die den Bereich zwischen den beiden Klassen
maximiert
• Die Vektoren, die die Grenzlinien berühren sind als Support Vectors bekannt ->
Daher der Name

• Wir können diese Idee auf nicht-linear trennbare Daten übertragen.
Dazu verwenden wir den „Kern-Trick“.

• Durch hinzufügen einer weiteren Dimension erhalten wir unsere
Hyperebene.

• Wir werden anschließend ein Beispiel durchgehen und Support
Vector Machines nutzen, um zu verstehen, ob ein Tumor gutartig oder
bösartig ist.
• Darauf folgt ein Projekt für euer persönliches Machine Learning
Portfolio. Dazu verwenden wir den berühmten Iris (dt. Lilie) Datensatz
• Danach lernen wir noch, wie wir unsere Modelle durch das
GridSearch-Verfahren verbessern können.

Support Vector Machines mit Python

Weitere ähnliche Inhalte

Mehr von Datamics

Support Vector Machines mit Python