SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Support Vector Machines
Eine Einführung
Mathematischer Hintergrund
• Kapitels 9 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
Support Vector Machines by Datamics, 2018
Übersicht
• Support Vector Machines (SVMs) sind Supervised Learning
Algorithmen, die Daten analysieren und versuchen die
zugrundeliegenden Muster in den Daten zu erkennen, die zur
Klassifizierung und Regressionsanalyse genutzt werden.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Gegeben ist ein Set an Trainingsdaten, in dem jede Beobachtung zu
einer von zwei Klassen/Kategorien zugeordnet ist.
• Ein SVM Algorithmus bildet ein Modell, dass neue Beobachtungen in
eine der Kategorien einordnet. Somit ist es ein nicht-probabilistischer
binärer Klassifizierer
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Ein SVM Modell ist eine Repräsentation der Beobachtungen im Raum,
die so platziert werden, dass die klare Lücke zwischen den Gruppen
möglichst groß wird.
• Neue Beobachtungen werden dann im selben Raum platziert und
deren Zugehörigkeit zu einer der beiden Kategorien vorhergesagt.
Dabei dient ihre räumliche Position auf einer der Seiten der Lücke als
Grundlage.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Schauen wir uns die grundlegende Intuition dahinter anhand eines
Beispiel an. Die klassifizierten Trainingsdaten wurden anhand zweier
Eigenschaften wie folgt platziert:
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir können eine „Hyperebene“ zwischen die beiden Klassen legen.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Allerdings kommen viele „Hyperebenen“ in Frage
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir suchen „Hyperebenen“ die den Bereich zwischen den beiden Klassen
maximiert
• Die Vektoren, die die Grenzlinien berühren sind als Support Vectors bekannt ->
Daher der Name
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir können diese Idee auf nicht-linear trennbare Daten übertragen.
Dazu verwenden wir den „Kern-Trick“.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Durch hinzufügen einer weiteren Dimension erhalten wir unsere
Hyperebene.
Support Vector Machines by Datamics, 2018
Support Vector Machines
• Wir werden anschließend ein Beispiel durchgehen und Support
Vector Machines nutzen, um zu verstehen, ob ein Tumor gutartig oder
bösartig ist.
• Darauf folgt ein Projekt für euer persönliches Machine Learning
Portfolio. Dazu verwenden wir den berühmten Iris (dt. Lilie) Datensatz
• Danach lernen wir noch, wie wir unsere Modelle durch das
GridSearch-Verfahren verbessern können.
Support Vector Machines by Datamics, 2018

Weitere ähnliche Inhalte

Mehr von Datamics

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science ToolboxDatamics
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science SoftskillsDatamics
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Datamics
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit PythonDatamics
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit PythonDatamics
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDatamics
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit PythonDatamics
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit PythonDatamics
 
Verzerrung Varianz Dilemma
Verzerrung Varianz DilemmaVerzerrung Varianz Dilemma
Verzerrung Varianz DilemmaDatamics
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit PythonDatamics
 

Mehr von Datamics (10)

Die Data Science Toolbox
Die Data Science ToolboxDie Data Science Toolbox
Die Data Science Toolbox
 
Die Data Science Softskills
Die Data Science SoftskillsDie Data Science Softskills
Die Data Science Softskills
 
Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)Slideshare Recurrent Neural Networks (RNN)
Slideshare Recurrent Neural Networks (RNN)
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit Python
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit Python
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit Python
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit Python
 
Verzerrung Varianz Dilemma
Verzerrung Varianz DilemmaVerzerrung Varianz Dilemma
Verzerrung Varianz Dilemma
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit Python
 

Support Vector Machines mit Python

  • 2. Mathematischer Hintergrund • Kapitels 9 im ISLR-Buch gibt einen tieferen Einblick in die Thematik Support Vector Machines by Datamics, 2018
  • 3. Übersicht • Support Vector Machines (SVMs) sind Supervised Learning Algorithmen, die Daten analysieren und versuchen die zugrundeliegenden Muster in den Daten zu erkennen, die zur Klassifizierung und Regressionsanalyse genutzt werden. Support Vector Machines by Datamics, 2018
  • 4. Support Vector Machines • Gegeben ist ein Set an Trainingsdaten, in dem jede Beobachtung zu einer von zwei Klassen/Kategorien zugeordnet ist. • Ein SVM Algorithmus bildet ein Modell, dass neue Beobachtungen in eine der Kategorien einordnet. Somit ist es ein nicht-probabilistischer binärer Klassifizierer Support Vector Machines by Datamics, 2018
  • 5. Support Vector Machines • Ein SVM Modell ist eine Repräsentation der Beobachtungen im Raum, die so platziert werden, dass die klare Lücke zwischen den Gruppen möglichst groß wird. • Neue Beobachtungen werden dann im selben Raum platziert und deren Zugehörigkeit zu einer der beiden Kategorien vorhergesagt. Dabei dient ihre räumliche Position auf einer der Seiten der Lücke als Grundlage. Support Vector Machines by Datamics, 2018
  • 6. Support Vector Machines • Schauen wir uns die grundlegende Intuition dahinter anhand eines Beispiel an. Die klassifizierten Trainingsdaten wurden anhand zweier Eigenschaften wie folgt platziert: Support Vector Machines by Datamics, 2018
  • 7. Support Vector Machines • Wir können eine „Hyperebene“ zwischen die beiden Klassen legen. Support Vector Machines by Datamics, 2018
  • 8. Support Vector Machines • Allerdings kommen viele „Hyperebenen“ in Frage Support Vector Machines by Datamics, 2018
  • 9. Support Vector Machines • Wir suchen „Hyperebenen“ die den Bereich zwischen den beiden Klassen maximiert • Die Vektoren, die die Grenzlinien berühren sind als Support Vectors bekannt -> Daher der Name Support Vector Machines by Datamics, 2018
  • 10. Support Vector Machines • Wir können diese Idee auf nicht-linear trennbare Daten übertragen. Dazu verwenden wir den „Kern-Trick“. Support Vector Machines by Datamics, 2018
  • 11. Support Vector Machines • Durch hinzufügen einer weiteren Dimension erhalten wir unsere Hyperebene. Support Vector Machines by Datamics, 2018
  • 12. Support Vector Machines • Wir werden anschließend ein Beispiel durchgehen und Support Vector Machines nutzen, um zu verstehen, ob ein Tumor gutartig oder bösartig ist. • Darauf folgt ein Projekt für euer persönliches Machine Learning Portfolio. Dazu verwenden wir den berühmten Iris (dt. Lilie) Datensatz • Danach lernen wir noch, wie wir unsere Modelle durch das GridSearch-Verfahren verbessern können. Support Vector Machines by Datamics, 2018