SlideShare ist ein Scribd-Unternehmen logo
1 von 10
K-Means Clustering
Eine Einführung
Mathematischer Hintergrund
• Kapitels 10 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
K Means Clustering
K-Means Clustering
• Das K-Means Clustering ist ein Unsupervised Learning
(Unüberwachtes Lernen) Algorithmus der versucht ähnliche Cluster
der Daten zu bilden.
• Wie kann so ein Cluster Problem aussehen?
• Ähnliche Dokumente gruppieren
• Kunden anhand von Eigenschaften gruppieren
• Marktsegmentation
• Identifizierung physisch gleicher Gruppen
K Means Clustering
K-Means Clustering
• Das übergeordnete Ziel ist es die Daten in distinkte Gruppen
einzuteilen, so dass die Beobachtungen innerhalb einer Gruppe
ähnlich sind.
K Means Clustering
K-Means Clustering
• K-Means Algorithmus
• Wähle eine Anzahl an Clustern „K“
• Ordne jede Beobachtung zufällig einem Cluster zu
• Wiederhole die folgenden Schritte, bis sich die Cluster nicht mehr verändern:
• Berechne den Mittelpunkt jedes Clusters
• Ordne jeden Punkt dem Cluster zu, zu dessen Mittelpunkt der geringste Abstand besteht
K Means Clustering
K Means Clustering
• Schauen wir uns einige Wiederholungen dieser Schritte an:
K Means Clustering
Einen K Wert wählen
K Means Clustering
Einen K Wert wählen
K Means Clustering
• Wenn wir dann K gegen die SSE in ein
Diagramm bringen können wir sehen
wie der Error mit steigendem K
abnimmt. Das liegt daran, dass die
Anzahl an Clustern zunimmt
• Wählen wir so viele Cluster wie wir
Beobachtungen haben, dann landen
wir zwar bei 0, haben aber keinen
Informationsgewinn mehr.
Einen K Wert wählen
K Means Clustering
• Die Elbow-Methode empfiehlt
den K-Wert zu wählen, an dem
die SSE „abrupt“ abnimmt
• Dieses Abnehmen führt zum
„Elbow“, dem Ellbogen im
Graph
Anwendungsbeispiel mit Python
K Means Clustering
• Wir beginnen mit den eingebauten Scikit-Learn Tools um einige
Cluster zu generieren. Diese testen wir dann mit dem K-Means
Algorithmus.
• Danach arbeiten wir im Portfolioprojekt mit echten Daten und
versuchen Universitäten basierend auf Ihren Features zu gruppieren.
Dabei versuchen wir zwischen öffentlichen und privaten
Einrichtungen zu Unterschieden.

Weitere ähnliche Inhalte

Mehr von Datamics

Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - GrundlagenDatamics
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data ScienceDatamics
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit PythonDatamics
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit PythonDatamics
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDatamics
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit PythonDatamics
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit PythonDatamics
 
Verzerrung Varianz Dilemma
Verzerrung Varianz DilemmaVerzerrung Varianz Dilemma
Verzerrung Varianz DilemmaDatamics
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit PythonDatamics
 
Machine Learning mit Python
Machine Learning mit PythonMachine Learning mit Python
Machine Learning mit PythonDatamics
 

Mehr von Datamics (10)

Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - Grundlagen
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data Science
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit Python
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit Python
 
K Nearest Neighbors mit Python
K Nearest Neighbors mit PythonK Nearest Neighbors mit Python
K Nearest Neighbors mit Python
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit Python
 
Verzerrung Varianz Dilemma
Verzerrung Varianz DilemmaVerzerrung Varianz Dilemma
Verzerrung Varianz Dilemma
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit Python
 
Machine Learning mit Python
Machine Learning mit PythonMachine Learning mit Python
Machine Learning mit Python
 

K Means mit Python

  • 2. Mathematischer Hintergrund • Kapitels 10 im ISLR-Buch gibt einen tieferen Einblick in die Thematik K Means Clustering
  • 3. K-Means Clustering • Das K-Means Clustering ist ein Unsupervised Learning (Unüberwachtes Lernen) Algorithmus der versucht ähnliche Cluster der Daten zu bilden. • Wie kann so ein Cluster Problem aussehen? • Ähnliche Dokumente gruppieren • Kunden anhand von Eigenschaften gruppieren • Marktsegmentation • Identifizierung physisch gleicher Gruppen K Means Clustering
  • 4. K-Means Clustering • Das übergeordnete Ziel ist es die Daten in distinkte Gruppen einzuteilen, so dass die Beobachtungen innerhalb einer Gruppe ähnlich sind. K Means Clustering
  • 5. K-Means Clustering • K-Means Algorithmus • Wähle eine Anzahl an Clustern „K“ • Ordne jede Beobachtung zufällig einem Cluster zu • Wiederhole die folgenden Schritte, bis sich die Cluster nicht mehr verändern: • Berechne den Mittelpunkt jedes Clusters • Ordne jeden Punkt dem Cluster zu, zu dessen Mittelpunkt der geringste Abstand besteht K Means Clustering
  • 6. K Means Clustering • Schauen wir uns einige Wiederholungen dieser Schritte an: K Means Clustering
  • 7. Einen K Wert wählen K Means Clustering
  • 8. Einen K Wert wählen K Means Clustering • Wenn wir dann K gegen die SSE in ein Diagramm bringen können wir sehen wie der Error mit steigendem K abnimmt. Das liegt daran, dass die Anzahl an Clustern zunimmt • Wählen wir so viele Cluster wie wir Beobachtungen haben, dann landen wir zwar bei 0, haben aber keinen Informationsgewinn mehr.
  • 9. Einen K Wert wählen K Means Clustering • Die Elbow-Methode empfiehlt den K-Wert zu wählen, an dem die SSE „abrupt“ abnimmt • Dieses Abnehmen führt zum „Elbow“, dem Ellbogen im Graph
  • 10. Anwendungsbeispiel mit Python K Means Clustering • Wir beginnen mit den eingebauten Scikit-Learn Tools um einige Cluster zu generieren. Diese testen wir dann mit dem K-Means Algorithmus. • Danach arbeiten wir im Portfolioprojekt mit echten Daten und versuchen Universitäten basierend auf Ihren Features zu gruppieren. Dabei versuchen wir zwischen öffentlichen und privaten Einrichtungen zu Unterschieden.