K-Means Clustering
Eine Einführung
Mathematischer Hintergrund
• Kapitels 10 im ISLR-Buch gibt einen tieferen Einblick in die Thematik
K Means Clustering
K-Means Clustering
• Das K-Means Clustering ist ein Unsupervised Learning
(Unüberwachtes Lernen) Algorithmus der versucht ähnliche Cluster
der Daten zu bilden.
• Wie kann so ein Cluster Problem aussehen?
• Ähnliche Dokumente gruppieren
• Kunden anhand von Eigenschaften gruppieren
• Marktsegmentation
• Identifizierung physisch gleicher Gruppen
K Means Clustering
K-Means Clustering
• Das übergeordnete Ziel ist es die Daten in distinkte Gruppen
einzuteilen, so dass die Beobachtungen innerhalb einer Gruppe
ähnlich sind.
K Means Clustering
K-Means Clustering
• K-Means Algorithmus
• Wähle eine Anzahl an Clustern „K“
• Ordne jede Beobachtung zufällig einem Cluster zu
• Wiederhole die folgenden Schritte, bis sich die Cluster nicht mehr verändern:
• Berechne den Mittelpunkt jedes Clusters
• Ordne jeden Punkt dem Cluster zu, zu dessen Mittelpunkt der geringste Abstand besteht
K Means Clustering
K Means Clustering
• Schauen wir uns einige Wiederholungen dieser Schritte an:
K Means Clustering
Einen K Wert wählen
K Means Clustering
Einen K Wert wählen
K Means Clustering
• Wenn wir dann K gegen die SSE in ein
Diagramm bringen können wir sehen
wie der Error mit steigendem K
abnimmt. Das liegt daran, dass die
Anzahl an Clustern zunimmt
• Wählen wir so viele Cluster wie wir
Beobachtungen haben, dann landen
wir zwar bei 0, haben aber keinen
Informationsgewinn mehr.
Einen K Wert wählen
K Means Clustering
• Die Elbow-Methode empfiehlt
den K-Wert zu wählen, an dem
die SSE „abrupt“ abnimmt
• Dieses Abnehmen führt zum
„Elbow“, dem Ellbogen im
Graph
Anwendungsbeispiel mit Python
K Means Clustering
• Wir beginnen mit den eingebauten Scikit-Learn Tools um einige
Cluster zu generieren. Diese testen wir dann mit dem K-Means
Algorithmus.
• Danach arbeiten wir im Portfolioprojekt mit echten Daten und
versuchen Universitäten basierend auf Ihren Features zu gruppieren.
Dabei versuchen wir zwischen öffentlichen und privaten
Einrichtungen zu Unterschieden.

K Means mit Python

  • 1.
  • 2.
    Mathematischer Hintergrund • Kapitels10 im ISLR-Buch gibt einen tieferen Einblick in die Thematik K Means Clustering
  • 3.
    K-Means Clustering • DasK-Means Clustering ist ein Unsupervised Learning (Unüberwachtes Lernen) Algorithmus der versucht ähnliche Cluster der Daten zu bilden. • Wie kann so ein Cluster Problem aussehen? • Ähnliche Dokumente gruppieren • Kunden anhand von Eigenschaften gruppieren • Marktsegmentation • Identifizierung physisch gleicher Gruppen K Means Clustering
  • 4.
    K-Means Clustering • Dasübergeordnete Ziel ist es die Daten in distinkte Gruppen einzuteilen, so dass die Beobachtungen innerhalb einer Gruppe ähnlich sind. K Means Clustering
  • 5.
    K-Means Clustering • K-MeansAlgorithmus • Wähle eine Anzahl an Clustern „K“ • Ordne jede Beobachtung zufällig einem Cluster zu • Wiederhole die folgenden Schritte, bis sich die Cluster nicht mehr verändern: • Berechne den Mittelpunkt jedes Clusters • Ordne jeden Punkt dem Cluster zu, zu dessen Mittelpunkt der geringste Abstand besteht K Means Clustering
  • 6.
    K Means Clustering •Schauen wir uns einige Wiederholungen dieser Schritte an: K Means Clustering
  • 7.
    Einen K Wertwählen K Means Clustering
  • 8.
    Einen K Wertwählen K Means Clustering • Wenn wir dann K gegen die SSE in ein Diagramm bringen können wir sehen wie der Error mit steigendem K abnimmt. Das liegt daran, dass die Anzahl an Clustern zunimmt • Wählen wir so viele Cluster wie wir Beobachtungen haben, dann landen wir zwar bei 0, haben aber keinen Informationsgewinn mehr.
  • 9.
    Einen K Wertwählen K Means Clustering • Die Elbow-Methode empfiehlt den K-Wert zu wählen, an dem die SSE „abrupt“ abnimmt • Dieses Abnehmen führt zum „Elbow“, dem Ellbogen im Graph
  • 10.
    Anwendungsbeispiel mit Python KMeans Clustering • Wir beginnen mit den eingebauten Scikit-Learn Tools um einige Cluster zu generieren. Diese testen wir dann mit dem K-Means Algorithmus. • Danach arbeiten wir im Portfolioprojekt mit echten Daten und versuchen Universitäten basierend auf Ihren Features zu gruppieren. Dabei versuchen wir zwischen öffentlichen und privaten Einrichtungen zu Unterschieden.