3. K-Means Clustering
• Das K-Means Clustering ist ein Unsupervised Learning
(Unüberwachtes Lernen) Algorithmus der versucht ähnliche Cluster
der Daten zu bilden.
• Wie kann so ein Cluster Problem aussehen?
• Ähnliche Dokumente gruppieren
• Kunden anhand von Eigenschaften gruppieren
• Marktsegmentation
• Identifizierung physisch gleicher Gruppen
K Means Clustering
4. K-Means Clustering
• Das übergeordnete Ziel ist es die Daten in distinkte Gruppen
einzuteilen, so dass die Beobachtungen innerhalb einer Gruppe
ähnlich sind.
K Means Clustering
5. K-Means Clustering
• K-Means Algorithmus
• Wähle eine Anzahl an Clustern „K“
• Ordne jede Beobachtung zufällig einem Cluster zu
• Wiederhole die folgenden Schritte, bis sich die Cluster nicht mehr verändern:
• Berechne den Mittelpunkt jedes Clusters
• Ordne jeden Punkt dem Cluster zu, zu dessen Mittelpunkt der geringste Abstand besteht
K Means Clustering
6. K Means Clustering
• Schauen wir uns einige Wiederholungen dieser Schritte an:
K Means Clustering
8. Einen K Wert wählen
K Means Clustering
• Wenn wir dann K gegen die SSE in ein
Diagramm bringen können wir sehen
wie der Error mit steigendem K
abnimmt. Das liegt daran, dass die
Anzahl an Clustern zunimmt
• Wählen wir so viele Cluster wie wir
Beobachtungen haben, dann landen
wir zwar bei 0, haben aber keinen
Informationsgewinn mehr.
9. Einen K Wert wählen
K Means Clustering
• Die Elbow-Methode empfiehlt
den K-Wert zu wählen, an dem
die SSE „abrupt“ abnimmt
• Dieses Abnehmen führt zum
„Elbow“, dem Ellbogen im
Graph
10. Anwendungsbeispiel mit Python
K Means Clustering
• Wir beginnen mit den eingebauten Scikit-Learn Tools um einige
Cluster zu generieren. Diese testen wir dann mit dem K-Means
Algorithmus.
• Danach arbeiten wir im Portfolioprojekt mit echten Daten und
versuchen Universitäten basierend auf Ihren Features zu gruppieren.
Dabei versuchen wir zwischen öffentlichen und privaten
Einrichtungen zu Unterschieden.