Wie Gruppiere ich meine Daten? Wie finde ich heraus, welche Personen, Sensorwerte, Koordinaten zusammen gehören?
Dieser Vortrag behandelt vier einfache Algorithmen, die darauf Antwort geben.
Im Rahmen von Jugend Hackt http://jugendhackt.de/ .
11. 11
Abstand
Manhattan
A ja ja ja ja X ja ja ja ja ja
B X ja ja ja X ja X ja X ja
C X X X X X X X X X X
Stellt euch an dieser Stelle ein 10-Dimensionales Bild vor.
14. 14
Abstand
Es gibt auch noch
- Pearson correlation für Lineare Abhängigkeit
- Jaccard similarity für Mengen (Buchstaben)
15. 15
Algorithmen
● Single Link
● Complete Link
● K-Means
● Mean Shift
● Connected Components
● Gaussian Mixture Model
● DB-Scan
16. 16
Single Link & Complete Link
➢ Jeder Punkt in einen neuen Cluster
➢ Bis es wenig Cluster gibt, tue:
➢ Finde die beiden Cluster mit min. dist(c1, c2)
➢ Erzeuge einen neuen Cluster aus c1 + c2
Single Link:
dist(c1, c2) = min({dist(x1, x2) | x1 ∈ c1, x2 ∈ c2})
Complete Link:
dist(c1, c2) = max({dist(x1, x2) | x1 ∈ c1, x2 ∈ c2})
26. 26
K-Means
➢ Platziere eine Anzahl an Mittelpunkten zufällig
➢ Bis sich nichts ändert, tue:
➢ Erzeuge für jeden Mittelpunkt einen leeren
Cluster
➢ Füge die Punkte in den Cluster vom
nächstliegendsten Mittelpunkt
➢ Bilde die Mittelpunkte aus den Clustern
30. 30
Mean-Shift
➢ Verteile zufällig Punkte
➢ Solange sich was ändert, tue:
➢ Für jeden Mittelpunkt p, tue:
➢ p := Durchschnitt aus allen Daten nahe p
Gewichteter Durchschnitt für Normalverteilte Daten
35. 35
Quellen
● Vorlesung Datamining 2013/14 am HPI
– I. H. Witten, E. Frank, M. A. Hall: Data Mining - Practical
Machine Learning Tools and Techniques (Chapters 1 – 6)
– C. Bishop: Pattern Recognition and Machine Learning
(Chapters 1 – 4, 8, 9)
– T. M. Mitchell: Machine Learning (Chapters 3 – 6, 8, 10)
– P. Flach: Machine Learning – The Art and Science of
Algorithms that make Sense of Data (Chapters 1 – 3, 5 – 11)
– D. J. C. MacKay: Information Theory, Inference and Learning
Algorithms (Chapters 1 – 6)