2. Mathematischer Hintergrund
• Der weitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen
tieferen Einblick in die Thematik
K Nearest Neighbors by Datamics, 2018
3. KNN (K Nearest Neighbors)
• K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein
Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip
beruht.
• Dieses wird am besten durch ein Beispiel veranschaulicht!
• Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit
Körpergröße (Höhe) und Gewicht.
K Nearest Neighbors by Datamics, 2018
4. KNN
K Nearest Neighbors
Rot: Pferd
Blau: Hund
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Pferd vs Hund
Gewicht (lbs)
Größe(ft)
by Datamics, 2018
5. Algorithmus
Trainingsalgorithmus:
• Speichere alle Daten
Vorhersagealgorithmus:
• Berechne die Distanz von x zu allen Punkten in den Daten
• Sortiere die Punkte nach zunehmender Distanz zu x
• Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus
K Nearest Neighbors by Datamics, 2018
6. KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
7. KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
8. KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
9. Vorteile
• Sehr einfach
• Training ist trivial
• Funktioniert mit jeder Anzahl an Klassen
• Einfach neue Daten hinzuzufügen
• Wenige Parameter
• K
• Distanzwert
K Nearest Neighbors by Datamics, 2018
10. Nachteile
• Hohe Vorhersagekosten (schlecht für große Datensätze)
• Nicht gut für hochdimensionale Daten
• Kategorische Eigenschaften lassen sich schlecht berücksichtigen
K Nearest Neighbors by Datamics, 2018
11. Beispiel mit Python
• Eine häufig gestellte Aufgabe in Data Science Vorstellungsgesprächen
ist dass der Bewerber anonymisierte Daten klassifizieren soll ohne
den Kontext zu kennen.
• Wir werden als nächstes ein ähnliches Scenario simulieren in dem wir
„klassifizierte“ Daten untersuchen in diesen Daten ist allerdings die
Bedeutung der Spalten nicht bekannt. Wir werden diese mit KNN
klassifizieren.
K Nearest Neighbors by Datamics, 2018