K Nearest Neighbors mit Python

K Nearest Neighbors
Eine Einführung

Mathematischer Hintergrund
• Der weitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen
tieferen Einblick in die Thematik
K Nearest Neighbors by Datamics, 2018

KNN (K Nearest Neighbors)
• K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein
Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip
beruht.
• Dieses wird am besten durch ein Beispiel veranschaulicht!
• Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit
Körpergröße (Höhe) und Gewicht.

KNN
K Nearest Neighbors
Rot: Pferd
Blau: Hund
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Neuer Datenpunkt:
Pferd vs Hund
Gewicht (lbs)
Größe(ft)
by Datamics, 2018

Algorithmus
Trainingsalgorithmus:
• Speichere alle Daten
Vorhersagealgorithmus:
• Berechne die Distanz von x zu allen Punkten in den Daten
• Sortiere die Punkte nach zunehmender Distanz zu x
• Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus

KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.

Vorteile
• Sehr einfach
• Training ist trivial
• Funktioniert mit jeder Anzahl an Klassen
• Einfach neue Daten hinzuzufügen
• Wenige Parameter
• K
• Distanzwert

Nachteile
• Hohe Vorhersagekosten (schlecht für große Datensätze)
• Nicht gut für hochdimensionale Daten
• Kategorische Eigenschaften lassen sich schlecht berücksichtigen

Beispiel mit Python
• Eine häufig gestellte Aufgabe in Data Science Vorstellungsgesprächen
ist dass der Bewerber anonymisierte Daten klassifizieren soll ohne
den Kontext zu kennen.
• Wir werden als nächstes ein ähnliches Scenario simulieren in dem wir
„klassifizierte“ Daten untersuchen in diesen Daten ist allerdings die
Bedeutung der Spalten nicht bekannt. Wir werden diese mit KNN
klassifizieren.

K Nearest Neighbors mit Python

Weitere ähnliche Inhalte

Mehr von Datamics

K Nearest Neighbors mit Python