K Nearest Neighbors
Eine Einführung
Mathematischer Hintergrund
• Der weitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen
tieferen Einblick in die Thematik
K Nearest Neighbors by Datamics, 2018
KNN (K Nearest Neighbors)
• K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein
Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip
beruht.
• Dieses wird am besten durch ein Beispiel veranschaulicht!
• Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit
Körpergröße (Höhe) und Gewicht.
K Nearest Neighbors by Datamics, 2018
KNN
K Nearest Neighbors
Rot: Pferd
Blau: Hund
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Pferd vs Hund
Gewicht (lbs)
Größe(ft)
by Datamics, 2018
Algorithmus
Trainingsalgorithmus:
• Speichere alle Daten
Vorhersagealgorithmus:
• Berechne die Distanz von x zu allen Punkten in den Daten
• Sortiere die Punkte nach zunehmender Distanz zu x
• Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus
K Nearest Neighbors by Datamics, 2018
KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
Vorteile
• Sehr einfach
• Training ist trivial
• Funktioniert mit jeder Anzahl an Klassen
• Einfach neue Daten hinzuzufügen
• Wenige Parameter
• K
• Distanzwert
K Nearest Neighbors by Datamics, 2018
Nachteile
• Hohe Vorhersagekosten (schlecht für große Datensätze)
• Nicht gut für hochdimensionale Daten
• Kategorische Eigenschaften lassen sich schlecht berücksichtigen
K Nearest Neighbors by Datamics, 2018
Beispiel mit Python
• Eine häufig gestellte Aufgabe in Data Science Vorstellungsgesprächen
ist dass der Bewerber anonymisierte Daten klassifizieren soll ohne
den Kontext zu kennen.
• Wir werden als nächstes ein ähnliches Scenario simulieren in dem wir
„klassifizierte“ Daten untersuchen in diesen Daten ist allerdings die
Bedeutung der Spalten nicht bekannt. Wir werden diese mit KNN
klassifizieren.
K Nearest Neighbors by Datamics, 2018

K Nearest Neighbors mit Python

  • 1.
  • 2.
    Mathematischer Hintergrund • Derweitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen tieferen Einblick in die Thematik K Nearest Neighbors by Datamics, 2018
  • 3.
    KNN (K NearestNeighbors) • K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip beruht. • Dieses wird am besten durch ein Beispiel veranschaulicht! • Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit Körpergröße (Höhe) und Gewicht. K Nearest Neighbors by Datamics, 2018
  • 4.
    KNN K Nearest Neighbors Rot:Pferd Blau: Hund Neuer Datenpunkt: Ist es ein Hund oder ein Pferd? Neuer Datenpunkt: Ist es ein Hund oder ein Pferd? Neuer Datenpunkt: Ist es ein Hund oder ein Pferd? Pferd vs Hund Gewicht (lbs) Größe(ft) by Datamics, 2018
  • 5.
    Algorithmus Trainingsalgorithmus: • Speichere alleDaten Vorhersagealgorithmus: • Berechne die Distanz von x zu allen Punkten in den Daten • Sortiere die Punkte nach zunehmender Distanz zu x • Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus K Nearest Neighbors by Datamics, 2018
  • 6.
    KNN Die Wahl von“k“ beeinflusst die Klasse zu der x zugeordnet wird. K Nearest Neighbors by Datamics, 2018
  • 7.
    KNN Die Wahl von“k“ beeinflusst die Klasse zu der x zugeordnet wird. K Nearest Neighbors by Datamics, 2018
  • 8.
    KNN Die Wahl von“k“ beeinflusst die Klasse zu der x zugeordnet wird. K Nearest Neighbors by Datamics, 2018
  • 9.
    Vorteile • Sehr einfach •Training ist trivial • Funktioniert mit jeder Anzahl an Klassen • Einfach neue Daten hinzuzufügen • Wenige Parameter • K • Distanzwert K Nearest Neighbors by Datamics, 2018
  • 10.
    Nachteile • Hohe Vorhersagekosten(schlecht für große Datensätze) • Nicht gut für hochdimensionale Daten • Kategorische Eigenschaften lassen sich schlecht berücksichtigen K Nearest Neighbors by Datamics, 2018
  • 11.
    Beispiel mit Python •Eine häufig gestellte Aufgabe in Data Science Vorstellungsgesprächen ist dass der Bewerber anonymisierte Daten klassifizieren soll ohne den Kontext zu kennen. • Wir werden als nächstes ein ähnliches Scenario simulieren in dem wir „klassifizierte“ Daten untersuchen in diesen Daten ist allerdings die Bedeutung der Spalten nicht bekannt. Wir werden diese mit KNN klassifizieren. K Nearest Neighbors by Datamics, 2018