SlideShare ist ein Scribd-Unternehmen logo
1 von 11
K Nearest Neighbors
Eine Einführung
Mathematischer Hintergrund
• Der weitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen
tieferen Einblick in die Thematik
K Nearest Neighbors by Datamics, 2018
KNN (K Nearest Neighbors)
• K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein
Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip
beruht.
• Dieses wird am besten durch ein Beispiel veranschaulicht!
• Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit
Körpergröße (Höhe) und Gewicht.
K Nearest Neighbors by Datamics, 2018
KNN
K Nearest Neighbors
Rot: Pferd
Blau: Hund
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Neuer Datenpunkt:
Ist es ein Hund oder ein Pferd?
Pferd vs Hund
Gewicht (lbs)
Größe(ft)
by Datamics, 2018
Algorithmus
Trainingsalgorithmus:
• Speichere alle Daten
Vorhersagealgorithmus:
• Berechne die Distanz von x zu allen Punkten in den Daten
• Sortiere die Punkte nach zunehmender Distanz zu x
• Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus
K Nearest Neighbors by Datamics, 2018
KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
KNN
Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird.
K Nearest Neighbors by Datamics, 2018
Vorteile
• Sehr einfach
• Training ist trivial
• Funktioniert mit jeder Anzahl an Klassen
• Einfach neue Daten hinzuzufügen
• Wenige Parameter
• K
• Distanzwert
K Nearest Neighbors by Datamics, 2018
Nachteile
• Hohe Vorhersagekosten (schlecht für große Datensätze)
• Nicht gut für hochdimensionale Daten
• Kategorische Eigenschaften lassen sich schlecht berücksichtigen
K Nearest Neighbors by Datamics, 2018
Beispiel mit Python
• Eine häufig gestellte Aufgabe in Data Science Vorstellungsgesprächen
ist dass der Bewerber anonymisierte Daten klassifizieren soll ohne
den Kontext zu kennen.
• Wir werden als nächstes ein ähnliches Scenario simulieren in dem wir
„klassifizierte“ Daten untersuchen in diesen Daten ist allerdings die
Bedeutung der Spalten nicht bekannt. Wir werden diese mit KNN
klassifizieren.
K Nearest Neighbors by Datamics, 2018

Weitere ähnliche Inhalte

Mehr von Datamics

Mehr von Datamics (10)

Python Bootcamp - Grundlagen
Python Bootcamp - GrundlagenPython Bootcamp - Grundlagen
Python Bootcamp - Grundlagen
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data Science
 
Principal Component Analysis mit Python
Principal Component Analysis mit PythonPrincipal Component Analysis mit Python
Principal Component Analysis mit Python
 
K Means mit Python
K Means mit PythonK Means mit Python
K Means mit Python
 
Support Vector Machines mit Python
Support Vector Machines mit PythonSupport Vector Machines mit Python
Support Vector Machines mit Python
 
Decision Trees und Random Forest mit Python
Decision Trees und Random Forest mit PythonDecision Trees und Random Forest mit Python
Decision Trees und Random Forest mit Python
 
Logistische Regression mit Python
Logistische Regression mit PythonLogistische Regression mit Python
Logistische Regression mit Python
 
Verzerrung Varianz Dilemma
Verzerrung Varianz DilemmaVerzerrung Varianz Dilemma
Verzerrung Varianz Dilemma
 
Lineare Regression mit Python
Lineare Regression mit PythonLineare Regression mit Python
Lineare Regression mit Python
 
Machine Learning mit Python
Machine Learning mit PythonMachine Learning mit Python
Machine Learning mit Python
 

K Nearest Neighbors mit Python

  • 2. Mathematischer Hintergrund • Der weitere Teil des Kapitels 4 (ab 4.4) im ISLR-Buch gibt einen tieferen Einblick in die Thematik K Nearest Neighbors by Datamics, 2018
  • 3. KNN (K Nearest Neighbors) • K Nearest Neighbors (Nächste-Nachbarn-Klassifikation) ist ein Klassifizierungsalgorithmus der auf einem sehr einfachen Prinzip beruht. • Dieses wird am besten durch ein Beispiel veranschaulicht! • Stellt euch vor wir hätten Daten zu Hunden und Pferden, mit Körpergröße (Höhe) und Gewicht. K Nearest Neighbors by Datamics, 2018
  • 4. KNN K Nearest Neighbors Rot: Pferd Blau: Hund Neuer Datenpunkt: Ist es ein Hund oder ein Pferd? Neuer Datenpunkt: Ist es ein Hund oder ein Pferd? Neuer Datenpunkt: Ist es ein Hund oder ein Pferd? Pferd vs Hund Gewicht (lbs) Größe(ft) by Datamics, 2018
  • 5. Algorithmus Trainingsalgorithmus: • Speichere alle Daten Vorhersagealgorithmus: • Berechne die Distanz von x zu allen Punkten in den Daten • Sortiere die Punkte nach zunehmender Distanz zu x • Sage die mehrheitliche Kategorie der „k“ nähesten Punkte voraus K Nearest Neighbors by Datamics, 2018
  • 6. KNN Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird. K Nearest Neighbors by Datamics, 2018
  • 7. KNN Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird. K Nearest Neighbors by Datamics, 2018
  • 8. KNN Die Wahl von “k“ beeinflusst die Klasse zu der x zugeordnet wird. K Nearest Neighbors by Datamics, 2018
  • 9. Vorteile • Sehr einfach • Training ist trivial • Funktioniert mit jeder Anzahl an Klassen • Einfach neue Daten hinzuzufügen • Wenige Parameter • K • Distanzwert K Nearest Neighbors by Datamics, 2018
  • 10. Nachteile • Hohe Vorhersagekosten (schlecht für große Datensätze) • Nicht gut für hochdimensionale Daten • Kategorische Eigenschaften lassen sich schlecht berücksichtigen K Nearest Neighbors by Datamics, 2018
  • 11. Beispiel mit Python • Eine häufig gestellte Aufgabe in Data Science Vorstellungsgesprächen ist dass der Bewerber anonymisierte Daten klassifizieren soll ohne den Kontext zu kennen. • Wir werden als nächstes ein ähnliches Scenario simulieren in dem wir „klassifizierte“ Daten untersuchen in diesen Daten ist allerdings die Bedeutung der Spalten nicht bekannt. Wir werden diese mit KNN klassifizieren. K Nearest Neighbors by Datamics, 2018