Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Analytics Grundlagen: Deskriptive Statistik

5.488 Aufrufe

Veröffentlicht am

In der Präsentation werden deskriptive Kennzahlen behandelt und gezeigt, unter welchen Bedingungen diese jeweils (nicht) verwendet werden sollten:

Lagemaße: Modus, arithmetisches Mittel, Median
Streuungsmaße: Quartilsabstand, Standardabweichung

Dabei wird auch erklärt, was unter den Begriffen Normalverteilung, linksschiefe und rechtsschiefe Verteilung verstanden wird.

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Analytics Grundlagen: Deskriptive Statistik

  1. 1. Statistik Prof. Dr. Jan Kirenz Deskriptive Statistik Photo Credit: Unsplash, Roman Mager ANALYTICSGrundlagen
  2. 2. Prof. Dr. Jan Kirenz Was ist deskriptive Statistik? Mit Hilfe der deskriptiven Statistik werden empirische Daten (z.B. Umfrageergebnisse) durch Kennzahlen, Tabellen und Grafiken übersichtlich dargestellt. Deskriptive Statistik Der Begriff „deskriptiv“ bedeutet dasselbe wie „beschreibend“.
  3. 3. Prof. Dr. Jan Kirenz Was ist deskriptive Statistik? Welche Tabellen, Kennzahlen und Visualisierungen wir für die Beschreibung der Daten nutzen können, hängt insbesondere von dem Skalenniveau der Variablen ab. Deskriptive Statistik
  4. 4. Prof. Dr. Jan Kirenz In einer Umfrage wurden 15 Personen nach ihrem Familienstand befragt Beispiel Variable = Familienstand Ausprägungen = ledig, verheiratet, geschieden, verwitwet. Familienstand Photo Credit: Unsplash, Helloquence
  5. 5. Prof. Dr. Jan Kirenz Was für „Berechnungen“ können wir mit der nominal skalierten Variable „Familienstand“ durchführen? Frage: Wie können wir das Ergebnis übersichtlich darstellen? Folgende Informationen haben wir durch die Befragung erhalten: Ausprägung = 8 ledig, 4 verheiratet, 2 geschieden, 1 verwitwet. Photo Credit: Unsplash, Roman Mager
  6. 6. Prof. Dr. Jan Kirenz Da die Variable nominal skaliert ist, können wir bspw. Häufigkeiten in einer Tabelle aufzeigen. Hierbei sollten die beobachteten und die prozentualen Häufigkeiten angegeben werden. Merkmals- ausprägung Beobachtete Häufigkeit Relative Häufigkeit Verheiratet 4 27 % Ledig 8 53 % Geschieden 2 13 % Verwitwet 1 7 % SUMME 15 100 % Tabelle: Häufigkeiten
  7. 7. Prof. Dr. Jan Kirenz Ergebnisse nominaler Variablen werden üblicherweise als Balkendiagramme und/oder Kuchendiagramme dargestellt. Visualisierungen: 4 8 2 10 2 4 6 8 10 Verheiratet Ledig Geschieden Verwitwet 27% 53% 13% 7% Verheiratet Ledig Geschieden Verwitwet
  8. 8. Statistik Lagemaße Photo Credit: Unsplash, Roman Mager Prof. Dr. Jan Kirenz ANALYTICSGrundlagen
  9. 9. Prof. Dr. Jan Kirenz Kennzahlen: Lagemaß und Streuungsmaß Es gibt zwei verschiedene Arten von Kennzahlen, die wir hier berechnen können: Lagemaße und Streuungsmaße. Lagemaße geben Auskunft über die zentrale Tendenz von Ausprägungen. Streuungsmaße geben Auskunft über die Verteilung der Werte.
  10. 10. Prof. Dr. Jan Kirenz Kennzahlen: Lagemaß und Streuungsmaß Wir werden insbesondere die folgenden Kennzahlen behandeln: Lagemaße: • Modus • Median • Arithmetisches Mittel Streuungsmaße • Quartilsabstand • Standardabweichung
  11. 11. Prof. Dr. Jan Kirenz Kennzahlen: Lagemaß und Streuungsmaß Wir werden insbesondere die folgenden Kennzahlen behandeln: Lagemaße: • Modus • Median • Arithmetisches Mittel Streuungsmaße • Quartilsabstand • Standardabweichung
  12. 12. Prof. Dr. Jan Kirenz Zusammenhang zwischen Lagemaßen und Skalenniveaus Skalenniveau Operationen Interpretation Berechenbare Lagemaße Nominalskala =/≠ gleich oder ungleich Modus Ordinalskala =/≠; </> kleiner, gleich oder größer Modus. Median Metrisch =/≠; </>; +/−; ×/÷ Aussagen zu Verhältnissen Modus. Median, arithmetisches Mittel
  13. 13. Prof. Dr. Jan Kirenz x: Größe in cm 20 erwachsene deutsche Frauen Kleinste Frau Größte Frau Beispiel: Körpergröße Wir messen die Größe von 20 Frauen und reihen sie der Größe nach auf. Die kleinste Frau steht ganz links, die größte ganz rechts.
  14. 14. Prof. Dr. Jan Kirenz Beispiel Körpergröße Zum besseren Verständnis der Kennzahlen reihen wir die 20 Frauen entsprechen ihrer Größe nebeneinander auf: Dabei steht die kleinste Frau ganz links und die größte ganz rechts. Frauen mir gleicher Größe stehen hintereinander. x: Größe in m 20 Frauen 1,62 Kleinste Frau Größte Frau 1,63 1,64 1,65 1,66 1,67 1,68
  15. 15. Prof. Dr. Jan Kirenz Umfrageergebnis der Studie: Wir haben die Größe von 20 Frauen erfragt. In der Tabelle ist das Ergebnis der Befragung abgetragen. Merkmals- ausprägung Häufigkeit Relative Häufigkeit 1.62 1 5 % 1.63 2 10 % 1.64 4 20 % 1.65 6 30 % 1.66 4 20 % 1.67 2 10 % 1.68 1 5 % 20 100 %
  16. 16. Prof. Dr. Jan Kirenz Merkmals- ausprägung Häufigkeit Relative Häufigkeit 1.62 1 5 % 1.63 2 10 % 1.64 4 20 % 1.65 6 30 % 1.66 4 20 % 1.67 2 10 % 1.68 1 5 % 20 100 % Lesebeispiel: 6 der Frauen sind 1,65 m groß. Da dies die häufigste Ausprägung ist, ist dies der Modus Lagemaße: Modus
  17. 17. Prof. Dr. Jan Kirenz Lagemaße: Modus • Modus = die häufigste Ausprägung. • Der Modus gibt an, welche Merkmalsausprägung (z.B. in einer Befragung) am häufigsten vorkommt • Falls keine Ausprägung häufiger als alle anderen vorkommt gibt es keinen Modus
  18. 18. Prof. Dr. Jan Kirenz Lagemaße: Median Median : der Wert, der bei einer der Größe nach geordneten Zahlenreihe an der mittleren (zentralen) Stelle steht. x: Größe in m 20 Frauen 1,62 Kleinste Frau Größte Frau 1,63 1,64 1,65 1,66 1,67 1,68 Übung: Berechnung des Medians
  19. 19. Prof. Dr. Jan Kirenz Lagemaße: Median Hinweise: Ist die Anzahl der Werte ungerade, so ist es, bei in Reihenfolge sortierten Werten, der mittlere Wert. Zahlenwerte: 489 113 141 120 217 109 675 218 96 225 132 sortierte Werte: 96 109 113 120 132 141 217 218 225 489 675 MEDIAN
  20. 20. Prof. Dr. Jan Kirenz Lagemaße: Median Hinweise: Im Falle einer geraden Anzahl von Werten ist der Median der Mittelwert aus den beiden mittleren Werten. sortierte Werte: 96 109 113 120 132 141 217 218 225 489 675 690 Median = (141+217)/2 = 179
  21. 21. Prof. Dr. Jan Kirenz Lagemaße: Median Median : der Wert, der bei einer der Größe nach geordneten Zahlenreihe an der mittleren (zentralen) Stelle steht. x: Größe in m 20 Frauen 1,62 Kleinste Frau Größte Frau 1,63 1,64 1,65 1,66 1,67 1,68 Übung: Berechnung des Medians 1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,661,64 1,66 1,66 1,67 1,67 1,68 1,65 1,65+ 2
  22. 22. Prof. Dr. Jan Kirenz Lagemaße: Arithmetisches Mittel Arithmetisches Mittel: Addition aller Werte eines Datensatzes und Teilung der Summe durch die Anzahl aller Werte.
  23. 23. Prof. Dr. Jan Kirenz Arithmetisches Mittel: Addition aller Werte eines Datensatzes und teilt die Summe durch die Anzahl aller Werte. x: Größe in m 20 Frauen 1,62 Kleinste Frau Größte Frau 1,63 1,64 1,65 1,66 1,67 1,68 1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,661,64 1,66 1,66 1,67 1,67 1,68+ + + + + + + + + + + + + + + + + + + 20 = 1,65 Lagemaße: Arithmetisches Mittel
  24. 24. Prof. Dr. Jan Kirenz Frage: Was können wir noch aus den vorliegenden Informationen ermitteln? x: Größe in m 20 Frauen 1,62 Kleinste Frau Größte Frau 1,63 1,64 1,65 1,66 1,67 1,68
  25. 25. Prof. Dr. Jan Kirenz Stellen wir uns nun vor, wir hätten Daten von 1.000 Frauen erhoben...
  26. 26. Prof. Dr. Jan Kirenz x: Größe in cm 1.000 erwachsene deutsche Frauen 165 20690 Kleinste Frau Größte Frau Arithmetischer Mittelwert
  27. 27. Prof. Dr. Jan Kirenz Punkte = 1.000 erwachsene deutsche Frauen x: Größe in cm Kleinste Frau Größte Frau 165 20690 f(x) Wahrscheinlichkeitsdichtefunktionen
  28. 28. Prof. Dr. Jan Kirenz 28 Wahrscheinlichkeitsdichtefunktionen Nun können wir (mit Hilfe der Dichtefunktion) bspw. die Frage beantworten, wie viele Frauen zwischen 150 cm und 165 cm groß sind: 20% bzw. 200 Frauen
  29. 29. Prof. Dr. Jan Kirenz Warscheinlichkeitsdichtefunktion: Hinweise: • Die Wahrscheinlichkeitsdichtefunktion oder „Dichte“ (engl. probability density function) ist ein Hilfsmittel zur Beschreibung einer stetigen Wahrscheinlichkeitsverteilung.
  30. 30. Prof. Dr. Jan Kirenz Warscheinlichkeitsdichtefunktion: Hinweise: • Stetig sind solche Merkmale, die theoretisch unendlich viele Ausprägungen aufweisen können (z.B. Körpergröße, Länge, Gewicht, Zeit). • Das Gegenteil von stetig ist diskret. • Diskret sind solche Merkmale, die nur endlich viele Ausprägungen annehmen können. Insbesondere sind alle Merkmale diskret, deren Werte man durch Zählen ermitteln kann (z.B. Seiten eines Würfels)
  31. 31. Prof. Dr. Jan Kirenz Warscheinlichkeitsfunktion: • Bei diskreten Werten können Wahrscheinlichkeitsfunktionen ermittelt werden • Bsp.: Wahrscheinlichkeitsfunktion eines Würfels (Merkmal: Augenzahl) Werte sind diskret. D.h., dass z.B. zwischen den Werten 1 und 2 keine weiteren Werte liegen (es gibt „Lücken“)
  32. 32. Prof. Dr. Jan Kirenz Warscheinlichkeitsfunktion: Frage: wie sieht die Wahrscheinlichkeitsfunktion von zwei Würfelwürfen mit zwei Würfeln aus (als Säulendiagramm dargestellt)?: Die Augen sind das Merkmal. Deren Anzahl ist die Merkmalsausprägung. Die Funktion gibt die Wahrscheinlichkeit des Auftretens einer bestimmten Ausprägung an.
  33. 33. Prof. Dr. Jan Kirenz Warscheinlichkeitsfunktion:
  34. 34. Prof. Dr. Jan Kirenz 34 Warscheinlichkeitsdichtefunktion: Körpergröße ist stetig (es kann theoretisch jeder beliebige Wert vorkommen – also theoretisch unendlich viele)
  35. 35. Prof. Dr. Jan Kirenz 35 Frage: wie viel Prozent der Frauen sind zwischen 90 cm und 165 cm groß? Warscheinlichkeitsdichtefunktion:
  36. 36. Prof. Dr. Jan Kirenz 36 Frage: wie viel Prozent der Frauen sind zwischen 90 cm und 165 cm groß? Warscheinlichkeitsdichtefunktion: 50% der Frauen
  37. 37. Prof. Dr. Jan Kirenz 37 50% der Werte Normalverteilung 50% der Werte Arithmetisches Mittel Diese Art der Verteilung nennt man „Normalverteilung“ (oder auch Gaußverteilung) Merkmale: • Kurvenverlauf ist symmetrisch • Median, Mittelwert und Modus sind identisch = Median = Modus
  38. 38. Prof. Dr. Jan Kirenz 38 Linksschiefe Verteilung ≠ Normalverteilung Arithmetisches Mittel Median Diese Art der Verteilung nennt man „linksschief“ (zum Vergleich in blau die Normalverteilung) Modus
  39. 39. Prof. Dr. Jan Kirenz 39 Rechtsschiefe Verteilung ≠ Normalverteilung Diese Art der Verteilung nennt man „rechtsschief“ (zum Vergleich in blau die Normalverteilung) Median Modus Arithmetisches Mittel
  40. 40. Prof. Dr. Jan Kirenz 40 Rechtsschiefe Verteilung ≠ Normalverteilung
  41. 41. Prof. Dr. Jan Kirenz Median vs. arithmetisches Mittel • Bsp: monatliches Einkommen von 4 Personen. • Keine Normalverteilung • Verteilung ist ___________________ • Mittelwert = ____________ Euro im Moment • Median = ____________ Euro im Monat • Frage: welcher Wert beschreibt das durchschnittliche Einkommen der Mehrzahl der Personen besser?
  42. 42. Prof. Dr. Jan Kirenz Median vs. arithmetisches Mittel • Sobald keine Normalverteilung vorliegt ist es nicht sinnvoll, das arithmetische Mittel zu berechnen. • Der Median bleibt immer in der „Mitte“ der Verteilung – er ist bei nicht normalverteilten Daten dem arithmetischen Mittel vorzuziehen.
  43. 43. Prof. Dr. Jan Kirenz Deskriptive Statistik Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahl (1) Welches Skalenniveau liegt vor? (2) Welche Verteilung liegt vor? --> Lagemaße Nominal Verteilung nicht relevant Modus Ordinal Verteilung nicht relevant Modus Median Metrisch Fall 1: Daten sind nicht normalverteilt Modus Median Fall 2: Daten sind normalverteilt Modus Median Mittelwert Logik zur Auswahl der Lagemaße
  44. 44. Prof. Dr. Jan Kirenz Lagemaße: Zusammenfassung Modus Median Arithmetisches Mittel Häufigster Wert Zentraler Wert Durchschnittlicher Wert Gibt die Kategorie an, die am häufigsten besetzt ist Gibt den mittleren Wert an, der eine nach der Größe geordnete Reihe von Messwerten halbiert Definiert als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte. Bestimmbar für alle Skalenniveaus Bestimmbar für ordinale und metrische Skalenniveaus (auch wenn keine Normalverteilung vorliegt) Nur bei metrischen Skalenniveaus mit Normalverteilung
  45. 45. Prof. Dr. Jan Kirenz Wiederholungsfragen Bitte geben Sie jeweils an, ob die Aussage richtig oder falsch ist: Markieren Sie dafür das Kästchen vor der Ziffer: Richtige Aussage þ / Falsche Aussage: ý . 1. o Bei nominalskalierten Variablen ist es sinnvoll, einen Mittelwert zu berechnen. 2. o Der Modalwert ist der am häufigsten vorkommende Wert. 3. o Bei metrischen Merkmalen können wir nur den Modalwert berechnen. 4. o Diskret sind solche Merkmale, die nur endlich viele Ausprägungen annehmen können. 5. o Stetig sind solche Merkmale, die überabzählbar viele Ausprägungen aufweisen können (z.B. Länge, Gewicht, Zeit). 6. o Die Normalverteilung ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. 7. o Der Median kann auch dann berechnet werden, wenn bei metrischen Merkmalen keine Normalverteilung vorliegt 8. o Das arithmetische Mittel kann auch bei ordinalen Merkmalen berechnet werden. 45
  46. 46. Statistik Streuungsmaße Photo Credit: Unsplash, Roman Mager Prof. Dr. Jan Kirenz ANALYTICSGrundlagen
  47. 47. Prof. Dr. Jan Kirenz Kennzahlen: Lagemaß und Streuungsmaß Wir werden insbesondere die folgenden Kennzahlen behandeln: Lagemaße: • Modus • Median • Arithmetisches Mittel Streuungsmaße • Quartilsabstand • Standardabweichung
  48. 48. Prof. Dr. Jan Kirenz 48 Streuungsmaße: Standardabweichung Mittelwert Die Standardabweichung ist ein Maß für die Streubreite der Werte um dessen Mittelwert (nur bei Normalverteilung) Kleinster Wert Größter Wert -1s-2s 2s1s 1 Standard- abweichung nach links 1 Standard- abweichung nach rechts Im Intervall von -1s bis +1s liegen bei Normalverteilungen immer zwei Drittel (68,27%) aller Werte 68,27%
  49. 49. Prof. Dr. Jan Kirenz 49 Mittelwert Die Standardabweichung ist ein Maß für die Streubreite der Werte um dessen Mittelwert Kleinster Wert Größter Wert -1s-2s 2s1s 1 Standard- abweichung nach links 1 Standard- abweichung nach rechts Im Intervall von -2s bis +2s liegen bei Normalverteilungen immer etwa 95,45% aller Werte. 95,45% Streuungsmaße: Standardabweichung
  50. 50. Prof. Dr. Jan Kirenz • Übung: • 1.000 Personen wurden befragt, wie hoch ihre monatliche Handyrechnung ist: • Die gewonnenen Daten sind normalverteilt. • Der Mittelwert liegt bei 40 Euro • Die Standardabweichung liegt bei 5 Euro (d.h., dass die durchschnittliche Entfernung aller Antworten zum Mittelwert 27 Euro beträgt)
 • Frage: welche Werte haben +s1 und –s1? Wieviel Prozent der Personen befinden sich zwischen -s1 und +s1 Streuungsmaße: Standardabweichung
  51. 51. Prof. Dr. Jan Kirenz 51 (Median) Der Quartilsabstand ermittelt, in welchem Bereich sich die mittleren 50% der Werte befinden Quartil 1 Quartil 2 Auch anwendbar wenn keine Normalverteilung vorliegt 25% Streuungsmaße: Quartilsabstand Quartil 3 50% 75%Enthält: ... aller Werte Der Quartilsabstand entspricht der Differenz zwischen dem oberen (3) und unteren (1) Quartil Quartilsabstand = Q3-Q1 25% 25% 25% 25%
  52. 52. Prof. Dr. Jan Kirenz 52Median Mit einem Boxplot lassen sich die Quartile gut visualisieren 25% Streuungsmaße: Quartile & Boxplot 50% 75% oberer Whisker Der Boxplot (auch Box- Whisker-Plot) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskalierten Merkmals verwendet wird. unteres Quartil oberes Quartil Quartil 1 Quartil 2 Quartil 3 unterer Whisker 25% 25% 25% 25%
  53. 53. Prof. Dr. Jan Kirenz Deskriptive Statistik Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen (1) Skalenniveau (2) Verteilung Streuungsmaße Nominal Verteilung nicht relevant (es gibt keine Streuung) Ordinal Verteilung nicht relevant Quartilsabstand Metrisch Fall 1: Daten sind nicht normalverteilt Quartilsabstand Fall 2: Daten sind normalverteilt Quartilsabstand, Standardabweichung Logik zur Auswahl der Streuungsmaße
  54. 54. Prof. Dr. Jan Kirenz Deskriptive Statistik Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen (1) Skalenniveau (2) Verteilung Lagemaße Streuungsmaße Nominal Verteilung nicht relevant Modus - Ordinal Verteilung nicht relevant Modus Median Quartilsabstand Metrisch Fall 1: Daten sind nicht normalverteilt Modus Median Quartilsabstand Fall 2: Daten sind normalverteilt Modus Median Mittelwert Quartilsabstand Standardabweichung Logik zur Auswahl der Kennzahlen

×