Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Prof. Dr. Jan Kirenz
Analytics mit R
Prüfung der Verteilung (Normalverteilung)
Prof. Dr. Jan Kirenz
Deskriptive Statistik
Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen
(1) Sk...
Prof. Dr. Jan Kirenz
Deskriptive Statistik
Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen
(1) Sk...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung mit R
l Visuelle Prüfung:
- Histogramm
- Q-Q Plot
- Dichtefunktion
- Boxplo...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung: Histogramm
l Pakete laden:
library(ggplot2) library(dplyr)
l Histogramm er...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung: Q-Q Plot
l Q-Q Plot erstellen
qqnorm(mtcars$mpg)
qqline(mtcars$mpg)
18
Prof. Dr. Jan Kirenz
Test auf Normalverteilung: Dichtefunktion
l Pakete laden: library(ggplot2) library(dplyr)
l Kerndicht...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung: Boxplot
20
components.
By default, each whisker extends to the most extrem...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung: Boxplot
l Boxplot (Box-Whisker-Plot) ist ein Diagramm, welches zur Visuali...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung:
Shapiro-Wilk-Test
l Anwendbar bei Stichproben vom Umfang 3 ≤ n ≤ 5000
l Nu...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung in R für mehrere
„Gruppen“
l Visuelle Prüfung (Dichtefunktion, Boxplot)
l T...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung für mehrere
Gruppen: Dichtefunktion
l Pakete laden: library(ggplot2) librar...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung für mehrere
Gruppen: Dichtefunktion
l Pakete laden: library(ggplot2) librar...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung für mehrere
Gruppen: Boxplot
l Der Boxplot (Box-Whisker-Plot) ist ein Diagr...
Prof. Dr. Jan Kirenz
Test auf Normalverteilung für mehrere
Gruppen: Shapiro-Wilk-Test
l Anwendbar bei Stichproben vom Umfa...
Nächste SlideShare
Wird geladen in …5
×

Analytics mit R: Prüfung von Verteilungen (Normalverteilung)

9.651 Aufrufe

Veröffentlicht am

In der Präsentation wird gezeigt, wie mit R geprüft werden kann, ob eine Normalverteilung vorliegt:

Visuelle Prüfung: Histogramm, Q-Q Plot, Dichtefunktion, Boxplot
Testverfahren: Shapiro–Wilk-Test

Veröffentlicht in: Daten & Analysen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Analytics mit R: Prüfung von Verteilungen (Normalverteilung)

  1. 1. Prof. Dr. Jan Kirenz Analytics mit R Prüfung der Verteilung (Normalverteilung)
  2. 2. Prof. Dr. Jan Kirenz Deskriptive Statistik Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen (1) Skalenniveau (2) Prüfung der Verteilung Lagemaße Streuungsmaße Nominal - Modus - Ordinal - Modus Median Quartilsabstand Metrisch Fall 1: Daten sind nicht normalverteilt Modus Median Quartilsabstand Fall 2: Daten sind normalverteilt Modus Median Mittelwert Quartilsabstand Standardabweichung Ausgehend von der Verteilung kann z.B. entschieden werden, welche Kennzahlen berechnet werden können:
  3. 3. Prof. Dr. Jan Kirenz Deskriptive Statistik Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen (1) Skalenniveau (2) Prüfung der Verteilung Lagemaße Streuungsmaße Nominal - Modus nicht relevant für die Prüfung - Ordinal - Modus Median median(...) Quartilsabstand IQR(...) quantiles() Metrisch Fall 1: Daten sind nicht normalverteilt Modus Median median(...) Quartilsabstand IQR(...) quantiles() Fall 2: Daten sind normalverteilt Modus Median median(...) Mittelwert mean(...) Quartilsabstand IQR(...) quantiles() Standardabweichung sd(...) Kennzahlen mit R-codes
  4. 4. Prof. Dr. Jan Kirenz Test auf Normalverteilung mit R l Visuelle Prüfung: - Histogramm - Q-Q Plot - Dichtefunktion - Boxplot l Testverfahren: - Shapiro–Wilk-Test 16
  5. 5. Prof. Dr. Jan Kirenz Test auf Normalverteilung: Histogramm l Pakete laden: library(ggplot2) library(dplyr) l Histogramm erstellen hist(mtcars$mpg) l Histogramm mit Änderung der Standardoptionen: hist(mtcars$mpg, breaks = 20, main='Histogramm der Variable mpg', xlab = 'Miles per Gallon') 17
  6. 6. Prof. Dr. Jan Kirenz Test auf Normalverteilung: Q-Q Plot l Q-Q Plot erstellen qqnorm(mtcars$mpg) qqline(mtcars$mpg) 18
  7. 7. Prof. Dr. Jan Kirenz Test auf Normalverteilung: Dichtefunktion l Pakete laden: library(ggplot2) library(dplyr) l Kerndichteschätzer (Kernel Density Plot) d <- density(mtcars$mpg) plot(d) l Alternativ mit ggplot: dichte_1 <- ggplot(data = mtcars) + geom_density(mapping= aes(x=mpg)) plot(dichte_1) 19
  8. 8. Prof. Dr. Jan Kirenz Test auf Normalverteilung: Boxplot 20 components. By default, each whisker extends to the most extreme data point, which is no more than the 1.5 times the interquartile range for the box. Values outside this range are depicted as dots (not shown here). For example, in our sample of cars the median mpg is 19.2, 50 percent of the scores fall between 15.3 and 22.8, the smallest value is 10.4, and the largest value is 33.9. How did I read this so precisely from the graph? Issuing boxplot.stats(mtcars$mpg) 1 0 1 5 2 0 2 5 3 0 Box plot Upper hinge Upper quartile Lower quartile Lower hinge W hisker M edian W hisker MesPerGaon Figure 6.11 Box plot with annotations added by hand
  9. 9. Prof. Dr. Jan Kirenz Test auf Normalverteilung: Boxplot l Boxplot (Box-Whisker-Plot) ist ein Diagramm, welches zur Visualisierung der Verteilung einer mindestens ordinalskalierten Variablen verwendet wird. l Boxplot in R mit ggplot: ggplot(data = datensatz) + geom_boxplot(mapping = aes( y = testvariable)) l Wenn sich der Median mittig in der Box befindet, deutet dies darauf hin, dass die Daten normalverteilt sind. 21
  10. 10. Prof. Dr. Jan Kirenz Test auf Normalverteilung: Shapiro-Wilk-Test l Anwendbar bei Stichproben vom Umfang 3 ≤ n ≤ 5000 l Nullhypothese: Daten sind normalverteilt l Alternativhypothese: Daten sind nicht normalverteilt l Shapiro-Wilk-Test in R: shapiro.test(mtcars$mpg) l Ergebnis: data: mtcars$mpgW = 0.94756, p-value = 0.1229 l Wenn p-value > 0.05, dann liegt die Normalverteilung vor. Ansonsten nicht. 22
  11. 11. Prof. Dr. Jan Kirenz Test auf Normalverteilung in R für mehrere „Gruppen“ l Visuelle Prüfung (Dichtefunktion, Boxplot) l Testverfahren (Shapiro–Wilk-Test) l Wenn wir Variablen (z.B. Variable Körpergröße) mit unterschiedlichen „Gruppen“ (z.B. Variable Geschlecht mit Gruppe 1=Frauen und Gruppe 2 =Männer) untersuchen, ist es sinnvoll, die Verteilungen der Gruppen getrennt voneinander zu untersuchen l Testvariable = Variable, die untersucht werden soll l Gruppenvariable = Variable, nach welcher die Gruppen eingeteilt werden sollen (die Gruppierungsvariable muss in R als factor definiert sein) 23 Source: Kabacoff (2011)
  12. 12. Prof. Dr. Jan Kirenz Test auf Normalverteilung für mehrere Gruppen: Dichtefunktion l Pakete laden: library(ggplot2) library(dplyr) l Beispiel: Daten: mtcars, Variable: am = Schaltung (0=Automatik, 1=Handschaltung) l Zunächst Anpassung des Skalenniveaus der Variable von metrisch (dbl) zu Faktor (fctr), damit die Gruppierung vorgenommen werden kann: nehmen kann: mtcars$am <- as.factor(mtcars$am) l # Darstellung von beiden Dichtefunktionen in einer Abbildung: dichte_2 <- ggplot(data = mtcars) + geom_density(mapping= aes(x=mpg, colour=am)) plot(dichte_2) 24
  13. 13. Prof. Dr. Jan Kirenz Test auf Normalverteilung für mehrere Gruppen: Dichtefunktion l Pakete laden: library(ggplot2) library(dplyr) l Beispiel: Daten: mtcars, Variable: am = Schaltung (0=Automatik, 1=Handschaltung) l Zunächst Anpassung des Skalenniveaus der Variable von metrisch (dbl) zu Faktor (fctr), damit die Gruppierung vorgenommen werden kann: nehmen kann: mtcars$am <- as.factor(mtcars$am) l # Darstellung von beiden Dichtefunktionen in einer Abbildung mit optischer Variation: dichte_3 <- ggplot(data = mtcars) + geom_density(alpha=0.1, mapping= aes(x=mpg, colour=am, fill=am)) plot(dichte_3) 25
  14. 14. Prof. Dr. Jan Kirenz Test auf Normalverteilung für mehrere Gruppen: Boxplot l Der Boxplot (Box-Whisker-Plot) ist ein Diagramm, welches zur Visualisierung der Verteilung einer mindestens ordinalskalierten Variablen verwendet wird. l Boxplot in R mit ggplot: ggplot(data = datensatz) + geom_boxplot(mapping = aes( x= gruppenvariable, y = testvariable)) l Wenn sich der Median mittig in der Box befindet, deutet dies darauf hin, dass die Daten normalverteilt sind. 26
  15. 15. Prof. Dr. Jan Kirenz Test auf Normalverteilung für mehrere Gruppen: Shapiro-Wilk-Test l Anwendbar bei Stichproben vom Umfang 3 ≤ n ≤ 5000 l Nullhypothese: Daten sind normalverteilt l Alternativhypothese: Daten sind nicht normalverteilt l Wenn p-value > 0.05, dann liegt die Normalverteilung vor. Ansonsten nicht. l Vorgehensweise, wenn die Verteilung von verschiedenen Gruppen für eine Variable mit dem Shapiro-Wilk-Test in R getestet werden soll: l tapply(datensatz$testvariable, datensatz$gruppenvariable, shapiro.test) l Mit „tapply“ werden die Gruppen erzeugt 27

×