library(easystats)
library(tidyverse) # startet das Paket tidyverse
summarise06
Aufgabe
Im Datensatz mariokart
:
Fassen Sie die Spalte total_pr
zusammen und zwar zu verschiedenene Maßen der Streuung (keine Gruppierung).
Welchem Koeffizienten der Streuung schenken Sie am meisten Vertrauen in diesem Fall? Geben Sie den Wert als Antwort an.
Lösung
Pakete starten:
Daten importieren:
<- data_read("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv") mariokart
Oder so:
data(mariokart, package = "openintro") # aus dem Paket "openintro"
Dazu muss das Paket openintro
auf Ihrem Computer installiert sein.
Zusammenfassen:
library(DescTools)
<- summarise(mariokart,
mariokart_summarised pr_sd = sd(total_pr),
pr_iqr = IQR(total_pr),
pr_maa = mean(abs(total_pr - mean(total_pr))),
pr_maa2 = MeanAD(total_pr)
# zusammenfassen
) mariokart_summarised
pr_sd | pr_iqr | pr_maa | pr_maa2 |
---|---|---|---|
25.68856 | 12.815 | 10.01811 | 10.01811 |
Möchte man den MAA
nicht von Hand ausrechnen, so kann man die Funktion MeanAD
aus dem Paket DescTools
nutzen (Denken Sie daran, dass Sie das Paket einmalig installiert haben müssen.)
Da es Extremwerte gibt in total_pr
wird die SD besonders hoch sein. Der Grund ist, dass die SD eine Statistik ist, die auf einem Mittelwert beruht. Außerdem werden bei der Berechnung der SD die einzelnen Werte quadriert, was große Werte überproportional vergrößert. Aus diesem Grund könnte der IQR hier gegenüber anderen Maßen bevorzugt werden.
Lösung: 12.82
Categories:
- datawrangling
- eda
- tidyverse
- dplyr
- variability
- num