summarise06

datawrangling
eda
tidyverse
dplyr
variability
num
Published

April 28, 2023

Aufgabe

Im Datensatz mariokart:

Fassen Sie die Spalte total_pr zusammen und zwar zu verschiedenene Maßen der Streuung (keine Gruppierung).

Welchem Koeffizienten der Streuung schenken Sie am meisten Vertrauen in diesem Fall? Geben Sie den Wert als Antwort an.











Lösung

Pakete starten:

library(easystats)
# Attaching packages: easystats 0.6.0 (red = needs update)
✔ bayestestR  0.13.1   ✔ correlation 0.8.4 
✔ datawizard  0.9.0    ✔ effectsize  0.8.6 
✔ insight     0.19.6   ✔ modelbased  0.8.6 
✔ performance 0.10.8   ✔ parameters  0.21.3
✔ report      0.5.7    ✖ see         0.8.0 

Restart the R-Session and update packages in red with `easystats::easystats_update()`.
library(tidyverse)  # startet das Paket tidyverse

Daten importieren:

mariokart <- data_read("https://vincentarelbundock.github.io/Rdatasets/csv/openintro/mariokart.csv")

Oder so:

data(mariokart, package = "openintro")  # aus dem Paket "openintro"

Dazu muss das Paket openintro auf Ihrem Computer installiert sein.

Zusammenfassen:

library(DescTools)
mariokart_summarised <- summarise(mariokart, 
                                  pr_sd = sd(total_pr),
                                  pr_iqr = IQR(total_pr),
                                  pr_maa = mean(abs(total_pr - mean(total_pr))),
                                  pr_maa2 = MeanAD(total_pr)
)  # zusammenfassen
mariokart_summarised
# A tibble: 1 × 4
  pr_sd pr_iqr pr_maa pr_maa2
  <dbl>  <dbl>  <dbl>   <dbl>
1  25.7   12.8   10.0    10.0

Möchte man den MAA nicht von Hand ausrechnen, so kann man die Funktion MeanAD aus dem Paket DescTools nutzen (Denken Sie daran, dass Sie das Paket einmalig installiert haben müssen.)

Da es Extremwerte gibt in total_pr wird die SD besonders hoch sein. Der Grund ist, dass die SD eine Statistik ist, die auf einem Mittelwert beruht. Außerdem werden bei der Berechnung der SD die einzelnen Werte quadriert, was große Werte überproportional vergrößert. Aus diesem Grund könnte der IQR hier gegenüber anderen Maßen bevorzugt werden.

Lösung: 12.82


Categories:

  • datawrangling
  • eda
  • tidyverse
  • dplyr
  • variability
  • num