plot_histogram(mariokart) # aus Paket `DataExplorer`104 ausreisser1
eda
datawrangling
tidyverse
ausreisser
string
Schlüsselwörter
Aufgaben, Statistik, Prognose, Modellierung, R, Datenanalyse, Regression
104.1 Aufgabe
Entfernen Sie alle Ausreißer im Datensatz mariokart!
Hinweise:
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
- Definieren Sie “Ausreißer” als Werte, die mehr als 3SD vom Mittelwert entfernt sind.
104.2 Lösung
104.2.1 Setup
104.2.2 Überblick
Wir verschaffen uns einen Überblick über die Verteilungen:
Wie man sieht gibt es einige Ausreißer, z.B. bei ship_pr und total_pr.
104.2.3 Daten aufbereiten mit z-Transformation
mariokart2 <-
mariokart %>%
select(-id) %>%
mutate(across( # "across" wiederholt die Funktionen ".fns" über alle Spalten ".cols"
.cols = where(is.numeric),
.fns = ~ as.numeric(standardize(.x))))Leider gibt standardize kein vernünftiges numerisches Objekt zurück, so dass wir mit as.numeric die Daten noch zur Räson rufen müssen.
Wie man sieht, ändert sich die Verteilungsform nicht durch die z-Transformation (oder durch irgendeine lineare Transformation):
104.2.4 Extremwerte durch MW ersetzen
Jetzt sind die Daten deutlich weniger extrem.
Categories:
- eda
- datawrangling
- tidyverse
- ausreisser
- string


