library(tidymodels)modellguete-testset
regression
performance
rmse
string
Aufgabe
Berechnen Sie die Modellgüte (RMSE) im Test-Sample.
Gehen Sie von folgenden Annahmen aus.
- Dieses Test-Sample
- AV:
count - Dieses Train-Sample
- Gehen Sie als Vorhersage vom Mittelwert der AV im Train-Sample aus (für alle Beobachtungen im Test-Sample).
Hinweise:
- Hier finden Sie ein Data-Dictionary.
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
Lösung
Setup
d_train <- read.csv("https://raw.githubusercontent.com/sebastiansauer/yacsda-bikerental/main/data/bikeshare_train.csv")
d_test <- read.csv("https://raw.githubusercontent.com/sebastiansauer/yacsda-bikerental/main/data/bikeshare_control.csv")Mittelwert der AV im Train-Sample berechnen
mean_count_train_sample <-
d_train |>
summarise(count_avg = mean(count))
mean_count_train_sample| count_avg |
|---|
| 703.7913 |
d_test <-
d_test |>
mutate(pred = 704)Anstelle von 704 könnten Sie auch Ihre eigenen Vorhersagen Ihrer Modelle einsetzen, etwa:
d_test <-
d_test |>
mutate(pred = meine_vorhersagen)Modellgüte im Test-Sample berechnen
d_test |>
rmse(truth = count,
estimate = pred)| .metric | .estimator | .estimate |
|---|---|---|
| rmse | standard | 646.4874 |
Für R-Quadrat geht das analog:
d_test |>
rsq(truth = count,
estimate = pred)| .metric | .estimator | .estimate |
|---|---|---|
| rsq | standard | NA |
Leider ist das R-Quadrat in diesem Fall (per Definition) Null: Der Mittelwert als Vorhersagewert ist was “R-Quadrat gleich Null” meint.
(Darüber hinaus wird das R-Quadrat hier auf Basis der Korrelation berechnet, und wir haben einen konstanten Wert bei pred).
Categories:
- regression
- modelling
- performance
- rmse
- string