modellguete-testset

regression
performance
rmse
string
Published

November 8, 2023

Aufgabe

Berechnen Sie die Modellgüte (RMSE) im Test-Sample.

Gehen Sie von folgenden Annahmen aus.

Hinweise:











Lösung

Setup

library(tidymodels)
d_train <- read.csv("https://raw.githubusercontent.com/sebastiansauer/yacsda-bikerental/main/data/bikeshare_train.csv")
d_test <- read.csv("https://raw.githubusercontent.com/sebastiansauer/yacsda-bikerental/main/data/bikeshare_control.csv")

Mittelwert der AV im Train-Sample berechnen

mean_count_train_sample <- 
  d_train |> 
  summarise(count_avg = mean(count))

mean_count_train_sample
count_avg
703.7913
d_test <-
  d_test |> 
  mutate(pred = 704)

Anstelle von 704 könnten Sie auch Ihre eigenen Vorhersagen Ihrer Modelle einsetzen, etwa:

d_test <-
  d_test |> 
  mutate(pred = meine_vorhersagen)

Modellgüte im Test-Sample berechnen

d_test |> 
  rmse(truth = count,
       estimate = pred)
.metric .estimator .estimate
rmse standard 646.4874

Für R-Quadrat geht das analog:

d_test |> 
  rsq(truth = count,
       estimate = pred)
.metric .estimator .estimate
rsq standard NA

Leider ist das R-Quadrat in diesem Fall (per Definition) Null: Der Mittelwert als Vorhersagewert ist was “R-Quadrat gleich Null” meint.

(Darüber hinaus wird das R-Quadrat hier auf Basis der Korrelation berechnet, und wir haben einen konstanten Wert bei pred).


Categories:

  • regression
  • modelling
  • performance
  • rmse
  • string