ungewiss-arten-regression

qm2

inference

bayes

regression

Published

October 7, 2022

Exercise

Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression y = beta0 + beta1x + error bedeutet das: “Liegt die Regressionsgerade in ‘Wahrheit’ (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Population?”. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir den wahren Wert von beta0 und von beta1 kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern: Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.

Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell, das mit den Methoden der Bayes-Statistik berechnet wurde. Dazu wurde die Funktion stan_glm() verwendet, die ähnlich zu lm() ein lineare Modell berechnet.

Sie brauchen das Modell nicht zu berechnen. Bei dieser Aufgabe geht es nur um die Interpretation.

Ein wichtiger Unterschied von stan_glm() zu lm() ist, dass Ungewissheiten bei stan_glm() zu den Parameterschätzungen berichtet werden, bei lm nicht (bzw. weniger).

data(mtcars) 
library(rstanarm) 
library(easystats)
lm1 <- stan_glm(mpg ~ hp, data = mtcars,
                refresh = 0)  # um nicht zu viel R-Ausgabe zu erhalten

parameters(lm1)

Parameter	Median	CI	CI_low	CI_high	pd	Rhat	ESS	Prior_Distribution	Prior_Location	Prior_Scale
(Intercept)	30.0337690	0.95	26.8183628	33.1936992	1	0.9993901	3328.878	normal	20.09062	15.0673701
hp	-0.0679125	0.95	-0.0874987	-0.0478922	1	0.9995972	3307.181	normal	0.00000	0.2197599

Für den Prädiktor hp ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte Median. Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht (“b”) der Stichprobe.

Die Spalte 95% CI gibt das 95%-Konfidenzintervall (CI wie confidence interval) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder.

Aufgaben

Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)?
Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)?

Hinweise:

Runden Sie auf zwei Dezimalstellen.
Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-)
Gehen Sie von einer Normalverteilung aus.

Solution

6.38
0.04

Categories:

qm2
inference
lm

--- extype: string exsolution: NA exname: ungewiss-arten-regression expoints: 1 categories: - qm2 - inference - bayes - regression date: '2022-10-07' slug: ungewiss-arten-regression title: ungewiss-arten-regression --- # Exercise ```{r libs, include = FALSE} library(tidyverse) ``` ```{r global-knitr-options, include=FALSE} knitr::opts_chunk$set(fig.pos = 'H', fig.asp = 0.618, fig.width = 4, fig.cap = "", fig.path = "", cache = TRUE) ``` Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die *Ungewissheit in den Modellparametern*. Für die Regression `y = beta0 + beta1x + error` bedeutet das: "Liegt die Regressionsgerade in 'Wahrheit' (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Population?". Zum anderen die *Ungewissheit innerhalb des Modells*. Auch wenn wir den wahren Wert von `beta0` und von `beta1` kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte "in Wahrheit" pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern: Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis. Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell, das mit den Methoden der Bayes-Statistik berechnet wurde. Dazu wurde die Funktion `stan_glm()` verwendet, die ähnlich zu `lm()` ein lineare Modell berechnet. Sie brauchen das Modell *nicht* zu berechnen. Bei dieser Aufgabe geht es nur um die Interpretation. Ein wichtiger Unterschied von `stan_glm()` zu `lm()` ist, dass Ungewissheiten bei `stan_glm()` zu den Parameterschätzungen berichtet werden, bei `lm` nicht (bzw. weniger). ```{r message=FALSE} data(mtcars) library(rstanarm) library(easystats) lm1 <- stan_glm(mpg ~ hp, data = mtcars, refresh = 0) # um nicht zu viel R-Ausgabe zu erhalten parameters(lm1) ``` Für den Prädiktor `hp` ist das Regressionsgewicht (Punktschätzer) angegeben unter der Spalte `Median`. Dieser Wert entspricht der Punktschätzung in der Population und ist identisch zum Regressionsgewicht ("b") der Stichprobe. Die Spalte `95% CI` gibt das 95%-Konfidenzintervall (CI wie *confidence interval*) zur Schätzung der Ungewissheit der Koeffizienten (der entsprechenden Zeile) wieder. **Aufgaben** a) Wie breit ist das Intervall, in dem mit 95% Gewissheit der Achsenabschnitt liegt (laut diesem Model)? b) Wie breit ist das Intervall, in dem mit 95% Gewissheit das Regressionsgewicht liegt (laut diesem Model)? Hinweise: - Runden Sie auf zwei Dezimalstellen. - Ignorieren Sie die Spalte zu ROPE, pd, Prior und Rhat! Goldene Regel der Statistik: Wenn du eine Information nicht brauchst, dann ignoriere sie erstmal ;-) - Gehen Sie von einer Normalverteilung aus. # Solution ```{r echo=FALSE} lm1_params <- parameters(lm1) intercept_ci_width <- (lm1_params$CI_high[1] - lm1_params$CI_low[1]) %>% round(2) b1_ci_width <- (lm1_params$CI_high[2] - lm1_params$CI_low[2]) %>% round(2) ``` a) `r intercept_ci_width` b) `r b1_ci_width` --- Categories: - qm2 - inference - lm