Aufgaben

Aufgabe

Die Inferenzstatistik ist ein Sammlung an Verfahren zur Bemessung von Unsicherheit in statistischen Schlüssen.
1. Für welche Statistiken - also Kennzahlen der Deskriptivstatistik wie etwa $\bar{X}, sd, r$ - kann man die Inferenzstatistik verwenden?
2. Für welche Forschungsfragen oder -bereiche kann man die Inferenzstatistik verwenden?
3. Gibt es besondere Fälle, in denen man nicht die Inferenzstatistik verwenden möchte? Wenn ja, welche?
Aufgabe

Für Statistiken (Stichprobe) verwendet man meist lateinische Buchstaben; für Parameter (Population) verwendet man entsprechend meist griechische Buchstaben.

Vervollständigen Sie folgende Tabelle entsprechend!

Kennwert Statistik Parameter

Mittelwert $\bar{X}$ NA

Mittelwertsdifferenz $\bar{X}_1-\bar{X}_2$ NA

Streuung sd NA

Anteil p NA

Korrelation r NA

Regressionsgewicht b NA
Aufgabe

Der t-Test kann als Spezialfall der Regressionsanalyse gedeutet werden.

Hierbei ist es wichtig, sich das Skalenniveau der Variablen, die ein t-Test verarbeitet, vor Augen zu führen.
1. Benennen Sie die Skalenniveaus der UV eines t-Tests! Geben Sie nur ein Wort ein. Verwenden Sie nur Kleinbuchstaben (z.B. regression).
2. Benennen Sie die Skalenniveaus der AV eines t-Tests! Geben Sie nur ein Wort ein. Verwenden Sie nur Kleinbuchstaben (z.B. regression).
3. Nennen Sie eine beispielhafte Forschungsfrage für einen t-Test.
4. Skizzieren Sie ein Diagramm einer Regression, die analytisch identisch (oder sehr ähnlich) zu einem t-Test ist!
Aufgabe

Die Varianzanalyse (Analysis of Variance; Anova) ist ein statistisches Verfahren, um die Gleichheit zweier oder mehr Populationsmittelwerte zu testen: $\mu_1 = \mu_2 = \ldots =\mu_n$ .

Wie viele andere Verfahren kann die Anova als ein Spezialfall der Regression bzw. des linearen Modells $y = \beta_0 + \beta_1 + \ldots \beta_n + \epsilon$ betrachtet werden.

Als ein spezielles Beispiel betrachten wir die Frage, ob Diamanten (Datensatz diamonds) verschiedener Schliffart (cut) sich nicht in ihrem mittleren Preis (price) unterscheiden.

Den Datensatz können Sie so laden:
```
library(tidyverse)
data(diamonds)
```
1. Nennen Sie UV und AV! Geben Sie jeweils das Skalenniveau an!
2. Nennen Sie die Regressionsformel für diese Forschungsfrage!
3. Betrachten Sie die Ausgabe von R:
```
Estimates:
              mean   sd     10%    50%    90% 
(Intercept) 4062.0   25.9 4029.1 4062.6 4094.8
cut.L       -363.7   67.3 -449.8 -363.8 -278.3
cut.Q       -223.7   59.7 -300.2 -223.2 -147.3
cut.C       -700.8   51.7 -766.4 -701.7 -634.4
cut^4       -280.2   41.7 -333.5 -280.1 -226.5
sigma       3963.9   12.1 3948.4 3963.7 3979.5
```
Geben Sie die Punktschätzer $\beta$ zu den Mittelwertsunterschieden an. Die Spalte sd quantifiziert die Unsicherheit bzw. Ungenauigkeit in der Schätzung. Die Prozentwerte kann man interpretieren, dass das Modell der Meinung ist, der wahre (zu schätzende Werte) ist mit 10% (50%, 90%) Wahrscheinlichkeit kleiner als der jeweils angegebene Wert.

Vor diesem Hintergrund: Würden Sie die Hypothese der Gleichheit aller Mittelwerte der Gruppen (an Schliffarten) ablehnen oder beibehalten?
Aufgabe

Die Korrelation prüft, ob zwei Merkmale linear zusammenhängen.

Wie viele andere Verfahren kann die Korrelation als ein Spezialfall der Regression bzw. des linearen Modells $y = \beta_0 + \beta_1 + \ldots \beta_n + \epsilon$ betrachtet werden.

Als ein spezielles Beispiel betrachten wir die Frage, ob das Gewicht eines Diamanten (carat) mit dem Preis (price) zusammenhängt (Datensatz diamonds).

Den Datensatz können Sie so laden:
```
library(tidyverse)
data(diamonds)
```
1. Geben Sie das Skalenniveau beider Variablen an!
2. Betrachten Sie die Ausgabe von R:
```
lm1 <- lm(price ~ carat, data = diamonds)
summary(lm1)
```
```
## 
## Call:
## lm(formula = price ~ carat, data = diamonds)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -18585   -805    -19    537  12732 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2256.4       13.1    -173   <2e-16 ***
## carat         7756.4       14.1     551   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1550 on 53938 degrees of freedom
## Multiple R-squared:  0.849,  Adjusted R-squared:  0.849 
## F-statistic: 3.04e+05 on 1 and 53938 DF,  p-value: <2e-16
```
Wie (bzw. wo) ist aus dieser Ausgabe die Korrelation herauszulesen?
1. Macht es einen Unterschied, ob man Preis mit Karat bzw. Karat mit Preis korreliert?
2. In der klassischen Inferenzstatistik ist der $p$ -Wert eine zentrale Größe; ist er klein ( $p<.05$ ) so nennt man die zugehörige Statistik signifikant und verwirft die getestete Hypothese.
3. Im Folgenden sehen Sie einen Korrelationstest auf statistische Signifikanz, mit R durchgeführt. Zeigt der Test ein (statistisch) signifikantes Ergebnis? Wie groß ist der “Unsicherheitskorridor”, um den Korrelationswert (zugleich Punktschätzer für den Populationswert)?
```
library(rstatix)
diamonds %>% 
  sample_n(30) %>% 
  select(price, carat) %>% 
  rstatix::cor_test() %>% 
  gt()
```
```
## Error in gt(.): could not find function "gt"
```
Aufgabe

Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression bedeutet das: “Liegt die Regressionsgerade in”Wahrheit” (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Popuation?“. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir die”wahre” Regressionsgleichung kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern. Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.

Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell:
```
## stan_glm
##  family:       gaussian [identity]
##  formula:      mpg ~ hp
##  observations: 32
##  predictors:   2
## ------
##             Median MAD_SD
## (Intercept) 30.1    1.6  
## hp          -0.1    0.0  
## 
## Auxiliary parameter(s):
##       Median MAD_SD
## sigma 3.9    0.5   
## 
## ------
## * For help interpreting the printed output see ?print.stanreg
## * For info on the priors used see ?prior_summary.stanreg
```
1. Welche Zahl kennzeichnet die Ungewissheit des Modells zum Achsenabschnitt?
2. Welche Zahl kennzeichnet die Ungewissheit des Modells zum Regressionsgewicht?
3. Welche Zahl(en) kennzeichnet/kennzeichnen die Ungewissheit des Modells gegeben der Modellparameter (die Ungewissheit innerhalb des Modells)?
Aufgabe

Betrachten Sie folgendes Modell, das den Zusammenhang von PS-Zahl und Spritverbrauch untersucht (Datensatz mtcars).

Aber zuerst zentrieren wir den metrischen Prädiktor hp, um den Achsenabschnitt besser interpretieren zu können.
```
Estimates:
              mean   sd   10%   50%   90%
(Intercept) 20.1    0.7 19.2  20.1  21.0 
hp_z        -0.1    0.0 -0.1  -0.1  -0.1 
sigma        4.0    0.5  3.4   3.9   4.7 
```
Jetzt können wir aus dem Achsenabschnitt (Intercept) herauslesen, dass ein Auto mit hp_z = 0 - also mit mittlerer PS-Zahl - vielleicht gut 20 Meilen weit mit einer Gallone Sprit kommt.

Zur Verdeutlichung ein Diagramm zum Modell:

Adjustieren Sie im Modell die PS-Zahl um die Art des Schaltgetriebes (am), so dass das neue Modell den Effekt der PS-Zahl bereinigt bzw. unabhängig von der Art des Schaltgetriebes widerspiegelt!

(Hinweis am=0 ist ein Auto mit Automatikgetriebe.)
Aufgabe

Betrachten Sie folgendes Modell, das den Zusammenhang des Preises (price) und dem Gewicht (carat) von Diamanten untersucht (Datensatz diamonds).

Aber zuerst zentrieren wir den metrischen Prädiktor carat, um den Achsenabschnitt besser interpretieren zu können.

Dann berechnen wir ein (bayesianisches) Regressionsmodell, wobei wir auf die Standardwerte der Prior zurückgreifen.
```
Estimates:
              mean   sd     10%    50%    90% 
(Intercept) 3932.5    6.8 3923.7 3932.5 3941.1
carat_z     7756.3   14.2 7737.8 7756.2 7774.7
sigma       1548.6    4.8 1542.5 1548.6 1554.7
```
Zur Verdeutlichung ein Diagramm zum Modell:
1. 1. Was kostet in Diamant mittlerer Größe laut Modell lm1? Runden Sie auf eine Dezimale. Geben Sie nur eine Zahl ein. b) Geben Sie eine Regressionsformel an, die lm1 ergänzt, so dass die Schliffart (cut) des Diamanten kontrolliert (adjustiert) wird. Anders gesagt: Das Modell soll die mittleren Preise für jede der fünf Schliffarten angeben. Geben Sie nur die Regressionsformel an. Lassen Sie zwischen Termen jeweils ein Leerzeichen Abstand. Hinweis: Es gibt (laut Datensatz) folgende Schliffarten (und zwar in der folgenden Reihenfolge): ## # A tibble: 5 × 1 ## cut ## <ord> ## 1 Ideal ## 2 Premium ## 3 Good ## 4 Very Good ## 5 Fair ## [1] "Fair" "Good" "Very Good" "Premium" "Ideal"

Kennwert	Statistik	Parameter
Mittelwert	$\bar{X}$	NA
Mittelwertsdifferenz	$\bar{X}_1-\bar{X}_2$	NA
Streuung	sd	NA
Anteil	p	NA
Korrelation	r	NA
Regressionsgewicht	b	NA

Aufgabe

Zwei Modelle, m1 und m2 produzieren jeweils die gleiche Vorhersage (den gleichen Punktschätzer).

m1:

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.2438 -0.0659  0.0107  0.0595  0.2187 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.00187    0.00934    -0.2     0.84    
## x            0.99795    0.00996   100.2   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.093 on 98 degrees of freedom
## Multiple R-squared:  0.99,   Adjusted R-squared:  0.99 
## F-statistic: 1e+04 on 1 and 98 DF,  p-value: <2e-16

m2:

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1370 -0.5838 -0.0009  0.7129  2.5472 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    0.130      0.105    1.24     0.22    
## x              1.058      0.104   10.14   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.1 on 98 degrees of freedom
## Multiple R-squared:  0.512,  Adjusted R-squared:  0.507 
## F-statistic:  103 on 1 and 98 DF,  p-value: <2e-16

Die Modelle unterscheiden sich aber in ihrer Ungewissheit bezüglich $\beta$ , wie in der Spalte Std. Error ausgedrückt.

Welches der beiden Modelle ist zu bevorzugen? Begründen Sie.

Aufgabe

Nennen Sie ein Beispiel für eine Vorhersagemodell (mit lineare Regression), wo Sie sich nicht mit dem Punktschätzer für die Modellkoeffizienten begnügen, sondern auch über die Ungewissheit in der Schätzung der Modellkoeffizienten informiert werden möchten!
Aufgabe

Denken wir uns ein kausales System mit einer Ursache und einer Wirkung, etwa der Einfluss der Naturbelassenheit ( $N$ ) eines Landkreises auf die Anzahl der Störche ( $S$ ) dort (ein positiver Einfluss). Nehmen wir weiter an, die Naturbelassenenheit eines Landkreises hat einen (positiven) Einfluss auf die Anzahl Neugeborener (Babies, $B$ ).

Weitere kausale Einflüsse existieren in diesem kausalen System nicht (es handelt sich ja hier umn ein Gedankenexperiment, wir können frei bestimmen!).

Die Frage ist nun, ob wir erwarten müssen, dass Störche und Babies zusammenhängen in diesem System, dass es also dort, wo es viele Störche gibt auch viele Babies gibt. Das wäre deswegen beachtlich, weil wir in unserem System explizit keinen (kausalen) Zusammenhang zwischen diesen beiden Größen definiert haben.

Um die Sache etwas greifbarer zu machen, erstellen wir uns Daten, die zu diesem System passen. Sagen wir, wir haben 100 Landkreise, die in der Zahl der Störche und Babies und Naturbelassenheit variieren. Der Einfachheit halber seien alle Werte in $z$ -Werten ausgedrückt. Gehen wir weiter (der Einfachheit halber) davon aus, alle Größen sind normalverteilt. Solche Werte kann man mit der R-Funktion rnorm() erzeugen.

Schließlich gehen wir noch davon aus, dass die Einflüsse linear sind und nicht perfekt. Der Zufall (zufälliger “Fehler”, $e$ ) soll also auch einen Einfluss auf die Größen haben.
```
N <- rnorm(100, mean = 0, sd = 1)  # 100 normalverteilte z-Werte
e1 <- rnorm(100)  # das gleiche wie oben: normalverteilte z-Werte
e2 <- rnorm(100)  # das gleiche wie oben: normalverteilte z-Werte
S <- N + e1  # S wird determiniert durch N und e
B <- N + e2  # B wird determiniert druch N und e
```
Testen wir unsere simulierten Daten mit einer einfachen Regression, der Frage, ob die Anzahl der Störche (S) von der Natürlichkeit (N) abhängt:
```
lm1 <- lm(S ~ N)
summary(lm1)
```
```
## 
## Call:
## lm(formula = S ~ N)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2528 -0.6076  0.0072  0.6931  2.0559 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.0641     0.0976    0.66     0.51    
## N             1.0894     0.1044   10.43   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.97 on 98 degrees of freedom
## Multiple R-squared:  0.526,  Adjusted R-squared:  0.521 
## F-statistic:  109 on 1 and 98 DF,  p-value: <2e-16
```
Unser Modell lm1 bringt unsere Annahmen deutlich zum Vorschein.
1. Bestimmen Sie den Zusammenhang ( $\beta$ oder $\rho$ ) zwischen Störchen und Babies!
2. Erklären Sie den Befund!
Aufgabe

Wir suchen ein Modell, das einen nichtlinearen Zusammenhang von PS-Zahl und Spritverbrauch darstellt (Datensatz mtcars).

Geben Sie dafür ein mögliches Modell an! Nutzen Sie den R-Befehl lm.