Lösungen zu den Aufgaben

  1. Aufgabe

    Im Hinblick auf die lineare Regression: Welche der folgenden Aussage passt am besten?


    1. Die einfache Regression - y=α+β1x1+ϵy=\alpha + \beta_1x_1 + \epsilon - prüft, inwieweit zwei Variablen zusammenhängen (linear oder anderweitig).
    2. Obwohl statistische Zusammenhänge nicht ohne Weiteres Kausalschlüsse erlauben, kann man die Regression für Vorhersagen gut nutzen.
    3. Regressionskoeffizienten kann man so interpretieren: “Erhöht man X um eine 1 Einheit, so steigt daraufhin Y um β1\beta_1 Einheiten” (β1\beta_1 sei der entsprechende Regressionskoeffizient).
    4. “Lineare Regression” bedeutet, dass z.B. keine Polynome wie y=α+β1x12+β2x1+ϵy= \alpha + \beta_1 x_1^2 + \beta_2 x_1 + \epsilon berechnet werden dürfen, bzw. nicht zur linearen Regression zählen.
    5. Zentrieren der Prädiktoren ist bei der linearen Regression nicht zulässig.

    Lösung

    1. Falsch. Die lineare Regression y=α+β1x1+ϵy=\alpha + \beta_1x_1 + \epsilon untersucht, wie die Korrelation, den Grad des linearen Zusammenhangs. Allerdings sind auch nicht-lineare Zusammenhänge von yy und den Prädiktoren erlaubt, etwa y=α+β1x12+β2x2+ϵy=\alpha + \beta_1x_1^2 + \beta_2x_2 + \epsilon. Linear ist dabei so zu verstehen, dass yy eine additive Funktion der Prädiktoren ist. Vielleicht wäre es daher besser, anstelle von “linearen” Modellen von “additiven” Modellen zu sprechen.
    2. Richtig. Für Vorhersagen ist Kenntnis einer Kausalstruktur nicht unbedingt nötig, kann aber sehr hilfreich sein.
    3. Falsch. Diese Interpretation suggeriert einen Kausaleffekt. Besser ist die Interpretation “Vergleicht man zwei Beobachtungen, die sich um 1 Einheit in X unterscheiden, so findet man im Durchschnitt einen Unterschied von β1\beta_1 in Y”.
    4. Falsch.Die Gleichung y=α+β1x12+β2x2+ϵy= \alpha + \beta_1 x_1^2 + \beta_2 x_2 + \epsilon ist linear in ihren Summanden.
    5. Falsch. Zentrieren der Prädiktoren ist bei der linearen Regression zulässig und oft sinnvoll.

  2. Aufgabe

    Die folgende Frage bezieht sich auf dieses Ergebnis einer Regressionsanalyse:

    
    Call:
    lm(formula = y ~ x, data = d)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -1.667 -0.464  0.077  0.512  1.726 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)   -0.207      0.114   -1.81    0.076 .  
    x             -0.693      0.108   -6.40  4.1e-08 ***
    ---
    Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    
    Residual standard error: 0.85 on 53 degrees of freedom
    Multiple R-squared:  0.436, Adjusted R-squared:  0.425 
    F-statistic:   41 on 1 and 53 DF,  p-value: 4.13e-08

    Welche der folgenden Aussagen passt am besten?


    1. Wenn x um 1 Einheit steigt, dann kann eine Veränderung um etwa -0.69 Einheiten in y erwartet werden (nicht kausal zu verstehen).
    2. Der Mittelwert der abhängigen Variaben y steigt mit zunehmenden x.
    3. Wenn x=0, dann ist ein Mittelwert von y in Höhe von etwa -0.9 zu erwarten.
    4. Wenn x=1, dann ist ein Mittelwert von y in Höhe von ca. -0.21 zu erwarten.
    5. Wenn x=2, dann ist ein Mittelwert von y in Höhe von ca. -0.9 zu erwarten.

    Lösung

    1. Wahr
    2. Falsch
    3. Falsch
    4. Falsch
    5. Falsch Für diese Aufgabe ist es hilfreich, wenn Sie wissen, wie man ŷ\hat{y} berechnet: ŷ=α+βx\hat{y}=\alpha + \beta x. In Worten “Das vorhergesagte Y ist die Summe von Achsenabschnitt (alpha) und Steigung (beta) mal x”. Ein einfaches Rechenbeispiel: Wenn man nichts für die Klausur lernt, hat man 7 Punkte (Achsenabschnitt). Pro Stunde lernen kommt ein halber Klausurpunkte dazu. Wie viele Punkte hat man nach diesem Modell, wenn man 20 Stunden lernt? Antwort: ŷ=7+0.5*20=7+10=17\hat{y}=7 + 0.5*20 = 7 + 10 = 17

  3. Aufgabe

    Ein Streudiagramm von xx und yy ergibt folgende Abbildung:

    Wählen Sie das am besten passende Modell aus der Liste aus!


    1. y=40+10x+ϵy = 40 + -10 \cdot x + \epsilon
    2. y=40+10x+ϵy = 40 + 10 \cdot x + \epsilon
    3. y=40+10x+ϵy = -40 + -10 \cdot x + \epsilon
    4. y=40+10x+ϵy = -40 + 10 \cdot x + \epsilon
    5. y=0+40x+ϵy = 0 + -40 \cdot x + \epsilon

    Lösung

    Das dargestellte Modell lautet y=40+10x+ϵy = -40 + -10 \cdot x + \epsilon.


    1. Falsch
    2. Falsch
    3. Richtig
    4. Falsch
    5. Falsch

  4. Aufgabe

    Welcher R-Code passt am besten, um folgende Frage aus der Post-Verteilung herauszulesen:

    Hinweise:

    Code A

    post_tab_df %>% 
      count(gross = a == 155) %>% 
      mutate(prop = n / sum(n))

    Code B

    post_tab_df %>% 
    
      count(gross = a > 155) %>% 
      mutate(prop = n / sum(n))

    Code C

    post_tab_df %>% 
      count(gross = a <= 155) %>% 
      mutate(prop = n / sum(n))

    Code D

    post_tab_df %>% 
      count(gross = a >= 155) %>% 
      mutate(prop = n / sum(n))

    Code E

    post_tab_df %>% 
      count(gross = a < 155) %>% 
      mutate(prop = n / sum(n))

    1. Code A
    2. Code B
    3. Code C
    4. Code D
    5. Code E

    Lösung

    Vgl. Skript 5.


    1. Falsch
    2. Falsch
    3. Falsch
    4. Wahr
    5. Falsch

  5. Aufgabe

    Betrachten wir den biologisch fundierten Zusammenhang von Gewicht (UV) und Körpergröße (AV).

    Welche der folgenden Priori-Verteilungen passt am besten für β\beta?

    Gehen Sie von z-standardisierten Variablen aus.


    1. N(0,1)N(0,1)
    2. N(0,100)N(0,100)
    3. N(1,0)N(1,0)
    4. N(0,0)N(0,0)
    5. N(1,1)N(-1,1)

    Lösung

    1. Wahr. Plausibler Prior. Bei z-standardisierten Werten sind die Koeffizienten meist kleiner 1. Noch sinnvoller wäre vermutlich, wenn μ>0\mu > 0 und nicht μ=0\mu=0.
    2. Falsch. Zu weit.
    3. Falsch. Keine Streuung.
    4. Falsch. Keine Streuung.
    5. Falsch. Negativer Mittelwert ist nicht sehr plausibel. Eine weitere, sinnvolle Überlegung ist, eine Priorverteilung zu wählen, die nur positive Werte zulässt wie die Exponentialverteilung, m it der Begründung, dass dies biologisch fundiert ist. Allerdings lässt stan_glm() nur normalverteilte Prior in diesem Fall zu.

  6. Aufgabe

    Ei Forschi wählt für ein Regressionsmodell β𝒩(0,500)\beta \sim \mathcal{N}(0,500) (Priori), wobei die empirischen Variablen z-standardisiert sind. Beziehen Sie Stellung zu diesem Prior.


    Lösung

    Die Priori-Verteilung ist nicht sinnvoll spezifiziert. Die Streuung der Normalverteilung ist so groß, dass sie fast schon uniform verteilt ist. Dieser Priori-Verteilung nimmt z.B. an, Pr(|β|<250)<Pr(|β|>250)Pr(|\beta| < 250) < Pr(|\beta| > 250), was eine sehr wilde Vorstellung ist. Man könnte sagen: Die Verteilung nimmt an, dass es wahrscheinlicher ist, dass ihr bester Freund 100 Millionen Lichtjahre entfernt lebt, als dass er näher als diese Distanz bei Ihnen lebt.

    Weitere Hinweise hier

    Zur Verdeutlichung: Wie wahrscheinlich ist q=1,2,...,10q=1,2,...,10 bei einer Normalverteilung zu betrachten?

    Für q=1q=1 beträgt die Wahrscheinlichkeit für einen Wert nicht höher als q=1q=1 etwa 84%:

    pnorm(q = 1)
    ## [1] 0.84

    Allgemeiner:

    options(digits = 20)  # Mehr Nachkommastellen
    pnorm(q = 1:10)
    ##  [1] 0.84134474606854292578 0.97724986805182079141 0.99865010196836989653
    ##  [4] 0.99996832875816688002 0.99999971334842807646 0.99999999901341229958
    ##  [7] 0.99999999999872013490 0.99999999999999933387 1.00000000000000000000
    ## [10] 1.00000000000000000000

    Die Wahrscheinlichkeiten für Sigma-Ereignisse bis zu ±7 finden sich z.B. hier.

    options(digits = 2)

    Vertiefung:

    Nassim Taleb hat dieses Argument in seinem Buch “Statistical Consequences of Fat Tails” aufgegriffen (ein anspruchsvolles Buch). Hier finden Sie eine interessante Darstellung eines Arguments daraus.


  7. Aufgabe

    Beziehen Sie sich auf das Regressionsmodell, für das die Ausgabe mit stan_glm() hier dargestellt ist:

    ## stan_glm
    ##  family:       gaussian [identity]
    ##  formula:      height ~ weight_c
    ##  observations: 346
    ##  predictors:   2
    ## ------
    ##             Median MAD_SD
    ## (Intercept) 154.6    0.3 
    ## weight_c      0.9    0.0 
    ## 
    ## Auxiliary parameter(s):
    ##       Median MAD_SD
    ## sigma 5.1    0.2   

    Betrachten Sie wieder folgende Beziehung (Gleichung bzw. Ungleichung):

    Pr(heighti=155|weight_ci=0,α,β,σ)Pr(heighti=156|weight_ci=0,α,β,σ)Pr(\text{height}_i = 155|\text{weight_c}_i=0, \alpha, \beta, \sigma) \quad \Box \quad Pr(\text{height}_i = 156|\text{weight_c}_i=0, \alpha, \beta, \sigma) Die in der obigen Beziehung angebenen Parameter beziehen sich auf das oben dargestellt Modell.

    Ergänzen Sie das korrekte Zeichen in das Rechteck \Box!


    1. <\lt
    2. \le
    3. >\gt
    4. \ge
    5. ==

    Lösung

    Als Prädiktorwert wurde der Achsenabschnitt spezifiziert, also x=0x=0. Der Achsenabschnitt wird mit 154.6 angegeben. Je weiter ein yiy_i von 154.6 entfernt ist, desto unwahrscheinlicher ist es, gegeben x=0x=0.


    1. Falsch
    2. Falsch
    3. Wahr
    4. Falsch
    5. Falsch

  8. Aufgabe

    Was ist nicht Ziel oder Gegenstand einer Bayes-Analyse?


    1. updating beliefs
    2. quantifying uncertainty
    3. including prior knowledge of the domain, possibly of subjective nature
    4. drawing inferential conclusions solely based on the likelihood

    Lösung

    Bei der Bayes-Analyse werden die Schlussfolgerungen nicht nur auf Basis des Likelihoods gezogen (im Gegensatz zum Frequentistischen Ansatz).


    1. Falsch
    2. Falsch
    3. Falsch
    4. Wahr

  9. Aufgabe

    Der Likelihood eines Datensatzes ist definiert als das Produkt der Likelihoods aller Beobachtungen:

    =i=1n𝒾\mathcal{L} = \prod_{i=1}^n \mathcal{L_i}

    wobei die Beobachtungen bzw. ihre Likelihood als unabhängig angenommen werden: 𝒾𝒿,ij\mathcal{L_i} \perp \mathcal{L_j}, \quad i \ne j.

    Je größer nn, desto …….. \mathcal{L}!

    Füllen Sie die Lücke!


    1. größer
    2. kleiner
    3. unabhängig voneinander
    4. keine Aussage möglich
    5. kommt auf weitere, hier nicht benannte Bedingungen an

    Lösung

    Multipliziert man zwei (oder mehr) Anteile pip_i (Wahrscheinlichkeiten), p[0,1]p \in [0,1], so ist das resultierende Produkt nicht größer als pip_i. Je mehr Anteile pip_i man multipliziert, desto kleiner (näher an Null, aber positiv) das resultierende Produkt.

    Beispiel: Die Wahrscheinlichkeit, dass eine zufällig bestimmte (“gezogene”) Person eine Frau ist, sei p=1/2p=1/2. Die Wahrscheinlichkeit, dass unter Personen zwei Frauen sind, beträgt p2=pp=1/4p_2 = p\cdot p=1/4 (unter der Annahme, dass die Ziehungen unabhängig sind). Wir sehen: Je mehr Wahrscheinlichkeiten (“Anteile”) man multipliziert, desto kleiner (näher an Null) das resultierende Produkt.


    1. Falsch
    2. Richtig
    3. Falsch
    4. Falsch
    5. Falsch

  10. Aufgabe

    Welche Zeile der folgenden Modellspezifikation zeigt den Likelihood?

    heightiNormal(μi,σ)μi=α+βweightiαNormal(178,20)βNormal(5,3)σExp(0.1) \begin{align} \text{height}_i &\sim \operatorname{Normal}(\mu_i, \sigma) \\ \mu_i &= \alpha + \beta \cdot \text{weight}_i\\ \alpha &\sim \operatorname{Normal}(178, 20)\\ \beta &\sim \operatorname{Normal}(5,3)\\ \sigma &\sim \operatorname{Exp}(0.1) \end{align}

    Zeile …


    1. 1
    2. 2
    3. 3
    4. 4
    5. 5

    Lösung

    1. Richtig
    2. Falsch. Lineares Modell.
    3. Falsch. Prior Achsenabschnitt.
    4. Falsch. Prior Regressiongewicht.
    5. Falsch. Prior Streuung der AV.

  11. Aufgabe

    Sie möchten, im Rahmen einer Studie, ein einfaches lineare Modell spezifizieren, d.h. den Likelihood und die Priori-Verteilungen benennen.

    Folgende Informationen sind gegeben:

    Schreiben Sie in mathematischer Notation folgende Notation auf:

    Die Priori-Verteilung des Regressionsgewichts

    Hinweise:


    Lösung

    b~Normal(0, 2.5)


  12. Aufgabe

    Sie möchten, im Rahmen einer Studie, ein einfaches lineare Modell spezifizieren, d.h. den Likelihood und die Priori-Verteilungen benennen.

    Folgende Informationen sind gegeben:

    Schreiben Sie in mathematischer Notation folgende Notation auf:

    Priori-Verteilung der Streuung der AV

    Hinweise:


    Lösung

    s~Exp(1)


  13. Aufgabe

    Nach der Berechnung bzw. Schätzung der Modellparameter ein)es Regressionsmodells (mit Methoden der Bayes-Inferenz) erhält man u.a. auf die Prädiktorwerte xix_i (i=1,2,...,ni=1,2,...,n) bedingte Wahrscheinlichkeiten für die AV, yiy_i, oder genauer yi|xi,θy_i|x_i,\theta (mit θ\theta für die Modellparameter).

    Betrachten Sie dazu folgende Aussage:

    Pr(yi|xi,α,β,σ)=cPr(y_i|x_i, \alpha, \beta, \sigma) = c für i=1,2,...,ni=1,2,...,n

    Welche der Aussagen ist in diesem Zusammenhang falsch?


    1. Das Regresssionsmodell hat 3 Parameter.
    2. Das Regresssionsmodell hat 1 Prädiktor (im Sinne von 1 Inputvariablen).
    3. Pr(yi|xi,α,β,σ)=cPr(y_i|x_i, \alpha, \beta, \sigma) = c für i=1,2,...,ni=1,2,...,n
    4. yi=+Pr(yi|xi,α,β,σ)=1\sum_{y_i = -\infty}^{+\infty} Pr(y_i|x_i, \alpha, \beta, \sigma) = 1
    5. Pr(yi|xi,α,β,σ)=pi,pi[0,1]Pr(y_i|x_i, \alpha, \beta, \sigma) = p_i, \qquad p_i \in [0,1]

    Lösung

    1. Falsch
    2. Falsch
    3. Wahr
    4. Falsch
    5. Falsch