Aufgaben

  1. Aufgabe

    Im Hinblick auf die lineare Regression: Welche der folgenden Aussage passt am besten?


    1. Die einfache Regression $- y=+ _1x_1 + - $ prüft, inwieweit zwei Variablen zusammenhängen (linear oder anderweitig).
    2. Obwohl statistische Zusammenhänge nicht ohne Weiteres Kausalschlüsse erlauben, kann man die Regression für Vorhersagen gut nutzen.
    3. Regressionskoeffizienten kann man so interpretieren: “Erhöht man X um eine 1 Einheit, so steigt daraufhin Y um β1\beta_1 Einheiten” (β1\beta_1 sei der entsprechende Regressionskoeffizient).
    4. “Lineare Regression” bedeutet, dass z.B. keine Polynome wie y=α+β1x12+β2x2+ϵy= \alpha + \beta_1 x_1^2 + \beta_2 x_2 + \epsilon berechnet werden dürfen, bzw. nicht zur linearen Regression zählen.
    5. Zentrieren der Prädiktoren ist bei der linearen Regression nicht zulässig.

  2. Aufgabe

    Die folgende Frage bezieht sich auf dieses Ergebnis einer Regressionsanalyse:

    
    Call:
    lm(formula = y ~ x, data = d)
    
    Residuals:
                     Min 
    -5.60103138447483762 
                      1Q 
    -1.29651399607992146 
                  Median 
     0.13271312910725397 
                      3Q 
     1.34069454220904838 
                     Max 
     3.27668181652550139 
    
    Coefficients:
                            Estimate
    (Intercept) -0.20266077940008262
    x            1.21128727626050403
                          Std. Error
    (Intercept)  0.27557847442282846
    x            0.24999438472545932
                             t value
    (Intercept) -0.73540000000000005
    x            4.84525999999999968
                   Pr(>|t|)    
    (Intercept)     0.46546    
    x           0.000012216 ***
    ---
    Signif. codes:    0 '***'
      0.0010000000000000000208  '**'
      0.010000000000000000208  '*'
      0.050000000000000002776  '.'
      0.10000000000000000555 '  ' 1
    
    Residual standard error: 1.9994569675161675271 on 51 degrees of freedom
    Multiple R-squared:  0.31522046211193527,   Adjusted R-squared:  0.30179341234942414 
    F-statistic: 23.476524455286146 on 1 and 51 DF,  p-value: 0.000012216495740867034

    Welche der folgenden Aussagen passt am besten?


    1. Wenn x um 1 Einheit steigt, dann kann eine Veränderung um etwa 1.21 Einheiten in y erwartet werden (nicht kausal zu verstehen).
    2. Der Mittelwert der abhängigen Variaben y sinkt mit zunehmenden x.
    3. Wenn x=1, dann ist ein Mittelwert von y in Höhe von ca. -0.2 zu erwarten.
    4. Wenn x=2, dann ist ein Mittelwert von y in Höhe von ca. 1.01 zu erwarten.
    5. Das (nicht-adjustierte) R2R^2 liegt im Modell bei 1.21.

  3. Aufgabe

    Ein Streudiagramm von xx und yy ergibt folgende Abbildung:

    Wählen Sie das am besten passende Modell aus der Liste aus!


    1. y=40+10x+ϵy = 40 + 10 \cdot x + \epsilon
    2. y=40+10x+ϵy = 40 + -10 \cdot x + \epsilon
    3. y=40+10x+ϵy = -40 + -10 \cdot x + \epsilon
    4. y=40+10x+ϵy = -40 + 10 \cdot x + \epsilon
    5. y=0+40x+ϵy = 0 + -40 \cdot x + \epsilon

  4. Aufgabe

    Welcher R-Code passt am besten, um folgende Frage aus der Post-Verteilung herauszulesen:

    Hinweise:

    Code A

    post_tab_df %>% 
      count(gross = a == 155) %>% 
      mutate(prop = n / sum(n))

    Code B

    post_tab_df %>% 
    
      count(gross = a > 155) %>% 
      mutate(prop = n / sum(n))

    Code C

    post_tab_df %>% 
      count(gross = a <= 155) %>% 
      mutate(prop = n / sum(n))

    Code D

    post_tab_df %>% 
      count(gross = a >= 155) %>% 
      mutate(prop = n / sum(n))

    Code E

    post_tab_df %>% 
      count(gross = a < 155) %>% 
      mutate(prop = n / sum(n))

    1. Code A
    2. Code B
    3. Code C
    4. Code D
    5. Code E

  5. Aufgabe

    Betrachten wir den biologisch fundierten Zusammenhang von Gewicht und Körpergröße.

    Welche der folgenden Priori-Verteilungen passt am besten für β\beta?

    Gehen Sie von z-standardisierten Variablen aus.


    1. N(0,1)N(0,1)
    2. N(0,100)N(0,100)
    3. N(1,0)N(1,0)
    4. N(0,0)N(0,0)
    5. N(1,1)N(-1,1)

  6. Aufgabe

    Ei Forschi wählt für ein Regressionsmodell β𝒩(0,500)\beta \sim \mathcal{N}(0,500) (Priori), wobei die empirischen Variablen z-standardisiert sind. Beziehen Sie Stellung zu diesem Prior.


  7. Aufgabe

    Beziehen Sie sich auf das Regressionsmodell, für das die Ausgabe mit stan_glm() hier dargestellt ist:

    ## stan_glm
    ##  family:       gaussian [identity]
    ##  formula:      height ~ weight_c
    ##  observations: 346
    ##  predictors:   2
    ## ------
    ##             Median MAD_SD
    ## (Intercept) 154.6    0.3 
    ## weight_c      0.9    0.0 
    ## 
    ## Auxiliary parameter(s):
    ##       Median MAD_SD
    ## sigma 5.1    0.2   

    Betrachten Sie wieder folgende Beziehung (Gleichung bzw. Ungleichung):

    Pr(heighti=155|weight_ci=0,α,β,σ)Pr(heighti=156|weight_ci=0,α,β,σ)Pr(\text{height}_i = 155|\text{weight_c}_i=0, \alpha, \beta, \sigma) \quad \Box \quad Pr(\text{height}_i = 156|\text{weight_c}_i=0, \alpha, \beta, \sigma) Die in der obigen Beziehung angebenen Parameter beziehen sich auf das oben dargestellt Modell.

    Ergänzen Sie das korrekte Zeichen in das Rechteck \Box!


    1. <\lt
    2. \le
    3. >\gt
    4. \ge
    5. ==

  8. Aufgabe

    Was ist nicht Ziel oder Gegenstand einer Bayes-Analyse?


    1. updating beliefs
    2. quantifying uncertainty
    3. including prior knowledge of the domain, possibly of subjective nature
    4. drawing inferential conclusions solely based on the likelihood

  9. Aufgabe

    Der Likelihood eines Datensatzes ist definiert als das Produkt der Likelihoods aller Beobachtungen:

    =i=1n𝒾\mathcal{L} = \prod_{i=1}^n \mathcal{L_i}

    wobei die Beobachtungen bzw. ihre Likelihood als unabhängig angenommen werden: 𝒾𝒿,ij\mathcal{L_i} \perp \mathcal{L_j}, \quad i \ne j.

    Je größer nn, desto …….. \mathcal{L}!

    Füllen Sie die Lücke!


    1. größer
    2. kleiner
    3. unabhängig voneinander
    4. keine Aussage möglich
    5. kommt auf weitere, hier nicht benannte Bedingungen an

  10. Aufgabe

    Welche Zeile der folgenden Modellspezifikation zeigt den Likelihood?

    heightiNormal(μi,σ)μi=α+βweightiαNormal(178,20)βNormal(5,3)σExp(0.1) \begin{align} \text{height}_i &\sim \operatorname{Normal}(\mu_i, \sigma) \\ \mu_i &= \alpha + \beta \cdot \text{weight}_i\\ \alpha &\sim \operatorname{Normal}(178, 20)\\ \beta &\sim \operatorname{Normal}(5,3)\\ \sigma &\sim \operatorname{Exp}(0.1) \end{align}

    Zeile …


    1. 1
    2. 2
    3. 3
    4. 4
    5. 5

  11. Aufgabe

    Sie möchten, im Rahmen einer Studie, ein einfaches lineare Modell spezifizieren, d.h. den Likelihood und die Priori-Verteilungen benennen.

    Folgende Informationen sind gegeben:

    Schreiben Sie in mathematischer Notation folgende Notation auf:

    Die Priori-Verteilung des Regressionsgewichts

    Hinweise:


  12. Aufgabe

    Sie möchten, im Rahmen einer Studie, ein einfaches lineare Modell spezifizieren, d.h. den Likelihood und die Priori-Verteilungen benennen.

    Folgende Informationen sind gegeben:

    Schreiben Sie in mathematischer Notation folgende Notation auf:

    Priori-Verteilung der Streuung der AV

    Hinweise:


  13. Aufgabe

    Nach der Berechnung bzw. Schätzung der Modellparameter ein)es Regressionsmodells (mit Methoden der Bayes-Inferenz) erhält man u.a. auf die Prädiktorwerte xix_i (i=1,2,...,ni=1,2,...,n) bedingte Wahrscheinlichkeiten für die AV, yiy_i, oder genauer yi|xi,θy_i|x_i,\theta (mit θ\theta für die Modellparameter).

    Betrachten Sie dazu folgende Aussage:

    Pr(yi|xi,α,β,σ)=cPr(y_i|x_i, \alpha, \beta, \sigma) = c für i=1,2,...,ni=1,2,...,n

    Welche der Aussagen ist in diesem Zusammenhang falsch?


    1. Das Regresssionsmodell hat 3 Parameter.
    2. Das Regresssionsmodell hat 1 Prädiktor (im Sinne von 1 Inputvariablen).
    3. Pr(yi|xi,α,β,σ)=cPr(y_i|x_i, \alpha, \beta, \sigma) = c für i=1,2,...,ni=1,2,...,n
    4. yi=+Pr(yi|xi,α,β,σ)=1\sum_{y_i = -\infty}^{+\infty} Pr(y_i|x_i, \alpha, \beta, \sigma) = 1
    5. Pr(yi|xi,α,β,σ)=pi,pi[0,1]Pr(y_i|x_i, \alpha, \beta, \sigma) = p_i, \qquad p_i \in [0,1]