Aufgaben

  1. Aufgabe

    Geben Sie die Funktion für jedes Diagramm an!

    1. Diagramm A

    1. Diagramm B

    1. Diagramm C

    1. Diagramm 4

    1. Diagramm 5


  2. Aufgabe

    Rechnen Sie von Logits in Inv-Logits um!

    Hinweise:


    1. 10
    2. 4
    3. -5

  3. Aufgabe

    Eine logistische Regression wurde an einen Datensatz angepasst. Es ergaben sich folgende Koeffizienten (jeweils Punktschätzer):

    Konstante = -1.9 x = 0.7 z = 0.7

    x ist ein metrischer Prädiktor mit einem Range von 0 bis 10; z ist eine binäre Variable mit den Werten 0 und 1.

    Visualisieren Sie die Kurven in einem Diagramm für

    1. \mathcal{L} vs. xx
    2. Pr(y=1)Pr(y=1) vs. xx

  4. Aufgabe

    Forschungsfrage: Ist der Zusammenhang von Körpergröße und ‘Mann’ positiv? Gehen also höhere Werte in Körpergröße height einher mit einer höheren Wahrscheinlichkeit, dass es sich um einen Mann m handelt?

    Berechnen Sie ein Bayes-Modell und geben Sie die Punktschätzer der Modellkoeffizienten an - einmal für height in Inches und einmal in Zentimeter.

    Hinweise:


    1. Handelt es sich bei der Transformation (von Inches in Zentimeter) um eine lineare Transformation?
    2. Ändert sich der Punktschätzer des Achsenabschnitts durch die Transformation?
    3. Ändert sich der Punktschätzer des Regressionsgewichts durch die Transformation?
    4. Bei zentrierten Daten: Ändert sich der Punktschätzer des Regressionsgewichts durch die Transformation?

  5. Aufgabe

    Betrachten Sie den Datensatz mtcars. Die Forschungsfrage betreffe den Einfluss vom Spritverbrauch, xx, UV, auf die Wahrscheinlichkeit, dass es sich um ein Auto mit Automatik-Schaltung, yy, AV, handelt.

    Hinweise:


    1. Was ist der Punktschätzer (Median) in Logits für den Prädiktor?
    2. Was ist der Standardfehler (MAD_SD) in Inv-Logits für den Prädiktor?
    3. Was ist die Wahrscheinlichkeit für am=1 bei einem Auto mit mittlerem Spritverbrauch, mpg\bar{mpg}? Berichten Sie den Punktschätzer!

  6. Aufgabe

    Betrachten Sie den Datensatz mtcars. Die Forschungsfrage betreffe den Einfluss vom Spritverbrauch, xx, UV, auf die Wahrscheinlichkeit, dass es sich um ein Auto mit Automatik-Schaltung, yy, AV, handelt.

    Hinweise:


    1. Wie groß ist die Ungewissheit (95%-PI) für den Koeffizienten β\beta in Logits? Geben Sie die Breite an.
    2. Wie groß ist die Ungewissheit (95%-PI) für yy wenn x=1x=1, in Wahrscheinlichkeit? Geben Sie die Breite an.
    3. Wie groß ist die Ungewissheit (95%-PI) für den Achsenabschnitt β\beta in Logits? Geben Sie die Breite an.

  7. Aufgabe

    Betrachten Sie den Datensatz mtcars. Die Forschungsfrage betreffe den Einfluss vom Spritverbrauch, xx, UV, auf die Wahrscheinlichkeit, dass es sich um ein Auto mit Automatik-Schaltung, yy, AV, handelt.

    Hinweise:

    Was ist der größte (statistische) Effekt des Prädiktors (in Wahrscheinlichkeit)?


  8. Aufgabe

    Betrachten Sie den Datensatz mtcars. Die Forschungsfrage betreffe den Einfluss vom Spritverbrauch, x1x_1, UV1, sowie von der Zahl der Zylinder (als Faktor-Variable), x2x_2, UV2, auf die Wahrscheinlichkeit, dass es sich um ein Auto mit Automatik-Schaltung, yy, AV, handelt. Modellieren Sie dabei einen Interaktionseffekt.

    Aufgaben:

    1. Überschneiden sich die Graphen der drei Gruppen?
    2. Visualisieren Sie das Modell! Einmal mit der Y-Achse skaliert in Logits…
    3. … einmal mit der Y-Achse skaliert in Wahrscheinlichkeiten.

    Hinweise:


  9. Aufgabe

    Betrachten Sie den Datensatz mtcars. Die Forschungsfrage betreffe den (statistischen) Einfluss von der Zahl der Zylinder, x2x_2, UV, auf die Wahrscheinlichkeit, dass es sich um ein Auto mit Automatik-Schaltung, yy, AV, handelt. Modellieren Sie keinen Interaktionseffekt.

    Hinweise:

    Aufgaben:


    1. Ist die Wahrscheinlichkeit für ein Automatik-Getriebe höher bei cyl=4 im Vergleich zu cyl=6, laut dem Modell? Beziehen Sie sich auf die den Punktschätzer der Post-Verteilung.
    2. Um welchen Wert unterscheidet sich die Wahrscheinlichkeit?

  10. Aufgabe

    Eine Studie untersuchte den Arsengehalt arsenic in Brunnen in Bangladesh. Die Forschis untersuchten u.a., ob die Menschen bereit waren, auf einen Brunnen zu wechseln switch, der nicht mit Arsen belastet war, und welche Rolle die Entfernung (in Einheiten von 100 Meter, dist100) zum nächsten unbelasteten Brunnen spielt.

    Die Daten sind hier zu beziehen:

    d_path <- "https://raw.githubusercontent.com/avehtari/ROS-Examples/master/Arsenic/data/wells.csv"
    
    d <- read_csv(d_path)

    Hier ist das Regressionsmodell:

    m1 <- stan_glm(switch ~ dist100 + arsenic, 
                   family = binomial(link = "logit"),
                   data = d,
                   refresh = 0)
    ## stan_glm
    ##  family:       binomial [logit]
    ##  formula:      switch ~ dist100 + arsenic
    ##  observations: 3020
    ##  predictors:   3
    ## ------
    ##             Median MAD_SD
    ## (Intercept)  0.00   0.08 
    ## dist100     -0.90   0.10 
    ## arsenic      0.46   0.04 
    ## 
    ## ------
    ## * For help interpreting the printed output see ?print.stanreg
    ## * For info on the priors used see ?prior_summary.stanreg
    1. Vergleichen Sie zwei Personen mit der gleichen Distanz zum nächsten unbelasteten Brunnen, wobei eine Person einen Arsenwert von 0.5 hat und die andere Person einen Wert von 1.0.

    Wie groß ist der Unterschied in Wahrscheinlichkeit zwischen erster und zweiter Person, den Brunnen zu wechseln (laut dem obigen Modell)?

    Beziehen Sie sich auf die Daten der Post-Verteilung.

    1. Vergleichen Sie zwei Personen mit der gleichen Distanz zum nächsten unbelasteten Brunnen, wobei eine Person einen Arsenwert von 0.5 hat und die andere Person einen Wert von 1.0.

    Wie groß ist der Unterschied in Wahrscheinlichkeit, dass die zweite Person den Brunnen wechselt? Geben Sie einen Punktschätzer auf Basis des Mittelwerts der Post-Verteilung an! Beziehen Sie sich auf die Daten der PPV.


    1. Wie groß ist die Wahrscheinlichkeit bei Frage a?
    2. Wie groß ist die Wahrscheinlichkeit bei Frage b?

  11. Aufgabe

    Eine Studie untersuchte den Arsengehalt arsenic in Brunnen in Bangladesh. Die Forschis untersuchten u.a., ob die Menschen bereit waren, auf einen Brunnen zu wechseln switch, der nicht mit Arsen belastet war, und welche Rolle die Entfernung (in Einheiten von 100 Meter, dist100) zum nächsten unbelasteten Brunnen spielt.

    Die Daten sind hier zu beziehen:

    d_path <- "https://raw.githubusercontent.com/avehtari/ROS-Examples/master/Arsenic/data/wells.csv"
    
    d <- read_csv(d_path)

    Hier ist ein Regressionsmodell mit Interaktionseffekt:

    m2 <- stan_glm(switch ~ dist100 + arsenic + dist100:arsenic, 
                   family = binomial(link = "logit"),
                   data = d,
                   refresh = 0)
    print(m2, digits = 2)
    ## stan_glm
    ##  family:       binomial [logit]
    ##  formula:      switch ~ dist100 + arsenic + dist100:arsenic
    ##  observations: 3020
    ##  predictors:   4
    ## ------
    ##                 Median MAD_SD
    ## (Intercept)     -0.15   0.12 
    ## dist100         -0.58   0.21 
    ## arsenic          0.56   0.07 
    ## dist100:arsenic -0.18   0.10 
    ## 
    ## ------
    ## * For help interpreting the printed output see ?print.stanreg
    ## * For info on the priors used see ?prior_summary.stanreg

    Und hier das Modell mit gleichen Prädiktoren, aber zentrierten Prädiktoren:

    d2 <-
      d %>% 
      select(dist100, arsenic, switch) %>% 
      drop_na() %>% 
      mutate(dist100_c = dist100 - mean(dist100),
             arsenic_c = arsenic - mean(arsenic)) 
    
    m3 <- stan_glm(switch ~ dist100_c + arsenic_c + dist100_c:arsenic_c, 
                   family = binomial(link = "logit"),
                   data = d2,
                   refresh = 0)
    print(m3, digits = 2)
    ## stan_glm
    ##  family:       binomial [logit]
    ##  formula:      switch ~ dist100_c + arsenic_c + dist100_c:arsenic_c
    ##  observations: 3020
    ##  predictors:   4
    ## ------
    ##                     Median MAD_SD
    ## (Intercept)          0.35   0.04 
    ## dist100_c           -0.87   0.10 
    ## arsenic_c            0.47   0.04 
    ## dist100_c:arsenic_c -0.18   0.10 
    ## 
    ## ------
    ## * For help interpreting the printed output see ?print.stanreg
    ## * For info on the priors used see ?prior_summary.stanreg

    Warum hat das nicht zentrierte Modell größere Standardfehler (MAD_sd)?