Aufgaben

Aufgabe

Eine Forscher:in aus Kalifornien entdeckt, dass Haiangriffe mit Eisverkauf korreliert sind: Haiangriffe treten gehäuft dann auf, wenn am Strand viel Eis verkauft wird. Dieser Zusammenhang ist zwar nicht perfekt, aber die Forscher:in findet in ihren Daten einen starken, sogar “signifikanten” Zusammenhang.

Welche Schlüsse sind aus diesen Daten zu ziehen? Wählen Sie die Antwort, die am besten passt!
1. Da Eisverkauf die UV und Haiangriff die AV ist, sind die Daten im Sinne eines Kausalschlusses “Eisverkauf führt (tendenziell) zu Haiangriffen” zu interpretieren. Natürlich gilt dies nur für linearen Zusammenhänge, da Korrelationen nur linearen Zusammenhänge identifizieren können.
2. Es ist kein Kausalschluss möglich; eine Drittvariable könnte den Zusammenhang der beobachteten Variablen konfundieren.
3. Die Daten (soweit bekannt bzw. oben aufgeführt sind) machen deutlich, dass es einen Zusammenhang zwischen den beiden Variablen gibt; folglich ist die eine Variable Ursache und die andere Wirkung. Die Daten lassen aber keine Aussage zu, welche der beiden Variablen Ursache und welche Wirkung ist.
4. Es ist davon auszugehen, dass Haiangriff die Ursache ist und Eisverkauf die Wirkung.
5. Da es sich nur um Beobachtungsdaten, nicht um Experimentaldaten handelt, ist keine Aussage möglich.
Aufgabe

Denken wir uns ein kausales System mit einer Ursache und einer Wirkung, etwa der Einfluss der Naturbelassenheit ( $N$ ) eines Landkreises auf die Anzahl der Störche ( $S$ ) dort (ein positiver Einfluss). Nehmen wir weiter an, die Naturbelassenenheit eines Landkreises hat einen (positiven) Einfluss auf die Anzahl Neugeborener (Babies, $B$ ).

Weitere kausale Einflüsse existieren in diesem kausalen System nicht (es handelt sich ja hier umn ein Gedankenexperiment, wir können frei bestimmen!).

Die Frage ist nun, ob wir erwarten müssen, dass Störche und Babies zusammenhängen in diesem System, dass es also dort, wo es viele Störche gibt auch viele Babies gibt. Das wäre deswegen beachtlich, weil wir in unserem System explizit keinen (kausalen) Zusammenhang zwischen diesen beiden Größen definiert haben.

Um die Sache etwas greifbarer zu machen, erstellen wir uns Daten, die zu diesem System passen. Sagen wir, wir haben 100 Landkreise, die in der Zahl der Störche und Babies und Naturbelassenheit variieren. Der Einfachheit halber seien alle Werte in $z$ -Werten ausgedrückt. Gehen wir weiter (der Einfachheit halber) davon aus, alle Größen sind normalverteilt. Solche Werte kann man mit der R-Funktion rnorm() erzeugen.

Schließlich gehen wir noch davon aus, dass die Einflüsse linear sind und nicht perfekt. Der Zufall (zufälliger “Fehler”, $e$ ) soll also auch einen Einfluss auf die Größen haben.
```
N <- rnorm(100, mean = 0, sd = 1)  # 100 normalverteilte z-Werte
e1 <- rnorm(100)  # das gleiche wie oben: normalverteilte z-Werte
e2 <- rnorm(100)  # das gleiche wie oben: normalverteilte z-Werte
S <- N + e1  # S wird determiniert durch N und e
B <- N + e2  # B wird determiniert druch N und e
```
Testen wir unsere simulierten Daten mit einer einfachen Regression, der Frage, ob die Anzahl der Störche (S) von der Natürlichkeit (N) abhängt:
```
lm1 <- lm(S ~ N)
summary(lm1)
```
```
## 
## Call:
## lm(formula = S ~ N)
## 
## Residuals:
##      Min       1Q   Median       3Q 
## -2.35998 -0.81570  0.03617  0.61823 
##      Max 
##  2.62146 
## 
## Coefficients:
##             Estimate Std. Error t value
## (Intercept)  0.01993    0.11015   0.181
## N            0.90983    0.12931   7.036
##             Pr(>|t|)    
## (Intercept)    0.857    
## N           2.71e-10 ***
## ---
## Signif. codes:  
##   0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
##   0.1 ' ' 1
## 
## Residual standard error: 1.101 on 98 degrees of freedom
## Multiple R-squared:  0.3356, Adjusted R-squared:  0.3288 
## F-statistic: 49.51 on 1 and 98 DF,  p-value: 2.707e-10
```
Unser Modell lm1 bringt unsere Annahmen deutlich zum Vorschein.
1. Bestimmen Sie den Zusammenhang ( $\beta$ oder $\rho$ ) zwischen Störchen und Babies!
2. Erklären Sie den Befund!
Aufgabe

Gegeben sei der DAG g (s.o.). Dabei ist zu beachten, dass die gebogene Kurve (keine Gerade) mit zwei Pfeilspitzen keinen Kausaleffekt beschreibt, sondern eine Assoziation. Die dahinterstehende kausale Struktur ist eine Konfundierung. Daher ist der “Doppelpfeil” als Abkürzung für eine Konfundierung zu verstehen.

Welche Variable/n sind zu kontrollieren, um den kausalen Effekt von x auf y zu identifizieren?
1. x
2. y
3. keine, bereits identifiziert
4. m
5. keine, nicht identifizierbar
Aufgabe

Gegeben sei der DAG g (s.u.). Welche Variable/n sind zu kontrollieren, um den kausalen Effekt von x auf y zu identifizieren?
1. keine, bereits identifiziert
2. x
3. y
4. keine, nicht identifizierbar
5. z
Aufgabe

Gegeben sei der DAG g (s.u.). Was ist die minimale Menge an Variablen, die man kontrollieren muss, um den kausalen Effekt von x auf y zu identifizieren?

Hinweise:
- Gebogene Kurven mit doppelter Pfeilspitze zeigen keine Kausaleinflüsse ein (was in DAGs nicht erlaubt wäre).
- Stattdessen zeigen Sie eine Assoziation bedingt durch eine (nicht aufgeführte) Konfundierungsvariable an.
1. { w2, z2 }
2. { w1 }
3. { w1, w2, z2 }
4. { w1, z2 }
5. { w1, w2 }
Aufgabe

Gegeben sei ein DAG g (s.u.). Was ist die minimale Menge an Variablen (minimal adjustment set), die man kontrollieren muss, um den kausalen Effekt von smoking auf arrest zu identifizieren?
1. keine, da nicht identifiziferbar
2. { Cholestrol, Unhealty Lifestyle }
3. { Cholestorol }
4. { Weight }
5. { Cholestorol, Weight }
Aufgabe

Im Rahmen einer Studie soll untersucht werden, ob eine Influenza-Infektion einen (kausalen) Einfluss auf eine Covid19-Infektion hat.

In Wahrheit (aber unbekannt) sei der DAG wie folgt (s.u.).

Ist es sinnvoll, das Auftreten von Fieber (Fever) zu kontrollieren?
1. Ja, durch eine Kontrolle von Fever ist ein kausaler Effekt identifizierbar
2. Nein, da eine Kontrolle von Fever eine Verzerrung erzeugt wird (Konfundierung)
3. Nein, da durch eine Kontrolle von Fever eine Verzerrung erzeugt wird (Kollisionsverzerrung)
4. Nein, da eine Kontrolle von Fever nicht nötig ist (aber auch nicht schädlich)
5. Ja, eine Kontrolle von Fever ist zwar nicht nötig, aber wird zu exakteren Ergebnissen führen
Aufgabe

Im Rahmen einer Studie soll untersucht werden, ob eine Influenza-Infektion einen (kausalen) Einfluss auf eine Covid19-Infektion hat. Außerdem wird dabei der Nutzen des Medikaments Acetaminophen untersucht.

In Wahrheit (aber unbekannt) sei der DAG wie folgt (s.u.).

Ist es sinnvoll, die Einnahme von Fiebersenker (Acetaminophen) zu kontrollieren?
1. Nein, es ist nicht sinnvoll, da es nicht nötig ist (aber auch nicht schädlich)
2. Ja, nur so ist ein kausaler Effekt identifizierbar
3. Nein, es ist nicht sinnvoll,da durch eine Kontrolle von Acetaminophen eine Verzerrung erzeugt wird (Konfundierung)
4. Nein, es ist nicht sinnvoll, da durch eine Kontrolle von Acetaminophen eine Verzerrung erzeugt wird (Kollision)
5. Ja, es ist nicht nötig, aber wird zu exakteren Ergebnissen führen
Aufgabe

Eine Forscherin untersucht den Zusammenhang von Rauchen smo (smoking, UV, exposure) und Herzstillstand ca (cardiac arrest, AV, outcome). Sie hegt die Hypothese, dass Rauchen einen Einfluss auf den Cholesterolspiegel cho (cholestorol) hat, was wiederum Herzstillstand auslösen könnte.

Hier sehen Sie die Definition des DAGs:
```
## dag {
## ca [outcome]
## cho
## smo [exposure]
## unh
## wei
## cho -> ca
## smo -> cho
## unh -> smo
## unh -> wei
## wei -> cho
## }
```
Die Forscherin überlegt, Cholestorol zu kontrollieren. Ist diese Idee sinnvoll?
1. Nein, da eine Kollision erzeugt wird.
2. Es schadet nicht, aber es ist auch nicht nötig.
3. Ja, nur so wird der kausale Effekt identifiziert.
4. Ja, so wird der kausale Effekt identifiziert.
5. Nein, da die Assoziation zwischen UV und AV unterbrochen wird.
Aufgabe

Betrachten wir den Datensatz SaratogaHouses, den Sie hier herunterladen können. Ein Codebook findet sich hier.

Sie kommen auch so an die Daten ran:
```
library(mosaicData)
data("SaratogaHouses")
```
Gegeben sei in diesem Zusammenhang folgender DAG:
```
dag1 <- "
dag{
a -> p
a -> b -> p
}
"
```
Wobei a für (living) area steht, also der Wohnfläche eines Hauses, b für bedrooms, der Anzahl der Schlafzimmer und p für prize, den Preis, den das Haus beim Verkauf erzielt hat.

So sieht das dann aus:
```
ggdag(dag1) + theme_dag()
```
UV sei a; AV sei p.
1. Berechnen Sie den direkten Effekt der Wohnfläche auf den Preis!
2. Berechnen Sie den totalen Effekt der Wohnfläche auf den Preis!
Hinweise: - Mit direkter Effekt ist der kausale Effekt von UV auf AV - ohne Zwischenglieder (Mediatoren) - gemeint. - Mit indirekter Effekt ist der kausale Effekt von UV über einen (oder ggf. mehrere) Mediator(en) auf die AV gemeint. - Mit totaler Effekt ist die Summe des direkten plus des oder der indirekten Effekte gemeint. - Geben Sie jeweils den Punktschätzer eines linearen Regressionsmodells an! - Gehen Sie vom oben genannten DAG aus. - Runden Sie ohne Dezimalstellen.