\newcommand{\indep}{\perp \!\!\! \perp} \newcommand{\notindep}{\not\!\perp\!\!\!\perp}
Was raten Sie dem Arzt? Medikament einnehmen, ja oder nein?
Gruppe | Mit Medikament | Ohne Medikament |
---|---|---|
Männer | 81/87 überlebt (93%) | 234/270 überlebt (87%) |
Frauen | 192/263 überlebt (73%) | 55/80 überlebt (69%) |
Gesamt | 273/350 überlebt (78%) | 289/350 überlebt (83%) |
(Pearl, Glymour, and Jewell, 2016)
Betrachtung der Gesamtdaten zeigt einen konfundierten Effekt: Geschlecht konfundiert den Zusammenhang von Medikament und Heilung.
Was raten Sie dem Arzt? Medikament einnehmen, ja oder nein?
Gruppe | Ohne Medikament | Mit Medikament |
---|---|---|
geringer Blutdruck | 81/87 überlebt (93%) | 234/270 überlebt (87%) |
hoher Blutdruck | 192/263 überlebt (73%) | 55/80 überlebt (69%) |
Gesamt | 273/350 überlebt (78%) | 289/350 überlebt (83%) |
(Pearl, Glymour, and Jewell, 2016)
Betrachtung der Teildaten zeigt nur den toxischen Effekt des Medikaments, nicht den nützlichen (Reduktion des Blutdrucks).
Kausale Interpretation - und damit Entscheidungen für Handlungen - war nur möglich, wenn das Kausalmodell bekannt ist. Die Daten alleine reichen nicht.
🧟
📚+📊=🤩
Nehmen wir an, es gibt zwei Behandlungsvarianten bei Nierensteinen, Behandlung A und B. Ärzte tendieren zu Behandlung A bei großen Steinen (die einen schwereren Verlauf haben); bei kleineren Steinen tendieren die Ärzte zu Behandlung B.
Sollte ein Patient, der nicht weiß, ob sein Nierenstein groß oder klein ist, die Wirksamkeit in der Gesamtpopulation (Gesamtdaten) oder in den stratifizierten Daten (Teildaten nach Steingröße) betrachten, um zu entscheiden, welche Behandlungsvariante er (oder sie) wählt?
„Studien zeigen, dass Einkommen und Heiraten (bzw. verheiratete sein) hoch korrelieren. Daher wird sich dein Einkommen erhöhen, wenn du heiratest.“
„Studien zeigen, dass Leute, die sich beeilen, zu spät zu ihrer Besprechung kommen. Daher lieber nicht beeilen, oder du kommst zu spät zu deiner Besprechung.“
\newcommand{\indep}{\perp \!\!\! \perp}
Datenquelle; Beschreibung des Datensatzes
d_path <- "https://tinyurl.com/3jn3cc5u"
"Finden Sie den Wert meiner Immobilie heraus!
Die muss viel wert sein!"
🧑
Das ist Don, Immobilienmogul, Auftraggeber.
"Das finde ich heraus.
Ich mach das wissenschaftlich."
👩 🔬
Das ist Angie, Data Scientistin.
"Hey Don! Mehr Zimmer, mehr Kohle!"
👩 🔬
"Jedes Zimmer mehr ist knapp 50 Tausend wert. Dein Haus hat einen Wert von etwa 150 Tausend."
👩
"Zu wenig! 🤬" 🧑
m1 <- stan_glm(price ~ bedrooms, refresh = 0, data = d)coef(m1)
## (Intercept) bedrooms ## 60024.63 48169.31
dons_house <- tibble(bedrooms = 2)mean(posterior_predict(m1, dons_house))
## [1] 155760.4
"Ich bau eine Mauer!
In jedes Zimmer!
Genial!
An die Arbeit, Angie!
🧑
"Das ist keine gute Idee, Don."
👩
dons_new_house <- tibble(bedrooms = 4)mean(posterior_predict(m1, dons_new_house))
## [1] 251673.1
m1
."Volltreffer! Jetzt verdien ich 100 Tausend mehr! 🤑" 🧑
posterior_predict()
: (Hilfeseite)
predictive_intervals()
: (Hilfeseite)
predictive_error()
: (Hilfeseite)
Modell 2 hat schlechte Nachrichten für Don.
m2 <- stan_glm(price ~ bedrooms + livingArea, data = d)
coef(m2)
## (Intercept) bedrooms livingArea ## 36807.7910 -14282.1494 125.4225
mean(posterior_predict(m2, newdata = tibble(bedrooms = 4, livingArea = 1200)))
## [1] 129759.7
"Die Zimmer zu halbieren, hat den Wert des Hauses verringert, Don!" 👩
"Verringert!? Weniger Geld?! Oh nein!"
🧑
... wenn man die Wohnfläche (Quadratmeter) kontrolliert.
"Ne-Ga-Tiv!" 👩
💡 Durch das Aufnehmen von Prädiktoren in die multiple Regression werden die Prädiktoren kontrolliert (adjustiert, konditioniert):
Die Koeffizienten einer multiplen Regression zeigen den Zusammenhang \beta des einen Prädiktors mit y, wenn man den (oder die) anderen Prädiktoren statistisch konstant hält.
Man nennt die Koeffizienten einer multiplen Regression daher auch parzielle Regressionskoeffizienten. Manchmal spricht man auch vom "Netto-Effekt" eines Prädiktors, oder davon, dass ein Prädiktor "bereinigt" wurde vom (linearen) Einfluss der anderen Prädiktoren auf y.
Damit kann man die Regressionskoeffizienten so interpretieren, dass Sie den Effekt des Prädiktors x_1 auf y anzeigen unabhängig vom Effekt der anderen Prädiktoren, x_2,x_3,... auf y
Man kann sich dieses Konstanthalten vorstellen als eine Aufteilung in Gruppen: Der Effekt eines Prädiktors x_1 wird für jede Ausprägung (Gruppe) des Prädiktors x_2 berechnet.
"Aber welche und wie viele Prädiktoren soll ich denn jetzt in mein Modell aufnehmen?!
Und welches Modell ist jetzt richtig?!"
🧑
"Leider kann die Statistik keine Antwort darauf geben."
👩
Often people want statistical modeling to do things that statical modeling cannot do. For example, we'd like to know wheter an effect is "real" or rather spurios. Unfortunately, modeling merely quantifies uncertainty in the precise way that the model understands the problem. Usually answers to lage world questions about truth and causation depend upon information not included in the model. For example, any observed correlation between an outcome and predictor could be eliminated or reversed once another predictor is added to the model. But if we cannot think of the right variable, we might never notice. Therefore all statical models are vulnerable to and demand critique, regardless of the precision of their estimates and apparaent accuracy of their predictions. Rounds of model criticism and revision embody the real tests of scientific hypotheses. A true hypothesis will pass and fail many statistical "tests" on its way to acceptance.
(McElreath, 2020, S. 139)
km1
Wenn dieses Kausalmodell stimmt, findet man eine Scheinkorrelation zwischen price
und bedrooms
.
Eine Scheinkorrelation ist ein Zusammenhang, der nicht auf eine kausalen Einfluss beruht.
d_connected
heißt, dass die betreffenden Variablen "verbunden" sind durch einen gerichteten (d
wie directed) Pfad, durch den die Assoziation (Korrelation) wie durch einen Fluss fließt 🌊. d_separated
heißt, dass sie nicht d_connected
sind.
m2
kontrolliert die Konfundierungsvariable livingArea
Wenn das Kausalmodell stimmt, dann zeigt m2
den kausalen Effekt von livingArea
.
"Was tun wir jetzt bloß?!" 🧑
"Wir müssen die Konfundierungs- variable kontrollieren.
👩
Durch das Kontrollieren ("adjustieren"), sind bedrooms
und price
nicht mehr korreliert, nicht mehr d_connected
, sondern jetzt d_separeted
.
Ohne Kontrollieren der Konfundierungsvariablen
Regressionsmodell:
y ~ x
Es wird (fälschlich) eine Korrelation zwischen x
und y
angezeigt: Scheinkorrelation.
Mit Kontrollieren der Konfundierungsvariablen
Regressionsmodell:
y ~ x + group
Es wird korrekt gezeigt, dass es keine Korrelation zwischen x
und y
gibt, wenn group
kontrolliert wird.
m1
und m2
passen nicht zu den Daten, wenn km1
stimmtkm1
dürfte es keine Assoziation (Korrelation) zwischen bedrooms
und price
geben, wenn man livingArea
kontrolliert.bedrooms
und price
geben, wenn man livingArea
kontrolliert.m1
und m2
nicht mit dem Kausalmodell km1
vereinbar.km2
Unser Modell m2
sagt uns,
dass beide Prädiktoren jeweils einen eigenen Beitrag zur Erklärung der AV haben.
Daher könnte das folgende Kausalmodell, km2
besser passen.
In diesem Modell gibt es eine Wirkkette: a \rightarrow b \rightarrow p.
Insgesamt gibt es zwei Kausaleinflüsse von a
auf p
:
Man nennt die mittlere Variable einer Wirkkette auch einen Mediator und den Pfad von der UV (a
) über den Mediator (b
) zur AV (p
) auch Mediation.
Eine Studie fand eine starke Korrelation, r=0.79 zwischen (Höhe des) Schokoladenkonsums eines Landes und (Anzahl der) Nobelpreise eines Landes (Messerli, 2012).
💣 Korrelation ungleich Kausation!
km3
"Ich glaube aber an dieses Kausalmodell. Der Experte bin ich !" 🧑
"Don, nach deinem Kausalmodell müssten bedrooms
und livingArea
unkorreliert sein. Sind sie aber nicht."
## # A tibble: 1 × 1## `cor(bedrooms, livingArea)`## <dbl>## 1 0.656
👩
km1
b
: bedrooms, p
: price, a
area (living area)
b \indep p \, |\, a: bedrooms
sind unabhängig von price
, wenn man livingArea
kontrolliert.
⛈️ Passt nicht zu den Daten/zum Modell
km2
b
: bedrooms, p
: price, a
area (living area)
keine Unabhängigkeiten
❓ Passt zu den Daten/zum Modell
km3
b
: bedrooms, p
: price, a
area (living area)
b \indep a: bedrooms
sind unabhängig von livingArea
(a
)
⛈️ Passt nicht zu den Daten/zum Modell
DAGs sind eine bestimmte Art von Graphen zur Analyse von Kausalstrukturen.
Ein Graph besteht aus Knoten (Variablen) und Kanten (Linien), die die Knoten verbinden.
DAGs sind gerichtet; die Pfeile zeigen immer in eine Richtung (und zwar von Ursache zu Wirkung).
DAGs sind azyklisch; die Wirkung eines Knoten darf nicht wieder auf ihn zurückführen.
Ein Pfad ist ein Weg durch den DAG, von Knoten zu Knoten über die Kanten, unabhängig von der Pfeilrichtung.
km1
b
: bedrooms, p
: price, a
area (living area)
Weiß man, was die Wirkung W einer Handlung H (Intervention) ist, so hat man H als Ursache von W erkannt.
Sind zwei Variablen korreliert (abhängig, assoziiert), so kann es dafür zwei Gründe geben:
Eine mögliche Ursache einer Scheinkorrelation ist Konfundierung.
Konfundierung kann man entdecken, indem man die angenommene Konfundierungsvariable kontrolliert (adjustiert), z.B. indem man ihn als Prädiktor in eine Regression aufnimmt.
Ist die Annahme einer Konfundierung korrekt, so löst sich der Scheinzusammenhang nach dem Adjustieren auf.
Löst sich der Scheinzusammenhang nicht auf, sondern drehen sich die Vorzeichen der Zusammenhänge nach Adjustieren um, so spricht man einem Simpson Paradox.
Die Daten alleine können nie sagen, welches Kausalmodell der Fall ist in einer Beobachtungsstudie. Fachwissen (inhaltliches wissenschaftliches Wisseen) ist nötig, um DAGs auszuschließen.
Wie kann das sein?
Dieser DAG bietet eine rettende Erklärung:
m
, so entsteht eine Scheinkorrelation zwischen den Ursachen x
und y
.Vgl. Rohrer (2018).
Man kann also zu viele oder falsche Prädiktoren einer Regression hinzufügen, so dass die Koeffizienten nicht die kausalen Effekte zeigen, sondern durch Scheinkorrelation verzerrte Werte.
In der Zeitung Glitzer werden nur folgende Menschen gezeigt:
Gehen wir davon aus, dass Schönheit und Reichtum unabhängig voneinander sind.
Wenn ich Ihnen sage, dass Don nicht schön ist, aber in der Glitzer häufig auftaucht, was lernen wir dann über seine finanzielle Situation?
"Ich bin schön, unglaublich schön, und groß, großartig, tolle Gene!!!"
🧑
Don muss reich sein.
"So langsam check ich's!"
🧑
Sei Z = X + Y, wobei X und Y unabhängig sind.
Wenn ich Ihnen sage, X = 3, lernen Sie nichts über Y, da die beiden Variablen unabhängig sind
Aber: Wenn ich Ihnen zuerst sage, Z = 10, und dann sage, X = 3, wissen Sie sofort, was Y ist (Y = 7).
Also: X und Y sind abhängig – gegeben Z: X \notindep Y \,|\, Z.
Ohne Kontrolle von date
entsteht keine Scheinkorrelation zwischen Looks
und Talent
. Der Pfad ("Fluss") von Looks
über date
nach Talent
ist blockiert.
Kontrolliert man date
, so öffnet sich der Pfad Looks
->date
-> Talent
und die Scheinkorrelation entsteht: Der Pfad ist nicht mehr blockiert.
Das Kontrollieren von date
geht zumeist durch Bilden einer Auswahl einer Teilgruppe von sich.
Bei positiver eignung
wird ein Studium aufgenommen (studium = 1
) ansonsten nicht (studium = 0)
.
eignung
(fürs Studium) sei definiert als die Summe von iq
und fleiss
, plus etwas Glück:
set.seed(42) # ReproduzierbarkeitN <- 1e03d_eignung <-tibble( iq = rnorm(N), fleiss = rnorm(N), glueck = rnorm(N, 0, sd = .1), eignung = 1/2 * iq + 1/2 * fleiss + glueck, studium = ifelse(eignung > 0, 1, 0) )
Eine Studie untersucht den Zusammenhang von Intelligenz (iq) und Fleiß (f) bei Studentis (s).
Ergebnis: Ein negativer Zusammenhang.
m_eignung <- stan_glm( iq ~ fleiss, data = d_eignung %>% filter(studium == 1))
## (Intercept) fleiss ## 0.7806146 -0.4428830
f \notindep iq \,|\, s
Nur durch das Stratifizieren (Aufteilen in Subgruppen, Kontrollieren, Adjustieren) tritt die Scheinkorrelation auf.
Ohne Stratifizierung tritt keine Scheinkorrelation auf
Mit Stratifizierung tritt Scheinkorrelation auf
Kontrollieren einer Variablen - Aufnehmen in die Regression - kann genausogut schaden wie nützen.
Nur Kenntnis des DAGs verrät die richtige Entscheidung.
Wir wollen den (kausalen) Einfluss der Eltern E
und Großeltern G
auf den Bildungserfolg der Kinder K
untersuchen.
Wir nehmen folgende Effekte an:
G
auf K
: G \rightarrow E \rightarrow KE
auf K
: E \rightarrow KG
auf K
: G \rightarrow KAber was ist, wenn wir vielleicht eine unbekannte Variable übersehen haben? (S. nächste Seite 👻)
R-Syntax stammt von Kurz (2021).
U
könnte ein ungemessener Einfluss sein, der auf E
und K
wirkt, etwa Nachbarschaft.
Die Großeltern wohnen woanders (in Spanien), daher wirkt die Nachbarschaft der Eltern und Kinder nicht auf sie.
E
ist sowohl für G
als auch für U
eine Wirkung, also eine Kollisionsvariable auf diesem Pfad.
Wenn wir E
kontrollieren, wird es den Pfad G \rightarrow K verzerren, auch wenn wir niemals U
messen.
Die Sache ist chancenlos. Wir müssen den DAG verloren geben. 👻
(McElreath, 2020, S. 180)
Forschungsfrage: Wie groß ist der (kausale) Einfluss der Schlafzimmerzahl auf den Verkaufspreis des Hauses?
a:
livingArea, b
: bedrooms, p
: prize
UV: b
, AV: p
p ~ b
wird der kausale Effekt verzerrt sein durch die Konfundierung mit a
.b
und p
:b
und p
.b
ändern, so würde sich p
nicht ändern.b
) ist jetzt zu!b
und p
ist jetzt komplett kausal.b
) zuweisen könnten (unabhängig von ihrer Quadratmeterzahl, a
), würde sich der Graph so ändern.a
auf b
.b
einstellen im Rahmen des Experiments, so kann a
keine Wirkung auf b
haben.Konfundierende Pfade zu blockieren zwischen der UV und der AV nennt man auch die Hintertür schließen (backdoor criterion).
Wir wollen die Hintertüre schließen, da wir sonst nicht den wahren, kausalen Effekt bestimmen können.
Zum Glück gibt es neben Experimenten noch andere Wege, die Hintertür zu schließen, wie die Konfundierungsvariable a
in eine Regression mit aufzunehmen.
Warum blockt das Kontrollieren von a
den Pfad b \leftarrow a \rightarrow p?
a
kennen, bringt Ihnen Kenntnis über b
kein zusätzliches Wissen über p
.a
, lernen Sie bei Kenntnis von b
auch etwas über p
.Konditionieren ist wie "gegeben, dass Sie a
schon kennen...".
b \indep p \,|\,a
d
, so kontrolliert man damit zum Teil den Vorfahren (die Ursache), m
.d
Information beinhaltet über m
.d
den Pfad von x
nach y
teilweise öffnen, da m
eine Kollisionsvariable ist.Wie kompliziert ein DAG auch aussehen mag, er ist immer aus diesen vier Atomen aufgebaut.
Hier ist ein Rezept, das garantiert, dass Sie welche Variablen Sie kontrollieren sollten und welche nicht:
X
) zu AV (Y
) auf.bsp1
UV: X, AV: Y, drei Covariaten (A, B, C) und ein ungemessene Variable, U
Es gibt zwei Hintertürpfade:
Kontrollieren von A oder (auch) C schließt die offene Hintertür.
(McElreath, 2020; Kurz, 2021), s.S. 186.
bsp2
UV: W, AV: D
Kontrollieren Sie diese Variablen, um die offenen Hintertüren zu schließen:
(McElreath, 2020; Kurz, 2021), s.S. 188.
bsp2
U
s ist eine starke - oft zu starke (unrealistisch optimistische) - Annahme.Bedingten Unabhängigkeit zwischen zwei Variablen sind Variablen, die nicht assoziiert (also stochastisch unabhängig) sind, wenn wir eine bestimmte Menge an Drittvariablen kontrollieren.
bsp2
impliziert folgende bedingte Unabhängigkeiten:
## A _||_ W | S## D _||_ S | A, M, W## M _||_ W | S
Dieses Skript wurde erstellt am 2021-12-13 10:31:39
Lizenz: MIT-Lizenz
Autor: Sebastian Sauer.
Um diese HTML-Folien korrekt darzustellen, ist eine Internet-Verbindung nötig.
Mit der Taste ?
bekommt man eine Hilfe über Shortcuts.
Wenn Sie die Endung .html
in der URL mit .pdf
ersetzen, bekommen Sie die PDF-Version der Datei.
Alternativ können Sie im Browser Chrome die Folien als PDF drucken (klicken Sie auf den entsprechenden Menüpunkt).
Den Quellcode der Skripte finden Sie hier.
Eine PDF-Version kann erzeugt werden, indem man im Chrome-Browser die Webseite druckt (Drucken als PDF).
Diese R-Pakete wurden verwendet.
Kurz, A. S. (2021). Statistical rethinking with brms, ggplot2, and the tidyverse: Second edition.
McElreath, R. (2020). Statistical rethinking: a Bayesian course with examples in R and Stan. 2nd ed. CRC texts in statistical science. Taylor and Francis, CRC Press.
Messerli, F. H. (2012). "Chocolate Consumption, Cognitive Function, and Nobel Laureates". In: New England Journal of Medicine 367.16, pp. 1562-1564. DOI: 10.1056/NEJMon1211064.
Pearl, J., M. Glymour, and N. P. Jewell (2016). Causal inference in statistics: a primer. Wiley. 136 pp.
Rohrer, J. M. (2018). "Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data". In: Advances in Methods and Practices in Psychological Science 1.1, pp. 27-42. DOI: 10.1177/2515245917745629.
\newcommand{\indep}{\perp \!\!\! \perp} \newcommand{\notindep}{\not\!\perp\!\!\!\perp}
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
o | Tile View: Overview of Slides |
Esc | Back to slideshow |
\newcommand{\indep}{\perp \!\!\! \perp} \newcommand{\notindep}{\not\!\perp\!\!\!\perp}
Was raten Sie dem Arzt? Medikament einnehmen, ja oder nein?
Gruppe | Mit Medikament | Ohne Medikament |
---|---|---|
Männer | 81/87 überlebt (93%) | 234/270 überlebt (87%) |
Frauen | 192/263 überlebt (73%) | 55/80 überlebt (69%) |
Gesamt | 273/350 überlebt (78%) | 289/350 überlebt (83%) |
(Pearl, Glymour, and Jewell, 2016)
Betrachtung der Gesamtdaten zeigt einen konfundierten Effekt: Geschlecht konfundiert den Zusammenhang von Medikament und Heilung.
Was raten Sie dem Arzt? Medikament einnehmen, ja oder nein?
Gruppe | Ohne Medikament | Mit Medikament |
---|---|---|
geringer Blutdruck | 81/87 überlebt (93%) | 234/270 überlebt (87%) |
hoher Blutdruck | 192/263 überlebt (73%) | 55/80 überlebt (69%) |
Gesamt | 273/350 überlebt (78%) | 289/350 überlebt (83%) |
(Pearl, Glymour, and Jewell, 2016)
Betrachtung der Teildaten zeigt nur den toxischen Effekt des Medikaments, nicht den nützlichen (Reduktion des Blutdrucks).
Kausale Interpretation - und damit Entscheidungen für Handlungen - war nur möglich, wenn das Kausalmodell bekannt ist. Die Daten alleine reichen nicht.
🧟
📚+📊=🤩
Nehmen wir an, es gibt zwei Behandlungsvarianten bei Nierensteinen, Behandlung A und B. Ärzte tendieren zu Behandlung A bei großen Steinen (die einen schwereren Verlauf haben); bei kleineren Steinen tendieren die Ärzte zu Behandlung B.
Sollte ein Patient, der nicht weiß, ob sein Nierenstein groß oder klein ist, die Wirksamkeit in der Gesamtpopulation (Gesamtdaten) oder in den stratifizierten Daten (Teildaten nach Steingröße) betrachten, um zu entscheiden, welche Behandlungsvariante er (oder sie) wählt?
„Studien zeigen, dass Einkommen und Heiraten (bzw. verheiratete sein) hoch korrelieren. Daher wird sich dein Einkommen erhöhen, wenn du heiratest.“
„Studien zeigen, dass Leute, die sich beeilen, zu spät zu ihrer Besprechung kommen. Daher lieber nicht beeilen, oder du kommst zu spät zu deiner Besprechung.“
\newcommand{\indep}{\perp \!\!\! \perp}
Datenquelle; Beschreibung des Datensatzes
d_path <- "https://tinyurl.com/3jn3cc5u"
"Finden Sie den Wert meiner Immobilie heraus!
Die muss viel wert sein!"
🧑
Das ist Don, Immobilienmogul, Auftraggeber.
"Das finde ich heraus.
Ich mach das wissenschaftlich."
👩 🔬
Das ist Angie, Data Scientistin.
"Hey Don! Mehr Zimmer, mehr Kohle!"
👩 🔬
"Jedes Zimmer mehr ist knapp 50 Tausend wert. Dein Haus hat einen Wert von etwa 150 Tausend."
👩
"Zu wenig! 🤬" 🧑
m1 <- stan_glm(price ~ bedrooms, refresh = 0, data = d)coef(m1)
## (Intercept) bedrooms ## 60024.63 48169.31
dons_house <- tibble(bedrooms = 2)mean(posterior_predict(m1, dons_house))
## [1] 155760.4
"Ich bau eine Mauer!
In jedes Zimmer!
Genial!
An die Arbeit, Angie!
🧑
"Das ist keine gute Idee, Don."
👩
dons_new_house <- tibble(bedrooms = 4)mean(posterior_predict(m1, dons_new_house))
## [1] 251673.1
m1
."Volltreffer! Jetzt verdien ich 100 Tausend mehr! 🤑" 🧑
posterior_predict()
: (Hilfeseite)
predictive_intervals()
: (Hilfeseite)
predictive_error()
: (Hilfeseite)
Modell 2 hat schlechte Nachrichten für Don.
m2 <- stan_glm(price ~ bedrooms + livingArea, data = d)
coef(m2)
## (Intercept) bedrooms livingArea ## 36807.7910 -14282.1494 125.4225
mean(posterior_predict(m2, newdata = tibble(bedrooms = 4, livingArea = 1200)))
## [1] 129759.7
"Die Zimmer zu halbieren, hat den Wert des Hauses verringert, Don!" 👩
"Verringert!? Weniger Geld?! Oh nein!"
🧑
... wenn man die Wohnfläche (Quadratmeter) kontrolliert.
"Ne-Ga-Tiv!" 👩
💡 Durch das Aufnehmen von Prädiktoren in die multiple Regression werden die Prädiktoren kontrolliert (adjustiert, konditioniert):
Die Koeffizienten einer multiplen Regression zeigen den Zusammenhang \beta des einen Prädiktors mit y, wenn man den (oder die) anderen Prädiktoren statistisch konstant hält.
Man nennt die Koeffizienten einer multiplen Regression daher auch parzielle Regressionskoeffizienten. Manchmal spricht man auch vom "Netto-Effekt" eines Prädiktors, oder davon, dass ein Prädiktor "bereinigt" wurde vom (linearen) Einfluss der anderen Prädiktoren auf y.
Damit kann man die Regressionskoeffizienten so interpretieren, dass Sie den Effekt des Prädiktors x_1 auf y anzeigen unabhängig vom Effekt der anderen Prädiktoren, x_2,x_3,... auf y
Man kann sich dieses Konstanthalten vorstellen als eine Aufteilung in Gruppen: Der Effekt eines Prädiktors x_1 wird für jede Ausprägung (Gruppe) des Prädiktors x_2 berechnet.
"Aber welche und wie viele Prädiktoren soll ich denn jetzt in mein Modell aufnehmen?!
Und welches Modell ist jetzt richtig?!"
🧑
"Leider kann die Statistik keine Antwort darauf geben."
👩
Often people want statistical modeling to do things that statical modeling cannot do. For example, we'd like to know wheter an effect is "real" or rather spurios. Unfortunately, modeling merely quantifies uncertainty in the precise way that the model understands the problem. Usually answers to lage world questions about truth and causation depend upon information not included in the model. For example, any observed correlation between an outcome and predictor could be eliminated or reversed once another predictor is added to the model. But if we cannot think of the right variable, we might never notice. Therefore all statical models are vulnerable to and demand critique, regardless of the precision of their estimates and apparaent accuracy of their predictions. Rounds of model criticism and revision embody the real tests of scientific hypotheses. A true hypothesis will pass and fail many statistical "tests" on its way to acceptance.
(McElreath, 2020, S. 139)
km1
Wenn dieses Kausalmodell stimmt, findet man eine Scheinkorrelation zwischen price
und bedrooms
.
Eine Scheinkorrelation ist ein Zusammenhang, der nicht auf eine kausalen Einfluss beruht.
d_connected
heißt, dass die betreffenden Variablen "verbunden" sind durch einen gerichteten (d
wie directed) Pfad, durch den die Assoziation (Korrelation) wie durch einen Fluss fließt 🌊. d_separated
heißt, dass sie nicht d_connected
sind.
m2
kontrolliert die Konfundierungsvariable livingArea
Wenn das Kausalmodell stimmt, dann zeigt m2
den kausalen Effekt von livingArea
.
"Was tun wir jetzt bloß?!" 🧑
"Wir müssen die Konfundierungs- variable kontrollieren.
👩
Durch das Kontrollieren ("adjustieren"), sind bedrooms
und price
nicht mehr korreliert, nicht mehr d_connected
, sondern jetzt d_separeted
.
Ohne Kontrollieren der Konfundierungsvariablen
Regressionsmodell:
y ~ x
Es wird (fälschlich) eine Korrelation zwischen x
und y
angezeigt: Scheinkorrelation.
Mit Kontrollieren der Konfundierungsvariablen
Regressionsmodell:
y ~ x + group
Es wird korrekt gezeigt, dass es keine Korrelation zwischen x
und y
gibt, wenn group
kontrolliert wird.
m1
und m2
passen nicht zu den Daten, wenn km1
stimmtkm1
dürfte es keine Assoziation (Korrelation) zwischen bedrooms
und price
geben, wenn man livingArea
kontrolliert.bedrooms
und price
geben, wenn man livingArea
kontrolliert.m1
und m2
nicht mit dem Kausalmodell km1
vereinbar.km2
Unser Modell m2
sagt uns,
dass beide Prädiktoren jeweils einen eigenen Beitrag zur Erklärung der AV haben.
Daher könnte das folgende Kausalmodell, km2
besser passen.
In diesem Modell gibt es eine Wirkkette: a \rightarrow b \rightarrow p.
Insgesamt gibt es zwei Kausaleinflüsse von a
auf p
:
Man nennt die mittlere Variable einer Wirkkette auch einen Mediator und den Pfad von der UV (a
) über den Mediator (b
) zur AV (p
) auch Mediation.
Eine Studie fand eine starke Korrelation, r=0.79 zwischen (Höhe des) Schokoladenkonsums eines Landes und (Anzahl der) Nobelpreise eines Landes (Messerli, 2012).
💣 Korrelation ungleich Kausation!
km3
"Ich glaube aber an dieses Kausalmodell. Der Experte bin ich !" 🧑
"Don, nach deinem Kausalmodell müssten bedrooms
und livingArea
unkorreliert sein. Sind sie aber nicht."
## # A tibble: 1 × 1## `cor(bedrooms, livingArea)`## <dbl>## 1 0.656
👩
km1
b
: bedrooms, p
: price, a
area (living area)
b \indep p \, |\, a: bedrooms
sind unabhängig von price
, wenn man livingArea
kontrolliert.
⛈️ Passt nicht zu den Daten/zum Modell
km2
b
: bedrooms, p
: price, a
area (living area)
keine Unabhängigkeiten
❓ Passt zu den Daten/zum Modell
km3
b
: bedrooms, p
: price, a
area (living area)
b \indep a: bedrooms
sind unabhängig von livingArea
(a
)
⛈️ Passt nicht zu den Daten/zum Modell
DAGs sind eine bestimmte Art von Graphen zur Analyse von Kausalstrukturen.
Ein Graph besteht aus Knoten (Variablen) und Kanten (Linien), die die Knoten verbinden.
DAGs sind gerichtet; die Pfeile zeigen immer in eine Richtung (und zwar von Ursache zu Wirkung).
DAGs sind azyklisch; die Wirkung eines Knoten darf nicht wieder auf ihn zurückführen.
Ein Pfad ist ein Weg durch den DAG, von Knoten zu Knoten über die Kanten, unabhängig von der Pfeilrichtung.
km1
b
: bedrooms, p
: price, a
area (living area)
Weiß man, was die Wirkung W einer Handlung H (Intervention) ist, so hat man H als Ursache von W erkannt.
Sind zwei Variablen korreliert (abhängig, assoziiert), so kann es dafür zwei Gründe geben:
Eine mögliche Ursache einer Scheinkorrelation ist Konfundierung.
Konfundierung kann man entdecken, indem man die angenommene Konfundierungsvariable kontrolliert (adjustiert), z.B. indem man ihn als Prädiktor in eine Regression aufnimmt.
Ist die Annahme einer Konfundierung korrekt, so löst sich der Scheinzusammenhang nach dem Adjustieren auf.
Löst sich der Scheinzusammenhang nicht auf, sondern drehen sich die Vorzeichen der Zusammenhänge nach Adjustieren um, so spricht man einem Simpson Paradox.
Die Daten alleine können nie sagen, welches Kausalmodell der Fall ist in einer Beobachtungsstudie. Fachwissen (inhaltliches wissenschaftliches Wisseen) ist nötig, um DAGs auszuschließen.
Wie kann das sein?
Dieser DAG bietet eine rettende Erklärung:
m
, so entsteht eine Scheinkorrelation zwischen den Ursachen x
und y
.Vgl. Rohrer (2018).
Man kann also zu viele oder falsche Prädiktoren einer Regression hinzufügen, so dass die Koeffizienten nicht die kausalen Effekte zeigen, sondern durch Scheinkorrelation verzerrte Werte.
In der Zeitung Glitzer werden nur folgende Menschen gezeigt:
Gehen wir davon aus, dass Schönheit und Reichtum unabhängig voneinander sind.
Wenn ich Ihnen sage, dass Don nicht schön ist, aber in der Glitzer häufig auftaucht, was lernen wir dann über seine finanzielle Situation?
"Ich bin schön, unglaublich schön, und groß, großartig, tolle Gene!!!"
🧑
Don muss reich sein.
"So langsam check ich's!"
🧑
Sei Z = X + Y, wobei X und Y unabhängig sind.
Wenn ich Ihnen sage, X = 3, lernen Sie nichts über Y, da die beiden Variablen unabhängig sind
Aber: Wenn ich Ihnen zuerst sage, Z = 10, und dann sage, X = 3, wissen Sie sofort, was Y ist (Y = 7).
Also: X und Y sind abhängig – gegeben Z: X \notindep Y \,|\, Z.
Ohne Kontrolle von date
entsteht keine Scheinkorrelation zwischen Looks
und Talent
. Der Pfad ("Fluss") von Looks
über date
nach Talent
ist blockiert.
Kontrolliert man date
, so öffnet sich der Pfad Looks
->date
-> Talent
und die Scheinkorrelation entsteht: Der Pfad ist nicht mehr blockiert.
Das Kontrollieren von date
geht zumeist durch Bilden einer Auswahl einer Teilgruppe von sich.
Bei positiver eignung
wird ein Studium aufgenommen (studium = 1
) ansonsten nicht (studium = 0)
.
eignung
(fürs Studium) sei definiert als die Summe von iq
und fleiss
, plus etwas Glück:
set.seed(42) # ReproduzierbarkeitN <- 1e03d_eignung <-tibble( iq = rnorm(N), fleiss = rnorm(N), glueck = rnorm(N, 0, sd = .1), eignung = 1/2 * iq + 1/2 * fleiss + glueck, studium = ifelse(eignung > 0, 1, 0) )
Eine Studie untersucht den Zusammenhang von Intelligenz (iq) und Fleiß (f) bei Studentis (s).
Ergebnis: Ein negativer Zusammenhang.
m_eignung <- stan_glm( iq ~ fleiss, data = d_eignung %>% filter(studium == 1))
## (Intercept) fleiss ## 0.7806146 -0.4428830
f \notindep iq \,|\, s
Nur durch das Stratifizieren (Aufteilen in Subgruppen, Kontrollieren, Adjustieren) tritt die Scheinkorrelation auf.
Ohne Stratifizierung tritt keine Scheinkorrelation auf
Mit Stratifizierung tritt Scheinkorrelation auf
Kontrollieren einer Variablen - Aufnehmen in die Regression - kann genausogut schaden wie nützen.
Nur Kenntnis des DAGs verrät die richtige Entscheidung.
Wir wollen den (kausalen) Einfluss der Eltern E
und Großeltern G
auf den Bildungserfolg der Kinder K
untersuchen.
Wir nehmen folgende Effekte an:
G
auf K
: G \rightarrow E \rightarrow KE
auf K
: E \rightarrow KG
auf K
: G \rightarrow KAber was ist, wenn wir vielleicht eine unbekannte Variable übersehen haben? (S. nächste Seite 👻)
R-Syntax stammt von Kurz (2021).
U
könnte ein ungemessener Einfluss sein, der auf E
und K
wirkt, etwa Nachbarschaft.
Die Großeltern wohnen woanders (in Spanien), daher wirkt die Nachbarschaft der Eltern und Kinder nicht auf sie.
E
ist sowohl für G
als auch für U
eine Wirkung, also eine Kollisionsvariable auf diesem Pfad.
Wenn wir E
kontrollieren, wird es den Pfad G \rightarrow K verzerren, auch wenn wir niemals U
messen.
Die Sache ist chancenlos. Wir müssen den DAG verloren geben. 👻
(McElreath, 2020, S. 180)
Forschungsfrage: Wie groß ist der (kausale) Einfluss der Schlafzimmerzahl auf den Verkaufspreis des Hauses?
a:
livingArea, b
: bedrooms, p
: prize
UV: b
, AV: p
p ~ b
wird der kausale Effekt verzerrt sein durch die Konfundierung mit a
.b
und p
:b
und p
.b
ändern, so würde sich p
nicht ändern.b
) ist jetzt zu!b
und p
ist jetzt komplett kausal.b
) zuweisen könnten (unabhängig von ihrer Quadratmeterzahl, a
), würde sich der Graph so ändern.a
auf b
.b
einstellen im Rahmen des Experiments, so kann a
keine Wirkung auf b
haben.Konfundierende Pfade zu blockieren zwischen der UV und der AV nennt man auch die Hintertür schließen (backdoor criterion).
Wir wollen die Hintertüre schließen, da wir sonst nicht den wahren, kausalen Effekt bestimmen können.
Zum Glück gibt es neben Experimenten noch andere Wege, die Hintertür zu schließen, wie die Konfundierungsvariable a
in eine Regression mit aufzunehmen.
Warum blockt das Kontrollieren von a
den Pfad b \leftarrow a \rightarrow p?
a
kennen, bringt Ihnen Kenntnis über b
kein zusätzliches Wissen über p
.a
, lernen Sie bei Kenntnis von b
auch etwas über p
.Konditionieren ist wie "gegeben, dass Sie a
schon kennen...".
b \indep p \,|\,a
d
, so kontrolliert man damit zum Teil den Vorfahren (die Ursache), m
.d
Information beinhaltet über m
.d
den Pfad von x
nach y
teilweise öffnen, da m
eine Kollisionsvariable ist.Wie kompliziert ein DAG auch aussehen mag, er ist immer aus diesen vier Atomen aufgebaut.
Hier ist ein Rezept, das garantiert, dass Sie welche Variablen Sie kontrollieren sollten und welche nicht:
X
) zu AV (Y
) auf.bsp1
UV: X, AV: Y, drei Covariaten (A, B, C) und ein ungemessene Variable, U
Es gibt zwei Hintertürpfade:
Kontrollieren von A oder (auch) C schließt die offene Hintertür.
(McElreath, 2020; Kurz, 2021), s.S. 186.
bsp2
UV: W, AV: D
Kontrollieren Sie diese Variablen, um die offenen Hintertüren zu schließen:
(McElreath, 2020; Kurz, 2021), s.S. 188.
bsp2
U
s ist eine starke - oft zu starke (unrealistisch optimistische) - Annahme.Bedingten Unabhängigkeit zwischen zwei Variablen sind Variablen, die nicht assoziiert (also stochastisch unabhängig) sind, wenn wir eine bestimmte Menge an Drittvariablen kontrollieren.
bsp2
impliziert folgende bedingte Unabhängigkeiten:
## A _||_ W | S## D _||_ S | A, M, W## M _||_ W | S
Dieses Skript wurde erstellt am 2021-12-13 10:31:39
Lizenz: MIT-Lizenz
Autor: Sebastian Sauer.
Um diese HTML-Folien korrekt darzustellen, ist eine Internet-Verbindung nötig.
Mit der Taste ?
bekommt man eine Hilfe über Shortcuts.
Wenn Sie die Endung .html
in der URL mit .pdf
ersetzen, bekommen Sie die PDF-Version der Datei.
Alternativ können Sie im Browser Chrome die Folien als PDF drucken (klicken Sie auf den entsprechenden Menüpunkt).
Den Quellcode der Skripte finden Sie hier.
Eine PDF-Version kann erzeugt werden, indem man im Chrome-Browser die Webseite druckt (Drucken als PDF).
Diese R-Pakete wurden verwendet.
Kurz, A. S. (2021). Statistical rethinking with brms, ggplot2, and the tidyverse: Second edition.
McElreath, R. (2020). Statistical rethinking: a Bayesian course with examples in R and Stan. 2nd ed. CRC texts in statistical science. Taylor and Francis, CRC Press.
Messerli, F. H. (2012). "Chocolate Consumption, Cognitive Function, and Nobel Laureates". In: New England Journal of Medicine 367.16, pp. 1562-1564. DOI: 10.1056/NEJMon1211064.
Pearl, J., M. Glymour, and N. P. Jewell (2016). Causal inference in statistics: a primer. Wiley. 136 pp.
Rohrer, J. M. (2018). "Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data". In: Advances in Methods and Practices in Psychological Science 1.1, pp. 27-42. DOI: 10.1177/2515245917745629.