class: right, bottom, test, title-slide # Kausalanalyse ## Kapitel 8 --- <style> .center2 { margin: 0; position: absolute; top: 50%; left: 50%; -ms-transform: translate(-50%, -50%); transform: translate(-50%, -50%); } </style> ## Gliederung </br> </br> .xlarge[ 1. [Teil 1: Statistik, was soll ich tun?](#teil-1) 2. [Teil 2: Konfundierung](#teil-2) 3. [Teil 3: Kollision](#teil-3) 4. [Teil 4: Die Hintertür schließen](#teil-4) 5. [Hinweise](#hinweise) ] `\(\newcommand{\indep}{\perp \!\!\! \perp}\)` `\(\newcommand{\notindep}{\not\!\perp\!\!\!\perp}\)` --- name: teil-1 class: middle, center # Teil 1 ## Statistik, was soll ich tun? --- ## Studie A: Östrogen Was raten Sie dem Arzt? Medikament einnehmen, ja oder nein? </br>
Gruppe
Mit Medikament
Ohne Medikament
Männer
81/87 überlebt (93%)
234/270 überlebt (87%)
Frauen
192/263 überlebt (73%)
55/80 überlebt (69%)
Gesamt
273/350 überlebt (78%)
289/350 überlebt (83%)
</br> - Die Daten stammen aus einer (fiktiven) klinischen Studie, `\(n=700\)`, hoher Qualität (Beobachtungsstudie). - Bei Männern scheint das Medikament zu helfen; bei Frauen auch. - Aber *insgesamt* (Summe von Frauen und Männern) *nicht*?! - Was sollen wir den Arzt raten? Soll er das Medikament verschreiben? Vielleicht nur dann, wenn er das Geschlecht kennt? <a name=cite-pearl_causal_2016></a>([Pearl, Glymour, and Jewell, 2016](#bib-pearl_causal_2016)) --- ## Kausalmodell zur Studie A .pull-left[ - Das Geschlecht (Östrogren) hat einen Einfluss (+) auf Einnahme des Medikaments und auf Heilung (-). - Das Medikament hat einen Einfluss (+) auf Heilung. - Betrachtet man die Gesamt-Daten zur Heilung, so ist der Effekt von Geschlecht (Östrogen) und Medikament *vermengt* (konfundiert). ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-9-1.png" width="100%" style="display: block; margin: auto;" /> ] ### Betrachtung der Teildaten (stratifziert pro Gruppe) zeigt den wahren, kausalen Effekt. Betrachtung der Gesamtdaten zeigt einen *konfundierten* Effekt: Geschlecht konfundiert den Zusammenhang von Medikament und Heilung. --- ## Studie B: Blutdruck Was raten Sie dem Arzt? Medikament einnehmen, ja oder nein? </br>
Gruppe
Ohne Medikament
Mit Medikament
geringer Blutdruck
81/87 überlebt (93%)
234/270 überlebt (87%)
hoher Blutdruck
192/263 überlebt (73%)
55/80 überlebt (69%)
Gesamt
273/350 überlebt (78%)
289/350 überlebt (83%)
</br> - Die Daten stammen aus einer (fiktiven) klinischen Studie, `\(n=700\)`, hoher Qualität (Beobachtungsstudie). - Bei geringem Blutdruck scheint das Medikament zu schaden. - Bei hohem Blutdrck scheint das Medikamenet auch zu schaden. - Aber *insgesamt* (Summe über beide Gruppe) *nicht*, da scheint es zu nutzen?! - Was sollen wir den Arzt raten? Soll er das Medikament verschreiben? Vielleicht nur dann, wenn er den Blutdruck nicht kennt? ([Pearl, Glymour, and Jewell, 2016](#bib-pearl_causal_2016)) --- ## Kausalmodell zur Studie B .pull-left[ - Das Medikament hat einen (absenkenden) Einfluss auf den Blutdruck. - Gleichzeitig hat das Medikament einen (toxischen) Effekt auf die Heilung. - Verringerter Blutdruck hat einen positiven Einfluss auf die Heilung. - Sucht man innerhalb der Leute mit gesenktem Blutdruck nach Effekten, findet man nur den toxischen Effekt: Gegeben diesen Blutdruck ist das Medikament schädlich aufgrund des toxischen Effekts. Der positive Effekt der Blutdruck-Senkung ist auf diese Art nicht zu sehen. ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-11-1.png" width="100%" style="display: block; margin: auto;" /> Betrachtung der Teildaten zeigt nur den toxischen Effekt des Medikaments, nicht den nützlichen (Reduktion des Blutdrucks). ] ### Betrachtung der Gesamtdaten zeigt den wahren, kausalen Effekt. --- ## Studie A und B: Gleiche Daten, unterschiedliches Kausalmodell .pull-left[ ### Studie A <img src="Kapitel_8_chunk-img/unnamed-chunk-12-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ ### Studie B <img src="Kapitel_8_chunk-img/unnamed-chunk-13-1.png" width="100%" style="display: block; margin: auto;" /> ] Kausale Interpretation - und damit Entscheidungen für Handlungen - war nur möglich, wenn das Kausalmodell bekannt ist. Die Daten alleine reichen nicht. --- ## Sorry, Statistik: Du allein schaffst es nicht .pull-left[ ### Statistik alleine reicht nicht für Kausalschlüsse .xxxlarge[ .center[🧟] ] ] .pull-right[ ### Statistik plus Theorie erlaubt Kausalschlüsse .xxxlarge[ .center[📚+📊=🤩] ] ] - Für Entscheidungen ("Was soll ich tun?") braucht man kausales Wissen. - Kausales Wissen basiert auf einer Theorie (Kausalmodell) plus Daten. --- ## Studie C: Nierensteine .center2[ Nehmen wir an, es gibt zwei Behandlungsvarianten bei Nierensteinen, Behandlung A und B. Ärzte tendieren zu Behandlung A bei großen Steinen (die einen schwereren Verlauf haben); bei kleineren Steinen tendieren die Ärzte zu Behandlung B. Sollte ein Patient, der nicht weiß, ob sein Nierenstein groß oder klein ist, die Wirksamkeit in der Gesamtpopulation (Gesamtdaten) oder in den stratifizierten Daten (Teildaten nach Steingröße) betrachten, um zu entscheiden, welche Behandlungsvariante er (oder sie) wählt? ] --- ## Kausalmodell zur Studie C .pull-left[ - Die Größe der Nierensteine hat einen Einfluss auf die Behandlungsmethode. - Die Behandlung hat eien Einfluss auf die Heilung. - Damit gibt es eine Mediation von Größe -> Behandlung -> Heilung. - Darüberhinaus gibt es noch einen Einfluss von Größe der Nierensteine auf die Heilung. ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-14-1.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Soll ich heiraten? .center2[ „Studien zeigen, dass Einkommen und Heiraten (bzw. verheiratete sein) hoch korrelieren. Daher wird sich dein Einkommen erhöhen, wenn du heiratest.“ ] --- ## Soll ich mich beeilen? .center2[ „Studien zeigen, dass Leute, die sich beeilen, zu spät zu ihrer Besprechung kommen. Daher lieber nicht beeilen, oder du kommst zu spät zu deiner Besprechung.“ ] --- name: teil-2 class: middle, center # Teil 2 ## Konfundierung `\(\newcommand{\indep}{\perp \!\!\! \perp}\)` --- ## Datensatz 'Hauspreise im Saratoga County' [Datenquelle](https://vincentarelbundock.github.io/Rdatasets/csv/mosaicData/SaratogaHouses.csv); [Beschreibung des Datensatzes](https://vincentarelbundock.github.io/Rdatasets/doc/mosaicData/SaratogaHouses.html) ```r d_path <- "https://tinyurl.com/3jn3cc5u" ```
--- ## Immobilienpreise in einer schicken Wohngegend vorhersagen .pull-left[ .center[ "Finden Sie den Wert meiner Immobilie heraus! </br> Die muss viel wert sein!" .xxxlarge[🧑] Das ist Don, Immobilienmogul, Auftraggeber. ] ] .pull-right[ .center[ "Das finde ich heraus. </br> Ich mach das wissenschaftlich." </br> </br> .xxxlarge[👩 🔬] Das ist Angie, Data Scientistin. ] ] --- ## Modell 1: Preis als Funktion der Anzahl der Zimmer .left-column[ </br> </br> </br> .center["Hey Don! Mehr Zimmer, mehr Kohle!"] .xxxlarge[👩 🔬] ] .right-column[ <img src="Kapitel_8_chunk-img/unnamed-chunk-19-1.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Posteriori-Verteilung von Modell 1 .left-column[ .center["Jedes Zimmer mehr ist knapp 50 Tausend wert. Dein Haus hat einen Wert von etwa 150 Tausend."] .xxxlarge[👩] .center["Zu wenig! 🤬"] .xxxlarge[🧑] ] .right-column[ ```r m1 <- stan_glm(price ~ bedrooms, refresh = 0, data = d) coef(m1) ``` ``` ## (Intercept) bedrooms ## 60024.63 48169.31 ``` ```r dons_house <- tibble(bedrooms = 2) mean(posterior_predict(m1, dons_house)) ``` ``` ## [1] 155760.4 ``` ] --- ## Don hat eine Idee .pull-left[ .center[ "Ich bau eine Mauer! </br> In jedes Zimmer! </br> Genial! </br> An die Arbeit, Angie! </br> .xxxlarge[🧑] ] ] .pull-right[ .center[ "Das ist keine gute Idee, Don." </br> </br> </br> .xxxlarge[👩] ] ] ```r dons_new_house <- tibble(bedrooms = 4) mean(posterior_predict(m1, dons_new_house)) ``` ``` ## [1] 251673.1 ``` ### Mit 4 statt 2 Schlafzimmer steigt der Wert auf 250k, laut `m1`. "Volltreffer! Jetzt verdien ich 100 Tausend mehr! 🤑" .xxxlarge[🧑] --- ## R-Funktionen, um Beobachtungen vorhersagen - `posterior_predict()`: ([Hilfeseite](https://mc-stan.org/rstanarm/reference/posterior_predict.stanreg.html)) - Was macht der Befehl? Zieht Stichproben aus der PPV. - Wozu braucht man den Befehl? - Um neue Beobachtungen vorherzusagen; falls man z.B. an einem Vorhersage-Wettbewerb teilnimmt 🤓. - Um die Modellgüte zu prüfen: sagt unser Modell den Datensatz gut vorher? - `predictive_intervals()`: ([Hilfeseite](https://mc-stan.org/rstanarm/reference/predictive_interval.stanreg.html)) - Was macht der Befehl? Berechnet Perzentilintervalle auf Basis der PPV. - Wozu braucht man den Befehl? Um die Ungenauigkeit (Ungewissheit) des Modells einzuschätzen. - `predictive_error()`: ([Hilfeseite](https://mc-stan.org/rstanarm/reference/predictive_error.stanreg.html)) - Was macht der Befehl: Berechnet die Vorhersagefehler (Residuen): `\(r=y-\hat{y}\)`. - Wozu braucht man den Befehl? Ein anderer Blickt auf die Ungewissheit des Modells. --- ## Modell 2: Preis als Funktion von Zimmerzahl und von Quadratmetern Modell 2 hat schlechte Nachrichten für Don. ```r m2 <- stan_glm(price ~ bedrooms + livingArea, data = d) ``` ```r coef(m2) ``` ``` ## (Intercept) bedrooms livingArea ## 36807.7910 -14282.1494 125.4225 ``` ```r mean(posterior_predict(m2, newdata = tibble(bedrooms = 4, livingArea = 1200))) ``` ``` ## [1] 129759.7 ``` .pull-left[ .center[ "Die Zimmer zu halbieren, hat den Wert des Hauses *verringert*, Don!" .xxxlarge[👩] ] ] .pull-right[ .center[ "Verringert!? Weniger Geld?! Oh nein!" </br> .xxxlarge[🧑] ] ] --- ## Die Zimmerzahl ist negativ mit dem Preis korreliert ... wenn man die Wohnfläche (Quadratmeter) kontrolliert. **"Ne-Ga-Tiv!"** .xxxlarge[👩] <img src="Kapitel_8_chunk-img/unnamed-chunk-46-1.png" width="100%" style="display: block; margin: auto;" /> .footnote[[Quellcode](https://github.com/sebastiansauer/QM2-Folien/blob/main/Themen/children/Hauspreis-stratifizieren.Rmd)] --- ## Kontrollieren von Variablen 💡 Durch das Aufnehmen von Prädiktoren in die multiple Regression werden die Prädiktoren *kontrolliert* (adjustiert, konditioniert): - Die Koeffizienten einer multiplen Regression zeigen den Zusammenhang `\(\beta\)` des einen Prädiktors mit `\(y\)`, wenn man den (oder die) anderen Prädiktoren statistisch *konstant hält*. - Man nennt die Koeffizienten einer multiplen Regression daher auch *parzielle Regressionskoeffizienten*. Manchmal spricht man auch vom "Netto-Effekt" eines Prädiktors, oder davon, dass ein Prädiktor "bereinigt" wurde vom (linearen) Einfluss der anderen Prädiktoren auf `\(y\)`. - Damit kann man die Regressionskoeffizienten so interpretieren, dass Sie den Effekt des Prädiktors `\(x_1\)` auf `\(y\)` anzeigen *unabhängig* vom Effekt der anderen Prädiktoren, `\(x_2,x_3,...\)` auf `\(y\)` - Man kann sich dieses Konstanthalten vorstellen als eine Aufteilung in Gruppen: Der Effekt eines Prädiktors `\(x_1\)` wird für jede Ausprägung (Gruppe) des Prädiktors `\(x_2\)` berechnet. --- ## Das Hinzufügen von Prädiktoren kann die Gewichte der übrigen Prädiktoren ändern .pull-left[ .center[ "Aber welche und wie viele Prädiktoren soll ich denn jetzt in mein Modell aufnehmen?! Und welches Modell ist jetzt richtig?!" </br> </br> .xxxlarge[🧑] ] ] .pull-right[ .center[ "Leider kann die Statistik keine Antwort darauf geben." </br> </br> .xxxlarge[👩] ] ] ### In Beobachtungsstudien hilft nur ein (korrektes) Kausalmodell --- ## Welches Modell richtig ist, kann die Statistik nicht sagen > Often people want statistical modeling to do things that statical modeling cannot do. For example, we'd like to know wheter an effect is "real" or rather spurios. Unfortunately, modeling merely quantifies uncertainty in the precise way that the model understands the problem. Usually answers to lage world questions about truth and causation depend upon information not included in the model. For example, any observed correlation between an outcome and predictor could be eliminated or reversed once another predictor is added to the model. But if we cannot think of the right variable, we might never notice. Therefore all statical models are vulnerable to and demand critique, regardless of the precision of their estimates and apparaent accuracy of their predictions. Rounds of model criticism and revision embody the real tests of scientific hypotheses. A true hypothesis will pass and fail many statistical "tests" on its way to acceptance. <a name=cite-mcelreath_statistical_2020></a>([McElreath, 2020](#bib-mcelreath_statistical_2020), S. 139) --- ## Kausalmodell für Konfundierung, `km1` <img src="Kapitel_8_chunk-img/unnamed-chunk-26-1.png" width="100%" style="display: block; margin: auto;" /> Wenn dieses Kausalmodell stimmt, findet man eine *Scheinkorrelation* zwischen `price` und `bedrooms`. Eine Scheinkorrelation ist ein Zusammenhang, der *nicht* auf eine kausalen Einfluss beruht. `d_connected` heißt, dass die betreffenden Variablen "verbunden" sind durch einen gerichteten (`d` wie directed) Pfad, durch den die Assoziation (Korrelation) wie durch einen Fluss fließt 🌊. `d_separated` heißt, dass sie nicht `d_connected` sind. --- ## `m2` kontrolliert die Konfundierungsvariable `livingArea` Wenn das Kausalmodell stimmt, dann zeigt `m2` den kausalen Effekt von `livingArea`. .left-column[ .center[ "Was tun wir jetzt bloß?!" .xxxlarge[🧑] </br> "Wir müssen die Konfundierungs- variable kontrollieren. .xxxlarge[👩] ] ] .right-column[ <img src="Kapitel_8_chunk-img/unnamed-chunk-27-1.png" width="100%" style="display: block; margin: auto;" /> Durch das Kontrollieren ("adjustieren"), sind `bedrooms` und `price` nicht mehr korreliert, nicht mehr `d_connected`, sondern jetzt `d_separeted`. ] --- ## Konfundierer kontrollieren .pull-left[ Ohne Kontrollieren der Konfundierungsvariablen Regressionsmodell: `y ~ x` <img src="Kapitel_8_chunk-img/unnamed-chunk-29-1.png" width="100%" style="display: block; margin: auto;" /> Es wird (fälschlich) eine Korrelation zwischen `x` und `y` angezeigt: Scheinkorrelation. ] .pull-right[ Mit Kontrollieren der Konfundierungsvariablen Regressionsmodell: `y ~ x + group` <img src="Kapitel_8_chunk-img/unnamed-chunk-30-1.png" width="100%" style="display: block; margin: auto;" /> Es wird korrekt gezeigt, dass es keine Korrelation zwischen `x` und `y` gibt, wenn `group` kontrolliert wird. ] .footnote[[Quellcode](https://github.com/sebastiansauer/QM2-Folien/blob/main/Themen/children/Konfundierer-kontrollieren.Rmd)] --- ## `m1` und `m2` passen nicht zu den Daten, wenn `km1` stimmt .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-31-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ - Laut `km1` dürfte es keine Assoziation (Korrelation) zwischen `bedrooms` und `price` geben, wenn man `livingArea` kontrolliert. - Es gibt aber noch eine Assoziation zwischen `bedrooms` und `price` geben, wenn man `livingArea` kontrolliert. - Daher sind sowohl `m1` und `m2` nicht mit dem Kausalmodell `km1` vereinbar. ] --- ## Kausalmodell 2, `km2` Unser Modell `m2` sagt uns, dass beide Prädiktoren jeweils einen eigenen Beitrag zur Erklärung der AV haben. .pull-left[ - Daher könnte das folgende Kausalmodell, `km2` besser passen. - In diesem Modell gibt es eine *Wirkkette*: `\(a \rightarrow b \rightarrow p\)`. - Insgesamt gibt es zwei Kausaleinflüsse von `a` auf `p`: - `\(a \rightarrow p\)` - `\(a \rightarrow b \rightarrow p\)` - Man nennt die mittlere Variable einer Wirkkette auch einen *Mediator* und den Pfad von der UV (`a`) über den Mediator (`b`) zur AV (`p`) auch *Mediation*. ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-32-1.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Schoki macht Nobelpreis! (?) Eine Studie fand eine starke Korrelation, `\(r=0.79\)` zwischen (Höhe des) Schokoladenkonsums eines Landes und (Anzahl der) Nobelpreise eines Landes <a name=cite-messerli_chocolate_2012></a>([Messerli, 2012](http://www.nejm.org/doi/abs/10.1056/NEJMon1211064)). <img src="https://i0.wp.com/knowingneurons.com/wp-content/uploads/2013/06/correlation_550.png?w=550&ssl=1" width="50%" style="display: block; margin: auto;" /> 💣 Korrelation ungleich Kausation! --- ## Kausalmodell für die Schoki-Studie <img src="Kapitel_8_chunk-img/unnamed-chunk-34-1.png" width="100%" style="display: block; margin: auto;" /> --- ## Dons Kausalmodell, `km3` .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-35-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ .center[ "Ich glaube aber an dieses Kausalmodell. Der Experte bin ich !" .xxxlarge[🧑] </br> "Don, nach deinem Kausalmodell müssten `bedrooms` und `livingArea` unkorreliert sein. Sind sie aber nicht." ``` ## # A tibble: 1 × 1 ## `cor(bedrooms, livingArea)` ## <dbl> ## 1 0.656 ``` .xxxlarge[👩] ] ] --- ## Unabhängigkeiten laut `km1` `b`: bedrooms, `p`: price, `a` area (living area) .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-37-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ `\(b \indep p \, |\, a\)`: `bedrooms` sind unabhängig von `price`, wenn man `livingArea` kontrolliert. ⛈️ Passt nicht zu den Daten/zum Modell ] --- ## Unabhängigkeiten laut `km2` `b`: bedrooms, `p`: price, `a` area (living area) .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-38-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ keine Unabhängigkeiten ❓ Passt zu den Daten/zum Modell ] --- ## Unabhängigkeiten laut `km3` `b`: bedrooms, `p`: price, `a` area (living area) .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-39-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ `\(b \indep a\)`: `bedrooms` sind unabhängig von `livingArea` (`a`) ⛈️ Passt nicht zu den Daten/zum Modell ] --- ## DAGs: Directed Acyclic Graphs .pull-left[ - DAGs sind eine bestimmte Art von Graphen zur Analyse von Kausalstrukturen. - Ein *Graph* besteht aus Knoten (Variablen) und Kanten (Linien), die die Knoten verbinden. - DAGs sind *gerichtet*; die Pfeile zeigen immer in eine Richtung (und zwar von Ursache zu Wirkung). - DAGs sind *azyklisch*; die Wirkung eines Knoten darf nicht wieder auf ihn zurückführen. - Ein *Pfad* ist ein Weg durch den DAG, von Knoten zu Knoten über die Kanten, unabhängig von der Pfeilrichtung. ] .pull-right[ ### DAG von `km1` <img src="Kapitel_8_chunk-img/unnamed-chunk-40-1.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Leider passen potenziell viele DAGs zu einer Datenlage `b`: bedrooms, `p`: price, `a` area (living area) <img src="Kapitel_8_chunk-img/unnamed-chunk-41-1.png" width="100%" style="display: block; margin: auto;" /> --- ## Was ist eigentlich Kausation? .pull-left[ .bg-washed-blue.b--dark-blue.ba.bw2.br3.shadow-5.ph4.mt5[ Weiß man, was die Wirkung `\(W\)` einer Handlung `\(H\)` (Intervention) ist, so hat man `\(H\)` als Ursache von `\(W\)` erkannt. ] ([McElreath, 2020](#bib-mcelreath_statistical_2020)) ] .pull-right[ </br> </br> <img src="https://imgs.xkcd.com/comics/correlation.png" width="100%" style="display: block; margin: auto;" /> [Quelle](https://xkcd.com/552/) und [Erklärung](https://www.explainxkcd.com/wiki/index.php/552:_Correlation) ] --- ## Fazit - Sind zwei Variablen korreliert (abhängig, assoziiert), so kann es dafür zwei Gründe geben: - Kausaler Zusammenhang - Nichtkausaler Zusammenhang ("Scheinkorrelation") - Eine mögliche Ursache einer Scheinkorrelation ist Konfundierung. - Konfundierung kann man entdecken, indem man die angenommene Konfundierungsvariable kontrolliert (adjustiert), z.B. indem man ihn als Prädiktor in eine Regression aufnimmt. - Ist die Annahme einer Konfundierung korrekt, so löst sich der Scheinzusammenhang nach dem Adjustieren auf. - Löst sich der Scheinzusammenhang nicht auf, sondern drehen sich die Vorzeichen der Zusammenhänge nach Adjustieren um, so spricht man einem *Simpson Paradox*. - Die Daten alleine können nie sagen, welches Kausalmodell der Fall ist in einer Beobachtungsstudie. Fachwissen (inhaltliches wissenschaftliches Wisseen) ist nötig, um DAGs auszuschließen. --- name: teil-3 class: middle, center # Teil 3 ## Kollision --- ## Kein Zusammenhang von Intelligenz und Schönheit <img src="Kapitel_8_chunk-img/unnamed-chunk-49-1.png" width="100%" style="display: block; margin: auto;" /> .footnote[[Gott ist gerecht (?)](https://twitter.com/TheTweetOfGod/status/1462594155176026123)] --- ## Aber Ihre Dates sind entweder schlau oder schön <img src="Kapitel_8_chunk-img/unnamed-chunk-51-1.png" width="100%" style="display: block; margin: auto;" /> Wie kann das sein? --- ## DAG zur Rettung Dieser DAG bietet eine rettende Erklärung: .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-52-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-53-1.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Was ist eine Kollision? .pull-left[ - Als *Kollision* (Kollisionsverzerrung, Auswahlverzerrung, engl. collider) bezeichnet man einen DAG, bei dem eine Wirkung zwei Ursachen hat (eine gemeinsame Wirkung zweier Ursachen). - Kontrolliert man die *Wirkung* `m`, so entsteht eine Scheinkorrelation zwischen den Ursachen `x` und `y`. - Kontrolliert man die Wirkung nicht, so entsteht keine Scheinkorrelation zwischen den Ursachen. ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-55-1.png" width="100%" style="display: block; margin: auto;" /> ] Vgl. <a name=cite-rohrer_thinking_2018></a>[Rohrer (2018)](https://doi.org/10.1177/2515245917745629). Man kann also zu viele oder falsche Prädiktoren einer Regression hinzufügen, so dass die Koeffizienten nicht die kausalen Effekte zeigen, sondern durch Scheinkorrelation verzerrte Werte. --- ## Einfaches Beispiel zur Kollision .pull-left[ - In der Zeitung *Glitzer* werden nur folgende Menschen gezeigt: - Schöne Menschen - Reiche Menschen - Gehen wir davon aus, dass Schönheit und Reichtum unabhängig voneinander sind. - Wenn ich Ihnen sage, dass Don nicht schön ist, aber in der Glitzer häufig auftaucht, was lernen wir dann über seine finanzielle Situation? ] .pull-right[ </br> </br> </br> .center[ "Ich bin schön, unglaublich schön, und groß, großartig, tolle Gene!!!" .xxxlarge[🧑] ] ] .footnote[Don muss reich sein.] --- ## Noch ein einfaches Beispiel zur Kollision .left-column[ </br> </br> .center[ "So langsam check ich's!" .xxxlarge[🧑] ] ] .right-column[ - Sei Z = X + Y, wobei X und Y unabhängig sind. - Wenn ich Ihnen sage, X = 3, lernen Sie nichts über Y, da die beiden Variablen unabhängig sind - Aber: Wenn ich Ihnen zuerst sage, Z = 10, und dann sage, X = 3, wissen Sie sofort, was Y ist (Y = 7). - Also: X und Y sind abhängig – gegeben Z: `\(X \notindep Y \,|\, Z\)`. ] --- ## Durch Kontrolle entsteht eine Verzerrung bei der Kollision .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-56-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-57-1.png" width="100%" style="display: block; margin: auto;" /> ] - Ohne Kontrolle von `date` entsteht keine Scheinkorrelation zwischen `Looks` und `Talent`. Der Pfad ("Fluss") von `Looks` über `date` nach `Talent` ist blockiert. - Kontrolliert man `date`, so *öffnet* sich der Pfad `Looks`->`date`-> `Talent` und die Scheinkorrelation entsteht: Der Pfad ist nicht mehr blockiert. - Das Kontrollieren von `date` geht zumeist durch Bilden einer Auswahl einer Teilgruppe von sich. --- ## IQ, Fleiss und Eignung fürs Studium .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-58-1.png" width="100%" style="display: block; margin: auto;" /> Bei positiver `eignung` wird ein Studium aufgenommen (`studium = 1`) ansonsten nicht (`studium = 0)`. [Quelle](https://data-se.netlify.app/2020/04/16/simulation-berkson-s-paradox/) ] .pull-right[ `eignung` (fürs Studium) sei definiert als die Summe von `iq` und `fleiss`, plus etwas Glück: ```r set.seed(42) # Reproduzierbarkeit N <- 1e03 d_eignung <- tibble( iq = rnorm(N), fleiss = rnorm(N), glueck = rnorm(N, 0, sd = .1), eignung = 1/2 * iq + 1/2 * fleiss + glueck, studium = ifelse(eignung > 0, 1, 0) ) ``` ] --- ## Schlagzeile "Schlauheit macht Studentis faul!" Eine Studie untersucht den Zusammenhang von Intelligenz (iq) und Fleiß (f) bei Studentis (s). Ergebnis: Ein negativer Zusammenhang. .pull-left[ ```r m_eignung <- stan_glm( iq ~ fleiss, data = d_eignung %>% filter(studium == 1)) ``` ``` ## (Intercept) fleiss ## 0.7806146 -0.4428830 ``` ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-62-1.png" width="100%" style="display: block; margin: auto;" /> `\(f \notindep iq \,|\, s\)` ] --- ## Kollisionsverzerrung nur bei Stratifizierung Nur durch das Stratifizieren (Aufteilen in Subgruppen, Kontrollieren, Adjustieren) tritt die Scheinkorrelation auf. .pull-left[ Ohne Stratifizierung tritt keine Scheinkorrelation auf <img src="Kapitel_8_chunk-img/unnamed-chunk-63-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ Mit Stratifizierung tritt Scheinkorrelation auf <img src="Kapitel_8_chunk-img/unnamed-chunk-64-1.png" width="100%" style="display: block; margin: auto;" /> ] Kontrollieren einer Variablen - Aufnehmen in die Regression - kann genausogut schaden wie nützen. Nur Kenntnis des DAGs verrät die richtige Entscheidung. --- ## Einfluss von Großeltern und Eltern auf Kinder .pull-left[ - Wir wollen den (kausalen) Einfluss der Eltern `E` und Großeltern `G` auf den *Bildungserfolg* der Kinder `K` untersuchen. - Wir nehmen folgende Effekte an: - indirekter Effekt von `G` auf `K`: `\(G \rightarrow E \rightarrow K\)` - direkter Effekt von `E` auf `K`: `\(E \rightarrow K\)` - direkter Effekt von `G` auf `K`: `\(G \rightarrow K\)` - Wir sind v.a. interessiert an `\(G \rightarrow K\)`, dem *direkten kausalen* Effekt von Großeltern auf ihre Enkel. ] .pull-right[ <img src="Kapitel_8_chunk-img/unnamed-chunk-65-1.png" width="100%" style="display: block; margin: auto;" /> Aber was ist, wenn wir vielleicht eine *u*nbekannte Variable übersehen haben? (S. nächste Seite 👻) ] R-Syntax stammt von <a name=cite-kurz_statistical_2021></a>[Kurz (2021)](https://bookdown.org/content/4857/). --- ## Der Gespenster-DAG .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-66-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ - `U` könnte ein ungemessener Einfluss sein, der auf `E` und `K` wirkt, etwa *Nachbarschaft*. - Die Großeltern wohnen woanders (in Spanien), daher wirkt die Nachbarschaft der Eltern und Kinder nicht auf sie. - `E` ist sowohl für `G` als auch für `U` eine Wirkung, also eine Kollisionsvariable auf diesem Pfad. - Wenn wir `E` kontrollieren, wird es den Pfad `\(G \rightarrow K\)` verzerren, auch wenn wir niemals `U` messen. ] Die Sache ist chancenlos. Wir müssen den DAG verloren geben. 👻 ([McElreath, 2020](#bib-mcelreath_statistical_2020), S. 180) --- name: teil-4 class: middle, center # Teil 4 ## Die Hintertür schließen --- ## Zur Erinnerung: Konfundierung .pull-left[ *Forschungsfrage*: Wie groß ist der (kausale) Einfluss der Schlafzimmerzahl auf den Verkaufspreis des Hauses? `a:` livingArea, `b`: bedrooms, `p`: prize UV: `b`, AV: `p` <img src="Kapitel_8_chunk-img/unnamed-chunk-68-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ - Im Regressionsmodell `p ~ b` wird der kausale Effekt verzerrt sein durch die Konfundierung mit `a`. - Der Grund für die Konfundierung sind die zwei Pfade zwischen `b` und `p`: 1. `\(b \rightarrow p\)` 2. `\(b \rightarrow a \rightarrow p\)` - Beide Pfade erzeugen (statistische) Assoziation zwischen `b` und `p`. - Aber nur der erste Pfad ist kausal; der zweite ist nichtkausal. - Gäbe es nur nur den zweiten Pfad und wir würden `b` ändern, so würde sich `p` nicht ändern. ] --- ## Gute Experimente zeigen den echten kausalen Effekt .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-69-1.png" width="100%" style="display: block; margin: auto;" /> - Die "Hintertür" der UV (`b`) ist jetzt zu! - Der einzig verbleibende, erste Pfad ist der kausale Pfad und die Assoziation zwischen `b` und `p` ist jetzt komplett kausal. ] .pull-right[ - Eine berühmte Lösung, den kausalen Pfad zu isolieren, ist ein (randomsiertes, kontrolliertes) Experiment. - Wenn wir den Häusern zufällig (randomisiert) eine Anzahl von Schlafzimmern (`b`) zuweisen könnten (unabhängig von ihrer Quadratmeterzahl, `a`), würde sich der Graph so ändern. - Das Experiment *entfernt* den Einfluss von `a` auf `b`. - Wenn wir selber die Werte von `b` einstellen im Rahmen des Experiments, so kann `a` keine Wirkung auf `b` haben. - Damit wird der zweite Pfad, `\(b \rightarrow a \rightarrow p\)` geschlossen ("blockiert"). ] --- ## Hintertür schließen auch ohne Experimente - Konfundierende Pfade zu blockieren zwischen der UV und der AV nennt man auch *die Hintertür schließen* (backdoor criterion). - Wir wollen die Hintertüre schließen, da wir sonst nicht den wahren, kausalen Effekt bestimmen können. - Zum Glück gibt es neben Experimenten noch andere Wege, die Hintertür zu schließen, wie die Konfundierungsvariable `a` in eine Regression mit aufzunehmen. - Warum blockt das Kontrollieren von `a`den Pfad `\(b \leftarrow a \rightarrow p\)`? - Stellen Sie sich den Pfad als eigenen Modell vor. - Sobald Sie `a` kennen, bringt Ihnen Kenntnis über `b` kein zusätzliches Wissen über `p`. - Wissen Sie hingegen nichts über `a`, lernen Sie bei Kenntnis von `b` auch etwas über `p`. - Konditionieren ist wie "gegeben, dass Sie `a` schon kennen...". - `\(b \indep p \,|\,a\)` --- ## Die vier Atome der Kausalanalyse <img src="Kapitel_8_chunk-img/unnamed-chunk-75-1.png" width="100%" style="display: block; margin: auto;" /> --- ## Mediation .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-76-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ - Die *Mediation* (Wirkkette, Rohr, Kette) beschreibt Pfade, in der die Kanten gleiche Wirkrichtung haben: `\(x \rightarrow m \rightarrow y\)`. - Ohne Kontrollieren ist der Pfad offen: Die Assoziation "fließt" den Pfad entlang (in beide Richtungen). - Kontrollieren blockt (schließt) die Kette (genau wie bei der Gabel). ] --- ## Der Nachfahre .pull-left[ <img src="Kapitel_8_chunk-img/unnamed-chunk-77-1.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ - Ein *Nachfahre* (descendent) ist eine Variable die von einer anderen Variable beeinflusst wird. - Kontrolliert man einen Nachfahren `d`, so kontrolliert man damit zum Teil den Vorfahren (die Ursache), `m`. - Der Grund ist, dass `d` Information beinhaltet über `m`. - Hier wird das Kontrollieren von `d` den Pfad von `x` nach `y` teilweise öffnen, da `m` eine Kollisionsvariable ist. ] --- ## Kochrezept zur Analyse von DAGs Wie kompliziert ein DAG auch aussehen mag, er ist immer aus diesen vier Atomen aufgebaut. Hier ist ein Rezept, das garantiert, dass Sie welche Variablen Sie kontrollieren sollten und welche nicht: 1. Listen Sie alle Pfade von UV (`X`) zu AV (`Y`) auf. 2. Beurteilen Sie jeden Pfad, ob er gerade geschlossen oder geöffnet ist. 3. Beurteilen Sie für jeden Pfad, ob er ein Hintertürpfad ist (Hintertürpfade haben einen Pfeil, der zur UV führt). 4. Wenn es geöffnete Hinterpfade gibt, prüfen Sie, welche Variablen mann kontrollieren muss, um den Pfad zu schließen (falls möglich). --- ## Schließen Sie die Hintertür (wenn möglich)!, `bsp1` UV: `\(X\)`, AV: `\(Y\)`, drei Covariaten (A, B, C) und ein ungemessene Variable, U <img src="Kapitel_8_chunk-img/unnamed-chunk-78-1.png" width="50%" style="display: block; margin: auto;" /> Es gibt zwei Hintertürpfade: 1. `\(X \leftarrow U \leftarrow A \rightarrow C \rightarrow Y\)`, offen 2. `\(X \leftarrow U \rightarrow B \leftarrow C \rightarrow Y\)`, geschlossen Kontrollieren von `\(A\)` oder (auch) `\(C\)` schließt die offene Hintertür. ([McElreath, 2020](#bib-mcelreath_statistical_2020); [Kurz, 2021](https://bookdown.org/content/4857/)), s.S. 186. --- ## Schließen Sie die Hintertür (wenn möglich)!, `bsp2` UV: `\(W\)`, AV: `\(D\)` <img src="Kapitel_8_chunk-img/unnamed-chunk-79-1.png" width="70%" style="display: block; margin: auto;" /> Kontrollieren Sie diese Variablen, um die offenen Hintertüren zu schließen: - entweder `\(A\)` und `\(M\)` - oder `\(S\)` [Mehr Infos](https://bookdown.org/content/4857/the-haunted-dag-the-causal-terror.html#backdoor-waffles.) ([McElreath, 2020](#bib-mcelreath_statistical_2020); [Kurz, 2021](https://bookdown.org/content/4857/)), s.S. 188. --- ## Implizierte bedingte Unabhängigkeiten von `bsp2` - Ein Graph ohne `U`s ist eine starke - oft zu starke (unrealistisch optimistische) - Annahme. - Auch wenn die Daten nicht sagen können, welcher DAG der richtige ist, können wir zumindest lernen, welcher DAG falsch ist. - Die vom Modell implizierten bedingten Unabhängigkeiten geben uns Möglichkeiten, zu prüfen, ob wir einen DAG verwerfen (ausschließen) können. - Bedingten Unabhängigkeit zwischen zwei Variablen sind Variablen, die nicht assoziiert (also stochastisch unabhängig) sind, wenn wir eine bestimmte Menge an Drittvariablen kontrollieren. - `bsp2` impliziert folgende bedingte Unabhängigkeiten: ``` ## A _||_ W | S ## D _||_ S | A, M, W ## M _||_ W | S ``` --- ## Fazit - Wie (und sogar ob) Sie statistische Ergebnisse (z.B. eines Regressionsmodells) interpretieren können, hängt von der *epistemologischen Zielrichting* der Forschungsfrage ab: - Bei *deskriptiven* Forschungsfragen können die Ergebnisse (z.B. Regressionskoeffizienten) direkt interpretiert werden. Z.B. "Der Unterschied zwischen beiden Gruppen beträgt etwa ...". Allerdings ist eine kausale Interpretation nicht zulässig. - Bei *prognostischen* Fragestellungen spielen die Modellkoeffizienten keine Rolle, stattdessen geht es um vorhergesagten Werte, `\(\hat{y}_i\)`, z.B. auf Basis der PPV. Kausalaussagen sind zwar nicht möglich, aber auch nicht von Interesse. - Bei *kausalen* Forschungsfragen dürfen die Modellkoeffizienten nur auf Basis eines Kausalmodells (DAG) oder eines (gut gemachten) Experiments interpretiert werden. - Modellkoeffizienten ändern sich (oft), wenn man Prädiktoren zum Modell hinzufügt oder wegnimmt. - Entgegen der verbreiteten Annahme ist es falsch, möglichst viele Prädiktoren in das Modell aufzunehmen, wenn das Ziel eine Kausalaussage ist. - Kenntniss der "kausalen Atome" ist Voraussetzung zur Ableitung von Kausalschlüsse in Beobachtungsstudien. --- name: hinweise class: center, middle, inverse # Hinweise --- ## Zu diesem Skript - Dieses Skript bezieht sich auf folgende [Lehrbücher](#literatur): - Regression and other stories - Dieses Skript wurde erstellt am 2021-12-13 10:31:39 - Lizenz: [MIT-Lizenz](https://github.com/sebastiansauer/QM2-Folien/blob/main/LICENSE) - Autor: Sebastian Sauer. - Um diese HTML-Folien korrekt darzustellen, ist eine Internet-Verbindung nötig. - Mit der Taste `?` bekommt man eine Hilfe über Shortcuts. - Wenn Sie die Endung `.html` in der URL mit `.pdf` ersetzen, bekommen Sie die PDF-Version der Datei. - Alternativ können Sie im Browser Chrome die Folien als PDF drucken (klicken Sie auf den entsprechenden Menüpunkt). - Den Quellcode der Skripte finden Sie [hier](https://github.com/sebastiansauer/QM2-Folien/tree/main/Themen). - Eine PDF-Version kann erzeugt werden, indem man im Chrome-Browser die Webseite druckt (Drucken als PDF). --- name: homepage background-image: url(https://raw.githubusercontent.com/sebastiansauer/QM2-Folien/main/img/outro/img8.jpg) background-size: contain background-position: left .pull-right[ </br> </br> </br> </br> </br> </br> .right[ ### [Homepage](https://sebastiansauer.github.io/bayes-start/) ] ] <!-- https://github.com/sebastiansauer/QM2-Folien/blob/main/img/outro/img1.jpg?raw=true --> <!-- ../img/outro/img --> --- name: literatur ## Literatur [Diese](https://sebastiansauer.github.io/QM2-Folien/citations.html) R-Pakete wurden verwendet. .small[ <a name=bib-kurz_statistical_2021></a>[Kurz, A. S.](#cite-kurz_statistical_2021) (2021). _Statistical rethinking with brms, ggplot2, and the tidyverse: Second edition_. <a name=bib-mcelreath_statistical_2020></a>[McElreath, R.](#cite-mcelreath_statistical_2020) (2020). _Statistical rethinking: a Bayesian course with examples in R and Stan_. 2nd ed. CRC texts in statistical science. Taylor and Francis, CRC Press. <a name=bib-messerli_chocolate_2012></a>[Messerli, F. H.](#cite-messerli_chocolate_2012) (2012). "Chocolate Consumption, Cognitive Function, and Nobel Laureates". In: _New England Journal of Medicine_ 367.16, pp. 1562-1564. DOI: [10.1056/NEJMon1211064](https://doi.org/10.1056%2FNEJMon1211064). <a name=bib-pearl_causal_2016></a>[Pearl, J., M. Glymour, and N. P. Jewell](#cite-pearl_causal_2016) (2016). _Causal inference in statistics: a primer_. Wiley. 136 pp. <a name=bib-rohrer_thinking_2018></a>[Rohrer, J. M.](#cite-rohrer_thinking_2018) (2018). "Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data". In: _Advances in Methods and Practices in Psychological Science_ 1.1, pp. 27-42. DOI: [10.1177/2515245917745629](https://doi.org/10.1177%2F2515245917745629). ] ---