kausal-bedrooms1

dag
causal
Published

December 19, 2022

Exercise

Betrachten wir den Datensatz SaratogaHouses, den Sie hier herunterladen können. Ein Codebook findet sich hier.

Sie kommen auch so an die Daten ran:

library(mosaicData)
data("SaratogaHouses")

Gegeben sei in diesem Zusammenhang folgender DAG:

dag1 <- "
dag{
a -> p
a -> b -> p
}
"

Wobei a für (living) area steht, also der Wohnfläche eines Hauses, b für bedrooms, der Anzahl der Schlafzimmer und p für prize, den Preis, den das Haus beim Verkauf erzielt hat.

So sieht das dann aus:

ggdag(dag1) + theme_dag()

UV sei a; AV sei p.

  1. Berechnen Sie den direkten Effekt der Wohnfläche auf den Preis!
  2. Berechnen Sie den totalen Effekt der Wohnfläche auf den Preis!

Mit direkter Effekt ist der kausale Effekt von UV auf AV - ohne Zwischenglieder (Mediatoren) - gemeint. Mit indirekter Effekt ist der kausale Effekt von UV über einen (oder ggf. mehrere) Mediator(en) auf die AV gemeint. Mit totaler Effekt ist die Summe des direkten plus des oder der indirekten Effekte gemeint.

Das folgende Diagramm verdeutlicht diese drei Arten von Kausal-Effekten.

(CC-BY-SA, 3275Sartell, Wikipedia)

Hinweise:

  • Geben Sie jeweils den Punktschätzer eines linearen Regressionsmodells an!
  • Gehen Sie vom oben genannten DAG aus.
  • Runden Sie ohne Dezimalstellen.











Solution

d <-
  SaratogaHouses %>% 
  select(price, bedrooms, livingArea) %>% 
  drop_na()
  1. direkter Effekt:
direkter_eff_lm <-
  stan_glm(price ~ bedrooms + livingArea, 
           data = d,
           refresh = 0)
coef(direkter_eff_lm)
(Intercept)    bedrooms  livingArea 
 36657.2918 -14205.7482    125.3559 

Um einen direkten Effekt zu berechnen, müssen wir den spezifischen, uniquen Effekt der UV berechnen. Das erreichen wir durch eine multiple Regression, in der also die übrigen Prädiktoren aufgenommen sind. Das Resultat ist ein Koeffizient für die Assoziation der UV mit der AV, bereinigt um die Zusammenhänge der übrigen Prädiktoren.

Zur Erinnerung: Die multiple Regression liefert Koeffizienten pro Prädiktor, die bereinigt sind um den (statistischen) Einfluss der anderen Prädiktoren, mit anderne Worten: die Koeffizienten der multiplen Regression zeigen den Effekt von “nur diesem Prädiktor”.

Der Punktschätzer für den direkten Effekt (von Wohnfläche) ist:

direkter_eff <-
  coef(direkter_eff_lm)[3] %>% 
  round(0)

direkter_eff
livingArea 
       125 
  1. totaler Effekt:
(Intercept)  livingArea 
 13504.9835    113.0787 

Der totale Effekt lässt sich berechnen, in dem man keine weiteren Prädiktoren neben der UV in die Regression mitaufnimmt. Die einfache (univariate) Regression zeigt den totalen Effekt der UV auf die AV.

Der Punktschätzer für den totalen Effekt beträgt:

livingArea 
       113 

Categories:

  • dag
  • causal