log-y-regression3

stats-nutshell
qm2
regression
log
Published

September 4, 2022

Exercise

library(tidyverse)
library(easystats)

In dieser Aufgabe modellieren wir den (kausalen) Effekt von Schulbildung auf das Einkommen.

Importieren Sie zunächst den Datensatz und verschaffen Sie sich einen Überblick.

d_path <- "https://vincentarelbundock.github.io/Rdatasets/csv/Ecdat/Treatment.csv"

d <- data_read(d_path)

Dokumentation und Quellenangaben zum Datensatz finden sich hier.

glimpse(d)
Rows: 2,675
Columns: 11
$ rownames <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18…
$ treat    <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, T…
$ age      <int> 37, 30, 27, 33, 22, 23, 32, 22, 19, 21, 18, 27, 17, 19, 27, 2…
$ educ     <int> 11, 12, 11, 8, 9, 12, 11, 16, 9, 13, 8, 10, 7, 10, 13, 10, 12…
$ ethn     <chr> "black", "black", "black", "black", "black", "black", "black"…
$ married  <lgl> TRUE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE,…
$ re74     <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
$ re75     <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
$ re78     <dbl> 9930.05, 24909.50, 7506.15, 289.79, 4056.49, 0.00, 8472.16, 2…
$ u74      <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, T…
$ u75      <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, T…

Welcher der Prädiktoren hat den stärkesten Einfluss auf das Einkommen?

Hinweise:

  • Verwenden Sie lm zur Modellierung.
  • Operationalisieren Sie das Einkommen mit der Variable re74.
  • Gehen Sie von einem kausalen Effekt der Prädiktoren aus.
  • Gehen Sie von einem multiplikativen Modell aus (log-y).
  • Lassen Sie die Variablen zur Arbeitslosigkeit außen vor.

Answerlist

  • treat
  • age
  • educ
  • ethn
  • married











Solution

d2 <-
  d %>% 
  filter(re74 > 0) %>% 
  mutate(re74_log = log(re74)) %>% 
  standardize(select = c("age", "educ"))

Prüfen, ob das standardisieren funktioniert hat:

d2 %>% 
  describe_distribution() %>% 
  display()
Warning: Can't describe variables of class `logical`.

Warning: Can't describe variables of class `logical`.

Warning: Can't describe variables of class `logical`.

Warning: Can't describe variables of class `logical`.
Variable Mean SD IQR Range Skewness Kurtosis n n_Missing
rownames 1429.07 736.61 1294.00 (95.00, 2675.00) -0.08 -1.15 2329 0
age -2.69e-16 1.00 1.74 (-1.65, 2.03) 0.42 -1.09 2329 0
educ 1.33e-16 1.00 0.99 (-3.99, 1.61) -0.47 0.43 2329 0
re74 20938.28 12631.52 15086.30 (17.63, 1.37e+05) 1.62 6.81 2329 0
re75 20080.38 13123.48 15217.70 (0.00, 1.57e+05) 1.58 7.85 2329 0
re78 22508.65 14917.30 16846.10 (0.00, 1.21e+05) 1.28 4.12 2329 0
re74_log 9.73 0.76 0.80 (2.87, 11.83) -1.67 6.01 2329 0
m <- lm(re74_log ~ educ + treat + age + ethn + married, data = d2)

Parameter des Modells:

Parameter Coefficient SE 95% CI t(2322) p
(Intercept) 9.29 0.04 (9.20, 9.37) 223.32 < .001
educ 0.23 0.01 (0.20, 0.26) 16.03 < .001
treatTRUE -0.66 0.09 (-0.84, -0.47) -7.06 < .001
age 0.22 0.01 (0.19, 0.25) 15.79 < .001
ethn (hispanic) 0.22 0.08 (0.07, 0.38) 2.90 0.004
ethn (other) 0.22 0.03 (0.16, 0.29) 6.78 < .001
marriedTRUE 0.35 0.04 (0.28, 0.43) 8.93 < .001

Answerlist

  • TRUE
  • FALSE
  • FALSE
  • FALSE
  • FALSE

Categories:

  • stats-nutshell
  • qm2
  • regression
  • log