library(tidyverse)
library(easystats)
log-y-regression3
stats-nutshell
qm2
regression
log
Exercise
In dieser Aufgabe modellieren wir den (kausalen) Effekt von Schulbildung auf das Einkommen.
Importieren Sie zunächst den Datensatz und verschaffen Sie sich einen Überblick.
<- "https://vincentarelbundock.github.io/Rdatasets/csv/Ecdat/Treatment.csv"
d_path
<- data_read(d_path) d
Dokumentation und Quellenangaben zum Datensatz finden sich hier.
glimpse(d)
Rows: 2,675
Columns: 11
$ rownames <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18…
$ treat <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, T…
$ age <int> 37, 30, 27, 33, 22, 23, 32, 22, 19, 21, 18, 27, 17, 19, 27, 2…
$ educ <int> 11, 12, 11, 8, 9, 12, 11, 16, 9, 13, 8, 10, 7, 10, 13, 10, 12…
$ ethn <chr> "black", "black", "black", "black", "black", "black", "black"…
$ married <lgl> TRUE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE,…
$ re74 <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
$ re75 <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
$ re78 <dbl> 9930.05, 24909.50, 7506.15, 289.79, 4056.49, 0.00, 8472.16, 2…
$ u74 <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, T…
$ u75 <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, T…
Welcher der Prädiktoren hat den stärkesten Einfluss auf das Einkommen?
Hinweise:
- Verwenden Sie
lm
zur Modellierung. - Operationalisieren Sie das Einkommen mit der Variable
re74
. - Gehen Sie von einem kausalen Effekt der Prädiktoren aus.
- Gehen Sie von einem multiplikativen Modell aus (log-y).
- Lassen Sie die Variablen zur Arbeitslosigkeit außen vor.
Answerlist
- treat
- age
- educ
- ethn
- married
Solution
<-
d2 %>%
d filter(re74 > 0) %>%
mutate(re74_log = log(re74)) %>%
standardize(select = c("age", "educ"))
Prüfen, ob das standardisieren funktioniert hat:
%>%
d2 describe_distribution() %>%
display()
Warning: Can't describe variables of class `logical`.
Warning: Can't describe variables of class `logical`.
Warning: Can't describe variables of class `logical`.
Warning: Can't describe variables of class `logical`.
Variable | Mean | SD | IQR | Range | Skewness | Kurtosis | n | n_Missing |
---|---|---|---|---|---|---|---|---|
rownames | 1429.07 | 736.61 | 1294.00 | (95.00, 2675.00) | -0.08 | -1.15 | 2329 | 0 |
age | -2.69e-16 | 1.00 | 1.74 | (-1.65, 2.03) | 0.42 | -1.09 | 2329 | 0 |
educ | 1.33e-16 | 1.00 | 0.99 | (-3.99, 1.61) | -0.47 | 0.43 | 2329 | 0 |
re74 | 20938.28 | 12631.52 | 15086.30 | (17.63, 1.37e+05) | 1.62 | 6.81 | 2329 | 0 |
re75 | 20080.38 | 13123.48 | 15217.70 | (0.00, 1.57e+05) | 1.58 | 7.85 | 2329 | 0 |
re78 | 22508.65 | 14917.30 | 16846.10 | (0.00, 1.21e+05) | 1.28 | 4.12 | 2329 | 0 |
re74_log | 9.73 | 0.76 | 0.80 | (2.87, 11.83) | -1.67 | 6.01 | 2329 | 0 |
<- lm(re74_log ~ educ + treat + age + ethn + married, data = d2) m
Parameter des Modells:
Parameter | Coefficient | SE | 95% CI | t(2322) | p |
---|---|---|---|---|---|
(Intercept) | 9.29 | 0.04 | (9.20, 9.37) | 223.32 | < .001 |
educ | 0.23 | 0.01 | (0.20, 0.26) | 16.03 | < .001 |
treatTRUE | -0.66 | 0.09 | (-0.84, -0.47) | -7.06 | < .001 |
age | 0.22 | 0.01 | (0.19, 0.25) | 15.79 | < .001 |
ethn (hispanic) | 0.22 | 0.08 | (0.07, 0.38) | 2.90 | 0.004 |
ethn (other) | 0.22 | 0.03 | (0.16, 0.29) | 6.78 | < .001 |
marriedTRUE | 0.35 | 0.04 | (0.28, 0.43) | 8.93 | < .001 |
Answerlist
- TRUE
- FALSE
- FALSE
- FALSE
- FALSE
Categories:
- stats-nutshell
- qm2
- regression
- log