library(tidyverse)
library(mosaic)
data(titanic_train, package = "titanic")
titanic_casestudy
string
Aufgabe
Fallstudie
Eine Analystin untersucht die Daten zum Titanic-Unglück.
Zunächst berechnet Sie die Gesamt-Überlebensrate:
tally(Survived ~ 1, data = titanic_train, format = "percent")
1
Survived 1
0 61.61616
1 38.38384
Danach überprüft sie, ob sich die Geschlechter hinsichtlich der Überlebensrate unterscheiden.
mosaicplot(Sex ~ Survived, data = titanic_train)
Als dritten Schritt versucht Sie, die Überlebensrate auf Basis mehrerer Variablen vorherzusagen, dazu verwendet Sie ein lineares (Logit-)Modell.
<- glm(Survived ~ Sex + Age + Fare,
lm_titanic1 data = titanic_train, family = "binomial")
summary(lm_titanic1)
Call:
glm(formula = Survived ~ Sex + Age + Fare, family = "binomial",
data = titanic_train)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.4107 -0.6376 -0.5875 0.7900 2.0342
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.934841 0.239101 3.910 9.24e-05 ***
Sexmale -2.347599 0.189956 -12.359 < 2e-16 ***
Age -0.010570 0.006498 -1.627 0.104
Fare 0.012773 0.002696 4.738 2.16e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 964.52 on 713 degrees of freedom
Residual deviance: 716.07 on 710 degrees of freedom
(177 observations deleted due to missingness)
AIC: 724.07
Number of Fisher Scoring iterations: 5
- Interpretieren Sie das Ergebnis des Mosaicplots!
- Kann man (fundiert) auf Basis dieses Modells sagen, dass das Geschlecht eine Ursache des Überlebens ist? Begründen Sie!
- Welche Variablen eignen sich (laut diesem Modell), um Überleben vorherzusagen?
- Welche Variable ist die wichtigste (laut diesem Modell)?
Lösung
Interpretieren Sie das Ergebnis des Mosaicplots!
- Frauen haben eine deutlich höhere Überlebensrate als Männer.
- Es gibt deutlich mehr Männer als Frauen.
Kann man (fundiert) auf Basis dieses Modells sagen, dass das Geschlecht eine Ursache des Überlebens ist? Begründen Sie!
- Nein.
- Zwar ist Geschlecht mit Überlebens korreliert (bzw. die beiden Variablen sind abhängig), aber das heißt noch nicht (zwingend), dass es eine kausale Beziehung ist. So wie “Störche” und “Babies” nur “scheinkorreliert” sind, könnte hier ebenfalls eine Scheinkorrelation vorliegen.
Welche Variablen eignen sich (laut diesem Modell), um Überleben vorherzusagen?
- Zu diesem Zweck wird mitunter die Signifikanz der Regressiongewichte \(\beta\) herangezogen.
- Hier sind
sex
undfare
signifikant.
Welche Variable ist die wichtigste (laut diesem Modell)?
- Zu diesem Zweck kann der t-Wert herangezogen werden.
- Für
sexMale
ist dieser Wert (im Modell) am größten.
<- "s. text" sol
Categories:
string