titanic_casestudy

string
Published

May 17, 2023

Aufgabe

Fallstudie

Eine Analystin untersucht die Daten zum Titanic-Unglück.

library(tidyverse)
library(mosaic)
data(titanic_train, package = "titanic")

Zunächst berechnet Sie die Gesamt-Überlebensrate:

tally(Survived ~ 1, data = titanic_train, format = "percent")
        1
Survived        1
       0 61.61616
       1 38.38384

Danach überprüft sie, ob sich die Geschlechter hinsichtlich der Überlebensrate unterscheiden.

mosaicplot(Sex ~ Survived, data = titanic_train)

Als dritten Schritt versucht Sie, die Überlebensrate auf Basis mehrerer Variablen vorherzusagen, dazu verwendet Sie ein lineares (Logit-)Modell.

lm_titanic1 <- glm(Survived ~ Sex + Age + Fare, 
                   data = titanic_train, family = "binomial")

summary(lm_titanic1)

Call:
glm(formula = Survived ~ Sex + Age + Fare, family = "binomial", 
    data = titanic_train)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.4107  -0.6376  -0.5875   0.7900   2.0342  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.934841   0.239101   3.910 9.24e-05 ***
Sexmale     -2.347599   0.189956 -12.359  < 2e-16 ***
Age         -0.010570   0.006498  -1.627    0.104    
Fare         0.012773   0.002696   4.738 2.16e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 964.52  on 713  degrees of freedom
Residual deviance: 716.07  on 710  degrees of freedom
  (177 observations deleted due to missingness)
AIC: 724.07

Number of Fisher Scoring iterations: 5
  1. Interpretieren Sie das Ergebnis des Mosaicplots!
  2. Kann man (fundiert) auf Basis dieses Modells sagen, dass das Geschlecht eine Ursache des Überlebens ist? Begründen Sie!
  3. Welche Variablen eignen sich (laut diesem Modell), um Überleben vorherzusagen?
  4. Welche Variable ist die wichtigste (laut diesem Modell)?











Lösung

Interpretieren Sie das Ergebnis des Mosaicplots!

  • Frauen haben eine deutlich höhere Überlebensrate als Männer.
  • Es gibt deutlich mehr Männer als Frauen.

Kann man (fundiert) auf Basis dieses Modells sagen, dass das Geschlecht eine Ursache des Überlebens ist? Begründen Sie!

  • Nein.
  • Zwar ist Geschlecht mit Überlebens korreliert (bzw. die beiden Variablen sind abhängig), aber das heißt noch nicht (zwingend), dass es eine kausale Beziehung ist. So wie “Störche” und “Babies” nur “scheinkorreliert” sind, könnte hier ebenfalls eine Scheinkorrelation vorliegen.

Welche Variablen eignen sich (laut diesem Modell), um Überleben vorherzusagen?

  • Zu diesem Zweck wird mitunter die Signifikanz der Regressiongewichte \(\beta\) herangezogen.
  • Hier sind sex und fare signifikant.

Welche Variable ist die wichtigste (laut diesem Modell)?

  • Zu diesem Zweck kann der t-Wert herangezogen werden.
  • Für sexMale ist dieser Wert (im Modell) am größten.
sol <- "s. text"

Categories:

string