Lösungen zu den Aufgaben

  1. Aufgabe

    Im Hinblick auf die lineare Regression: Welche der folgenden Aussage passt am besten?


    1. Die einfache Regression - y=α+β1x1+ϵy=\alpha + \beta_1x_1 + \epsilon - prüft, inwieweit zwei Variablen zusammenhängen (linear oder anderweitig).
    2. Obwohl statistische Zusammenhänge nicht ohne Weiteres Kausalschlüsse erlauben, kann man die Regression für Vorhersagen gut nutzen.
    3. Regressionskoeffizienten kann man so interpretieren: “Erhöht man X um eine 1 Einheit, so steigt daraufhin Y um β1\beta_1 Einheiten” (β1\beta_1 sei der entsprechende Regressionskoeffizient).
    4. “Lineare Regression” bedeutet, dass z.B. keine Polynome wie y=α+β1x12+β2x1+ϵy= \alpha + \beta_1 x_1^2 + \beta_2 x_1 + \epsilon berechnet werden dürfen, bzw. nicht zur linearen Regression zählen.
    5. Zentrieren der Prädiktoren ist bei der linearen Regression nicht zulässig.

    Lösung

    1. Falsch. Die lineare Regression y=α+β1x1+ϵy=\alpha + \beta_1x_1 + \epsilon untersucht, wie die Korrelation, den Grad des linearen Zusammenhangs. Allerdings sind auch nicht-lineare Zusammenhänge von yy und den Prädiktoren erlaubt, etwa y=α+β1x12+β2x2+ϵy=\alpha + \beta_1x_1^2 + \beta_2x_2 + \epsilon. Linear ist dabei so zu verstehen, dass yy eine additive Funktion der Prädiktoren ist. Vielleicht wäre es daher besser, anstelle von “linearen” Modellen von “additiven” Modellen zu sprechen.
    2. Richtig. Für Vorhersagen ist Kenntnis einer Kausalstruktur nicht unbedingt nötig, kann aber sehr hilfreich sein.
    3. Falsch. Diese Interpretation suggeriert einen Kausaleffekt. Besser ist die Interpretation “Vergleicht man zwei Beobachtungen, die sich um 1 Einheit in X unterscheiden, so findet man im Durchschnitt einen Unterschied von β1\beta_1 in Y”.
    4. Falsch.Die Gleichung y=α+β1x12+β2x2+ϵy= \alpha + \beta_1 x_1^2 + \beta_2 x_2 + \epsilon ist linear in ihren Summanden.
    5. Falsch. Zentrieren der Prädiktoren ist bei der linearen Regression zulässig und oft sinnvoll.

  2. Aufgabe

    Welche Aussage zur multiplen Regression ist korrekt?


    1. Es sind mehrere Prädiktoren erlaubt, genau dann wenn diese metrisch kontinuierlich sind.
    2. Es sind mehrere Prädiktoren erlaubt, genau dann wenn diese metrisch stetig sind.
    3. Es sind mehrere Prädiktoren erlaubt, genau dann wenn diese nicht metrisch kontinuierlich sind.
    4. Es sind mehrere Prädiktoren erlaubt, genau dann wenn diese nicht metrisch kontinuierlich sind.
    5. Keine der genannten.

    Lösung

    Keine der genannten. In der multiplen Regression sind jegliche Skalenniveaus bei den Prädiktoren möglich. “Hinter den Kulissen” werden aber nominale Prädiktoren in metrische umgewandelt.


    1. Falsch
    2. Falsch
    3. Falsch
    4. Falsch
    5. Wahr

  3. Aufgabe

    Wir betrachten einen Datensatz, der Kredite analysiert. Hier ist ein Auszug:

    library(openintro)
    data("loans_full_schema")
    Rows: 1,292
    Columns: 10
    $ emp_title                 <chr> "security supervisor "…
    $ emp_length                <dbl> 10, 10, 1, 9, 10, 10, …
    $ state                     <fct> CA, MI, NV, AR, NJ, GA…
    $ homeownership             <fct> RENT, MORTGAGE, MORTGA…
    $ annual_income             <dbl> 35000, 35000, 42000, 5…
    $ verified_income           <fct> Verified, Source Verif…
    $ debt_to_income            <dbl> 57.96, 23.66, 32.00, 3…
    $ annual_income_joint       <dbl> 57000, 155000, 95000, …
    $ verification_income_joint <fct> Verified, Not Verified…
    $ debt_to_income_joint      <dbl> 37.66, 13.12, 16.12, 2…

    Quelle

    Eine Analystin möchte den Zinssatz (interest_rate) auf Basis dieses Datensatzes vorhersagen.

    Welche der oben gezeigten Variablen muss in der Regression nicht in Indikatorvariablen umgewandelt werden?


    1. emp_title
    2. state
    3. annual_income
    4. verified_income
    5. verification_income_joint

    Lösung

    annual_income muss nicht in eine Indikatorvariable umgewandelt werden, da es eine numerische Variable ist.


    1. Falsch
    2. Falsch
    3. Wahr
    4. Falsch
    5. Falsch

  4. Aufgabe

    Wir betrachten einen Datensatz, der Kredite analysiert:

    library(openintro)
    data("loans_full_schema")

    Quelle

    Eine Analystin möchte den Zinssatz (interest_rate) auf Basis dieses Datensatzes vorhersagen.

    Welche der Variablen vom Typ factor im Datensatz hat genau zwei Stufen (d.h. verschiedene Werte)?


    1. state
    2. homeownership
    3. loan_purpose
    4. application_type
    5. loan_status

    Lösung

    application_type

    Hier ist eine Auflistung der Anzahl der Stufen aller Faktor-Variablen des Datensatzes:

    ## $state
    ## [1] 50
    ## 
    ## $homeownership
    ## [1] 3
    ## 
    ## $verified_income
    ## [1] 3
    ## 
    ## $verification_income_joint
    ## [1] 4
    ## 
    ## $loan_purpose
    ## [1] 12
    ## 
    ## $application_type
    ## [1] 2
    ## 
    ## $grade
    ## [1] 7
    ## 
    ## $sub_grade
    ## [1] 32
    ## 
    ## $issue_month
    ## [1] 3
    ## 
    ## $loan_status
    ## [1] 6
    ## 
    ## $initial_listing_status
    ## [1] 2
    ## 
    ## $disbursement_method
    ## [1] 2

    1. Falsch
    2. Falsch
    3. Falsch
    4. Wahr
    5. Falsch

  5. Aufgabe

    Wir betrachten einen Datensatz, der Kredite analysiert:

    library(openintro)
    data("loans_full_schema")

    Quelle

    Eine Analystin möchte den Zinssatz (interest_rate) auf Basis dieses Datensatzes vorhersagen.

    Sie berechnet folgendes Regressionsmodell:

    R=β0+β1I+β2TR = \beta_0 + \beta_1 I + \beta_2 T

    Hier steht RR für interest_rate, II für annual_income und TT für application_type.

    Wie lautet der R-Befehl, um diese Regression zu berechnen?


    1. lm(interest_rate ~ annual_income + application_type)
    2. lm(interest_rate ~ annual_income + application_type, data = loans_full_schema)
    3. lm(R ~ I + T, data = loans_full_schema)
    4. lm(interest_rate ~ beta0 + beta1 * annual_income + beta2* application_type, data = loans_full_schema)
    5. lm(interest_rate ~ beta0 + beta1 * I + beta2* T, data = loans_full_schema)

    Lösung

    Der korrekte R-Befehl lautet:

    lm(interest_rate ~ annual_income + application_type, data = loans_full_schema)

    1. Falsch
    2. Wahr
    3. Falsch
    4. Falsch
    5. Falsch

  6. Aufgabe

    Wir betrachten einen Datensatz, der Kredite analysiert:

    library(openintro)
    data("loans_full_schema")

    Quelle

    Hier ist ein Überblick über den Datensatz:

    ## tibble [10,000 × 3] (S3: tbl_df/tbl/data.frame)
    ##  $ interest_rate   : num [1:10000] 14.07 12.61 17.09 6.72 14.07 ...
    ##  $ annual_income   : num [1:10000] 90000 40000 40000 30000 35000 34000 35000 110000 65000 30000 ...
    ##  $ application_type: Factor w/ 2 levels "individual","joint": 1 1 1 1 2 1 2 1 1 1 ...

    Eine Analystin möchte den Zinssatz (interest_rate) auf Basis dieses Datensatzes vorhersagen.

    Sie berechnet folgendes Regressionsmodell:

    lm1 <- lm(interest_rate ~ annual_income + application_type, data = loans_full_schema)

    Folgende Ergebnisse bekommt Sie zurück geliefert:

    term estimate std_error
    intercept 12.90 0.083
    annual_income 0.00 0.000
    application_type: joint 0.71 0.140


    Welche Aussage ist korrekt?


    1. Estimate liefert eine Schätzung zur Modellgüte.
    2. Das Verhältnis von Signal zu Rauschen für application_typejoint ist kleiner als 1.
    3. Es liegt ein Fehler vor, denn application_typejoint hat neben joint noch eine weitere Stufe (individual), diese ist aber nicht aufgeführt.
    4. Der Wert bei Intercept gibt den Wert der abhängigen Variable an, bei Fällen mit dem Wert individual bei application_type und ohne Jahreseinkommen.
    5. Der Wert bei Intercept gibt den Wert der abhängigen Variable an, bei Fällen mit dem Wert joint bei application_type und ohne Jahreseinkommen.

    Lösung

    Der Wert bei Intercept gibt den Wert der abhängigen Variable an, bei Fällen mit dem Wert individual bei application_type und ohne Jahreseinkommen.

    predict(lm1, newdata = data.frame(annual_income = 0,
                                      application_type = "individual"))
    ##  1 
    ## 13

    1. Falsch
    2. Falsch
    3. Falsch
    4. Wahr
    5. Falsch

  7. Aufgabe

    Wir betrachten einen Datensatz, der Kredite analysiert:

    library(openintro)
    data("loans_full_schema")

    Quelle

    Eine Analystin möchte den Zinssatz (interest_rate) auf Basis dieses Datensatzes vorhersagen.

    Sie berechnet folgendes Regressionsmodell (auf einem Teil des Datensatzes):

    lm1 <- lm(interest_rate ~ annual_income + application_type, data = loans_full_schema)

    Grafisch aufbereitet, sieht ihr Ergebnis so aus:

    Welche Aussage ist korrekt?


    1. Für beide Gruppen von application_type (individual und joint) ist die Steigung der Regressionsgerade (annähernd) gleich.
    2. Einkommen wurde logarithmiert; das ist keine sinnvolle Transformation im Allgemeinen.
    3. In diesem Modell gibt es zwei Variablen: Zinssatz und logarithmiertes Einkommen.
    4. In diesem Modell gibt es drei Variablen: Zinssatz, Einkommen und logarithmiertes Einkommen.
    5. In diesem Modell gibt es vier Variablen: Zinssatz, Einkommen, application_type individual und application_type joint.

    Lösung

    Für beide Gruppen von application_type (individual und joint) ist die Steigung der Regressionsgerade (annähernd) gleich.

    Das Diagramm wurde mit dieser Syntax erzeugt:

    library(tidyverse)
    library(moderndive)
    library(mosaic)
    data("loans_full_schema")
    
    set.seed(42)
    loans_full_schema %>% 
        sample_n(1000) %>% 
        filter(annual_income > 10) %>% 
        mutate(income_log = log(annual_income)) %>% 
        ggplot() +
        aes(x = income_log, y = interest_rate, 
            color = application_type) +
        geom_point(alpha = .3) +
        geom_parallel_slopes()

    1. Wahr
    2. Falsch
    3. Falsch
    4. Falsch
    5. Falsch

  8. Aufgabe

    Wählen Sie das Diagramm, in dem kein Interaktionseffekt (in der Population) vorhanden ist (bzw. wählen Sie Diagramm, dass dies am ehesten darstellt).


    1. Diagramm A
    2. Diagramm B
    3. Diagramm C
    4. Diagramm D
    5. Diagramm E

    Lösung

    Das Streudiagramm Diagramm E zeigt keinen Interaktionseffekt.


    1. Falsch
    2. Falsch
    3. Falsch
    4. Falsch
    5. Wahr

  9. Aufgabe

    Die Korrelation prüft, ob zwei Merkmale linear zusammenhängen.

    Wie viele andere Verfahren kann die Korrelation als ein Spezialfall der Regression bzw. des linearen Modells y=β0+β1+βn+ϵy = \beta_0 + \beta_1 + \ldots \beta_n + \epsilon betrachtet werden.

    Als ein spezielles Beispiel betrachten wir die Frage, ob das Gewicht eines Diamanten (carat) mit dem Preis (price) zusammenhängt (Datensatz diamonds).

    Den Datensatz können Sie so laden:

    library(tidyverse)
    data(diamonds)
    1. Geben Sie das Skalenniveau beider Variablen an!

    2. Betrachten Sie die Ausgabe von R:

    lm1 <- lm(price ~ carat, data = diamonds)
    summary(lm1)
    ## 
    ## Call:
    ## lm(formula = price ~ carat, data = diamonds)
    ## 
    ## Residuals:
    ##    Min     1Q Median     3Q    Max 
    ## -18585   -805    -19    537  12732 
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)  -2256.4       13.1    -173   <2e-16 ***
    ## carat         7756.4       14.1     551   <2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 1550 on 53938 degrees of freedom
    ## Multiple R-squared:  0.849,  Adjusted R-squared:  0.849 
    ## F-statistic: 3.04e+05 on 1 and 53938 DF,  p-value: <2e-16

    Wie (bzw. wo) ist aus dieser Ausgabe die Korrelation herauszulesen?

    1. Macht es einen Unterschied, ob man Preis mit Karat bzw. Karat mit Preis korreliert?

    2. In der klassischen Inferenzstatistik ist der pp-Wert eine zentrale Größe; ist er klein (p<.05p<.05) so nennt man die zugehörige Statistik signifikant und verwirft die getestete Hypothese.

    3. Im Folgenden sehen Sie einen Korrelationstest auf statistische Signifikanz, mit R durchgeführt. Zeigt der Test ein (statistisch) signifikantes Ergebnis? Wie groß ist der “Unsicherheitskorridor”, um den Korrelationswert (zugleich Punktschätzer für den Populationswert)?

    library(rstatix)
    diamonds %>% 
      sample_n(30) %>% 
      select(price, carat) %>% 
      rstatix::cor_test() %>% 
      gt()
    var1 var2 cor statistic p conf.low conf.high method
    price carat 0.84 8.3 5.6e-09 0.69 0.92 Pearson

    Lösung

    1. carat ist metrisch (verhältnisskaliert) und price ist metrisch (verhältnisskaliert)

    2. R2R^2 kann bei einer einfachen (univariaten) Regression als das Quadrat von rr berechnet werden. Daher r=R2r = \sqrt{R^2}.

    sqrt(0.8493)
    ## [1] 0.92

    Zum Vergleich

    diamonds %>% 
      summarise(r = cor(price, carat))
    r
    0.92

    Man kann den Wert der Korrelation auch noch anderweitig berechnen (β\beta umrechnen in ρ\rho).

    1. Nein. Die Korrelation ist eine symmetrische Relation.

    2. Ja; die Zahl “3.81e-14” bezeichnet eine positive Zahl kleiner eins mit 13 Nullern vor der ersten Ziffer, die nicht Null ist (3.81 in diesem Fall). Der “Unsicherheitskorridor” reicht von etwa 0.87 bis 0.97.


  10. Aufgabe

    Laden Sie den Datensatz mtcars aus dieser Quelle.

    Berechnen Sie eine Regression mit mpg als Ausgabevariable und hp aus Eingabevariable!

    Welche Aussage ist für diese Analyse richtig?


    1. mpg und hp sind positiv korreliert laut dem Modell.
    2. Der Achsenabschnitt ist nahe Null.
    3. Die Analyse beinhaltet einen nominal skalierten Prädiktor.
    4. Das geschätzte Betagewicht für hp liegt bei 30.099.
    5. Das geschätzte Betagewicht für hp liegt bei -0.068.

    Lösung

    Das geschätzte Betagewicht für hp liegt bei -0.068.

    Die Analyse könnte so aussehen:

    library(tidyverse)
    library(moderndive)
    mtcars <- read_csv("https://vincentarelbundock.github.io/Rdatasets/csv/datasets/mtcars.csv")
    ## New names:
    ## Rows: 32 Columns: 12
    ## ── Column specification
    ## ──────────────────────────────────────────────────────── Delimiter: "," chr
    ## (1): ...1 dbl (11): mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb
    ## ℹ Use `spec()` to retrieve the full column specification for this data. ℹ
    ## Specify the column types or set `show_col_types = FALSE` to quiet this message.
    ## • `` -> `...1`
    lm1 <- lm (mpg ~ hp, data = mtcars)
    
    get_regression_table(lm1) 
    term estimate std_error statistic p_value lower_ci upper_ci
    intercept 30.10 1.63 18.4 0 26.76 33.44
    hp -0.07 0.01 -6.7 0 -0.09 -0.05

    1. Falsch
    2. Falsch
    3. Falsch
    4. Falsch
    5. Richtig

  11. Aufgabe

    Ist es möglich, kategorial skalierte Prädiktoren in eine Regressionsanalyse (lineare Modell) aufzunehmen?


    1. Ja
    2. Nein
    3. Nur nominal skalierte, nicht ordinal skalierte
    4. Nur ordinal skalierte, nicht nominal skalierte
    5. Ja, aber nur eine

    Lösung

    Ja; diese werden aber in Dummy-Variablen umgerechnet (also in zweistufige Variablen mit den Stufen 0 und 1), bevor die Regression berechnet wird.


    1. Wahr
    2. Falsch
    3. Falsch
    4. Falsch
    5. Falsch

  12. Aufgabe

    Betrachten wir folgende Regressionsmodell:

    y=α+β1x+ϵy= \alpha + \beta_1 x + \epsilon

    Geben Sie eine mathematische Formel an zur Zentrierung der Prädiktoren bzw. des Prädiktors!

    Hinweise: - Geben Sie nur eine Formel ein, keinen Text, keine Leerzeichen und keine Sonderzeichen. - Verwenden Sie das Suffix “_c”, um eine zentrierte Variable zu benennen. - Auf Funktionen wie den Mittelwert dürfen Sie zurückgreifen. Um den Mittelwert der Variablen var zu spezifizieren, kennzeichnen Sie dies mit mw(var). - Verzichten Sie auf ein Malzeichen bei Multiplikationen. - Beispiel: “y_c = 2 mw(x) - 1”.


    Lösung

    x_c=x-mw(x)


  13. Aufgabe

    Zwei Modelle, m1 und m2 produzieren jeweils die gleiche Vorhersage (den gleichen Punktschätzer).

    m1:

    ## 
    ## Call:
    ## lm(formula = y ~ x)
    ## 
    ## Residuals:
    ##     Min      1Q  Median      3Q     Max 
    ## -0.2124 -0.0581 -0.0011  0.0651  0.3414 
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept) 0.000201   0.009498    0.02     0.98    
    ## x           0.994614   0.009127  108.97   <2e-16 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 0.093 on 98 degrees of freedom
    ## Multiple R-squared:  0.992,  Adjusted R-squared:  0.992 
    ## F-statistic: 1.19e+04 on 1 and 98 DF,  p-value: <2e-16

    m2:

    ## 
    ## Call:
    ## lm(formula = y ~ x)
    ## 
    ## Residuals:
    ##    Min     1Q Median     3Q    Max 
    ## -2.506 -0.687  0.002  0.716  2.632 
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value Pr(>|t|)    
    ## (Intercept)   0.0283     0.1060    0.27     0.79    
    ## x             0.8585     0.0990    8.67  9.1e-14 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 1.1 on 98 degrees of freedom
    ## Multiple R-squared:  0.434,  Adjusted R-squared:  0.429 
    ## F-statistic: 75.2 on 1 and 98 DF,  p-value: 9.07e-14

    Die Modelle unterscheiden sich aber in ihrer Ungewissheit bezüglich β\beta, wie in der Spalte Std. Error ausgedrückt.

    Welches der beiden Modelle ist zu bevorzugen? Begründen Sie.


    Lösung

    Modell m1 hat eine kleinere Ungewissheit im Hinblick auf die Modellkoeffizienten β0,β1\beta_0, \beta_1 und ist daher gegenüber m2 zu bevorzugen.


  14. Aufgabe

    Ein Streudiagramm von xx und yy ergibt folgende Abbildung; dabei wird noch die Gruppierungsvariable gg (mit den Stufen 0 und 1) berücksichtigt (vgl. Farbe und Form der Punkte). Zur besseren Orientierung ist die Regressionsgerade pro Gruppe eingezeichnet.

    Wählen Sie das (für die Population) am besten passende Modell aus der Liste aus!

    Hinweis: Ein Interaktionseffekt der Variablen xx und gg ist mit xgxg gekennzeichnet.


    1. y=40+10x+40g+10xg+ϵy = -40 + -10\cdot x + 40 \cdot g + -10 \cdot xg + \epsilon
    2. y=40+10x+0g+10xg+ϵy = -40 + 10\cdot x + 0 \cdot g + 10 \cdot xg + \epsilon
    3. y=40+10x+0g+10xg+ϵy = 40 + -10\cdot x + 0 \cdot g + 10 \cdot xg + \epsilon
    4. y=40+10x+40g+0xg+ϵy = -40 + 10\cdot x + -40 \cdot g + 0 \cdot xg + \epsilon

    Lösung

    Das dargestellte Modell lautet y=40+10x+40g+0xg+ϵy = -40 + 10\cdot x + -40 \cdot g + 0 \cdot xg + \epsilon. Der Modellfehler ϵ\epsilon hat den Anteil 0.30.3 im Vergleich zur Streuung von yy.


    1. Falsch
    2. Falsch
    3. Falsch
    4. Richtig

  15. Aufgabe

    Berechnen Sie ŷ\hat{y} für das unten ausgegeben Modell!

    Nutzen Sie dafür folgende Werte:

    term estimate std_error statistic p_value lower_ci upper_ci
    intercept -34.5 4.76 -7.2 0 -44.0 -25
    x 10.6 0.88 12.1 0 8.9 12
    g -35.4 6.60 -5.4 0 -48.6 -22
    x:g 8.9 1.16 7.6 0 6.5 11

    Hinweis: Ein Interaktionseffekt der Variablen xx und gg ist mit x:g gekennzeichnet. Runden Sie zur nächsten ganzen Zahl.


    Lösung

    ŷ\hat{y} beträgt im Fall der vorliegenden Parameter und dem vorliegenden Modell 88.


  16. Aufgabe

    Gegeben sei ein Datensatz mit fünf Prädiktoren, wobei Studierende die Beobachtungseinheit darstellen:

    Die vorherzusagende Variable (YY; Kriterium) ist Gehalt nach Studienabschluss.

    Wie lautet das Kriterium yy für eine Person mit folgenden Werten:

    Berechnen Sie dazu ein Regressionsmodell (Least Squares) anhand folgender Modellparameter:

    Geben Sie als Antwort den vorhergesagten YY-Wert an!

    Hinweis: Runden Sie auf zwei Dezimalstellen.


    Lösung

    Die Antwort lautet 52.98.


  17. Aufgabe

    Die beiden folgenden Abbildungen zeigen zwei lineare Regressionen.

    Welche Aussage stimmt?


    1. RA2<RB2R^2_A < R^2_B
    2. RA2RB2R^2_A \approx R^2_B
    3. RA2>RB2R^2_A > R^2_B

    Lösung

    Je enger die Punkte um die Gerade streuen, desto größer ist R2R^2.


    1. Richtig
    2. Falsch
    3. Falsch