Anhang C — Probeklausur

Schlüsselwörter

Statistik, Prognose, Modellierung, R, Datenanalyse, Regression

Siehe diese Prüfungshinweise und alle weiteren Hinweise.

Sie vergleichen zwei Datensätze, die identische Mittelwerte und Standardabweichungen aufweisen. Das Streudiagramm zeigt jedoch beim ersten Datensatz eine Wolke und beim zweiten eine Dinosaurier-Form. Welche Erkenntnis aus Anscombes Quartett lässt sich hier anwenden? Betrachten Sie die Grenzen rein numerischer Kennzahlen.

Anscombes Quartett und der „Datasaurus“ zeigen, dass völlig unterschiedliche Datenstrukturen dieselben Kennwerte haben können. Nur eine Visualisierung macht diese Unterschiede sichtbar.

  • Richtig
  • Falsch
  • Falsch
  • Falsch
  • Falsch

Sie arbeiten mit einem Datensatz über Kunden. Die Variable geschlecht ist nominalskaliert. Was ist die sinnvollste Operation, wenn Sie wissen wollen, wie viele Männer und Frauen im Datensatz sind?

Bei nominalen Daten ist das Zählen der Häufigkeiten die Standardoperation. count() ist dafür die effizienteste Funktion.

  • Falsch
  • Falsch
  • Falsch
  • Richtig
  • Falsch

Sie erstellen einen Vektor mit folgendem Befehl: test_vektor <- c(1, "2", 3). Was passiert, wenn Sie versuchen, den Mittelwert mit mean(test_vektor) zu berechnen?

In R müssen alle Elemente eines Vektors denselben Typ haben. Wenn Text (“2”) enthalten ist, werden auch die Zahlen als Text gespeichert. Arithmetische Funktionen wie mean() können auf Text-Vektoren nicht angewendet werden und liefern NA (mit einer Warnung).

  • Falsch
  • Falsch
  • Falsch
  • Richtig
  • Falsch

Was ist das entscheidende Merkmal eines “Punktmodells” in der Statistik? Denken Sie an die Anzahl der vorhergesagten Werte.

Ein Punktmodell fasst eine Wertereihe zu einer einzigen Zahl zusammen. Jede Person erhält somit die gleiche Vorhersage, unabhängig von anderen Merkmalen.

  • Falsch
  • Falsch
  • Falsch
  • Richtig
  • Falsch

Wie greifen Sie mit dem Dollar-Operator auf die Spalte „Note“ in einer Tabelle namens „Ergebnisse“ zu?

Der Dollar-Operator trennt den Namen der Tabelle vom Namen der gewünschten Spalte (Tabelle$Spalte).

  • Richtig
  • Falsch
  • Falsch
  • Falsch
  • Falsch

Sie möchten in einem Datensatz nur die Spiele finden, die weniger als 50 Euro kosten und gleichzeitig neuwertig sind. Welche logische Verknüpfung innerhalb der Funktion filter() ist hierfür zwingend erforderlich? Ein falscher Operator würde entweder zu viele oder gar keine Ergebnisse liefern. Denken Sie an die Mengenlehre beim Filtern von Beobachtungen.

Um Zeilen zu finden, die mehrere Kriterien gleichzeitig erfüllen müssen, nutzt man das logische UND (&). Das ODER (|) würde auch gebrauchte Spiele oder teure neue Spiele anzeigen.

  • Falsch
  • Falsch
  • Falsch
  • Falsch
  • Richtig

Sie nutzen eine Funktion mit folgenden Argumenten: f(x, y = 10). Was passiert, wenn Sie die Funktion mit f(5) aufrufen?

Argumente mit Gleichheitszeichen in der Funktionsdefinition (hier y = 10) sind Defaults (Voreinstellungen). Werden sie beim Aufruf nicht angegeben, nutzt R automatisch den Standardwert.

  • Falsch
  • Richtig
  • Falsch
  • Falsch
  • Falsch

Warum kann ein gruppiertes Mittelwert-Modell (z. B. getrennt nach Geschlecht) besser sein als ein ungruppierter Mittelwert? Beziehen Sie sich auf die Fehlerbalken (Residuen).

Durch die Berücksichtigung einer Gruppierung (z. B. \(y \sim G\)) passt sich das Modell besser an die Daten an. Dies führt dazu, dass die Vorhersagefehler innerhalb der Gruppen oft deutlich sinken.

  • Falsch
  • Falsch
  • Falsch
  • Falsch
  • Richtig

Sie betrachten ein Modell mit einer Interaktion: y ~ x1 + x2 + x1:x2. In der Visualisierung stellen Sie fest, dass die Regressionsgeraden für verschiedene Gruppen von x2 nicht parallel verlaufen. Was bedeutet dieser Befund für die Interpretation der Effekte? Nutzen Sie die Analogie von „Schalter“ und „Dimmer“.

Nicht-parallele Geraden sind das grafische Kennzeichen eines Interaktionseffekts. Dies bedeutet, dass es keinen einheitlichen Effekt der UV gibt, sondern dieser je nach Gruppe variiert.

  • Falsch
  • Falsch
  • Falsch
  • Falsch
  • Richtig

Sie betrachten den Zusammenhang zwischen „Lernzeit“ und „Freizeit“ bei Studierenden. In der Regel gilt: Je mehr jemand lernt, desto weniger Freizeit hat er zur Verfügung. Welches Ergebnis erwarten Sie für den Korrelationskoeffizienten r in einer entsprechenden Untersuchung? Übertragen Sie die inhaltliche Beschreibung auf das Vorzeichen und den Wertebereich von r.

Ein gegensinniger Zusammenhang (viel von X, wenig von Y) führt mathematisch zu einer negativen Korrelation.

  • Falsch
  • Richtig
  • Falsch
  • Falsch
  • Falsch

Ein Forscher untersucht den Zusammenhang zwischen dem monatlichen Einkommen (in Euro) und der Lebenszufriedenheit. Er beschließt nun, das Einkommen für seine nächste Veröffentlichung in Cent statt in Euro anzugeben. Welche statistische Kennzahl wird sich durch diese Änderung der Skalierung massiv verändern? Betrachten Sie die mathematische Definition von Kovarianz und Korrelation.

Die Kovarianz ist abhängig von der Skalierung der Variablen. Da das Einkommen nun mit dem Faktor 100 multipliziert wird, steigt auch die Kovarianz an, während die Korrelation (r) skaleninvariant bleibt.

  • Falsch
  • Falsch
  • Falsch
  • Richtig
  • Falsch

Das “Lego-Prinzip” im Datenjudo besagt, dass man komplexe Analysen in kleine Teilschritte zerlegen sollte. Welche der folgenden Aussagen beschreibt einen Nachteil, wenn man dieses Prinzip NICHT beachtet und stattdessen riesige, verschachtelte Funktionen schreibt?

Die Zerlegung in Teilschritte (Lego-Prinzip) dient primär der Übersichtlichkeit und der Fehlervermeidung. Verschachtelter Code ist für Menschen sehr schwer zu interpretieren.

  • Falsch
  • Falsch
  • Falsch
  • Falsch
  • Richtig

Was ist das Ergebnis der Logikprüfung x <- 5; x == 6?

Der Befehl x <- 5 weist der Variable den Wert 5 zu. Die Prüfung x == 6 fragt R: “Ist der Inhalt von x gleich 6?”. Da dies nicht der Fall ist, ist das Ergebnis der logische Wert FALSE.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch

Vier Abweichungen von einem Mittelwert betragen: 1, -3, 1 und 1. Wie hoch ist der Mean Absolute Error (MAE) für diese Daten? Wenden Sie die Definition der mittleren Absolutabweichung an. Beachten Sie den Umgang mit negativen Vorzeichen.

Der MAE berechnet sich aus der Summe der Absolutbeträge der Fehler geteilt durch n. Hier: (1 + 3 + 1 + 1) / 4 = 6 / 4 = 1,5.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch

Was passiert standardmäßig, wenn Sie die Funktion mean() auf einen Vektor anwenden, der mindestens ein NA enthält?

Im Standard liefert mean() NA zurück, um den Nutzer darauf aufmerksam zu machen, dass Daten fehlen. Um dies zu ändern, muss das Argument na.rm = TRUE gesetzt werden.

  • Falsch
  • Richtig
  • Falsch
  • Falsch
  • Falsch

Sie haben ein Modell lm1 (nur Mittelwert) und ein Modell lm2 (mit einer UV). In R liefert mae(lm1) den Wert 10 und mae(lm2) den Wert 7,4. Wie beurteilen Sie die Veränderung der Modellgüte?

Ein geringerer MAE bedeutet kürzere Fehlerbalken. Je kleiner der Fehler, desto höher ist die Modellgüte.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch

Angenommen, Sie haben eine Spalte preis_usd. Sie möchten eine neue Spalte preis_euro hinzufügen, ohne die alte Spalte zu löschen. Welches Verb ist hierfür geeignet?

mutate() wird verwendet, um neue Spalten zu berechnen oder bestehende zu verändern. Die Anzahl der Zeilen bleibt dabei immer gleich.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch

Ein Datensatz umfrage enthält eine Spalte alter mit den Werten c(20, 25, NA, 30). Welcher der folgenden Befehle führt dazu, dass R einen numerischen Wert für den Mittelwert ausgibt, anstatt NA?

Standardmäßig geben viele Funktionen in R NA zurück, wenn nur ein fehlender Wert vorhanden ist. Das Argument na.rm = TRUE (NA remove) weist R an, die fehlenden Werte für die Berechnung zu ignorieren.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch

Sie finden eine negative Steigung (\(\beta_1 < 0\)) in einem Modell zum Zusammenhang von “Fehlzeiten” (x) und “Prüfungsnote” (y). Die Note wird als Punktzahl gemessen (höher ist besser). Was sagt dieses Modell über den Zusammenhang aus? Interpretieren Sie die Richtung der Regressionsgeraden.

Eine negative Steigung bedeutet einen gegensinnigen Zusammenhang. Steigt die eine Variable (Fehlzeiten), sinkt die Vorhersage für die andere (Punkte).

  • Richtig
  • Falsch
  • Falsch
  • Falsch
  • Falsch

Gegeben ist eine normalverteilte Variable (IQ) mit einem Mittelwert von 100 und einer Streuung von 15. Ein Student erzielt einen Wert von 130 Punkten. Welcher Anteil der Bevölkerung liegt laut der 68-95-99.7-Prozentregel über diesem Wert? Kombinieren Sie das Wissen über die Standardabweichung mit der Flächenverteilung.

Ein Wert von 130 entspricht dem Mittelwert plus zwei Standardabweichungen. Innerhalb von zwei Standardabweichungen liegen 95 %, außerhalb also 5 %. Da die Verteilung symmetrisch ist, entfallen 2,5 % auf den Bereich über 130.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch

Ein Forscher stellt fest, dass ein Geradenmodell genau die gleiche Vorhersagegüte (MSE) liefert wie ein Punktmodell (Nullmodell). Welche Eigenschaft muss der Zusammenhang zwischen x und y in diesem Fall haben? Betrachten Sie die Rolle des Prädiktors im Modell.

Wenn ein Prädiktor keine Information liefert, verbessert sich der Fehler gegenüber dem Mittelwert (Nullmodell) nicht. Das R-Quadrat ist Null und die Korrelation ebenfalls.

  • Falsch
  • Falsch
  • Falsch
  • Richtig
  • Falsch

Ein Modell zur Vorhersage von Hauspreisen erzielt im Train-Sample ein R-Quadrat von 0,95. Im Test-Sample sinkt das R-Quadrat jedoch auf 0,15. Welches statistische Phänomen erklärt diesen drastischen Abfall am wahrscheinlichsten? Überlegen Sie, warum hoch-idiografische Informationen wie „Hausnummer“ problematisch sein könnten.

Wenn ein Modell Muster im Train-Sample „auswendig lernt“, die in neuen Daten nicht existieren, spricht man von Overfitting. Besonders Variablen mit sehr vielen Ausprägungen (wie Titel oder IDs) begünstigen diesen Effekt.

  • Falsch
  • Falsch
  • Falsch
  • Falsch
  • Richtig

Sie nutzen die Pfeife |> um mehrere Befehle zu verketten. Was ist der entscheidende Vorteil dieser Schreibweise gegenüber verschachtelten Funktionen wie f(g(h(x)))? Betrachten Sie den Lesefluss und die Fehleranfälligkeit bei vielen Klammern.

Die Pfeife (|> oder %>%) verbessert die Lesbarkeit, indem sie Daten wie am Fließband von links nach rechts durch Funktionen reicht. Das erste Argument der nachfolgenden Funktion wird dabei automatisch befüllt.

  • Richtig
  • Falsch
  • Falsch
  • Falsch
  • Falsch

Ein Marktforscher möchte untersuchen, ob sich die Kaufbereitschaft (metrisch) zwischen drei Altersgruppen unterscheidet. Welches Diagramm ist laut der Nomenklatur für diesen „Unterschied“ bei einer quantitativen Variable am besten geeignet? Es geht um den effizienten Vergleich von Verteilungen.

Laut der Nomenklatur ist der Boxplot das Standardwerkzeug, um Unterschiede einer quantitativen Variable zwischen Gruppen zu zeigen.

  • Falsch
  • Richtig
  • Falsch
  • Falsch
  • Falsch

Warum verbringen Datenwissenschaftler laut Harvard Business Review oft 80% ihrer Zeit mit Datenjudo?

Daten in der echten Welt sind selten “sauber”. Das Aufbereiten, Bereinigen und Umformen ist der zeitintensivste Teil der Datenanalyse.

  • Falsch
  • Falsch
  • Falsch
  • Richtig
  • Falsch

Gegeben ist die Gleichung \(y_i = \beta_0 + \beta_1 \cdot x_i + \epsilon_i\). Ein Student hat laut Modell einen vorhergesagten Wert von 80 Punkten (\(\hat{y} = 80\)). Tatsächlich hat er in der Klausur aber 85 Punkte erreicht (\(y = 85\)). Wie groß ist das Residuum (\(\epsilon\)) für diesen Studenten? Nutzen Sie die Formel für den Vorhersagefehler.

Das Residuum ist definiert als beobachteter Wert minus vorhergesagter Wert: \(e = y - \hat{y}\). Hier: 85 - 80 = 5.

  • Falsch
  • Richtig
  • Falsch
  • Falsch
  • Falsch

Ein Datensatz weist einen sehr extremen Ausreißer auf. Welches Streuungsmaß ist in dieser Situation am ehesten zu empfehlen, um ein verzerrtes Bild zu vermeiden? Nutzen Sie das Konzept der Robustheit.

Der IQR basiert auf Quantilen (Q3 - Q1) und ignoriert die extremen Ränder der Verteilung. Dadurch bleibt er stabil, selbst wenn einzelne Werte extrem abweichen.

  • Falsch
  • Falsch
  • Falsch
  • Falsch
  • Richtig

Warum wird in der Statistik die Standardabweichung (SD) oft der Varianz vorgezogen, wenn es um die Beschreibung von Daten geht? Betrachten Sie die mathematische Transformation bei der Berechnung der SD. Überlegen Sie, was mit der Maßeinheit der Daten passiert.

Die Varianz nutzt quadrierte Abweichungen, was die Einheit verändert (z. B. Quadrat-Euro). Durch das Wurzelziehen bei der SD kehrt man zur ursprünglichen Einheit (z. B. Euro) zurück.

  • Falsch
  • Richtig
  • Falsch
  • Falsch
  • Falsch

Bei der Analyse von Pinguinen zeigt sich ohne Berücksichtigung der Spezies ein negativer Zusammenhang von Schnabellänge und -tiefe. Sobald die Variable „Spezies“ ins Modell aufgenommen wird, kehrt sich der Zusammenhang in jeder Gruppe ins Positive um. Wie wird dieser Effekt in der Fachsprache genannt?

Das Simpson-Paradox beschreibt die Situation, in der ein Zusammenhang auf Gesamtebene durch die Aufteilung in Untergruppen umgekehrt wird. Es zeigt, wie wichtig die Auswahl der richtigen UVs ist.

  • Richtig
  • Falsch
  • Falsch
  • Falsch
  • Falsch

Welche Richtlinie gilt für die Aufnahme von Variablen in ein Prognosemodell, wenn maximale Güte das Ziel ist? Nutzen Sie die Empfehlungen nach Gelman et al. (2021).

Gelman empfiehlt unter anderem, mutmaßliche Ursachen aufzunehmen. Zudem sind UVs mit präzisen Schätzungen (kleines CI) für die Güte förderlich.

  • Falsch
  • Falsch
  • Richtig
  • Falsch
  • Falsch