Anhang C — Probeklausur

Schlüsselwörter

Statistik, Prognose, Modellierung, R, Datenanalyse, Regression

Siehe diese Prüfungshinweise und alle weiteren Hinweise.

Falsch
Richtig
Falsch
Falsch
Falsch

Sie vergleichen zwei Datensätze, die identische Mittelwerte und Standardabweichungen aufweisen. Das Streudiagramm zeigt jedoch beim ersten Datensatz eine Wolke und beim zweiten eine Dinosaurier-Form. Welche Erkenntnis aus Anscombes Quartett lässt sich hier anwenden? Betrachten Sie die Grenzen rein numerischer Kennzahlen.

Visualisierungen dienen nur der Illustration, nicht der Erkenntnis.Statistische Kennzahlen allein können die Struktur von Daten verhüllen.Der Korrelationskoeffizient ändert sich durch die Form der Punktwolke zwingend.Ein Dinosaurier im Diagramm deutet immer auf einen Rechenfehler hin.Mittelwerte sind bei visuellen Mustern grundsätzlich nicht aussagekräftig.

Anscombes Quartett und der „Datasaurus“ zeigen, dass völlig unterschiedliche Datenstrukturen dieselben Kennwerte haben können. Nur eine Visualisierung macht diese Unterschiede sichtbar.

Falsch
Richtig
Falsch
Falsch
Falsch

Sie arbeiten mit einem Datensatz über Kunden. Die Variable geschlecht ist nominalskaliert. Was ist die sinnvollste Operation, wenn Sie wissen wollen, wie viele Männer und Frauen im Datensatz sind?

Bei nominalen Daten ist das Zählen der Häufigkeiten die Standardoperation. count() ist dafür die effizienteste Funktion.

Falsch
Falsch
Falsch
Richtig
Falsch

Sie erstellen einen Vektor mit folgendem Befehl: test_vektor <- c(1, "2", 3). Was passiert, wenn Sie versuchen, den Mittelwert mit mean(test_vektor) zu berechnen?

R berechnet den Mittelwert 2.R erkennt die Zahl in den Anführungszeichen automatisch und berechnet den Mittelwert 2.R gibt eine Fehlermeldung aus, dass Vektoren keine unterschiedlichen Datentypen enthalten dürfen.R löscht die “2” und berechnet den Mittelwert aus 1 und 3.R gibt NA zurück, da der Vektor durch die Anführungszeichen bei der “2” zu einem Text-Vektor (character) wurde.

In R müssen alle Elemente eines Vektors denselben Typ haben. Wenn Text (“2”) enthalten ist, werden auch die Zahlen als Text gespeichert. Arithmetische Funktionen wie mean() können auf Text-Vektoren nicht angewendet werden und liefern NA (mit einer Warnung).

Falsch
Falsch
Falsch
Falsch
Richtig

Was ist das entscheidende Merkmal eines “Punktmodells” in der Statistik? Denken Sie an die Anzahl der vorhergesagten Werte.

Es berechnet für jede einzelne Beobachtung eine individuelle Gerade.Es löscht alle Datenpunkte, die nicht genau auf dem Mittelwert liegen.Es verbindet alle Datenpunkte mit einer komplexen Kurve.Es kann nur für Daten verwendet werden, die als Koordinaten (X/Y) vorliegen.Es sagt für alle Beobachtungen ein und denselben Wert vorher.

Ein Punktmodell fasst eine Wertereihe zu einer einzigen Zahl zusammen. Jede Person erhält somit die gleiche Vorhersage, unabhängig von anderen Merkmalen.

Falsch
Falsch
Falsch
Falsch
Richtig

Wie greifen Sie mit dem Dollar-Operator auf die Spalte „Note“ in einer Tabelle namens „Ergebnisse“ zu?

Der Dollar-Operator trennt den Namen der Tabelle vom Namen der gewünschten Spalte (Tabelle$Spalte).

Falsch
Falsch
Richtig
Falsch
Falsch

Sie möchten in einem Datensatz nur die Spiele finden, die weniger als 50 Euro kosten und gleichzeitig neuwertig sind. Welche logische Verknüpfung innerhalb der Funktion filter() ist hierfür zwingend erforderlich? Ein falscher Operator würde entweder zu viele oder gar keine Ergebnisse liefern. Denken Sie an die Mengenlehre beim Filtern von Beobachtungen.

Das einfache Gleichheitszeichen =, um den Wert zuzuweisen.Ein Ausrufezeichen !, um die teuren Spiele explizit auszuschließen.Der Operator | (ODER), da es egal ist, welche Bedingung zuerst erfüllt ist.Die Funktion select(), da man zuerst die Spalten einschränken muss.Der Operator & (UND), um beide Bedingungen gleichzeitig zu prüfen.

Um Zeilen zu finden, die mehrere Kriterien gleichzeitig erfüllen müssen, nutzt man das logische UND (&). Das ODER (|) würde auch gebrauchte Spiele oder teure neue Spiele anzeigen.

Falsch
Falsch
Falsch
Falsch
Richtig

Sie nutzen eine Funktion mit folgenden Argumenten: f(x, y = 10). Was passiert, wenn Sie die Funktion mit f(5) aufrufen?

R setzt sowohl x als auch y auf 5.R ignoriert das Argument y komplett und berechnet nur das Ergebnis für x.R führt die Funktion aus und nutzt für x den Wert 5 und für y den voreingestellten Wert 10.R setzt x auf 5 und y auf NA.R gibt eine Fehlermeldung aus, da das Argument y fehlt.

Argumente mit Gleichheitszeichen in der Funktionsdefinition (hier y = 10) sind Defaults (Voreinstellungen). Werden sie beim Aufruf nicht angegeben, nutzt R automatisch den Standardwert.

Falsch
Falsch
Richtig
Falsch
Falsch

Warum kann ein gruppiertes Mittelwert-Modell (z. B. getrennt nach Geschlecht) besser sein als ein ungruppierter Mittelwert? Beziehen Sie sich auf die Fehlerbalken (Residuen).

Weil man bei Gruppierungen keine Standardabweichung mehr berechnen muss.Weil die Abweichungen (Residuen) zum jeweiligen Gruppenmittelwert im Schnitt kleiner sein können als zum globalen Mittelwert.Weil R-Befehle wie group_by automatisch alle Ausreißer aus den Daten löschen.Weil ein gruppiertes Modell immer weniger Rechenleistung benötigt.Weil der Median einer Gruppe immer identisch mit dem globalen Mittelwert ist.

Durch die Berücksichtigung einer Gruppierung (z. B. $y \sim G$) passt sich das Modell besser an die Daten an. Dies führt dazu, dass die Vorhersagefehler innerhalb der Gruppen oft deutlich sinken.

Falsch
Richtig
Falsch
Falsch
Falsch

Sie betrachten den Zusammenhang zwischen „Lernzeit“ und „Freizeit“ bei Studierenden. In der Regel gilt: Je mehr jemand lernt, desto weniger Freizeit hat er zur Verfügung. Welches Ergebnis erwarten Sie für den Korrelationskoeffizienten r in einer entsprechenden Untersuchung? Übertragen Sie die inhaltliche Beschreibung auf das Vorzeichen und den Wertebereich von r.

r wird einen Wert zwischen 0 und +1 annehmen.r wird deutlich größer als +1 sein.r kann nicht berechnet werden, da Freizeit eine qualitative Variable ist.r wird einen Wert zwischen -1 und 0 annehmen.r wird exakt 0 betragen, da kein Zusammenhang besteht.

Ein gegensinniger Zusammenhang (viel von X, wenig von Y) führt mathematisch zu einer negativen Korrelation.

Falsch
Falsch
Falsch
Richtig
Falsch

Ein Forscher untersucht den Zusammenhang zwischen dem monatlichen Einkommen (in Euro) und der Lebenszufriedenheit. Er beschließt nun, das Einkommen für seine nächste Veröffentlichung in Cent statt in Euro anzugeben. Welche statistische Kennzahl wird sich durch diese Änderung der Skalierung massiv verändern? Betrachten Sie die mathematische Definition von Kovarianz und Korrelation.

Der Korrelationskoeffizient r nach Pearson.Die Anzahl der Freiheitsgrade der Analyse.Die z-standardisierten Werte der Zufriedenheit.Das Vorzeichen des Zusammenhangs.Die Kovarianz zwischen Einkommen und Zufriedenheit.

Die Kovarianz ist abhängig von der Skalierung der Variablen. Da das Einkommen nun mit dem Faktor 100 multipliziert wird, steigt auch die Kovarianz an, während die Korrelation (r) skaleninvariant bleibt.

Falsch
Falsch
Falsch
Falsch
Richtig

Das “Lego-Prinzip” im Datenjudo besagt, dass man komplexe Analysen in kleine Teilschritte zerlegen sollte. Welche der folgenden Aussagen beschreibt einen Nachteil, wenn man dieses Prinzip NICHT beachtet und stattdessen riesige, verschachtelte Funktionen schreibt?

Verschachtelte Funktionen verbrauchen deutlich mehr Arbeitsspeicher.Das Tidyverse funktioniert nur mit maximal zwei Funktionen pro Zeile.R kann verschachtelte Funktionen technisch nicht verarbeiten.Der Code wird schwerer lesbar und Fehler sind schwieriger zu finden.Die Ergebnisse werden mathematisch ungenau.

Die Zerlegung in Teilschritte (Lego-Prinzip) dient primär der Übersichtlichkeit und der Fehlervermeidung. Verschachtelter Code ist für Menschen sehr schwer zu interpretieren.

Falsch
Falsch
Falsch
Richtig
Falsch

Der Befehl x <- 5 weist der Variable den Wert 5 zu. Die Prüfung x == 6 fragt R: “Ist der Inhalt von x gleich 6?”. Da dies nicht der Fall ist, ist das Ergebnis der logische Wert FALSE.

Richtig
Falsch
Falsch
Falsch
Falsch

Vier Abweichungen von einem Mittelwert betragen: 1, -3, 1 und 1. Wie hoch ist der Mean Absolute Error (MAE) für diese Daten? Wenden Sie die Definition der mittleren Absolutabweichung an. Beachten Sie den Umgang mit negativen Vorzeichen.

Der MAE berechnet sich aus der Summe der Absolutbeträge der Fehler geteilt durch n. Hier: (1 + 3 + 1 + 1) / 4 = 6 / 4 = 1,5.

Falsch
Richtig
Falsch
Falsch
Falsch

Was passiert standardmäßig, wenn Sie die Funktion mean() auf einen Vektor anwenden, der mindestens ein NA enthält?

R ersetzt das NA automatisch durch den Wert 0.R löscht den gesamten Vektor aus dem Environment.R gibt als Ergebnis NA zurück.R gibt eine Fehlermeldung aus und bricht die Berechnung ab.R berechnet den Mittelwert aus den restlichen vorhandenen Werten.

Im Standard liefert mean() NA zurück, um den Nutzer darauf aufmerksam zu machen, dass Daten fehlen. Um dies zu ändern, muss das Argument na.rm = TRUE gesetzt werden.

Falsch
Falsch
Richtig
Falsch
Falsch

Angenommen, Sie haben eine Spalte preis_usd. Sie möchten eine neue Spalte preis_euro hinzufügen, ohne die alte Spalte zu löschen. Welches Verb ist hierfür geeignet?

mutate() wird verwendet, um neue Spalten zu berechnen oder bestehende zu verändern. Die Anzahl der Zeilen bleibt dabei immer gleich.

Falsch
Falsch
Richtig
Falsch
Falsch

Ein Datensatz umfrage enthält eine Spalte alter mit den Werten c(20, 25, NA, 30). Welcher der folgenden Befehle führt dazu, dass R einen numerischen Wert für den Mittelwert ausgibt, anstatt NA?

Standardmäßig geben viele Funktionen in R NA zurück, wenn nur ein fehlender Wert vorhanden ist. Das Argument na.rm = TRUE (NA remove) weist R an, die fehlenden Werte für die Berechnung zu ignorieren.

Falsch
Falsch
Richtig
Falsch
Falsch

Sie finden eine negative Steigung ($\beta_1 < 0$) in einem Modell zum Zusammenhang von “Fehlzeiten” (x) und “Prüfungsnote” (y). Die Note wird als Punktzahl gemessen (höher ist besser). Was sagt dieses Modell über den Zusammenhang aus? Interpretieren Sie die Richtung der Regressionsgeraden.

Mit jeder zusätzlichen Fehlstunde sinkt die vorhergesagte Punktzahl.Wer mehr fehlt, erreicht tendenziell eine bessere Note.Die Vorhersagefehler werden durch die Fehlzeiten größer.Der Achsenabschnitt des Modells muss negativ sein.Die Fehlzeiten haben keinen Einfluss auf die Note.

Eine negative Steigung bedeutet einen gegensinnigen Zusammenhang. Steigt die eine Variable (Fehlzeiten), sinkt die Vorhersage für die andere (Punkte).

Richtig
Falsch
Falsch
Falsch
Falsch

Gegeben ist eine normalverteilte Variable (IQ) mit einem Mittelwert von 100 und einer Streuung von 15. Ein Student erzielt einen Wert von 130 Punkten. Welcher Anteil der Bevölkerung liegt laut der 68-95-99.7-Prozentregel über diesem Wert? Kombinieren Sie das Wissen über die Standardabweichung mit der Flächenverteilung.

Ein Wert von 130 entspricht dem Mittelwert plus zwei Standardabweichungen. Innerhalb von zwei Standardabweichungen liegen 95 %, außerhalb also 5 %. Da die Verteilung symmetrisch ist, entfallen 2,5 % auf den Bereich über 130.

Falsch
Falsch
Richtig
Falsch
Falsch

Sie nutzen die Pfeife |> um mehrere Befehle zu verketten. Was ist der entscheidende Vorteil dieser Schreibweise gegenüber verschachtelten Funktionen wie f(g(h(x)))? Betrachten Sie den Lesefluss und die Fehleranfälligkeit bei vielen Klammern.

Die Pfeife sorgt dafür, dass R den Code deutlich schneller berechnet.Die Pfeife löscht automatisch alle NA Werte während der Transformation.Mit der Pfeife können Funktionen kombiniert werden, die normalerweise nicht kompatibel sind.Die Pfeife leitet das Ergebnis des vorherigen Schritts als erstes Argument in die nächste Funktion weiter.Die Pfeife ersetzt die Notwendigkeit, Pakete mit library() zu laden.

Die Pfeife (|> oder %>%) verbessert die Lesbarkeit, indem sie Daten wie am Fließband von links nach rechts durch Funktionen reicht. Das erste Argument der nachfolgenden Funktion wird dabei automatisch befüllt.

Falsch
Falsch
Falsch
Richtig
Falsch

Ein Marktforscher möchte untersuchen, ob sich die Kaufbereitschaft (metrisch) zwischen drei Altersgruppen unterscheidet. Welches Diagramm ist laut der Nomenklatur für diesen „Unterschied“ bei einer quantitativen Variable am besten geeignet? Es geht um den effizienten Vergleich von Verteilungen.

Laut der Nomenklatur ist der Boxplot das Standardwerkzeug, um Unterschiede einer quantitativen Variable zwischen Gruppen zu zeigen.

Falsch
Falsch
Falsch
Falsch
Richtig

Warum verbringen Datenwissenschaftler laut Harvard Business Review oft 80% ihrer Zeit mit Datenjudo?

Weil Rohdaten oft unordentlich sind, Tippfehler enthalten oder umgeformt werden müssen.Weil die meisten Daten bereits im Tidy-Format vorliegen und geprüft werden müssen.Weil die Visualisierung der Daten erst nach dem Erstellen der Modelle erlaubt ist.Weil das Erlernen der R-Syntax 80% der Arbeitszeit beansprucht.Weil die statistischen Modelle in R nur sehr langsam berechnet werden.

Daten in der echten Welt sind selten “sauber”. Das Aufbereiten, Bereinigen und Umformen ist der zeitintensivste Teil der Datenanalyse.

Richtig
Falsch
Falsch
Falsch
Falsch

Gegeben ist die Gleichung $y_i = \beta_0 + \beta_1 \cdot x_i + \epsilon_i$. Ein Student hat laut Modell einen vorhergesagten Wert von 80 Punkten ($\hat{y} = 80$). Tatsächlich hat er in der Klausur aber 85 Punkte erreicht ($y = 85$). Wie groß ist das Residuum ($\epsilon$) für diesen Studenten? Nutzen Sie die Formel für den Vorhersagefehler.

Das Residuum ist definiert als beobachteter Wert minus vorhergesagter Wert: $e = y - \hat{y}$. Hier: 85 - 80 = 5.

Falsch
Richtig
Falsch
Falsch
Falsch

Ein Datensatz weist einen sehr extremen Ausreißer auf. Welches Streuungsmaß ist in dieser Situation am ehesten zu empfehlen, um ein verzerrtes Bild zu vermeiden? Nutzen Sie das Konzept der Robustheit.

Der IQR basiert auf Quantilen (Q3 - Q1) und ignoriert die extremen Ränder der Verteilung. Dadurch bleibt er stabil, selbst wenn einzelne Werte extrem abweichen.

Falsch
Falsch
Falsch
Richtig
Falsch

Warum wird in der Statistik die Standardabweichung (SD) oft der Varianz vorgezogen, wenn es um die Beschreibung von Daten geht? Betrachten Sie die mathematische Transformation bei der Berechnung der SD. Überlegen Sie, was mit der Maßeinheit der Daten passiert.

R kann die Varianz technisch nicht direkt berechnen.Die SD besitzt wieder die gleiche Größenordnung und Maßeinheit wie die Originaldaten.Die Varianz kann niemals für normalverteilte Daten berechnet werden.Die SD ist robuster gegenüber Ausreißern als die Varianz.Die SD ist immer kleiner als der Mittelwert der Daten.

Die Varianz nutzt quadrierte Abweichungen, was die Einheit verändert (z. B. Quadrat-Euro). Durch das Wurzelziehen bei der SD kehrt man zur ursprünglichen Einheit (z. B. Euro) zurück.

Falsch
Richtig
Falsch
Falsch
Falsch

Ein Statistikkurs besteht aus fünf Personen mit den Noten 1, 2, 3, 4 und 5. Der Professor behauptet, der Mittelwert von 3 sei ein “Modell” für diese Daten. Welche mathematische Eigenschaft des Mittelwerts stützt diese Aussage am besten? Betrachten Sie die Summe der Abweichungen (Residuen) vom Mittelwert. Überlegen Sie, was passiert, wenn Sie alle $e_i = y_i - \bar{x}$ addieren.

Der Mittelwert teilt die Daten exakt in zwei Hälften mit gleich vielen Beobachtungen.Der Mittelwert ist immer die Zahl, die am häufigsten im Datensatz vorkommt.Der Mittelwert ist unempfindlich gegenüber extrem hohen Werten.Die Summe der quadrierten Abweichungen wird durch den Mittelwert maximiert.Die Summe aller Abweichungen vom Mittelwert ist exakt Null.

Der Mittelwert wirkt wie ein physikalischer Schwerpunkt (Wippe). Die Summe der Abweichungen nach oben und unten gleicht sich exakt aus, sodass ihre Summe Null ergibt.

Falsch
Falsch
Falsch
Falsch
Richtig

Ihr Datensatz enthält einige fehlende Werte (NAs) in den Spalten für Preis und Gewicht. Sie verwenden den Standardbefehl cor(total_pr, weight) in R. Warum erhalten Sie als Ergebnis wahrscheinlich nur ein frustrierendes NA? Überlegen Sie, wie R standardmäßig mit unvollständigen Datenpaaren umgeht.

Der Befehl cor() löscht bei NAs automatisch den gesamten Dataframe.R gibt bei fehlenden Werten sicherheitshalber NA zurück, sofern nicht anders angewiesen.NAs führen dazu, dass die Standardabweichung unendlich groß wird.R erkennt NAs nur, wenn man zuvor das Paket ggplot2 geladen hat.Korrelationen können mathematisch grundsätzlich nicht mit NAs berechnet werden.

In R ist das Standardverhalten vieler Funktionen, NA zurückzugeben, wenn Daten fehlen. Man muss explizit use = "complete.obs" oder ähnliche Argumente verwenden, um dies zu umgehen.

Falsch
Richtig
Falsch
Falsch
Falsch

Ein Analyst möchte einen Umsatzrückgang von 5 % als “dramatischen Absturz” darstellen. Welchen grafischen Trick wird er am wahrscheinlichsten anwenden? Manipulieren Sie die Wahrnehmung durch Achsenwahl.

Er schneidet die Y-Achse ab und lässt sie erst kurz unter dem Minimum der Daten beginnen.Er verwendet ein Dichtediagramm anstelle eines Liniendiagramms.Er nutzt einen Boxplot für die zeitliche Entwicklung.Er zentriert die Daten um den Mittelwert.Er stellt die Daten in der Okabe-Ito-Palette dar.

Durch das „Abschneiden“ der Y-Achse (kein Nullpunkt) werden kleine Abweichungen optisch massiv vergrößert.

Richtig
Falsch
Falsch
Falsch
Falsch

Die Korrelation r wird oft als „mittleres z-Produkt“ bezeichnet. Angenommen, in einem Datensatz haben alle Beobachtungen bei Variable X und Variable Y jeweils das gleiche Vorzeichen ihrer z-Werte. Das bedeutet: Wer bei X überdurchschnittlich ist, ist es auch bei Y, und wer unterdurchschnittlich ist, ist es in beiden. Welche Aussage über die Korrelation r trifft hier zu?

Die Korrelation r muss negativ sein.Die Korrelation r muss exakt +1,0 betragen.Die Korrelation r muss positiv sein.Die Korrelation r wird exakt Null betragen.Die Korrelation r kann in diesem Fall nicht berechnet werden.

Wenn die z-Werte das gleiche Vorzeichen haben, ist ihr Produkt immer positiv. Da die Korrelation der Mittelwert dieser Produkte ist, muss das Ergebnis ebenfalls positiv sein.

Falsch
Falsch
Richtig
Falsch
Falsch

Wofür steht die Abkürzung „NA“ in einem R-Vektor?

Not Available (nicht verfügbarer/fehlender Wert).Next Argument (nächstes Argument in einer Funktion).Numeric Array (ein spezieller Zahlentyp).No Answer (eine falsche Eingabe des Nutzers).New Assignment (eine neue Variablenzuweisung).

In R kennzeichnet NA fehlende Werte, die beispielsweise durch Verweigerung von Angaben bei Umfragen oder technische Fehler entstehen können.

Richtig
Falsch
Falsch
Falsch
Falsch