Im Hinblick auf die lineare Regression: Welche der folgenden Aussage passt am besten?
Die folgende Frage bezieht sich auf dieses Ergebnis einer Regressionsanalyse:
Call:
lm(formula = y ~ x, data = d)
Residuals:
Min 1Q Median 3Q Max
-1.667 -0.464 0.077 0.512 1.726
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.207 0.114 -1.81 0.076 .
x -0.693 0.108 -6.40 4.1e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.85 on 53 degrees of freedom
Multiple R-squared: 0.436, Adjusted R-squared: 0.425
F-statistic: 41 on 1 and 53 DF, p-value: 4.13e-08
Welche der folgenden Aussagen passt am besten?
x
um 1 Einheit steigt, dann kann eine Veränderung um etwa -0.69 Einheiten in y
erwartet werden (nicht kausal zu verstehen).
y
steigt mit zunehmenden x
.
x=0
, dann ist ein Mittelwert von y
in Höhe von etwa -0.9 zu erwarten.
x=1
, dann ist ein Mittelwert von y
in Höhe von ca. -0.21 zu erwarten.
x=2
, dann ist ein Mittelwert von y
in Höhe von ca. -0.9 zu erwarten.
Ein Streudiagramm von und ergibt folgende Abbildung:
Wählen Sie das am besten passende Modell aus der Liste aus!
Das dargestellte Modell lautet .
Welcher R-Code passt am besten, um folgende Frage aus der Post-Verteilung herauszulesen:
Hinweise:
a
ist der Achsenabschnitt, b
ist das Regressionsgewicht.post_tab_df
ist eine Tabelle (in Form eines R-Dataframe), die die Stichproben aus der Post-Verteilung enthält.Code A
post_tab_df %>%
count(gross = a == 155) %>%
mutate(prop = n / sum(n))
Code B
post_tab_df %>%
count(gross = a > 155) %>%
mutate(prop = n / sum(n))
Code C
post_tab_df %>%
count(gross = a <= 155) %>%
mutate(prop = n / sum(n))
Code D
post_tab_df %>%
count(gross = a >= 155) %>%
mutate(prop = n / sum(n))
Code E
post_tab_df %>%
count(gross = a < 155) %>%
mutate(prop = n / sum(n))
Vgl. Skript 5.
Betrachten wir den biologisch fundierten Zusammenhang von Gewicht (UV) und Körpergröße (AV).
Welche der folgenden Priori-Verteilungen passt am besten für ?
Gehen Sie von z-standardisierten Variablen aus.
stan_glm()
nur normalverteilte Prior in diesem Fall zu.
Ei Forschi wählt für ein Regressionsmodell (Priori), wobei die empirischen Variablen z-standardisiert sind. Beziehen Sie Stellung zu diesem Prior.
Die Priori-Verteilung ist nicht sinnvoll spezifiziert. Die Streuung der Normalverteilung ist so groß, dass sie fast schon uniform verteilt ist. Dieser Priori-Verteilung nimmt z.B. an, , was eine sehr wilde Vorstellung ist. Man könnte sagen: Die Verteilung nimmt an, dass es wahrscheinlicher ist, dass ihr bester Freund 100 Millionen Lichtjahre entfernt lebt, als dass er näher als diese Distanz bei Ihnen lebt.
Zur Verdeutlichung: Wie wahrscheinlich ist bei einer Normalverteilung zu betrachten?
Für beträgt die Wahrscheinlichkeit für einen Wert nicht höher als etwa 84%:
pnorm(q = 1)
## [1] 0.84
Allgemeiner:
options(digits = 20) # Mehr Nachkommastellen
pnorm(q = 1:10)
## [1] 0.84134474606854292578 0.97724986805182079141 0.99865010196836989653
## [4] 0.99996832875816688002 0.99999971334842807646 0.99999999901341229958
## [7] 0.99999999999872013490 0.99999999999999933387 1.00000000000000000000
## [10] 1.00000000000000000000
Die Wahrscheinlichkeiten für Sigma-Ereignisse bis zu ±7 finden sich z.B. hier.
options(digits = 2)
Vertiefung:
Nassim Taleb hat dieses Argument in seinem Buch “Statistical Consequences of Fat Tails” aufgegriffen (ein anspruchsvolles Buch). Hier finden Sie eine interessante Darstellung eines Arguments daraus.
Beziehen Sie sich auf das Regressionsmodell, für das die Ausgabe mit stan_glm()
hier dargestellt ist:
## stan_glm
## family: gaussian [identity]
## formula: height ~ weight_c
## observations: 346
## predictors: 2
## ------
## Median MAD_SD
## (Intercept) 154.6 0.3
## weight_c 0.9 0.0
##
## Auxiliary parameter(s):
## Median MAD_SD
## sigma 5.1 0.2
Betrachten Sie wieder folgende Beziehung (Gleichung bzw. Ungleichung):
Die in der obigen Beziehung angebenen Parameter beziehen sich auf das oben dargestellt Modell.
Ergänzen Sie das korrekte Zeichen in das Rechteck !
Als Prädiktorwert wurde der Achsenabschnitt spezifiziert, also . Der Achsenabschnitt wird mit 154.6 angegeben. Je weiter ein von 154.6 entfernt ist, desto unwahrscheinlicher ist es, gegeben .
Was ist nicht Ziel oder Gegenstand einer Bayes-Analyse?
Bei der Bayes-Analyse werden die Schlussfolgerungen nicht nur auf Basis des Likelihoods gezogen (im Gegensatz zum Frequentistischen Ansatz).
Der Likelihood eines Datensatzes ist definiert als das Produkt der Likelihoods aller Beobachtungen:
wobei die Beobachtungen bzw. ihre Likelihood als unabhängig angenommen werden: .
Je größer , desto …….. !
Füllen Sie die Lücke!
Multipliziert man zwei (oder mehr) Anteile (Wahrscheinlichkeiten), , so ist das resultierende Produkt nicht größer als . Je mehr Anteile man multipliziert, desto kleiner (näher an Null, aber positiv) das resultierende Produkt.
Beispiel: Die Wahrscheinlichkeit, dass eine zufällig bestimmte (“gezogene”) Person eine Frau ist, sei . Die Wahrscheinlichkeit, dass unter Personen zwei Frauen sind, beträgt (unter der Annahme, dass die Ziehungen unabhängig sind). Wir sehen: Je mehr Wahrscheinlichkeiten (“Anteile”) man multipliziert, desto kleiner (näher an Null) das resultierende Produkt.
Welche Zeile der folgenden Modellspezifikation zeigt den Likelihood?
Zeile …
Sie möchten, im Rahmen einer Studie, ein einfaches lineare Modell spezifizieren, d.h. den Likelihood und die Priori-Verteilungen benennen.
Folgende Informationen sind gegeben:
einnahmen
werbebudget
Schreiben Sie in mathematischer Notation folgende Notation auf:
Die Priori-Verteilung des Regressionsgewichts
Hinweise:
b
, mit a
und mit s
.~
um stochastische Relationen (Verteilungen) anzuzeigen.Normal(x;y)
und Exponentialverteilung als Exp(x)
an (jeweils mit den korrekten Argumenten in der allgemein üblichen Form).b~Normal(0, 2.5)
Sie möchten, im Rahmen einer Studie, ein einfaches lineare Modell spezifizieren, d.h. den Likelihood und die Priori-Verteilungen benennen.
Folgende Informationen sind gegeben:
einnahmen
werbebudget
Schreiben Sie in mathematischer Notation folgende Notation auf:
Priori-Verteilung der Streuung der AV
Hinweise:
b
, mit a
und mit s
.~
um stochastische Relationen (Verteilungen) anzuzeigen.Normal(x;y)
und Exponentialverteilung als Exp(x)
an (jeweils mit den korrekten Argumenten in der allgemein üblichen Form).s~Exp(1)
Nach der Berechnung bzw. Schätzung der Modellparameter ein)es Regressionsmodells (mit Methoden der Bayes-Inferenz) erhält man u.a. auf die Prädiktorwerte () bedingte Wahrscheinlichkeiten für die AV, , oder genauer (mit für die Modellparameter).
Betrachten Sie dazu folgende Aussage:
für
Welche der Aussagen ist in diesem Zusammenhang falsch?