Welchen z-Wert hat eine Beobachtung mit bei einer Normalverteilung mit und ?
Geben Sie den (am besten passenden) Wert der Verteilungsfunktion für das im Folgenden dargestellten Quantil an.
Gehen Sie von dieser Verteilung aus: .
Das Quantil lautet: -2.
Der Wert der Verteilungsfunktion von ist 0.02.
Bei welcher der Abbildungen ist eine Regression mit linearem Graph angemessen?
Die beiden folgenden Abbildungen zeigen zwei lineare Regressionen.
Welche Aussage stimmt?
Je enger die Punkte um die Gerade streuen, desto größer ist .
Prof. Salzig untersucht eine seiner Lieblingsfragen: Wie viel bringt das Lernen auf eine Klausur? Dabei konzentriert er sich auf das Fach Statistik (es gefällt ihm gut). In einer aktuellen Untersuchung hat er Studierende untersucht (s. Tabelle und Diagramm) und jeweils erfasst, ob die Person die Klausur bestanden (b) hat oder durchgefallen (d) ist. Dabei hat er zwei Gruppen unterschieden: Die “Viel-Lerner” (VL) und die “Wenig-Lerner” (WL).
Berechnen Sie die folgende bedingte Wahrscheinlichkeit: p(Bestehen|Viellerner).
Beispiel: Wenn Sie ausrechnen, dass die Wahrscheinlichkeit bei 42 Prozentpunkten liegt, so geben Sie ein: 0,42
bzw. 0.42
(das Dezimalzeichen ist abhängig von Ihren Spracheinstellungen).
Hinweise:
0,42
.Viellerner | Weniglerner | |
---|---|---|
Bestehen | 25 | 13 |
Durchfallen | 17 | 5 |
Der gesuchte Wert liegt bei 0.6.
Lerntyp | Klausurergebnis | n | n_group | prop_conditional_group | N_gesamt |
---|---|---|---|---|---|
Viellerner | Bestehen | 25 | 42 | 0.6 | 60 |
Als Bildungsforscher(in) untersuchen Sie den Lernerfolg in einem Statistikkurs.
Eine Gruppe von Studierenden absolviert einen Statistikkurs. Ein Teil lernt gut mit (Ereignis ), ein Teil nicht (Ereignis ). Ein Teil besteht die Prüfung (Ereignis ); ein Teil nicht ().
Hinweis: Das Gegenereignis zum Ereignis wird oft das Komplementärereignis oder kurz Komplement von genannt und mit bezeichnet.
Wir ziehen zufällig eine/n Studierende/n: Siehe da – Die Person hat bestanden. Yeah!
Aufgabe: Gesucht ist die Wahrscheinlichkeit, dass diese Person gut mitgelernt hat, gegeben der Tatsache, dass dieser Person bestanden hat.
Die Anteile der Gruppen (bzw. Wahrscheinlichkeit des Ereignisses) lassen sich unten stehender Tabelle entnehmen.
row_ids | B | Bneg |
---|---|---|
A | 0.59 | 0.10 |
Aneg | 0.23 | 0.07 |
Hinweise:
0.42
an (mit führender Null und Dezimalzeichen).0.73
A_cond_B <- AandB / B_marg %>% round(2)
Aneg_cond_B <- AnegandB / B_marg %>% round(2)
A_cond_Bneg <- AandBneg / Bneg_marg %>% round(2)
Aneg_cond_Bneg <- AnegandBneg / Bneg_marg %>% round(2)
.
.
.
.
.
.
.
Als Bildungsforscher(in) untersuchen Sie den Lernerfolg in einem Statistikkurs.
Eine Gruppe von Studierenden absolviert einen Statistikkurs. Ein Teil lernt gut mit (Ereignis ), ein Teil nicht (Ereignis ). Ein Teil besteht die Prüfung (Ereignis ); ein Teil nicht ().
Wir ziehen zufällig eine/n Studierende/n: Siehe da – Die Person hat bestanden. Yeah!
Die Anteile der Gruppen (bzw. Wahrscheinlichkeit des Ereignisses) lassen sich unten stehender Tabelle entnehmen.
row_ids | B | Bneg | Summe |
---|---|---|---|
A | 0.78 | 0.13 | 0.91 |
A_neg | 0.07 | 0.02 | 0.09 |
Summe | 0.86 | 0.15 | 1.01 |
Aufgabe: Gesucht ist die (bedingte) Wahrscheinlichkeit, dass diese Person gut mitgelernt hat, gegeben der Tatsache, dass sie bestanden hat. Geben Sie die Wahrscheinlichkeit des gesuchten Ereignisses an!
Hinweise:
0.42
an (mit führender Null und Dezimalpunkt).Der gesuchte Wert lautet: 0.92.
Ob wohl die PS-Zahl (Ereignis ) und der Spritverbrauch (Ereignis ) voneinander abhängig sind? Was meinen Sie? Was ist Ihre Einschätzung dazu? Vermutlich haben Sie ein (wenn vielleicht auch implizites) Vorab-Wissen zu dieser Frage. Lassen wir dieses Vorab-Wissen aber einmal außen vor und schauen uns rein Daten dazu an. Vereinfachen wir die Frage etwas, indem wir fragen, ob die Ereignisse “hoher Spritverbrauch” (A) und “hohe PS-Zahl” voneinander abhängig sind.
Um es konkret zu machen, nutzen wir den Datensatz mtcars
:
library(tidyverse)
data(mtcars)
glimpse(mtcars)
## Rows: 32
## Columns: 11
## $ mpg <dbl> 21, 21, 23, 21, 19,…
## $ cyl <dbl> 6, 6, 4, 6, 8, 6, 8…
## $ disp <dbl> 160, 160, 108, 258,…
## $ hp <dbl> 110, 110, 93, 110, …
## $ drat <dbl> 3.9, 3.9, 3.9, 3.1,…
## $ wt <dbl> 2.6, 2.9, 2.3, 3.2,…
## $ qsec <dbl> 16, 17, 19, 19, 17,…
## $ vs <dbl> 0, 0, 1, 1, 0, 1, 0…
## $ am <dbl> 1, 1, 1, 0, 0, 0, 0…
## $ gear <dbl> 4, 4, 4, 3, 3, 3, 3…
## $ carb <dbl> 4, 4, 1, 1, 2, 1, 4…
Weitere Infos zum Datensatz bekommen Sie mit help(mtcars)
in R.
Definieren wir uns das Ereignis “hohe PS-Zahl” (und nennen wir es hp_high
, klingt cooler). Sagen wir, wenn die PS-Zahl größer ist als der Median, dann trifft hp_high
zu, ansonsten nicht:
mtcars %>%
summarise(median(hp))
median(hp) |
---|
123 |
Mit dieser “Wenn-Dann-Abfrage” können wir die Variable hp_high
mit den Stufen TRUE
und FALSE
definieren:
mtcars <-
mtcars %>%
mutate(hp_high = case_when(
hp > 123 ~ TRUE,
hp <= 123 ~ FALSE
))
Genauso gehen wir mit dem Spritverbrauch vor (mpg_high
):
mtcars <-
mtcars %>%
mutate(mpg_high = case_when(
mpg > median(mpg) ~ TRUE,
mpg <= median(mpg) ~ FALSE
))
Berechnen Sie !
Schauen wir zuerst mal in den Datensatz:
mtcars %>%
select(hp, hp_high, mpg, mpg_high) %>%
slice_head(n = 5)
hp | hp_high | mpg | mpg_high | |
---|---|---|---|---|
Mazda RX4 | 110 | FALSE | 21 | TRUE |
Mazda RX4 Wag | 110 | FALSE | 21 | TRUE |
Datsun 710 | 93 | FALSE | 23 | TRUE |
Hornet 4 Drive | 110 | FALSE | 21 | TRUE |
Hornet Sportabout | 175 | TRUE | 19 | FALSE |
Dann visualisieren wir die bedingnte Wahrscheinlichkeiten:
mtcars %>%
#select(hp_high, mpg_high) %>%
ggplot() +
aes(x = hp_high, fill = mpg_high) +
geom_bar(position = "fill")
Hey, sowas von abhängig voneinander, die zwei Variablen, mpg_high
und hp_high
!
Der rechte Balken zeigt und . Der linke Balken zeigt und .
Berechnen wir die relevanten Anteile:
mtcars %>%
#select(hp_high, mpg_high) %>%
count(mpg_high, hp_high) %>% # Anzahl pro Zelle der Kontingenztabelle
group_by(hp_high) %>% # die Anteile pro "Balken" s. Diagramm
mutate(prop = n / sum(n))
## # A tibble: 4 × 4
## # Groups: hp_high [2]
## mpg_high hp_high n prop
## <lgl> <lgl> <int> <dbl>
## 1 FALSE FALSE 3 0.176
## 2 FALSE TRUE 14 0.933
## 3 TRUE FALSE 14 0.824
## 4 TRUE TRUE 1 0.0667
Die richtige Antwort lautet: 0.82.
Am besten, Sie führen den letzten Code Schritt für Schritt aus und schauen sich jeweils das Ergebnis an, das hilft beim Verstehen.
Alternativ kann man sich die Häufigkeiten auch schön bequem ausgeben lassen:
library(mosaic)
tally(mpg_high ~ hp_high,
data = mtcars,
format = "proportion")
TRUE | FALSE | |
---|---|---|
TRUE | 0.07 | 0.82 |
FALSE | 0.93 | 0.18 |
Betrachten wir das Ereignis “Schwerer Coronaverlauf” (); ferner betrachten wir das Ereignis “Blutgruppe ist A” () und das Gegenereignis von : “Blutgruppe ist nicht A”. Ein Gegenereignis wird auch als Komplementärereignis oder Komplement (complement) mit dem Term bezeichnet.
Sei und sei .
Was kann man auf dieser Basis zur Abhängigkeit der Ereignisse und sagen?
Geben Sie ein Adjektiv an, dass diesen Sachverhalt kennzeichnet!
Die Lösung lautet: unabhängig.
und sind unabhängig: Offenbar ist die Wahrscheinlichkeit eines schweren Verlaufs gleich groß unabhängig davon, ob die Blutgruppe A ist oder nicht. In diesem Fall spricht man von stochastischer Unabhängigkeit.
Prof. Bitter untersucht eine seiner Lieblingsfragen: Wie viel bringt das Lernen auf eine Klausur? Dabei konzentriert er sich auf das Fach Statistik (es gefällt ihm gut). In einer aktuellen Untersuchung hat er Studierende untersucht (s. Tabelle und Diagramm) und jeweils erfasst, ob die Person die Klausur bestanden (b) hat oder durchgefallen (d) ist. Dabei hat er zwei Gruppen unterschieden: Die “Viel-Lerner” (VL) und die “Wenig-Lerner” (WL).
Berechnen Sie die folgende: gemeinsame Wahrscheinlichkeit: p(Durchfallen UND Weniglerner).
Beispiel: Wenn Sie ausrechnen, dass die Wahrscheinlichkeit bei 42 Prozentpunkten liegt, so geben Sie ein: 0,42
bzw. 0.42
(das Dezimalzeichen ist abhängig von Ihren Spracheinstellungen).
0,42
.Das folgende Diagramm zeigt die Häufigkeiten pro Gruppe:
Hier ist die Kontingenztabelle mit den Häufigkeiten pro Gruppe:
Lerntyp | Bestehen | Durchfallen |
---|---|---|
Viellerner | 15 | 6 |
Weniglerner | 15 | 6 |
Die gemeinsame Wahrscheinlichkeit beträgt 0.14.
Lerntyp | Klausurergebnis | n | n_group | prop_conditional_group | joint_prob |
---|---|---|---|---|---|
Weniglerner | Durchfallen | 6 | 21 | 0.29 | 0.14 |
Die gemeinsame Wahrscheinlichkeit berechnet sich hier als der Quotient der Zellenhäufigkeit und der Gesamthäufigkeit.
Wir betrachten einen Datensatz, der Kredite analysiert:
library(openintro)
data("loans_full_schema")
Hier ist ein Überblick über den Datensatz:
## tibble [10,000 × 3] (S3: tbl_df/tbl/data.frame)
## $ interest_rate : num [1:10000] 14.07 12.61 17.09 6.72 14.07 ...
## $ annual_income : num [1:10000] 90000 40000 40000 30000 35000 34000 35000 110000 65000 30000 ...
## $ application_type: Factor w/ 2 levels "individual","joint": 1 1 1 1 2 1 2 1 1 1 ...
Eine Analystin möchte den Zinssatz (interest_rate
) auf Basis dieses Datensatzes vorhersagen.
Sie berechnet folgendes Regressionsmodell:
lm1 <- lm(interest_rate ~ annual_income + application_type, data = loans_full_schema)
Folgende Ergebnisse bekommt Sie zurück geliefert:
term | estimate | std_error |
---|---|---|
intercept | 12.90 | 0.083 |
annual_income | 0.00 | 0.000 |
application_typejoint | 0.71 | 0.140 |
Welche Aussage ist korrekt?
Estimate
liefert eine Schätzung zur Modellgüte.
application_typejoint
ist kleiner als 1.
application_typejoint
hat neben joint
noch eine weitere Stufe (individual
), diese ist aber nicht aufgeführt.
Intercept
gibt den Wert der abhängigen Variable an, bei Fällen mit dem Wert individual
bei application_type
und ohne Jahreseinkommen.
Intercept
gibt den Wert der abhängigen Variable an, bei Fällen mit dem Wert joint
bei application_type
und ohne Jahreseinkommen.
Der Wert bei Intercept
gibt den Wert der abhängigen Variable an, bei Fällen mit dem Wert individual
bei application_type
und ohne Jahreseinkommen.
predict(lm1, newdata = data.frame(annual_income = 0,
application_type = "individual"))
## 1
## 13
Welche der folgenden Zeilen zeigt den Likelihood?
Wie viele Parameter hat das folgende Modell?
Likelihood:
Prior für :
Prior für :
Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression bedeutet das: “Liegt die Regressionsgerade in”Wahrheit” (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Popuation?“. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir die”wahre” Regressionsgleichung kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern. Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.
Vor diesem Hintergrund, betrachten Sie folgendes statistisches Regressionsmodell, das mit Methoden der Bayes-Statistik berechnet werden soll:
## mpg ~ gear
## <environment: 0x11f7390f0>
## stan_glm
## family: gaussian [identity]
## formula: mpg ~ gear
## observations: 32
## predictors: 2
## ------
## Median MAD_SD
## (Intercept) 5.6 5.1
## gear 3.9 1.4
##
## Auxiliary parameter(s):
## Median MAD_SD
## sigma 5.4 0.7
##
## ------
## * For help interpreting the printed output see ?print.stanreg
## * For info on the priors used see ?prior_summary.stanreg
Beantworten Sie vor diesem Hintergrund folgende Frage:
Welche Zahl(en) kennzeichnet die Ungewissheit des Modells des Modells gegeben der Modellparameter (die Ungewissheit innerhalb des Modells)? (Gesucht ist nicht die Ungewissheit für die Ungewissheit des Modells).
Hinweise:
Die Antwort lautet: 5.45.
Betrachten Sie folgendes Modell, das den Zusammenhang des Preises (price
) und dem Gewicht (carat
) von Diamanten untersucht (Datensatz diamonds
).
Aber zuerst zentrieren wir den metrischen Prädiktor carat
, um den Achsenabschnitt besser interpretieren zu können.
Dann berechnen wir ein (bayesianisches) Regressionsmodell, wobei wir auf die Standardwerte der Prior zurückgreifen.
Estimates:
mean sd 10% 50% 90%
(Intercept) 3932.5 6.8 3923.7 3932.5 3941.1
carat_z 7756.3 14.2 7737.8 7756.2 7774.7
sigma 1548.6 4.8 1542.5 1548.6 1554.7
Zur Verdeutlichung ein Diagramm zum Modell:
Aufgabe:
Geben Sie eine Regressionsformel an, die lm1
ergänzt, so dass die Schliffart (cut
) des Diamanten kontrolliert (adjustiert) wird. Anders gesagt: Das Modell soll die mittleren Preise für jede der fünf Schliffarten angeben.
Hinweis:
cut |
---|
Ideal |
Premium |
Good |
Very Good |
Fair |
## [1] "Fair" "Good"
## [3] "Very Good" "Premium"
## [5] "Ideal"
Die richtige Antwort lautet: price ~ carat_z + cut
Das Modell könnten wir so berechnen:
Oder auch so, mit der klassischen Regression:
Estimates:
mean sd 10% 50% 90%
(Intercept) 3579.4 9.7 3566.9 3579.5 3591.9
carat_z 7871.5 14.2 7853.1 7871.4 7890.3
cut.L 1239.4 26.3 1205.7 1239.6 1272.6
cut.Q -527.9 23.4 -557.9 -528.3 -497.7
cut.C 367.7 20.4 341.8 367.7 393.5
cut^4 74.9 16.5 53.6 75.0 95.5
sigma 1511.5 4.6 1505.6 1511.5 1517.4
##
## Call:
## lm(formula = price ~ carat_z + cut, data = diamonds)
##
## Coefficients:
## (Intercept) carat_z
## 3579.3 7871.1
## cut.L cut.Q
## 1239.8 -528.6
## cut.C cut^4
## 367.9 74.6
Man könnte hier noch einen Interaktionseffekt ergänzen.
Wählen Sie das Diagramm, in dem kein Interaktionseffekt (in der Population) vorhanden ist (bzw. wählen Sie Diagramm, dass dies am ehesten darstellt).
Das Streudiagramm Diagramm D
zeigt keinen Interaktionseffekt.
Der t-Test kann als Spezialfall der Regressionsanalyse gedeutet werden.
Hierbei ist es wichtig, sich das Skalenniveau der Variablen, die ein t-Test verarbeitet, vor Augen zu führen.
Benennen Sie die Skalenniveaus der AV eines t-Tests! Geben Sie nur ein Wort ein. Verwenden Sie nur Kleinbuchstaben (z.B. regression
).
Die richtige Antwort lautet: metrisch.
data(mtcars)
mtcars %>%
ggplot() +
aes(x = am, y = mpg) +
geom_point(alpha = .5) +
geom_smooth(method = "lm")
Betrachten Sie folgende Ausgabe eines Bayesmodell, das mit rstanarm
“gefittet” wurde:
## stan_glm
## family: gaussian [identity]
## formula: price ~ cut
## observations: 1000
## predictors: 5
## ------
## Median MAD_SD
## (Intercept) 4571.7 675.1
## cutGood -570.2 777.2
## cutIdeal -1288.3 688.1
## cutPremium 362.5 709.8
## cutVery Good -807.4 706.3
##
## Auxiliary parameter(s):
## Median MAD_SD
## sigma 3795.0 82.4
Welche Aussage passt (am besten)?
Hinweise:
Berechnet man eine Posteriori-Verteilung mit stan_glm()
, so kann man entweder die schwach informativen Prioriwerte der Standardeinstellung verwenden, oder selber Prioriwerte definieren.
Betrachten Sie dazu dieses Modell:
stan_glm(price ~ cut, data = diamonds,
prior = normal(location = c(100, 100, 100, 100),
scale = c(100, 100, 100, 100)),
prior_intercept = normal(3000, 500))
Wie viele Parameter gibt es in diesem Modell?
Hinweise:
Die Anzahl der Parameter in diesem Modell ist: 11
Sei .
Berechnen Sie , den empirischen Regressionskoeffizienten!
Hinweise:
Die richtige Antwort lautet: 0.7.
Welche Verteilung ist (am besten) geeignet, um Streuung () zu modellieren?
## Warning in (function (x, rate = 1, ## log = FALSE) : NaNs produced
## Warning: Removed 101 row(s) ## containing missing values ## (geom_path).
Gegeben sei die Theorie (oder schlichter: das Modell), demzufolge eine Anlage zu Suchtverhalten die Ursache von sowohl Rauchen als auch Kaffeegewohnheit darstellt. Lungenkrebs wiederum hat als (alleinige) Ursache Rauchen (laut diesem Modell).
Daten zeigen, dass Kaffeegenuss und Lungenkrebs assoziiert sind: Bei Kaffeetrinkern ist die Lungenkrebsrate höher als bei Nichttrinkern (von Kaffee). Ob Kaffeegebrauch Lungenkrebs erzeugt?
Eine alternative Erklärung bietet folgender DAG.
Welche Variablenmenge muss mindestens kontrolliert werden, um Konfundierung auszuschließen und damit den kausalen Effekt von Kaffee auf Lungenkrebs zu identifizieren?
Durch Kontrolle von Addictive Behavior
oder aber Rauchen
wird der kausale Effekt von Coffee
auf Lung Cancer
identifiziert.
OHNE Kontrolle:
MIT Kontrolle von smoking
:
MIT Kontrolle von addictive
:
MIT Kontrolle von addictive
und smoking
:
Ein Forschungsteam aus Epidemiologen untersucht den (möglicherweise kausalen) Zusammenhang von Erziehung (education
) und Diabetes (diabetes
). Das Team schlägt folgendes Modell zur Erklärung des Zusammenhangs vor (s. DAG).
Nochmal den gleich DAG ohne “Schilder”, damit man die Pfeilspitzen besser sieht:
Sollte die Krankengeschichte der Mutter hinsichtlich Diabetes kontrolliert werden, um den kausalen Effekt von Erziehung auf Diabetes zu identifizieren?
Mother's Diabetes
sollte kontrolliert werden, da so eine Konfundierung vermieden wird.
Mother's Diabetes
sollte kontrolliert werden, da so ein Collider Bias (Kollisionsverzerrung) vermieden wird.
Mother's Diabetes
sollte nicht kontrolliert werden, da zwar keine Verzerrung entsteht, es aber auch nicht nötig ist.
Mother's Diabetes
sollte nicht kontrolliert werden, da so eine Konfundierung resultiert.
Mother's Diabetes
sollte nicht kontrolliert werden, da so ein Collider Bias (Kollisionsverzerrung) resultiert.
Durch Kontrolle von Mother's Diabetes
wird eine Scheinkorrelation erzeugt, wo es vorher keine gab. Das nennt man eine Kollisionsverzerrung (collider bias). Daher sollte Mother's Diabetes
nicht kontrolliert werden.
Im foglenden Diagramm ist der durch Kontrolle einer Kollisionsvariable geöffntete Pfad von a
nach b
im DAG eingezeichnet:
OHNE Kontrolle gibt es keine Verbindung zwischen x
und y
(sie sind d-separiert).
Ein Forschungsteam aus Psychologen und Medizinern untersucht die Frage, ob Menschen, die eine hohe Bereitschaft für eine OP und zu Veränderung in ihrer Lebensführung aufweisen (mittels Fragebogen gemessen), nach einem Jahr über einen höheren Schmerzrückgang verfügen als Patienten geringerer Bereitschaft. Die Studie umfasst ausschließlich Patienten, die eine OP wegen Rückenschmerzen durchlaufen sind (s. DAG).
Das Studiendesign impliziert, dass nur Patienten, die eine OP durchlaufen haben, in die Studie aufgenommen wurde. Damit wird per Design diese Variable stratifiziert (kontrolliert).
Durch die Stratifizierung wird ein Hintertürpfad geöffnet; dieser muss geschlossen werden. Wie sollte dies geschehen (in diesem Modell)?
Im folgenden Diagramm ist der Kollisionsbias kenntlich gemacht, der durch die Stratifizierung von Surgical Status
entsteht:
Hinweis:
underlying readiness
kontrolliert werden, um den kausalen Effekt zu identifizieren.
Change in Pain
kontrolliert werden, um den kausalen Effekt zu identifizieren.
Measured Readiness
kontrolliert werden, um den kausalen Effekt zu identifizieren.
underlying readiness
kontrolliert werden, um den kausalen Effekt zu identifizieren.
Baseline Pane
kontrolliert werden, um den kausalen Effekt zu identifizieren.
Es sollte auf Baseline Pain
kontrolliert werden, um den kausalen Effekt zu identifizieren.
Mit Kontrolle von Baseline Pain
(und surgery
) ist der kausale Effekt identifiziert:
Ohne Kontrolle von Baseline Pain
ist der Effekt nicht identifiziert; es gibt einen Hintertürpfad: