Die Inferenzstatistik ist ein Sammlung an Verfahren zur Bemessung von Unsicherheit in statistischen Schlüssen.
Für welche Statistiken - also Kennzahlen der Deskriptivstatistik wie etwa - kann man die Inferenzstatistik verwenden?
Für welche Forschungsfragen oder -bereiche kann man die Inferenzstatistik verwenden?
Gibt es besondere Fälle, in denen man nicht die Inferenzstatistik verwenden möchte? Wenn ja, welche?
Für Statistiken (Stichprobe) verwendet man meist lateinische Buchstaben; für Parameter (Population) verwendet man entsprechend meist griechische Buchstaben.
Vervollständigen Sie folgende Tabelle entsprechend!
Kennwert | Statistik | Parameter |
---|---|---|
Mittelwert | NA | |
Mittelwertsdifferenz | NA | |
Streuung | sd | NA |
Anteil | p | NA |
Korrelation | r | NA |
Regressionsgewicht | b | NA |
Der t-Test kann als Spezialfall der Regressionsanalyse gedeutet werden.
Hierbei ist es wichtig, sich das Skalenniveau der Variablen, die ein t-Test verarbeitet, vor Augen zu führen.
regression
).
regression
).
Die Varianzanalyse (Analysis of Variance; Anova) ist ein statistisches Verfahren, um die Gleichheit zweier oder mehr Populationsmittelwerte zu testen: .
Wie viele andere Verfahren kann die Anova als ein Spezialfall der Regression bzw. des linearen Modells betrachtet werden.
Als ein spezielles Beispiel betrachten wir die Frage, ob Diamanten (Datensatz diamonds
) verschiedener Schliffart (cut
) sich nicht in ihrem mittleren Preis (price
) unterscheiden.
Den Datensatz können Sie so laden:
library(tidyverse)
data(diamonds)
Nennen Sie UV und AV! Geben Sie jeweils das Skalenniveau an!
Nennen Sie die Regressionsformel für diese Forschungsfrage!
Betrachten Sie die Ausgabe von R:
Estimates:
mean sd 10% 50% 90%
(Intercept) 4062.0 25.9 4029.1 4062.6 4094.8
cut.L -363.7 67.3 -449.8 -363.8 -278.3
cut.Q -223.7 59.7 -300.2 -223.2 -147.3
cut.C -700.8 51.7 -766.4 -701.7 -634.4
cut^4 -280.2 41.7 -333.5 -280.1 -226.5
sigma 3963.9 12.1 3948.4 3963.7 3979.5
Geben Sie die Punktschätzer zu den Mittelwertsunterschieden an. Die Spalte sd
quantifiziert die Unsicherheit bzw. Ungenauigkeit in der Schätzung. Die Prozentwerte kann man interpretieren, dass das Modell der Meinung ist, der wahre (zu schätzende Werte) ist mit 10% (50%, 90%) Wahrscheinlichkeit kleiner als der jeweils angegebene Wert.
Vor diesem Hintergrund: Würden Sie die Hypothese der Gleichheit aller Mittelwerte der Gruppen (an Schliffarten) ablehnen oder beibehalten?
Die Korrelation prüft, ob zwei Merkmale linear zusammenhängen.
Wie viele andere Verfahren kann die Korrelation als ein Spezialfall der Regression bzw. des linearen Modells betrachtet werden.
Als ein spezielles Beispiel betrachten wir die Frage, ob das Gewicht eines Diamanten (carat
) mit dem Preis (price
) zusammenhängt (Datensatz diamonds
).
Den Datensatz können Sie so laden:
library(tidyverse)
data(diamonds)
Geben Sie das Skalenniveau beider Variablen an!
Betrachten Sie die Ausgabe von R:
lm1 <- lm(price ~ carat, data = diamonds)
summary(lm1)
##
## Call:
## lm(formula = price ~ carat, data = diamonds)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18585 -805 -19 537 12732
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2256.4 13.1 -173 <2e-16 ***
## carat 7756.4 14.1 551 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1550 on 53938 degrees of freedom
## Multiple R-squared: 0.849, Adjusted R-squared: 0.849
## F-statistic: 3.04e+05 on 1 and 53938 DF, p-value: <2e-16
Wie (bzw. wo) ist aus dieser Ausgabe die Korrelation herauszulesen?
Macht es einen Unterschied, ob man Preis mit Karat bzw. Karat mit Preis korreliert?
In der klassischen Inferenzstatistik ist der -Wert eine zentrale Größe; ist er klein () so nennt man die zugehörige Statistik signifikant und verwirft die getestete Hypothese.
Im Folgenden sehen Sie einen Korrelationstest auf statistische Signifikanz, mit R durchgeführt. Zeigt der Test ein (statistisch) signifikantes Ergebnis? Wie groß ist der “Unsicherheitskorridor”, um den Korrelationswert (zugleich Punktschätzer für den Populationswert)?
library(rstatix)
diamonds %>%
sample_n(30) %>%
select(price, carat) %>%
rstatix::cor_test() %>%
gt()
## Error in gt(.): could not find function "gt"
Eine statistische Analyse, wie eine Regression, ist mit mehreren Arten an Ungewissheit konfrontiert. Zum einen gibt es die Ungewissheit in den Modellparametern. Für die Regression bedeutet das: “Liegt die Regressionsgerade in”Wahrheit” (in der Population) genauso wie in der Stichprobe, sind Achsenabschnitt und Steigung in der Stichprobe also identisch zur Popuation?“. Zum anderen die Ungewissheit innerhalb des Modells. Auch wenn wir die”wahre” Regressionsgleichung kennen würden, wären (in aller Regel) die Vorhersagen trotzdem nicht perfekt. Auch wenn wir etwa wüssten, wieviel Klausurpunkte “in Wahrheit” pro Stunde Lernen herausspringen (und wenn wir den wahren Achsenabschnitt kennen würden), so würde das Modell trotzdem keine perfekten Vorhersagen zum Klausurerfolg liefern. Vermutlich fehlen dem Modell wichtige Informationen etwa zur Motivation der Studentis.
Vor diesem Hintergrund, betrachten Sie folgendes statistisches Modell:
## stan_glm
## family: gaussian [identity]
## formula: mpg ~ hp
## observations: 32
## predictors: 2
## ------
## Median MAD_SD
## (Intercept) 30.1 1.6
## hp -0.1 0.0
##
## Auxiliary parameter(s):
## Median MAD_SD
## sigma 3.9 0.5
##
## ------
## * For help interpreting the printed output see ?print.stanreg
## * For info on the priors used see ?prior_summary.stanreg
Betrachten Sie folgendes Modell, das den Zusammenhang von PS-Zahl und Spritverbrauch untersucht (Datensatz mtcars
).
Aber zuerst zentrieren wir den metrischen Prädiktor hp
, um den Achsenabschnitt besser interpretieren zu können.
Estimates:
mean sd 10% 50% 90%
(Intercept) 20.1 0.7 19.2 20.1 21.0
hp_z -0.1 0.0 -0.1 -0.1 -0.1
sigma 4.0 0.5 3.4 3.9 4.7
Jetzt können wir aus dem Achsenabschnitt (Intercept) herauslesen, dass ein Auto mit hp_z = 0
- also mit mittlerer PS-Zahl - vielleicht gut 20 Meilen weit mit einer Gallone Sprit kommt.
Zur Verdeutlichung ein Diagramm zum Modell:
Adjustieren Sie im Modell die PS-Zahl um die Art des Schaltgetriebes (am
), so dass das neue Modell den Effekt der PS-Zahl bereinigt bzw. unabhängig von der Art des Schaltgetriebes widerspiegelt!
(Hinweis am=0
ist ein Auto mit Automatikgetriebe.)
Betrachten Sie folgendes Modell, das den Zusammenhang des Preises (price
) und dem Gewicht (carat
) von Diamanten untersucht (Datensatz diamonds
).
Aber zuerst zentrieren wir den metrischen Prädiktor carat
, um den Achsenabschnitt besser interpretieren zu können.
Dann berechnen wir ein (bayesianisches) Regressionsmodell, wobei wir auf die Standardwerte der Prior zurückgreifen.
Estimates:
mean sd 10% 50% 90%
(Intercept) 3932.5 6.8 3923.7 3932.5 3941.1
carat_z 7756.3 14.2 7737.8 7756.2 7774.7
sigma 1548.6 4.8 1542.5 1548.6 1554.7
Zur Verdeutlichung ein Diagramm zum Modell:
lm1
? Runden Sie auf eine Dezimale. Geben Sie nur eine Zahl ein. b) Geben Sie eine Regressionsformel an, die lm1
ergänzt, so dass die Schliffart (cut
) des Diamanten kontrolliert (adjustiert) wird. Anders gesagt: Das Modell soll die mittleren Preise für jede der fünf Schliffarten angeben. Geben Sie nur die Regressionsformel an. Lassen Sie zwischen Termen jeweils ein Leerzeichen Abstand. Hinweis: Es gibt (laut Datensatz) folgende Schliffarten (und zwar in der folgenden Reihenfolge): ## # A tibble: 5 × 1 ## cut ## <ord> ## 1 Ideal ## 2 Premium ## 3 Good ## 4 Very Good ## 5 Fair
## [1] "Fair" "Good" "Very Good" "Premium" "Ideal"
Zwei Modelle, m1
und m2
produzieren jeweils die gleiche Vorhersage (den gleichen Punktschätzer).
m1
:
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.2438 -0.0659 0.0107 0.0595 0.2187
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.00187 0.00934 -0.2 0.84
## x 0.99795 0.00996 100.2 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.093 on 98 degrees of freedom
## Multiple R-squared: 0.99, Adjusted R-squared: 0.99
## F-statistic: 1e+04 on 1 and 98 DF, p-value: <2e-16
m2
:
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1370 -0.5838 -0.0009 0.7129 2.5472
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.130 0.105 1.24 0.22
## x 1.058 0.104 10.14 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.1 on 98 degrees of freedom
## Multiple R-squared: 0.512, Adjusted R-squared: 0.507
## F-statistic: 103 on 1 and 98 DF, p-value: <2e-16
Die Modelle unterscheiden sich aber in ihrer Ungewissheit bezüglich , wie in der Spalte Std. Error
ausgedrückt.
Welches der beiden Modelle ist zu bevorzugen? Begründen Sie.
Nennen Sie ein Beispiel für eine Vorhersagemodell (mit lineare Regression), wo Sie sich nicht mit dem Punktschätzer für die Modellkoeffizienten begnügen, sondern auch über die Ungewissheit in der Schätzung der Modellkoeffizienten informiert werden möchten!
Denken wir uns ein kausales System mit einer Ursache und einer Wirkung, etwa der Einfluss der Naturbelassenheit () eines Landkreises auf die Anzahl der Störche () dort (ein positiver Einfluss). Nehmen wir weiter an, die Naturbelassenenheit eines Landkreises hat einen (positiven) Einfluss auf die Anzahl Neugeborener (Babies, ).
Weitere kausale Einflüsse existieren in diesem kausalen System nicht (es handelt sich ja hier umn ein Gedankenexperiment, wir können frei bestimmen!).
Die Frage ist nun, ob wir erwarten müssen, dass Störche und Babies zusammenhängen in diesem System, dass es also dort, wo es viele Störche gibt auch viele Babies gibt. Das wäre deswegen beachtlich, weil wir in unserem System explizit keinen (kausalen) Zusammenhang zwischen diesen beiden Größen definiert haben.
Um die Sache etwas greifbarer zu machen, erstellen wir uns Daten, die zu diesem System passen. Sagen wir, wir haben 100 Landkreise, die in der Zahl der Störche und Babies und Naturbelassenheit variieren. Der Einfachheit halber seien alle Werte in -Werten ausgedrückt. Gehen wir weiter (der Einfachheit halber) davon aus, alle Größen sind normalverteilt. Solche Werte kann man mit der R-Funktion rnorm()
erzeugen.
Schließlich gehen wir noch davon aus, dass die Einflüsse linear sind und nicht perfekt. Der Zufall (zufälliger “Fehler”, ) soll also auch einen Einfluss auf die Größen haben.
N <- rnorm(100, mean = 0, sd = 1) # 100 normalverteilte z-Werte
e1 <- rnorm(100) # das gleiche wie oben: normalverteilte z-Werte
e2 <- rnorm(100) # das gleiche wie oben: normalverteilte z-Werte
S <- N + e1 # S wird determiniert durch N und e
B <- N + e2 # B wird determiniert druch N und e
Testen wir unsere simulierten Daten mit einer einfachen Regression, der Frage, ob die Anzahl der Störche (S) von der Natürlichkeit (N) abhängt:
lm1 <- lm(S ~ N)
summary(lm1)
##
## Call:
## lm(formula = S ~ N)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.2528 -0.6076 0.0072 0.6931 2.0559
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0641 0.0976 0.66 0.51
## N 1.0894 0.1044 10.43 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.97 on 98 degrees of freedom
## Multiple R-squared: 0.526, Adjusted R-squared: 0.521
## F-statistic: 109 on 1 and 98 DF, p-value: <2e-16
Unser Modell lm1
bringt unsere Annahmen deutlich zum Vorschein.
Wir suchen ein Modell, das einen nichtlinearen Zusammenhang von PS-Zahl und Spritverbrauch darstellt (Datensatz mtcars
).
Geben Sie dafür ein mögliches Modell an! Nutzen Sie den R-Befehl lm
.