86 korr-als-regr
Aufgaben, Statistik, Prognose, Modellierung, R, Datenanalyse, Regression
86.1 Aufgabe
Die Korrelation prüft, ob bzw. inwieweit zwei Merkmale linear zusammenhängen.
Wie viele andere Verfahren kann die Korrelation als ein Spezialfall der Regression bzw. des linearen Modells \(y = \beta_0 + \beta_1 + \ldots \beta_n + \epsilon\) betrachtet werden.
Als ein spezielles Beispiel betrachten wir die Frage, ob das Gewicht eines Diamanten (carat) mit dem Preis (price) zusammenhängt (Datensatz diamonds).
Den Datensatz können Sie so laden:
Geben Sie das Skalenniveau beider Variablen an!
Betrachten Sie die Ausgabe von R:
lm1 <- lm(price ~ carat, data = diamonds)
summary(lm1)
##
## Call:
## lm(formula = price ~ carat, data = diamonds)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18585.3 -804.8 -18.9 537.4 12731.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2256.36 13.06 -172.8 <2e-16 ***
## carat 7756.43 14.07 551.4 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1549 on 53938 degrees of freedom
## Multiple R-squared: 0.8493, Adjusted R-squared: 0.8493
## F-statistic: 3.041e+05 on 1 and 53938 DF, p-value: < 2.2e-16Wie (bzw. wo) ist aus dieser Ausgabe die Korrelation herauszulesen?
Macht es einen Unterschied, ob man Preis mit Karat bzw. Karat mit Preis korreliert?
In der klassischen Inferenzstatistik ist der \(p\)-Wert eine zentrale Größe; ist er klein (\(p<.05\)) so nennt man die zugehörige Statistik signifikant und verwirft die getestete Hypothese.
Im Folgenden sehen Sie einen Korrelationstest auf statistische Signifikanz, mit R durchgeführt. Zeigt der Test ein (statistisch) signifikantes Ergebnis? Wie groß ist der “Unsicherheitskorridor”, um den Korrelationswert (zugleich Punktschätzer für den Populationswert)?
86.2 Lösung
caratist metrisch (verhältnisskaliert) undpriceist metrisch (verhältnisskaliert)\(R^2\) kann bei einer einfachen (univariaten) Regression als das Quadrat von \(r\) berechnet werden. Daher \(r = \sqrt{R^2}\).
sqrt(0.8493)
## [1] 0.9215747Zum Vergleich
Man kann den Wert der Korrelation auch noch anderweitig berechnen (\(\beta\) umrechnen in \(\rho\)).
Nein. Die Korrelation ist eine symmetrische Relation.
Ja; die Zahl “3.81e-14” bezeichnet eine positive Zahl kleiner eins mit 13 Nullern vor der ersten Ziffer, die nicht Null ist (3.81 in diesem Fall). Der “Unsicherheitskorridor” reicht von etwa 0.87 bis 0.97.
Categories:
- correlation
- lm
- regression
- string