library(tidyverse)
library(easystats)
library(rstanarm)
data("penguins", package = "palmerpenguins")
penguins-stan-01
Aufgabe
Wir untersuchen Einflussfaktoren bzw. Prädiktoren auf das Körpergewicht von Pinguinen. In dieser Aufgabe untersuchen wir in dem Zusammenhang den Zusammenhang von Schnabellänge (als UV) und Körpergewicht (als AV).
Wie groß ist der statistische Einfluss der UV auf die AV?
- Berechnen Sie den Punktschätzer des Effekts!
- Wie viele Parameter hat das Modell?
- Geben Sie die Breite eines 90%-HDI an (zum Effekt)!
- Wie groß ist die Wahrscheinlichkeit, dass der Effekt vorhanden ist (also größer als Null ist), die “Effektwahrscheinlichkeit”?
- Wie groß ist das 95%-HDI, wenn Sie nur die Spezies Adelie untersuchen?
- Geben Sie die Prioris an für
m1
für die Regressionskoeffizienten!
Hinweise:
- Nutzen Sie den Datensatz zu den Palmer Penguins.
- Verwenden Sie Methoden der Bayes-Statistik und die Software Stan.
- Fixieren Sie die Zufallszahlen auf den Startwert 42!
- Sie können den Datensatz z.B. hier beziehen oder über das R-Paket
palmerpenguins
. - Geben Sie keine Prozentzahlen, sondern stets Anteile an.
- Beachten Sie die übrigen Hinweise.
Lösung
Zentrieren ist eigentlich immer nützlich, aber hier streng genommen nicht unbedingt nötig. Der Hauptgrund ist, dass Stan für uns den Prior für den Intercept festlegt, und zwar auf Basis der Daten, wir uns also nicht um die komische Frage zu kümmern brauchen, welchen Prior wir für den unzentrierten Achsenabschnitt vergeben wollten: Wie schwer sind Pinguins der Schnabellänge Null? Mit zentrierten Prädiktoren ist die Frage nach dem Prior viel einfacher zu beantworten: Wie schwer ist ein Pinguin mit mittelgroßem Schnabel?
Setup:
Es wird in dieser Aufgabe vorausgesetzt, dass Sie den Datensatz selbständig importieren können. Tipp: Kurzes Googeln hilft ggf., den Datensatz zu finden.
Alternativ könnten Sie den Datensatz als CSV-Datei importieren:
<- "https://vincentarelbundock.github.io/Rdatasets/csv/palmerpenguins/penguins.csv"
d_path <- data_read(d_path) # oder z.B. mit read_csv penguins
Ein Blick in die Daten zur Kontrolle, ob das Importieren richtig funktioniert hat:
glimpse(penguins)
Rows: 344
Columns: 8
$ species <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adel…
$ island <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgerse…
$ bill_length_mm <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, …
$ bill_depth_mm <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, …
$ flipper_length_mm <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186…
$ body_mass_g <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, …
$ sex <fct> male, female, female, NA, female, male, female, male…
$ year <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…
Vertrauen ist gut, aber - was Golems betrifft - ist Kontrolle eindeutig besser ;-)
- Punktschätzer
<- stan_glm(body_mass_g ~ bill_length_mm, # Regressionsgleichung
m1 data = penguins, # Daten
seed = 42, # Reproduzierbarkeit
refresh = 0) # nicht so viel Output
parameters(m1, ci_method = "hdi", ci = .9)
Parameter | Median | CI | CI_low | CI_high | pd | Rhat | ESS | Prior_Distribution | Prior_Location | Prior_Scale |
---|---|---|---|---|---|---|---|---|---|---|
(Intercept) | 359.9393 | 0.9 | -112.36003 | 834.8034 | 0.89575 | 1.000485 | 4117.553 | normal | 4201.754 | 2004.8863 |
bill_length_mm | 87.4472 | 0.9 | 76.99955 | 98.3694 | 1.00000 | 1.000491 | 4123.761 | normal | 0.000 | 367.2233 |
- Anzahl Parameter
Das Modell hat 3 Paramter:
- \(\beta_0\) (oder \(\alpha\))
- \(\beta_01\)
- \(\sigma\)
- Breite des Intervalls
Dazu liest man die Intervallgrenzen (90% CI
) in der richtigen Zeile ab (Tabelle parameters
):
97.70 - 76.24
[1] 21.46
Einheit: mm
- Effektwahrscheinlichkeit
<-
m1_post %>%
m1 as_tibble()
%>%
m1_post count(bill_length_mm > 0)
bill_length_mm > 0 | n |
---|---|
TRUE | 4000 |
Also: 100% oder 1 (4000 von 4000 Stichproben finden dieses Ergebnis in unserem Modell).
Man kann diesen Wert aus der Tabelle oben (Ausgabe von parameters()
) einfach in der Spalte pd
ablesen. pd
steht für probability of direction, s. Details hier.
Oder so, ist auch einfach:
<- p_direction(m1) # aus Paket easystats
pd_m1 pd_m1
Parameter | pd | Effects | Component |
---|---|---|---|
(Intercept) | 0.89575 | fixed | conditional |
bill_length_mm | 1.00000 | fixed | conditional |
Und plotten ist meist hilfreich: plot(pd_m1)
.
Man kann sich auch ein “Dashboard” mit allen Ergebnissen des Modells ausgeben lassen:
model_dashboard(m1)
- Nur Adelie:
Welche Spezies gibt es im Datensatz?
%>%
penguins count(species)
species | n |
---|---|
Adelie | 152 |
Chinstrap | 68 |
Gentoo | 124 |
Filtern:
<-
penguins_adelie %>%
penguins filter(species == "Adelie")
Modell berechnen:
<- stan_glm(body_mass_g ~ bill_length_mm, # Regressionsgleichung
m2 data = penguins_adelie, # Daten
seed = 42, # Repro.
refresh = 0) # nicht so viel Output
Das Modell ist - bis auf die Daten - identisch zu m1
.
parameters(m2)
Parameter | Median | CI | CI_low | CI_high | pd | Rhat | ESS | Prior_Distribution | Prior_Location | Prior_Scale |
---|---|---|---|---|---|---|---|---|---|---|
(Intercept) | 22.53919 | 0.95 | -879.18205 | 913.4400 | 0.5185 | 1.000466 | 3934.802 | normal | 3700.662 | 1146.4153 |
bill_length_mm | 94.71685 | 0.95 | 71.89291 | 118.0511 | 1.0000 | 1.000492 | 3910.510 | normal | 0.000 | 430.4322 |
hdi(m2, parameters = "bill_length_mm")
Parameter | CI | CI_low | CI_high | Effects | Component |
---|---|---|---|---|---|
bill_length_mm | 0.95 | 71.57412 | 117.4872 | fixed | conditional |
S. auch Tabelle oben.
118.09 - 71.86
[1] 46.23
- Prioris
describe_prior(m1, component = "auxiliary")
Parameter | Prior_Distribution | Prior_Location | Prior_Scale |
---|---|---|---|
(Intercept) | normal | 4201.754 | 2004.8863 |
bill_length_mm | normal | 0.000 | 367.2233 |
Steht auch in der Tabelle, die von parameters
ausgegeben wird.
Categories:
- bayes
- regression
- string