Wahrscheinlichkeitstheorie | Deskriptive Statistik |
---|---|
Zufallsvariable | Merkmal |
Wahrscheinlichkeit | relative Häufigkeit, Anteil |
Wahrscheinlichkeitsverteilung | einfache relative Häufigkeitsverteilung |
Verteilungsfunktion | kumulierte relative Häufigkeitsverteilung |
Erwartungswert | Mittelwert |
Varianz | Varianz |
verteilungsfunktion-penguins
probability
1 Aufgabe
In dieser Aufgabe beschäftigen wir uns mit der Schätzung von Wahrscheinlichkeitsaussagen auf Basis der deskriptiven Statistik.
Dabei nutzen wir den Datensatz penguins
.
library(palmerpenguins)
data(penguins)
- Welche Variable entspricht der Zufallsvariable Gewicht des Tieres?
- Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist?
- Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts.
- Visualisieren Sie die Verteilungsfunktion des Gewichts.
- Visualisieren Sie den Erwartungswert des Gewichts.
- Visualisieren Sie die Varianz des Gewichts.
Hinweise:
- Beachten Sie die üblichen Hinweise des Datenwerks.
2 Lösung
library(palmerpenguins)
data(penguins)
library(tidyverse)
library(ggpubr)
2.1 A) Welche Variable entspricht der Zufallsvariable Gewicht des Tieres?
names(penguins)
[1] "species" "island" "bill_length_mm"
[4] "bill_depth_mm" "flipper_length_mm" "body_mass_g"
[7] "sex" "year"
`“body_mass_g” ``
2.2 B) Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist?
|>
penguins filter(sex == "female") |>
nrow() / nrow(penguins)
[1] 0.4796512
2.3 C) Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts.
gghistogram(penguins, x = "body_mass_g")
ggdensity(penguins, x = "body_mass_g")
2.4 D) Visualisieren Sie die Verteilungsfunktion des Gewichts.
Die empirische kumulative Verteilungsfunktion nennt man auf Englisch: empirical cumulative distribution function, kurz ECDF.
Dafür gibt es eine Funktion in ggpubr
und in ggplot2
.
ggecdf(penguins, x = "body_mass_g")
Ein bisschen cooler:
<- penguins %>%
penguins_clean filter(!is.na(body_mass_g))
# ECDF plot with ggpubr
ggecdf(
data = penguins_clean,
x = "body_mass_g",
color = "species", # optional: color by species
add = "mean", # optional: add mean line
xlab = "Body Mass (g)",
ylab = "ECDF",
title = "Empirical CDF of Penguin Body Mass"
)
2.5 E) Visualisieren Sie den Erwartungswert des Gewichts.
ggdensity(penguins, x = "body_mass_g", add = "mean")
2.6 F) Visualisieren Sie die Varianz des Gewichts.
Die Breite der Verteilung zeigt die Varinaz.
ggdensity(penguins, x = "body_mass_g", add = "mean")