verteilungsfunktion-penguins

probability
Published

September 26, 2025

1 Aufgabe

In dieser Aufgabe beschäftigen wir uns mit der Schätzung von Wahrscheinlichkeitsaussagen auf Basis der deskriptiven Statistik.

Table 1: Gegenüberstellung von Wahrscheinlichkeitstheorie und deskriptiver Statistik
Wahrscheinlichkeitstheorie Deskriptive Statistik
Zufallsvariable Merkmal
Wahrscheinlichkeit relative Häufigkeit, Anteil
Wahrscheinlichkeitsverteilung einfache relative Häufigkeitsverteilung
Verteilungsfunktion kumulierte relative Häufigkeitsverteilung
Erwartungswert Mittelwert
Varianz Varianz

Dabei nutzen wir den Datensatz penguins.

library(palmerpenguins)
data(penguins)
  1. Welche Variable entspricht der Zufallsvariable Gewicht des Tieres?
  2. Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist?
  3. Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts.
  4. Visualisieren Sie die Verteilungsfunktion des Gewichts.
  5. Visualisieren Sie den Erwartungswert des Gewichts.
  6. Visualisieren Sie die Varianz des Gewichts.

Hinweise:

  • Beachten Sie die üblichen Hinweise des Datenwerks.













2 Lösung

library(palmerpenguins)
data(penguins)
library(tidyverse)
library(ggpubr)

2.1 A) Welche Variable entspricht der Zufallsvariable Gewicht des Tieres?

names(penguins)
[1] "species"           "island"            "bill_length_mm"   
[4] "bill_depth_mm"     "flipper_length_mm" "body_mass_g"      
[7] "sex"               "year"             

`“body_mass_g” ``

2.2 B) Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist?

penguins |> 
  filter(sex == "female") |> 
  nrow() / nrow(penguins)
[1] 0.4796512

2.3 C) Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts.

gghistogram(penguins, x = "body_mass_g")

ggdensity(penguins, x = "body_mass_g")

2.4 D) Visualisieren Sie die Verteilungsfunktion des Gewichts.

Die empirische kumulative Verteilungsfunktion nennt man auf Englisch: empirical cumulative distribution function, kurz ECDF.

Dafür gibt es eine Funktion in ggpubrund in ggplot2.

ggecdf(penguins, x = "body_mass_g")

Ein bisschen cooler:

penguins_clean <- penguins %>%
  filter(!is.na(body_mass_g))

# ECDF plot with ggpubr
ggecdf(
  data = penguins_clean,
  x = "body_mass_g",
  color = "species",   # optional: color by species
  add = "mean",        # optional: add mean line
  xlab = "Body Mass (g)",
  ylab = "ECDF",
  title = "Empirical CDF of Penguin Body Mass"
)

2.5 E) Visualisieren Sie den Erwartungswert des Gewichts.

ggdensity(penguins, x = "body_mass_g", add = "mean")

2.6 F) Visualisieren Sie die Varianz des Gewichts.

Die Breite der Verteilung zeigt die Varinaz.

ggdensity(penguins, x = "body_mass_g", add = "mean")