verteilungsfunktion-penguins

probability

Published

September 26, 2025

1 Aufgabe

In dieser Aufgabe beschäftigen wir uns mit der Schätzung von Wahrscheinlichkeitsaussagen auf Basis der deskriptiven Statistik.

Table 1: Gegenüberstellung von Wahrscheinlichkeitstheorie und deskriptiver Statistik

Wahrscheinlichkeitstheorie	Deskriptive Statistik
Zufallsvariable	Merkmal
Wahrscheinlichkeit	relative Häufigkeit, Anteil
Wahrscheinlichkeitsverteilung	einfache relative Häufigkeitsverteilung
Verteilungsfunktion	kumulierte relative Häufigkeitsverteilung
Erwartungswert	Mittelwert
Varianz	Varianz

Dabei nutzen wir den Datensatz penguins.

library(palmerpenguins)
data(penguins)

Welche Variable entspricht der Zufallsvariable Gewicht des Tieres?
Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist?
Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts.
Visualisieren Sie die Verteilungsfunktion des Gewichts.
Visualisieren Sie den Erwartungswert des Gewichts.
Visualisieren Sie die Varianz des Gewichts.

Hinweise:

Beachten Sie die üblichen Hinweise des Datenwerks.

2 Lösung

library(palmerpenguins)
data(penguins)

library(tidyverse)
library(ggpubr)

2.1 A) Welche Variable entspricht der Zufallsvariable Gewicht des Tieres?

names(penguins)

[1] "species"           "island"            "bill_length_mm"   
[4] "bill_depth_mm"     "flipper_length_mm" "body_mass_g"      
[7] "sex"               "year"

`“body_mass_g” ``

2.2 B) Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist?

penguins |> 
  filter(sex == "female") |> 
  nrow() / nrow(penguins)

[1] 0.4796512

2.3 C) Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts.

gghistogram(penguins, x = "body_mass_g")

ggdensity(penguins, x = "body_mass_g")

2.4 D) Visualisieren Sie die Verteilungsfunktion des Gewichts.

Die empirische kumulative Verteilungsfunktion nennt man auf Englisch: empirical cumulative distribution function, kurz ECDF.

Dafür gibt es eine Funktion in ggpubrund in ggplot2.

ggecdf(penguins, x = "body_mass_g")

Ein bisschen cooler:

penguins_clean <- penguins %>%
  filter(!is.na(body_mass_g))

# ECDF plot with ggpubr
ggecdf(
  data = penguins_clean,
  x = "body_mass_g",
  color = "species",   # optional: color by species
  add = "mean",        # optional: add mean line
  xlab = "Body Mass (g)",
  ylab = "ECDF",
  title = "Empirical CDF of Penguin Body Mass"
)

2.5 E) Visualisieren Sie den Erwartungswert des Gewichts.

ggdensity(penguins, x = "body_mass_g", add = "mean")

2.6 F) Visualisieren Sie die Varianz des Gewichts.

Die Breite der Verteilung zeigt die Varinaz.

ggdensity(penguins, x = "body_mass_g", add = "mean")

--- # gleich diese Datei in einem Ordner mit Namen der Aufgabe abspeichern! date: 2025-09-26 draft: false # ACHTUNG DRAFT STEHT AUF TRUE! title: verteilungsfunktion-penguins # HIER TITEL DES POSTS EINGEBEN. execute: eval: true highlight-style: arrow toc: true number-sections: true categories: - probability # ENTER CATEGORIES HERE --- # Aufgabe In dieser Aufgabe beschäftigen wir uns mit der Schätzung von Wahrscheinlichkeitsaussagen auf Basis der deskriptiven Statistik. ```{r} #| echo: false #| label: tbl-wkeit-desk #| tbl-cap: "Gegenüberstellung von Wahrscheinlichkeitstheorie und deskriptiver Statistik" d <- tibble::tribble( ~Wahrscheinlichkeitstheorie, ~`Deskriptive Statistik`, "Zufallsvariable", "Merkmal", "Wahrscheinlichkeit", "relative Häufigkeit, Anteil", "Wahrscheinlichkeitsverteilung", "einfache relative Häufigkeitsverteilung", "Verteilungsfunktion", "kumulierte relative Häufigkeitsverteilung", "Erwartungswert", "Mittelwert", "Varianz", "Varianz" ) gt::gt(d) ``` Dabei nutzen wir den Datensatz `penguins`. ```{r} library(palmerpenguins) data(penguins) ``` A) Welche Variable entspricht der Zufallsvariable *Gewicht des Tieres*? B) Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist? C) Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts. D) Visualisieren Sie die Verteilungsfunktion des Gewichts. E) Visualisieren Sie den Erwartungswert des Gewichts. F) Visualisieren Sie die Varianz des Gewichts. Hinweise: - Beachten Sie die üblichen [Hinweise](https://datenwerk.netlify.app/hinweise) des Datenwerks. # Lösung ```{r} library(palmerpenguins) data(penguins) ``` ```{r} library(tidyverse) library(ggpubr) ``` ## A) Welche Variable entspricht der Zufallsvariable *Gewicht des Tieres*? ```{r} names(penguins) ``` `"body_mass_g" `` ## B) Was ist die Wahrscheinlichkeit, dass ein Pinguin weiblich ist? ```{r} penguins |> filter(sex == "female") |> nrow() / nrow(penguins) ``` ## C) Visualisieren Sie die Wahrscheinlichkeitsverteilung des Gewichts. ```{r} gghistogram(penguins, x = "body_mass_g") ``` ```{r} ggdensity(penguins, x = "body_mass_g") ``` ## D) Visualisieren Sie die Verteilungsfunktion des Gewichts. Die empirische kumulative Verteilungsfunktion nennt man auf Englisch: *empirical cumulative distribution function*, kurz ECDF. Dafür gibt es eine Funktion in `ggpubr`und in `ggplot2`. ```{r} ggecdf(penguins, x = "body_mass_g") ``` Ein bisschen cooler: ```{r} penguins_clean <- penguins %>% filter(!is.na(body_mass_g)) # ECDF plot with ggpubr ggecdf( data = penguins_clean, x = "body_mass_g", color = "species", # optional: color by species add = "mean", # optional: add mean line xlab = "Body Mass (g)", ylab = "ECDF", title = "Empirical CDF of Penguin Body Mass" ) ``` ## E) Visualisieren Sie den Erwartungswert des Gewichts. ```{r} ggdensity(penguins, x = "body_mass_g", add = "mean") ``` ## F) Visualisieren Sie die Varianz des Gewichts. Die Breite der Verteilung zeigt die Varinaz. ```{r} ggdensity(penguins, x = "body_mass_g", add = "mean") ```