library(palmerpenguins) # Lade das Paket zuerst
data(penguins) # Jetzt wird der Datensatz geladenpenguins-relationen2
1 Aufgabe
1.1 Hintergrund
In dieser Aufgabe betrachten wir die Relationen einiger Ereignisse im Zusammenhang mit dem Datensatz penguins.
Sie können den Datensatz z.B. so importieren:
Sei das Ereignis A das Tier ist von der Spezies “Adelie”. Sei das Ereignis B das Tier hat eine Schnabellänge (bill_length_mm) größer als der Median aller Pinguine (des Datensatzes, nur gültige Messungen). Sei AB ein Pinguin, der sowohl A als auch B erfüllt.
Berechnen Sie folgende Wahrscheinlichkeiten, wobei wir den jeweiligen Anteil der Tiere als Wahrscheinlichkeit interpretieren.
1.2 Teilaufgaben
- \(Pr(A \cup B)\)
- \(Pr(A \cap B)\)
- \(Pr(\neg B)\)
- \(Pr(\neg A)\)
- \(Pr(A \setminus AB)\)
- \(Pr(B \setminus AB)\)
Hinweis: Die Berechnungen sollen nur Pinguine berücksichtigen, für die die Schnabellänge (bill_length_mm) bekannt ist, um konsistente Wahrscheinlichkeiten zu gewährleisten.
2 Lösung
library(tidyverse)Datenbereinigung und Median-Definition:
Wir definieren den Grundgesamtheit als alle Pinguine, deren Schnabellänge (bill_length_mm) bekannt ist, um konsistente Wahrscheinlichkeiten zu gewährleisten.
penguins_clean <- penguins |>
drop_na(bill_length_mm)# Der konsistente Nenner für alle Wahrscheinlichkeiten
N_clean <- nrow(penguins_clean)
N_clean[1] 342
# Berechne den Median der Schnabellänge für Ereignis B
bill_length_md <- penguins_clean |>
summarise(median = median(bill_length_mm)) |>
pull(median) # pull zieht einen einzelnen Wert aus der Tabelle heraus
# Median der Schnabellänge
bill_length_md # einzelner Wert, keine Tabelle[1] 44.45
2.1 A. Pr(A U B)
A ODER B: Spezies ist “Adelie” ODER Schnabellänge ist größer als der Median.
anzahl_a_oder_b <- penguins_clean |>
filter(species == "Adelie" | bill_length_mm > bill_length_md) |>
nrow()
Pr_a_oder_b <- anzahl_a_oder_b / N_clean
Pr_a_oder_b[1] 0.9327485
2.2 B. $Pr(A n B)
A UND B: Spezies ist “Adelie” UND Schnabellänge ist größer als der Median.
anzahl_a_und_b <- penguins_clean |>
filter(species == "Adelie" & bill_length_mm > bill_length_md) |>
nrow()
Pr_a_und_b <- anzahl_a_und_b / N_clean
Pr_a_und_b[1] 0.00877193
2.3 C. \(Pr(\neg B)\)
NICHT B: Schnabellänge ist kleiner oder gleich dem Median.
anzahl_nicht_b <- penguins_clean |>
filter(bill_length_mm <= bill_length_md) |>
nrow()
Pr_nicht_b <- anzahl_nicht_b / N_clean
Pr_nicht_b[1] 0.5
2.4 D. \(Pr(\neg A)\)
NICHT A: Das Tier ist nicht von der Spezies “Adelie”.
anzahl_nicht_a <- penguins_clean |>
filter(species != "Adelie") |>
nrow()
Pr_nicht_a <- anzahl_nicht_a / N_clean
Pr_nicht_a[1] 0.5584795
2.5 E. \(Pr(A \setminus AB)\)
A ohne AB: Die Menge der “Adelie” Pinguine, die NICHT auch B erfüllen. Dies entspricht \(A \cap \neg B\).
anzahl_a_minus_ab <- penguins_clean |>
filter(species == "Adelie" & bill_length_mm <= bill_length_md) |>
nrow()
Pr_a_minus_ab <- anzahl_a_minus_ab / N_clean
Pr_a_minus_ab[1] 0.4327485
2.6 F. \(Pr(B \setminus AB)\)
B ohne AB: Die Menge der Pinguine mit langer Schnabellänge (B), die NICHT auch A erfüllen. Dies entspricht \(B \cap \neg A\).
anzahl_b_minus_ab <- penguins_clean |>
filter(bill_length_mm > bill_length_md & species != "Adelie") |>
nrow()
Pr_b_minus_ab <- anzahl_b_minus_ab / N_clean
Pr_b_minus_ab[1] 0.4912281