library(palmerpenguins) # Lade das Paket zuerst
data(penguins) # Jetzt wird der Datensatz geladen
penguins-relationen2
1 Aufgabe
1.1 Hintergrund
In dieser Aufgabe betrachten wir die Relationen einiger Ereignisse im Zusammenhang mit dem Datensatz penguins.
Sie können den Datensatz z.B. so importieren:
Sei das Ereignis A das Tier ist von der Spezies “Adelie”. Sei das Ereignis B das Tier hat eine Schnabellänge (bill_length_mm) größer als der Median aller Pinguine (des Datensatzes, nur gültige Messungen). Sei AB ein Pinguin, der sowohl A als auch B erfüllt.
Berechnen Sie folgende Wahrscheinlichkeiten, wobei wir den jeweiligen Anteil der Tiere als Wahrscheinlichkeit interpretieren.
1.2 Teilaufgaben
- \(Pr(A \cup B)\)
- \(Pr(A \cap B)\)
- \(Pr(\neg B)\)
- \(Pr(\neg A)\)
- \(Pr(A \setminus AB)\)
- \(Pr(B \setminus AB)\)
Hinweis: Die Berechnungen sollen nur Pinguine berücksichtigen, für die die Schnabellänge (bill_length_mm
) bekannt ist, um konsistente Wahrscheinlichkeiten zu gewährleisten.
2 Lösung
library(tidyverse)
Datenbereinigung und Median-Definition:
Wir definieren den Grundgesamtheit als alle Pinguine, deren Schnabellänge (bill_length_mm
) bekannt ist, um konsistente Wahrscheinlichkeiten zu gewährleisten.
<- penguins |>
penguins_clean drop_na(bill_length_mm)
# Der konsistente Nenner für alle Wahrscheinlichkeiten
<- nrow(penguins_clean)
N_clean N_clean
[1] 342
# Berechne den Median der Schnabellänge für Ereignis B
<- penguins_clean |>
bill_length_md summarise(median = median(bill_length_mm)) |>
pull(median) # pull zieht einen einzelnen Wert aus der Tabelle heraus
# Median der Schnabellänge
# einzelner Wert, keine Tabelle bill_length_md
[1] 44.45
2.1 A. Pr(A U B)
A ODER B: Spezies ist “Adelie” ODER Schnabellänge ist größer als der Median.
<- penguins_clean |>
anzahl_a_oder_b filter(species == "Adelie" | bill_length_mm > bill_length_md) |>
nrow()
<- anzahl_a_oder_b / N_clean
Pr_a_oder_b Pr_a_oder_b
[1] 0.9327485
2.2 B. $Pr(A n B)
A UND B: Spezies ist “Adelie” UND Schnabellänge ist größer als der Median.
<- penguins_clean |>
anzahl_a_und_b filter(species == "Adelie" & bill_length_mm > bill_length_md) |>
nrow()
<- anzahl_a_und_b / N_clean
Pr_a_und_b Pr_a_und_b
[1] 0.00877193
2.3 C. \(Pr(\neg B)\)
NICHT B: Schnabellänge ist kleiner oder gleich dem Median.
<- penguins_clean |>
anzahl_nicht_b filter(bill_length_mm <= bill_length_md) |>
nrow()
<- anzahl_nicht_b / N_clean
Pr_nicht_b Pr_nicht_b
[1] 0.5
2.4 D. \(Pr(\neg A)\)
NICHT A: Das Tier ist nicht von der Spezies “Adelie”.
<- penguins_clean |>
anzahl_nicht_a filter(species != "Adelie") |>
nrow()
<- anzahl_nicht_a / N_clean
Pr_nicht_a Pr_nicht_a
[1] 0.5584795
2.5 E. \(Pr(A \setminus AB)\)
A ohne AB: Die Menge der “Adelie” Pinguine, die NICHT auch B erfüllen. Dies entspricht \(A \cap \neg B\).
<- penguins_clean |>
anzahl_a_minus_ab filter(species == "Adelie" & bill_length_mm <= bill_length_md) |>
nrow()
<- anzahl_a_minus_ab / N_clean
Pr_a_minus_ab Pr_a_minus_ab
[1] 0.4327485
2.6 F. \(Pr(B \setminus AB)\)
B ohne AB: Die Menge der Pinguine mit langer Schnabellänge (B), die NICHT auch A erfüllen. Dies entspricht \(B \cap \neg A\).
<- penguins_clean |>
anzahl_b_minus_ab filter(bill_length_mm > bill_length_md & species != "Adelie") |>
nrow()
<- anzahl_b_minus_ab / N_clean
Pr_b_minus_ab Pr_b_minus_ab
[1] 0.4912281