Ob wohl die PS-Zahl (Ereignis ) und der Spritverbrauch (Ereignis ) voneinander abhängig sind? Was meinen Sie? Was ist Ihre Einschätzung dazu? Vermutlich haben Sie ein (wenn vielleicht auch implizites) Vorab-Wissen zu dieser Frage. Lassen wir dieses Vorab-Wissen aber einmal außen vor und schauen uns rein Daten dazu an. Vereinfachen wir die Frage etwas, indem wir fragen, ob die Ereignisse “hoher Spritverbrauch” (A) und “hohe PS-Zahl” voneinander abhängig sind.
Um es konkret zu machen, nutzen wir den Datensatz mtcars
:
library(tidyverse)
data(mtcars)
glimpse(mtcars)
## Rows: 32
## Columns: 11
## $ mpg <dbl> 21, 21, 23, 21, 19, 18, 14, 24, 23, 19, 18, 16, 17, 15, 10, 10, 1…
## $ cyl <dbl> 6, 6, 4, 6, 8, 6, 8, 4, 4, 6, 6, 8, 8, 8, 8, 8, 8, 4, 4, 4, 4, 8,…
## $ disp <dbl> 160, 160, 108, 258, 360, 225, 360, 147, 141, 168, 168, 276, 276, …
## $ hp <dbl> 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180, 180, 180…
## $ drat <dbl> 3.9, 3.9, 3.9, 3.1, 3.1, 2.8, 3.2, 3.7, 3.9, 3.9, 3.9, 3.1, 3.1, …
## $ wt <dbl> 2.6, 2.9, 2.3, 3.2, 3.4, 3.5, 3.6, 3.2, 3.1, 3.4, 3.4, 4.1, 3.7, …
## $ qsec <dbl> 16, 17, 19, 19, 17, 20, 16, 20, 23, 18, 19, 17, 18, 18, 18, 18, 1…
## $ vs <dbl> 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,…
## $ am <dbl> 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,…
## $ gear <dbl> 4, 4, 4, 3, 3, 3, 3, 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3,…
## $ carb <dbl> 4, 4, 1, 1, 2, 1, 4, 2, 2, 4, 4, 3, 3, 3, 4, 4, 4, 1, 2, 1, 1, 2,…
Weitere Infos zum Datensatz bekommen Sie mit help(mtcars)
in R.
Definieren wir uns das Ereignis “hohe PS-Zahl” (und nennen wir es hp_high
, klingt cooler). Sagen wir, wenn die PS-Zahl größer ist als der Median, dann trifft hp_high
zu, ansonsten nicht:
mtcars %>%
summarise(median(hp))
median(hp) |
---|
123 |
Mit dieser “Wenn-Dann-Abfrage” können wir die Variable hp_high
mit den Stufen TRUE
und FALSE
definieren:
mtcars <-
mtcars %>%
mutate(hp_high = case_when(
hp > 123 ~ TRUE,
hp <= 123 ~ FALSE
))
Genauso gehen wir mit dem Spritverbrauch vor (mpg_high
):
mtcars <-
mtcars %>%
mutate(mpg_high = case_when(
mpg > median(mpg) ~ TRUE,
mpg <= median(mpg) ~ FALSE
))
Schauen Sie im Datensatz nach, ob unser Vorgehen (Erstellung von hp_high
und mpg_high
) überhaupt funktioniert hat. Probieren geht über Studieren.
Visualisieren Sie in geeigneter Form den Zusammenhang.
Berechnen Sie und !
In der klassischen Statistik (Frequentismus) spielt der p-Wert eine zentrale Rolle. Der p-Wert ist (oft) das Entscheidungskriterium, um zu entscheiden, ob man eine Aussage (d.h. Hypothese) beibehält oder zurückweist, sozusagen ob man auf “ja, stimmt” wettet oder auf “nein, stimmt nicht”.
Der p-Wert ist etwas unintuitiv und muss daher aufmerksam betrachtet werden.
Ein Beispiel zur Verdeutlichung des p-Werts: Sagen wir, wir möchten wissen, ob eine Münze fair ist, also ob die Hypothese gilt: gilt. Dazu führen wir folgenden Versuch (einmal aus): Wir werfen die Münze mal und zählen den Anteil von “Kopf”. Wie gesagt: Wir wissen nicht, ob die Münze fair ist!
Wir bekommen 8 Treffer (von 10 Würfen), also einen Anteil von 80% (). Das sind unsere Daten (unsere Stichprobe) bzw. unsere Statistik. Was meinen Sie, geht das mit rechten Dingen zu? Sind 8 von 10 Treffern “erwartbar”, “plausibel”, “wahrscheinlich” bzw. “häufig” wenn man faire Münzen wirft? Hm!
Ok, probieren wir es aus! Wir nehmen jetzt eine unserer Münzen. Eine Münze, vor der wir (sicher) wissen, dass sie fair ist, dass also die zu überprüfende Hypothese gilt.
Wir führen also den Versuch sozusagen unter “kontrollierten” Bedingungen mit unserer fairen Münze durch. Ergebnis: 7 Treffer (von 10), nennen wir es den “empirischen Anteil” (prop_emp
).
Dann denken wir uns, hm, eine einzige Durchführung des Versuchs ist zu sehr vom Zufall abhängig. Besser wir wiederholen den Versuch oft, sagen wir 1000 Mal. Nach 1000 Würfen mit einer fairen Münze werden wir ja sehr genau wissen, ob 8 von 10 Treffern ein häufiges oder seltenes Ereignis ist.
Wir vereinbaren folgende Entscheidungsregel: Wenn unser kontrolliertes Experiment zeigen wird, dass 8 von 10 Treffern ein seltenes Ereignis ist, dann glauben wir nicht mehr die Hypothese der fairen Münze. Wenn unser Experiment aber zeigen wird, hey, 8 von 10 Treffern kommt gar nicht so selten vor (ist also ein häufiges Ereignis), dann haben wir keinen Grund, die Hypothese der fairen Münze zu verwerfen, bleiben also bei der Annahme, dass die Münze wohl fair ist – oder, etwas spitzfindiger formuliert, schließen nicht aus, dass die Münze fair ist.
Wenn man Zeit hat, kann man das Experiment mit den 1000 Versuchen ausprobieren … Aber um eine Sehnenscheidenentzündung zu vermeiden, lohnt es sich, diese Aufgabe an einen Golem (bzw. eine Maschine) zu delegieren (meckert nicht). Hey R, komm mal her!
So können wir Versuch mit 10 (size=10
) zufälligen (random) Münzwürfen (fair, d.h. prob = 0.5
) mit R simulieren:
rbinom(n = 1, size = 10, prob = 0.5)
## [1] 4
Jetzt wiederholen wir den Versuch 1000 Mal. Hey R, tue 1000 Mal den 10-fachen Münzwurf:
library(tidyverse) # für "tibble"
muenzversuch <-
tibble(
id = 1:1000,
anzahl_kopf = rbinom(1000, size = 10, prob = 1/2))
head(muenzversuch) %>%
gt()
id | anzahl_kopf |
---|---|
1 | 7 |
2 | 7 |
3 | 4 |
4 | 7 |
5 | 6 |
6 | 5 |
OK, jetzt visualisieren wir die 1000 Versuche bzw. die Tabelle muenzversuch
:
muenzversuch %>%
ggplot() +
aes(x = anzahl_kopf) +
geom_histogram() +
scale_x_continuous(breaks = 1:10) +
labs(x = "Anzahl Kopf bei 10 fairen Münzwürfen",
y = "Häufigkeit",
title = "1000 Wiederholungen des 10-fachen fairen Münzwurfs",
caption = "Die rote vertikale Linie zeigt das empirische Ergebnis, 8 Treffer") +
geom_vline(xintercept = 8, # prop_emp ist 8
color = "red") # vertikale Linie, um unser emp. Ergebnis anzuzeigen
Lange Rede, kurze Fragen:
Sind (mind.) 8 von 10 Treffer (unser empirisches Ergebnis) ein häufiges oder ein seltenes Ereignis? Genauer gefragt: Wie häufig kommt dieses Ergebnis in unseren (Ihren) Daten vor?
Finden Sie (ja, Sie persönlich!), dass das Ereignis zu selten ist, als dass Sie der Hypothese (“faire Münze”) glauben würden? Wo ziehen Sie Ihre “rote Linie”. Die Grenze, wo Sie sagen, dieses Ereignis tritt so selten auf (wenn man faire Münzen wirft), dass Sie nicht glauben, dass eine faire Münze geworfen worden ist. Sie also sagen: “Wäre eine faire Münze geworfen, so wäre das Ereignis mindestens 8 von 10 Treffern sehr selten, daher glaube ich nicht an die Hypothese der fairen Münze”.
Hinweis: Wenn Sie selber (oder Ihr Golem, R) die Münzen wirft, kann Ihr Ergebnis etwas von dem hier gezeigten abweichen, schließlich ist ein Münzwurf ein Zufallsexperiment.
Nehmen wir an, voneinander unabhängige Eigenschaften bestimmen, ob eine Person als “normal” angesehen wird. Jede dieser Eigenschaften kann entweder mit “normal” (n) oder aber “nichtnormal” (nn) ausgeprägt sein, wobei wir nicht genau vorhersagen können, wie diese Eigenschaften bei einer Person bestellt sein werden.
Als Zufallsexperiment ausgedrückt: mit den zwei Ergebnissen und .
Mit der Wahrscheinlichkeit treffe das Ereignis (für alle ) zu.
Nehmen wir weiter an, als “voll normal” () wird eine Person genau dann angesehen, wenn sie in allen Eigenschaften “normal” ausgeprägt ist, das Ereignis also für alle Eigenschaften auftritt.
Betrachten wir das Ereignis “Schwerer Coronaverlauf” (); ferner betrachten wir das Ereignis “Blutgruppe ist A” () und das Gegenereignis von : “Blutgruppe ist nicht A”. Ein Gegenereignis wird auch als Komplementärereignis oder Komplement (complement) mit dem Term bezeichnet.
Sei und sei .
Was kann man auf dieser Basis zur Abhängigkeit der Ereignisse und sagen?
Geben Sie ein Adjektiv an, dass diesen Sachverhalt kennzeichnet!
Prof. Salzig untersucht eine seiner Lieblingsfragen: Wie viel bringt das Lernen auf eine Klausur? Dabei konzentriert er sich auf das Fach Statistik (es gefällt ihm gut). In einer aktuellen Untersuchung hat er Studierende untersucht (s. Tabelle und Diagramm) und jeweils erfasst, ob die Person die Klausur bestanden (b) hat oder durchgefallen (d) ist. Dabei hat er zwei Gruppen unterschieden: Die “Viel-Lerner” (VL) und die “Wenig-Lerner” (WL).
Berechnen Sie die folgende bedingte Wahrscheinlichkeit: p(Bestehen|Viellerner).
Beispiel: Wenn Sie ausrechnen, dass die Wahrscheinlichkeit bei 42 Prozentpunkten liegt, so geben Sie ein: 0,42
bzw. 0.42
(das Dezimalzeichen ist abhängig von Ihren Spracheinstellungen).
Hinweise:
0,42
.Viellerner | Weniglerner | |
---|---|---|
Bestehen | 25 | 13 |
Durchfallen | 17 | 5 |
Als Bildungsforscher(in) untersuchen Sie den Lernerfolg in einem Statistikkurs.
Eine Gruppe von Studierenden absolviert einen Statistikkurs. Ein Teil lernt gut mit (Ereignis ), ein Teil nicht (Ereignis ). Ein Teil besteht die Prüfung (Ereignis ); ein Teil nicht ().
Hinweis: Das Gegenereignis zum Ereignis wird oft das Komplementärereignis oder kurz Komplement von genannt und mit bezeichnet.
Wir ziehen zufällig eine/n Studierende/n: Siehe da – Die Person hat bestanden. Yeah!
Aufgabe: Gesucht ist die Wahrscheinlichkeit, dass diese Person gut mitgelernt hat, gegeben der Tatsache, dass dieser Person bestanden hat.
Die Anteile der Gruppen (bzw. Wahrscheinlichkeit des Ereignisses) lassen sich unten stehender Tabelle entnehmen.
row_ids | B | Bneg |
---|---|---|
A | 0.59 | 0.10 |
Aneg | 0.23 | 0.07 |
Hinweise:
0.42
an (mit führender Null und Dezimalzeichen).Prof. Salzig untersucht eine seiner Lieblingsfragen: Wie viel bringt das Lernen auf eine Klausur? Dabei konzentriert er sich auf das Fach Statistik (es gefällt ihm gut). In einer aktuellen Untersuchung hat er Studierende untersucht (s. Tabelle und Diagramm) und jeweils erfasst, ob die Person die Klausur bestanden (b) hat oder durchgefallen (d) ist. Dabei hat er zwei Gruppen unterschieden: Die “Viel-Lerner” (VL) und die “Wenig-Lerner” (WL).
Berechnen Sie die folgende: gemeinsame Wahrscheinlichkeit: p(Durchfallen UND Weniglerner).
Beispiel: Wenn Sie ausrechnen, dass die Wahrscheinlichkeit bei 42 Prozentpunkten liegt, so geben Sie ein: 0,42
bzw. 0.42
(das Dezimalzeichen ist abhängig von Ihren Spracheinstellungen).
0,42
.Das folgende Diagramm zeigt die Häufigkeiten pro Gruppe:
Hier ist die Kontingenztabelle mit den Häufigkeiten pro Gruppe:
Lerntyp | Bestehen | Durchfallen |
---|---|---|
Viellerner | 20 | 10 |
Weniglerner | 21 | 9 |
Ein renommiertes Unternehmen sucht einen Kandidaten für eine (hoch dotierte) Führungsposition. Ein Managementberatungsunternehmung führt ein Assessmentcenter durch, welches pro Kandidat/in eine positive bzw. negative Empfehlung ergibt. Aus früheren Erfahrungen heraus wissen die Berater, dass die tatsächlich geeigneten Kandidaten (Ereignis wie eligible) mit eine positive Empfehlung für die Stelle ausgesprochen bekommen (Ereignis wie recommendation). Weiterhin bekommen von den nicht geeigneten Kandidaten eine negative Empfehlung. Insgesamt wissen die Berater, dass der Bewerber/innen tatsächlich geeignet sind.
Was ist die entsprechende Häufigkeitstabelle? Geben Sie alle vier Einträge in Prozent an!
Hinweis: Das Gegenereignis vom Ereignis wird als Komplementärereignis oder kurz als Komplement bezeichnet und mit oder abgekürzt. Im vorliegenden Fall meint das Ereignis, dass ein Kandidat keine Empfehlung ausgesprochen bekommt.
Erstellen Sie ein Meme, das sich auf den Stoff der aktuellen Stunde im Unterricht bezieht.
Hier finden Sie einige Beispiele zur Anregung.
Wer eine kulturphilosophische Abhandlung sucht zur Frage “Was ist eine Meme?”, der wird hier glücklich.
Ok, ich höre gleich auf, aber hier ist eine große Sammlung an Memes.
NUR wer krass ist und auf Memes abfährt, sollte sich diese ausführliche Analyse hier anschauen.
Memes erstellen kann man z.B. hier.
Alkohol ist ein weit verbreites Genussmittel in vielen Gesellschaften. Insgesamt sind die negativen (kausalen) Konsequenzen für die Gesundheit unstrittig. So findet man etwa in dieser Studie:
This meta-analysis found that alcohol most strongly increased the risks for cancers of the oral cavity, pharynx, esophagus, and larynx. Statistically significant increases in risk also existed for cancers of the stomach, colon, rectum, liver, female breast, and ovaries.
Allerdings gibt es auch Stimmen, die Alkohol mit gesundheitlich wünschenswerten Effekten in Verbindung bringen. Dabei wird in einigen Fällen die “mediterrane Ernährung” als Erkärungsnarrativ ins Spiel gebracht. So kann man etwa hier lesen:
Adhering to a Mediterranean diet (…) were associated with a lower risk of all-cause mortality (…).
Solche Befunde wurden von der Breiten- oder Boulevardpresse dankbar aufgenommen, wie man z.B. hier nachlesen kann:
Small Amounts of Alcohol in Mediterranean Diet Could Boost Brain Health, Claims Study
Man beachte, dass “boost your health” eine kausale Aussage ist, die über einen reinen Zusammenhang hinausgeht. Nach dieser Lesart heißt es: Trink etwas Alkohol (A), das macht dich gesünder (G).
Ihre Aufgabe: Zeigen Sie ein alternatives Kausalmodell auf, das erklärt, warum ein Zusammenhang (wie eine Korrelation) zwischen A und G zu beobachten ist, aber ohne dass es einen (kausalen) Effekt zwischen beiden Größen gäbe!