Aufgaben

  1. Aufgabe

    Ob wohl die PS-Zahl (Ereignis AA) und der Spritverbrauch (Ereignis BB) voneinander abhängig sind? Was meinen Sie? Was ist Ihre Einschätzung dazu? Vermutlich haben Sie ein (wenn vielleicht auch implizites) Vorab-Wissen zu dieser Frage. Lassen wir dieses Vorab-Wissen aber einmal außen vor und schauen uns rein Daten dazu an. Vereinfachen wir die Frage etwas, indem wir fragen, ob die Ereignisse “hoher Spritverbrauch” (A) und “hohe PS-Zahl” voneinander abhängig sind.

    Um es konkret zu machen, nutzen wir den Datensatz mtcars:

    library(tidyverse)
    data(mtcars)
    glimpse(mtcars)
    ## Rows: 32
    ## Columns: 11
    ## $ mpg  <dbl> 21, 21, 23, 21, 19, 18, 14, 24, 23, 19, 18, 16, 17, 15, 10, 10, 1…
    ## $ cyl  <dbl> 6, 6, 4, 6, 8, 6, 8, 4, 4, 6, 6, 8, 8, 8, 8, 8, 8, 4, 4, 4, 4, 8,…
    ## $ disp <dbl> 160, 160, 108, 258, 360, 225, 360, 147, 141, 168, 168, 276, 276, …
    ## $ hp   <dbl> 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180, 180, 180…
    ## $ drat <dbl> 3.9, 3.9, 3.9, 3.1, 3.1, 2.8, 3.2, 3.7, 3.9, 3.9, 3.9, 3.1, 3.1, …
    ## $ wt   <dbl> 2.6, 2.9, 2.3, 3.2, 3.4, 3.5, 3.6, 3.2, 3.1, 3.4, 3.4, 4.1, 3.7, …
    ## $ qsec <dbl> 16, 17, 19, 19, 17, 20, 16, 20, 23, 18, 19, 17, 18, 18, 18, 18, 1…
    ## $ vs   <dbl> 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,…
    ## $ am   <dbl> 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,…
    ## $ gear <dbl> 4, 4, 4, 3, 3, 3, 3, 4, 4, 4, 4, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3,…
    ## $ carb <dbl> 4, 4, 1, 1, 2, 1, 4, 2, 2, 4, 4, 3, 3, 3, 4, 4, 4, 1, 2, 1, 1, 2,…

    Weitere Infos zum Datensatz bekommen Sie mit help(mtcars) in R.

    Definieren wir uns das Ereignis “hohe PS-Zahl” (und nennen wir es hp_high, klingt cooler). Sagen wir, wenn die PS-Zahl größer ist als der Median, dann trifft hp_high zu, ansonsten nicht:

    mtcars %>% 
      summarise(median(hp))
    median(hp)
    123

    Mit dieser “Wenn-Dann-Abfrage” können wir die Variable hp_high mit den Stufen TRUE und FALSE definieren:

    mtcars <-
      mtcars %>% 
      mutate(hp_high = case_when(
        hp > 123 ~ TRUE,
        hp <= 123 ~ FALSE
      ))

    Genauso gehen wir mit dem Spritverbrauch vor (mpg_high):

    mtcars <- 
      mtcars %>% 
      mutate(mpg_high = case_when(
        mpg > median(mpg) ~ TRUE,
        mpg <= median(mpg) ~ FALSE
      ))
    1. Schauen Sie im Datensatz nach, ob unser Vorgehen (Erstellung von hp_high und mpg_high) überhaupt funktioniert hat. Probieren geht über Studieren.

    2. Visualisieren Sie in geeigneter Form den Zusammenhang.

    3. Berechnen Sie Pr(mpg_high|hp_high)Pr(\text{mpg_high}|\text{hp_high}) und Pr(mpg_high|¬hp_high)Pr(\text{mpg_high}|\neg \text{hp_high}) !


  2. Aufgabe

    In der klassischen Statistik (Frequentismus) spielt der p-Wert eine zentrale Rolle. Der p-Wert ist (oft) das Entscheidungskriterium, um zu entscheiden, ob man eine Aussage (d.h. Hypothese) beibehält oder zurückweist, sozusagen ob man auf “ja, stimmt” wettet oder auf “nein, stimmt nicht”.

    Der p-Wert ist etwas unintuitiv und muss daher aufmerksam betrachtet werden.

    Ein Beispiel zur Verdeutlichung des p-Werts: Sagen wir, wir möchten wissen, ob eine Münze fair ist, also ob die Hypothese H0H_0 gilt: H0:Pr(K)=Pr(Z)=1/2H_0: Pr(K) = Pr(Z) = 1/2 gilt. Dazu führen wir folgenden Versuch (einmal aus): Wir werfen die Münze n=10n=10 mal und zählen den Anteil von “Kopf”. Wie gesagt: Wir wissen nicht, ob die Münze fair ist!

    Wir bekommen 8 Treffer (von 10 Würfen), also einen Anteil von 80% (p=0.8p=0.8). Das sind unsere Daten (unsere Stichprobe) bzw. unsere Statistik. Was meinen Sie, geht das mit rechten Dingen zu? Sind 8 von 10 Treffern “erwartbar”, “plausibel”, “wahrscheinlich” bzw. “häufig” wenn man faire Münzen wirft? Hm!

    Ok, probieren wir es aus! Wir nehmen jetzt eine unserer Münzen. Eine Münze, vor der wir (sicher) wissen, dass sie fair ist, dass also die zu überprüfende Hypothese H0:Pr(K)=Pr(Z)=1/2H_0: Pr(K) = Pr(Z) = 1/2 gilt.

    Wir führen also den Versuch sozusagen unter “kontrollierten” Bedingungen mit unserer fairen Münze durch. Ergebnis: 7 Treffer (von 10), nennen wir es den “empirischen Anteil” (prop_emp).

    Dann denken wir uns, hm, eine einzige Durchführung des Versuchs ist zu sehr vom Zufall abhängig. Besser wir wiederholen den Versuch oft, sagen wir 1000 Mal. Nach 1000 Würfen mit einer fairen Münze werden wir ja sehr genau wissen, ob 8 von 10 Treffern ein häufiges oder seltenes Ereignis ist.

    Wir vereinbaren folgende Entscheidungsregel: Wenn unser kontrolliertes Experiment zeigen wird, dass 8 von 10 Treffern ein seltenes Ereignis ist, dann glauben wir nicht mehr die Hypothese der fairen Münze. Wenn unser Experiment aber zeigen wird, hey, 8 von 10 Treffern kommt gar nicht so selten vor (ist also ein häufiges Ereignis), dann haben wir keinen Grund, die Hypothese der fairen Münze zu verwerfen, bleiben also bei der Annahme, dass die Münze wohl fair ist – oder, etwas spitzfindiger formuliert, schließen nicht aus, dass die Münze fair ist.

    Wenn man Zeit hat, kann man das Experiment mit den 1000 Versuchen ausprobieren … Aber um eine Sehnenscheidenentzündung zu vermeiden, lohnt es sich, diese Aufgabe an einen Golem (bzw. eine Maschine) zu delegieren (meckert nicht). Hey R, komm mal her!

    So können wir n=1n=1 Versuch mit 10 (size=10) zufälligen (random) Münzwürfen (fair, d.h. prob = 0.5) mit R simulieren:

    rbinom(n = 1, size = 10, prob = 0.5)
    ## [1] 4

    Jetzt wiederholen wir den Versuch 1000 Mal. Hey R, tue 1000 Mal den 10-fachen Münzwurf:

    library(tidyverse)  # für "tibble"
    muenzversuch <- 
      tibble(
        id = 1:1000,
        anzahl_kopf = rbinom(1000, size = 10, prob = 1/2))
    head(muenzversuch) %>% 
      gt()
    id anzahl_kopf
    1 7
    2 7
    3 4
    4 7
    5 6
    6 5

    OK, jetzt visualisieren wir die 1000 Versuche bzw. die Tabelle muenzversuch:

    muenzversuch %>% 
      ggplot() +
      aes(x = anzahl_kopf) +
      geom_histogram() +
      scale_x_continuous(breaks = 1:10) +
      labs(x = "Anzahl Kopf bei 10 fairen Münzwürfen",
           y = "Häufigkeit",
           title = "1000 Wiederholungen des 10-fachen fairen Münzwurfs",
           caption = "Die rote vertikale Linie zeigt das empirische Ergebnis, 8 Treffer") +
      geom_vline(xintercept = 8,  # prop_emp ist 8
                 color = "red")  # vertikale Linie, um unser emp. Ergebnis anzuzeigen

    Lange Rede, kurze Fragen:

    1. Sind (mind.) 8 von 10 Treffer (unser empirisches Ergebnis) ein häufiges oder ein seltenes Ereignis? Genauer gefragt: Wie häufig kommt dieses Ergebnis in unseren (Ihren) Daten vor?

    2. Finden Sie (ja, Sie persönlich!), dass das Ereignis zu selten ist, als dass Sie der Hypothese H0H_0 (“faire Münze”) glauben würden? Wo ziehen Sie Ihre “rote Linie”. Die Grenze, wo Sie sagen, dieses Ereignis tritt so selten auf (wenn man faire Münzen wirft), dass Sie nicht glauben, dass eine faire Münze geworfen worden ist. Sie also sagen: “Wäre eine faire Münze geworfen, so wäre das Ereignis mindestens 8 von 10 Treffern sehr selten, daher glaube ich nicht an die Hypothese der fairen Münze”.

    Hinweis: Wenn Sie selber (oder Ihr Golem, R) die Münzen wirft, kann Ihr Ergebnis etwas von dem hier gezeigten abweichen, schließlich ist ein Münzwurf ein Zufallsexperiment.


  3. Aufgabe

    Nehmen wir an, k=10k=10 voneinander unabhängige Eigenschaften E1,E2,,E10E_1, E_2, \ldots, E_{10} bestimmen, ob eine Person als “normal” angesehen wird. Jede dieser Eigenschaften kann entweder mit “normal” (n) oder aber “nichtnormal” (nn) ausgeprägt sein, wobei wir nicht genau vorhersagen können, wie diese Eigenschaften bei einer Person bestellt sein werden.

    Als Zufallsexperiment ausgedrückt: ΩE:={n,nn}\Omega_E := \{n, nn\} mit den zwei Ergebnissen nn und nnnn.

    Mit der Wahrscheinlichkeit PrEi=0.9Pr_{E_i} = 0.9 treffe das Ereignis Ni:=Ei={n}N_i := E_i = \{n\} (für alle i=1,,ki = 1, \ldots, k) zu.

    Nehmen wir weiter an, als “voll normal” (VNVN) wird eine Person genau dann angesehen, wenn sie in allen kk Eigenschaften “normal” ausgeprägt ist, das Ereignis NN also für alle kk Eigenschaften auftritt.

    1. Nennen Sie Beispiele für mögliche Eigenschaften EE!
    2. Wie groß ist die Wahrscheinlichkeit - unter den hier geschilderten Annahmen -, dass eine Person “voll normal” ist?
    3. Diskutieren Sie die Plausibilität der Annahmen!

  4. Aufgabe

    Betrachten wir das Ereignis “Schwerer Coronaverlauf” (SS); ferner betrachten wir das Ereignis “Blutgruppe ist A” (AA) und das Gegenereignis von AA: “Blutgruppe ist nicht A”. Ein Gegenereignis wird auch als Komplementärereignis oder Komplement (complement) mit dem Term ACA^C bezeichnet.

    Sei Pr(S|A)=0.01Pr(S|A) = 0.01 und sei Pr(S|AC)=0.01Pr(S|A^C) = 0.01.

    Was kann man auf dieser Basis zur Abhängigkeit der Ereignisse SS und AA sagen?

    Geben Sie ein Adjektiv an, dass diesen Sachverhalt kennzeichnet!


  5. Aufgabe

    Prof. Salzig untersucht eine seiner Lieblingsfragen: Wie viel bringt das Lernen auf eine Klausur? Dabei konzentriert er sich auf das Fach Statistik (es gefällt ihm gut). In einer aktuellen Untersuchung hat er n=60n=60 Studierende untersucht (s. Tabelle und Diagramm) und jeweils erfasst, ob die Person die Klausur bestanden (b) hat oder durchgefallen (d) ist. Dabei hat er zwei Gruppen unterschieden: Die “Viel-Lerner” (VL) und die “Wenig-Lerner” (WL).

    Berechnen Sie die folgende bedingte Wahrscheinlichkeit: p(Bestehen|Viellerner).

    Beispiel: Wenn Sie ausrechnen, dass die Wahrscheinlichkeit bei 42 Prozentpunkten liegt, so geben Sie ein: 0,42 bzw. 0.42 (das Dezimalzeichen ist abhängig von Ihren Spracheinstellungen).

    Hinweise:

    Ergebnisse der Studie
    Viellerner Weniglerner
    Bestehen 25 13
    Durchfallen 17 5

  6. Aufgabe

    Als Bildungsforscher(in) untersuchen Sie den Lernerfolg in einem Statistikkurs.

    Eine Gruppe von Studierenden absolviert einen Statistikkurs. Ein Teil lernt gut mit (Ereignis AA), ein Teil nicht (Ereignis ACA^C). Ein Teil besteht die Prüfung (Ereignis BB); ein Teil nicht (BCB^C).

    Hinweis: Das Gegenereignis zum Ereignis AA wird oft das Komplementärereignis oder kurz Komplement von AA genannt und mit ACA^C bezeichnet.

    Wir ziehen zufällig eine/n Studierende/n: Siehe da – Die Person hat bestanden. Yeah!

    Aufgabe: Gesucht ist die Wahrscheinlichkeit, dass diese Person gut mitgelernt hat, gegeben der Tatsache, dass dieser Person bestanden hat.

    Die Anteile der Gruppen (bzw. Wahrscheinlichkeit des Ereignisses) lassen sich unten stehender Tabelle entnehmen.

    row_ids B Bneg
    A 0.59 0.10
    Aneg 0.23 0.07

    Hinweise:


    1. Zeichnen Sie (per Hand) ein Baumdiagramm, um die gemeinsamen Wahrscheinlichkeiten darzustellen. Weiterhin sollen die Randwahrscheinlichkeiten für AA dargestellt sein.
    2. Zeichnen Sie (per Hand) ein Baumdiagramm, um diesen Sachverhalt darzustellen.
    3. Geben Sie die Wahrscheinlichkeit des gesuchten Ereignisses an.

  7. Aufgabe

    Prof. Salzig untersucht eine seiner Lieblingsfragen: Wie viel bringt das Lernen auf eine Klausur? Dabei konzentriert er sich auf das Fach Statistik (es gefällt ihm gut). In einer aktuellen Untersuchung hat er n=60n=60 Studierende untersucht (s. Tabelle und Diagramm) und jeweils erfasst, ob die Person die Klausur bestanden (b) hat oder durchgefallen (d) ist. Dabei hat er zwei Gruppen unterschieden: Die “Viel-Lerner” (VL) und die “Wenig-Lerner” (WL).

    Berechnen Sie die folgende: gemeinsame Wahrscheinlichkeit: p(Durchfallen UND Weniglerner).

    Beispiel: Wenn Sie ausrechnen, dass die Wahrscheinlichkeit bei 42 Prozentpunkten liegt, so geben Sie ein: 0,42 bzw. 0.42 (das Dezimalzeichen ist abhängig von Ihren Spracheinstellungen).

    Das folgende Diagramm zeigt die Häufigkeiten pro Gruppe:

    Hier ist die Kontingenztabelle mit den Häufigkeiten pro Gruppe:

    Lerntyp Bestehen Durchfallen
    Viellerner 20 10
    Weniglerner 21 9

  8. Aufgabe

    Ein renommiertes Unternehmen sucht einen Kandidaten für eine (hoch dotierte) Führungsposition. Ein Managementberatungsunternehmung führt ein Assessmentcenter durch, welches pro Kandidat/in eine positive bzw. negative Empfehlung ergibt. Aus früheren Erfahrungen heraus wissen die Berater, dass die tatsächlich geeigneten Kandidaten (Ereignis EE wie eligible) mit 64%64\% eine positive Empfehlung für die Stelle ausgesprochen bekommen (Ereignis RR wie recommendation). Weiterhin bekommen von den nicht geeigneten Kandidaten 76%76\% eine negative Empfehlung. Insgesamt wissen die Berater, dass 10%10\% der Bewerber/innen tatsächlich geeignet sind.

    Was ist die entsprechende Häufigkeitstabelle? Geben Sie alle vier Einträge in Prozent an!

    Hinweis: Das Gegenereignis vom Ereignis AA wird als Komplementärereignis oder kurz als Komplement bezeichnet und mit ACA^C oder A¯\overline{A} abgekürzt. Im vorliegenden Fall meint R¯=RC\overline{R}=R^C das Ereignis, dass ein Kandidat keine Empfehlung ausgesprochen bekommt.


    1. P(ER)P(E \cap R)
    2. P(E¯R)P(\overline{E} \cap R)
    3. P(ER¯)P(E \cap \overline{R})
    4. P(E¯R¯)P(\overline{E} \cap \overline{R})

  9. Aufgabe

    Erstellen Sie ein Meme, das sich auf den Stoff der aktuellen Stunde im Unterricht bezieht.

    Hier finden Sie einige Beispiele zur Anregung.

    Wer eine kulturphilosophische Abhandlung sucht zur Frage “Was ist eine Meme?”, der wird hier glücklich.

    Ok, ich höre gleich auf, aber hier ist eine große Sammlung an Memes.

    NUR wer krass ist und auf Memes abfährt, sollte sich diese ausführliche Analyse hier anschauen.

    Memes erstellen kann man z.B. hier.


  10. Aufgabe

    Alkohol ist ein weit verbreites Genussmittel in vielen Gesellschaften. Insgesamt sind die negativen (kausalen) Konsequenzen für die Gesundheit unstrittig. So findet man etwa in dieser Studie:

    This meta-analysis found that alcohol most strongly increased the risks for cancers of the oral cavity, pharynx, esophagus, and larynx. Statistically significant increases in risk also existed for cancers of the stomach, colon, rectum, liver, female breast, and ovaries.

    Allerdings gibt es auch Stimmen, die Alkohol mit gesundheitlich wünschenswerten Effekten in Verbindung bringen. Dabei wird in einigen Fällen die “mediterrane Ernährung” als Erkärungsnarrativ ins Spiel gebracht. So kann man etwa hier lesen:

    Adhering to a Mediterranean diet (…) were associated with a lower risk of all-cause mortality (…).

    Solche Befunde wurden von der Breiten- oder Boulevardpresse dankbar aufgenommen, wie man z.B. hier nachlesen kann:

    Small Amounts of Alcohol in Mediterranean Diet Could Boost Brain Health, Claims Study

    Man beachte, dass “boost your health” eine kausale Aussage ist, die über einen reinen Zusammenhang hinausgeht. Nach dieser Lesart heißt es: Trink etwas Alkohol (A), das macht dich gesünder (G).

    Ihre Aufgabe: Zeigen Sie ein alternatives Kausalmodell auf, das erklärt, warum ein Zusammenhang (wie eine Korrelation) zwischen A und G zu beobachten ist, aber ohne dass es einen (kausalen) Effekt zwischen beiden Größen gäbe!