vis-penguins

vis

yacsda

ggquick

penguins

string

Published

September 12, 2023

Aufgabe

In dieser Fallstudie (YACSDA: Yet another Case Study on Data Analysis) untersuchen wir den Datensatz penguins.

Sie können den Datensatz so beziehen:

#install.packages("palmerpenguins")
library(palmerpenguins)
data("penguins")
d <- penguins

Oder so:

d <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/palmerpenguins/penguins.csv")

Ein Codebook finden Sie hier.

Die Forschungsfrage lautet:

Was ist der Einfluss der Spezies und der Schnabellänge auf das Körpergewicht?

Abhängige Variable (metrisch), y: Körpergewicht
Unabhängige Variable 1 (nominal), x1: Spezies
Unabhängige Variable 2 (metrisch), x2: Schnabellänge

Visualisieren Sie dazu folgende Aspekte der Forschungsfrage!

Hinweise:

Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.

Aufgaben

Visualisieren Sie die Verteilung von y auf zwei verschiedene Arten.
Fügen Sie relevante Kennzahlen hinzu.
Visualisieren Sie die Verteilung von x1 und x2.
Visualisieren Sie die Verteilung von y bedingt auf x1.
Fügen Sie relevante Kennzahlen zur letzten Visualisierung hinzu.
Visualisieren Sie den Zusammenhang von y und x2.
Verbessern Sie das letzte Diagramm, so dass es übersichtlicher wird.
Fügen Sie dem letzten Diagramm relevante Kennzahlen hinzu.
Fügen Sie dem Diagramm zum Zusammenhang von y und x2 eine Regressionsgerade hinzu.
Ersetzen Sie die Regressionsgerade durch eine LOESS-Gerade.
Gruppieren Sie das letzte Diagramm nach x1.
Dichotomisieren Sie y und zählen Sie die Häufigkeiten. Achtung: Dichotomisieren wird von einigen Statistikern mit Exkommunikation bestraft. Proceed at your own risk.
Gruppieren Sie das letzte Diagramm nach den Stufen von x1.
Variieren Sie das letzte Diagramm so, dass Anteile (relative Häufigkeiten) statt absoluter Häufigkeiten gezeigt werden.

Hinweise:

Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.

Lösung

Pakete starten

library(tidyverse) 
library(easystats)
library(ggpubr)
library(ggstatsplot)
library(DataExplorer)

Los geht’s

Umbenennen

Für weniger Tippen nenne ich die Variablen um:

d <-
  d |> 
  rename(y = body_mass_g, x1 = species, x2 = bill_length_mm)

Das ist aber nicht unbedingt nötig und bringt auch vielleicht keinen Vorteil für Sie.

Visualisieren Sie die Verteilung von `y` auf zwei verschiedene Arten.

Das R-Paket ggpubr erstellt schöne Diagramme (basierend auf ggplot) auf einfache Art. Nehmen wir ein Dichtediagramm; die Variable y soll auf der X-Achse stehen:

ggdensity(d, x = "y")

Beachten Sie, dass die Variable in Anführungsstriche gesetzt werden muss: x = "y".

Oder ein Histogramm:

gghistogram(d, x = "y")

Alternativ könnte man das R-Paket {DataExplorer} verwenden:

d |> 
  select(y) |> 
  plot_density()

Fügen Sie relevante Kennzahlen hinzu.

Um Diagramme mit Statistiken anzureichen, bietet sich das Paket {ggstatsplot} an:

gghistostats(d, x = y)

Beachten Sie, dass die Variable nicht in Anführungsstriche gesetzt werden darf: x = y.

Natürlich könnte man sich typische deskriptive Statistiken auch anderweitig ausgeben lassen, etwa mit {easystats}:

d |> 
  select(y) |> 
  describe_distribution()

Variable	Mean	SD	IQR	Min	Max	Skewness	Kurtosis	n	n_Missing
y	4201.754	801.9545	1206.25	2700	6300	0.4703293	-0.7192219	342	2

Visualisieren Sie die Verteilung von `x1` und `x2`.

`x1`

Mit ggpubr:

d_counted <- 
  d |> 
  count(x1)

ggbarplot(data = d_counted, y = "n", x = "x1", label = TRUE)

Mit DataExplorer:

d |> 
  select(x1) |> 
  plot_bar()

`x2`

gghistostats(d, x = x2)

Visualisieren Sie die Verteilung von `y` bedingt auf `x1`

gghistogram(d, x = "y", fill = "x1")

Oder so:

gghistogram(d, x = "y", facet.by = "x1")

Fügen Sie relevante Kennzahlen zur letzten Visualisierung hinzu

grouped_gghistostats(d, x = y, grouping.var = x1)

Visualisieren Sie den Zusammenhang von `y` und `x2`

ggscatter(d, x = "x2", y = "y")

Verbessern Sie das letzte Diagramm, so dass es übersichtlicher wird

Es gibt mehrere Wege, das Diagramm übersichtlicher zu machen. Logarithmieren ist ein Weg.

d |> 
  mutate(x2 = log(x2)) |> 
  ggscatter(x = "x2", y = "y")

Synonym könnten wir schreiben:

d_logged <- 
  d |> 
  mutate(x2 = log(x2))
  

ggscatter(d_logged, x = "x2", y = "y")

Fügen Sie dem letzten Diagramm relevante Kennzahlen hinzu

ggscatterstats(d_logged, x = x2, y = y)

Fügen Sie dem Diagramm zum Zusammenhang von `y` und `x2` eine Regressionsgerade hinzu

ggscatter(d_logged, x = "x2", y = "y", add = "reg.line", 
             add.params = list(color = "blue"))

Ersetzen Sie die Regressionsgerade durch eine LOESS-Gerade

ggscatter(d_logged, x = "x2", y = "y", add = "loess", 
             add.params = list(color = "blue"))

Gruppieren Sie das letzte Diagramm nach `x1`

ggscatter(d_logged, x = "x2", y = "y", add = "loess", 
             add.params = list(color = "blue"),
          facet.by = "x1")

Dichotomisieren Sie `y` und zählen Sie die Häufigkeiten

Nehmen wir einen Mediansplit, um zu dichotomisieren.

d <-
  d |> 
  mutate(y_dicho = ifelse(y > median(y), "high", "low"))

d |> 
  count(y_dicho) |> 
  ggbarplot(x = "y_dicho", y = "n")

Gleich viele! Das sollte nicht verwundern.

Gruppieren Sie das letzte Diagramm nach den Stufen von `x1`

d_count <- 
d |> 
  count(y_dicho, x1) 

d_count

y_dicho	x1	n
NA	Adelie	152
NA	Chinstrap	68
NA	Gentoo	124

ggbarplot(d_count, x = "y_dicho", y = "n", facet.by = "x1", label = TRUE)

Variieren Sie das letzte Diagramm so, dass Anteile (relative Häufigkeiten) statt absoluter Häufigkeiten gezeigt werden

d_count <-
  d_count |> 
  mutate(prop = n / sum(n)) |> 
  mutate(prop = round(prop, 2))

d_count

y_dicho	x1	n	prop
NA	Adelie	152	0.44
NA	Chinstrap	68	0.20
NA	Gentoo	124	0.36

Check:

d_count |> 
  summarise(sum(prop))

sum(prop)
1

Gut! Die Anteile summieren sich zu ca. 1 (100 Prozent).

ggbarplot(d_count, x = "y_dicho", y = "prop", facet.by = "x1", label = TRUE)

Man beachten, dass sich die Anteile auf das “Gesamt-N” beziehen.

Categories:

vis
yacsda
ggquick
penguins
string

--- exname: vis-penguins expoints: 1 extype: string exsolution: NA categories: - vis - yacsda - ggquick - penguins - string date: '2023-09-12' slug: vis-penguins title: vis-penguins --- ```{r global-knitr-options, include=FALSE, message=FALSE} knitr::opts_chunk$set(fig.pos = 'H', fig.asp = 0.618, fig.width = 4, fig.cap = "", fig.path = "", out.width = "100%", echo = TRUE, message = FALSE, fig.show = "hold") ``` # Aufgabe In dieser Fallstudie (YACSDA: Yet another Case Study on Data Analysis) untersuchen wir den Datensatz `penguins`. Sie können den Datensatz so beziehen: ```{r} #install.packages("palmerpenguins") library(palmerpenguins) data("penguins") d <- penguins ``` Oder so: ```{r eval=FALSE} d <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/palmerpenguins/penguins.csv") ``` Ein Codebook finden Sie [hier](https://vincentarelbundock.github.io/Rdatasets/doc/palmerpenguins/penguins.html). Die Forschungsfrage lautet: Was ist der Einfluss der Spezies und der Schnabellänge auf das Körpergewicht? - Abhängige Variable (metrisch), `y`: Körpergewicht - Unabhängige Variable 1 (nominal), `x1`: Spezies - Unabhängige Variable 2 (metrisch), `x2`: Schnabellänge Visualisieren Sie dazu folgende Aspekte der Forschungsfrage! Hinweise: - Orientieren Sie sich im Übrigen an den [allgemeinen Hinweisen des Datenwerks](https://datenwerk.netlify.app/hinweise). # Aufgaben 1. Visualisieren Sie die Verteilung von `y` auf zwei verschiedene Arten. 2. Fügen Sie relevante Kennzahlen hinzu. 2. Visualisieren Sie die Verteilung von `x1` und `x2`. 3. Visualisieren Sie die Verteilung von `y` bedingt auf `x1`. 4. Fügen Sie relevante Kennzahlen zur letzten Visualisierung hinzu. 5. Visualisieren Sie den Zusammenhang von `y` und `x2`. 6. Verbessern Sie das letzte Diagramm, so dass es übersichtlicher wird. 6. Fügen Sie dem letzten Diagramm relevante Kennzahlen hinzu. 7. Fügen Sie dem Diagramm zum Zusammenhang von `y` und `x2` eine Regressionsgerade hinzu. 8. Ersetzen Sie die Regressionsgerade durch eine LOESS-Gerade. 9. Gruppieren Sie das letzte Diagramm nach `x1`. 10. Dichotomisieren Sie `y` und zählen Sie die Häufigkeiten. *Achtung*: Dichotomisieren wird von einigen Statistikern mit Exkommunikation bestraft. Proceed at your own risk. 11. Gruppieren Sie das letzte Diagramm nach den Stufen von `x1`. 12. Variieren Sie das letzte Diagramm so, dass Anteile (relative Häufigkeiten) statt absoluter Häufigkeiten gezeigt werden. Hinweise: - Orientieren Sie sich im Übrigen an den [allgemeinen Hinweisen des Datenwerks](https://datenwerk.netlify.app/hinweise). # Lösung # Pakete starten ```{r echo = TRUE} library(tidyverse) library(easystats) library(ggpubr) library(ggstatsplot) library(DataExplorer) ``` # Los geht's ## Umbenennen Für weniger Tippen nenne ich die Variablen um: ```{r} d <- d |> rename(y = body_mass_g, x1 = species, x2 = bill_length_mm) ``` Das ist aber nicht unbedingt nötig und bringt auch vielleicht keinen Vorteil für Sie. ## Visualisieren Sie die Verteilung von `y` auf zwei verschiedene Arten. Das R-Paket `ggpubr` erstellt schöne Diagramme (basierend auf `ggplot`) auf einfache Art. Nehmen wir ein Dichtediagramm; die Variable `y` soll auf der X-Achse stehen: ```{r} ggdensity(d, x = "y") ``` Beachten Sie, dass die Variable in Anführungsstriche gesetzt werden muss: `x = "y"`. Oder ein Histogramm: ```{r} gghistogram(d, x = "y") ``` Alternativ könnte man das R-Paket `{DataExplorer}` verwenden: ```{r} d |> select(y) |> plot_density() ``` ## Fügen Sie relevante Kennzahlen hinzu. Um Diagramme mit Statistiken anzureichen, bietet sich das Paket `{ggstatsplot}` an: ```{r} gghistostats(d, x = y) ``` Beachten Sie, dass die Variable *nicht* in Anführungsstriche gesetzt werden darf: `x = y`. Natürlich könnte man sich typische deskriptive Statistiken auch anderweitig ausgeben lassen, etwa mit `{easystats}`: ```{r} d |> select(y) |> describe_distribution() ``` ## Visualisieren Sie die Verteilung von `x1` und `x2`. ### `x1` Mit `ggpubr`: ```{r} d_counted <- d |> count(x1) ``` ```{r} ggbarplot(data = d_counted, y = "n", x = "x1", label = TRUE) ``` Mit `DataExplorer`: ```{r} d |> select(x1) |> plot_bar() ``` ### `x2` ```{r} gghistostats(d, x = x2) ``` ## Visualisieren Sie die Verteilung von `y` bedingt auf `x1` ```{r} gghistogram(d, x = "y", fill = "x1") ``` Oder so: ```{r} gghistogram(d, x = "y", facet.by = "x1") ``` ## Fügen Sie relevante Kennzahlen zur letzten Visualisierung hinzu ```{r} grouped_gghistostats(d, x = y, grouping.var = x1) ``` ## Visualisieren Sie den Zusammenhang von `y` und `x2` ```{r} ggscatter(d, x = "x2", y = "y") ``` ## Verbessern Sie das letzte Diagramm, so dass es übersichtlicher wird Es gibt mehrere Wege, das Diagramm übersichtlicher zu machen. Logarithmieren ist ein Weg. ```{r} d |> mutate(x2 = log(x2)) |> ggscatter(x = "x2", y = "y") ``` Synonym könnten wir schreiben: ```{r} d_logged <- d |> mutate(x2 = log(x2)) ggscatter(d_logged, x = "x2", y = "y") ``` ## Fügen Sie dem letzten Diagramm relevante Kennzahlen hinzu ```{r ggscatter1, eval = FALSE} ggscatterstats(d_logged, x = x2, y = y) ``` ## Fügen Sie dem Diagramm zum Zusammenhang von `y` und `x2` eine Regressionsgerade hinzu ```{r} ggscatter(d_logged, x = "x2", y = "y", add = "reg.line", add.params = list(color = "blue")) ``` ## Ersetzen Sie die Regressionsgerade durch eine LOESS-Gerade ```{r} ggscatter(d_logged, x = "x2", y = "y", add = "loess", add.params = list(color = "blue")) ``` ## Gruppieren Sie das letzte Diagramm nach `x1` ```{r} ggscatter(d_logged, x = "x2", y = "y", add = "loess", add.params = list(color = "blue"), facet.by = "x1") ``` ## Dichotomisieren Sie `y` und zählen Sie die Häufigkeiten Nehmen wir einen Mediansplit, um zu dichotomisieren. ```{r} d <- d |> mutate(y_dicho = ifelse(y > median(y), "high", "low")) ``` ```{r} d |> count(y_dicho) |> ggbarplot(x = "y_dicho", y = "n") ``` Gleich viele! Das sollte nicht verwundern. ## Gruppieren Sie das letzte Diagramm nach den Stufen von `x1` ```{r} d_count <- d |> count(y_dicho, x1) d_count ``` ```{r} ggbarplot(d_count, x = "y_dicho", y = "n", facet.by = "x1", label = TRUE) ``` ## Variieren Sie das letzte Diagramm so, dass Anteile (relative Häufigkeiten) statt absoluter Häufigkeiten gezeigt werden ```{r} d_count <- d_count |> mutate(prop = n / sum(n)) |> mutate(prop = round(prop, 2)) d_count ``` Check: ```{r} d_count |> summarise(sum(prop)) ``` Gut! Die Anteile summieren sich zu ca. 1 (100 Prozent). ```{r} ggbarplot(d_count, x = "y_dicho", y = "prop", facet.by = "x1", label = TRUE) ``` Man beachten, dass sich die Anteile auf das "Gesamt-N" beziehen. --- Categories: - vis - yacsda - ggquick - penguins - string