saratoga-cor1

R
vis
causal
eda
Published

December 18, 2023

Aufgabe

Importieren Sie den Datensatz saratoga.

Gruppieren Sie den Datensatz in die Quartile für livingArea.

Berechnen Sie dann den Zusammenhang zwischen price und bedrooms pro Quartil von livingArea.

Hinweise:

  • Beachten Sie die Standardhinweise des Datenwerks.
  • Tipp: Die Funktion ntile aus {dplyr} teilt eine Variable var in Quartile auf, wenn Sie schreiben ntile(var, 4).











Lösung

Setup

library(tidyverse)
library(ggpubr)
data("SaratogaHouses", package = "mosaicData")

Gruppieren

d2 <-
  SaratogaHouses |> 
  mutate(q = ntile(livingArea, 4)) |> 
  group_by(q)

Statistiken

d2 |> 
  summarise(korrelation = cor(bedrooms, price))
# A tibble: 4 × 2
      q korrelation
  <int>       <dbl>
1     1      0.126 
2     2      0.0781
3     3     -0.143 
4     4     -0.0478

Visualisierung

ggscatter(d2, 
          x = "bedrooms",
          y = "price",
          facet.by = "q",
          add = "reg.line")