Kapitel 3 Rahmen

3.1 Der Prozess der Datenanalyse

Datenanalyse kann man als Prozess mit mehreren Schritten verstehen, s. Abb. 3.1.

Der Prozess der Datenanalyse

Figure 3.1: Der Prozess der Datenanalyse

Natürlich kann man sich auch andere sinnvolle Darstellungen dieses Ablaufs vorstellen.

3.2 Warum R?

R ist open source, jeder kann beitragen. Das tuen auch viele. Daher gibt es viel mehr Entwickler für R wie für ein propriäteres Programm wie z.B. SPSS. Der Unterschied in der Zahl der Entwickler ist im Diagramm 3.2 dargestellt. Achtung: Die Diagrammgrößen sind hier rein “gefühlt” und sollen lediglich einen Eindruck vermitteln.

Gefühlter Vergleich der Anzahl der Entwickler nach Statistik-Software

Figure 3.2: Gefühlter Vergleich der Anzahl der Entwickler nach Statistik-Software

Für einen genaueren Eindruck kann man viele Statistiken heranziehen. Nehmen wir die Anzahl der Suchanfragen bei stackoverflow.com, dem größten FAQ-Forum für Software-Entwicklung. Wir vergleichen Suchanfragen mit dem Tag [r] zu Suchanfragen mit dem Tag [spss]1. Die Ergebnisse sind in Abbildung 3.3 dargestellt.

Suchanfragen nach R bzw SPSS, Stand 2022-02-24

Figure 3.3: Suchanfragen nach R bzw SPSS, Stand 2022-02-24

Das ist grob gerechnet ein Faktor von 200 (der Unterschied von R zu SPSS).

3.3 Architektur von R

3.3.1 R vs. RStudio

Ismay and Kim (2019) zeigen eine schöne Analogie, was der Unterschied von R und RStudio ist (s. Abbildung 3.4).

R vs. RStudio

Figure 3.4: R vs. RStudio

Wir verwenden beide Programme. Aber wir öffnen nur RStudio. RStudio findet selbständig R und öffnet diese “heimlich”. Öffnen Sie nicht noch extra R (sonst wäre R zweifach geöffnet).

Hier ein Screenshot von der Oberfläche von RStudio (s. Abbildung 3.5).

So sieht RStudio aus

Figure 3.5: So sieht RStudio aus

3.3.2 R-Studio Cloud

RStudio Cloud ist ein Webdienst von RStudio (zum Teil kostenlos). Man kann damit online mit R arbeiten. Die Oberfläche ist praktisch identisch zur Desktop-Version (S. Abbildung 3.6). Ein Vorteil ist, dass man als Nutzer nichts installieren muss.

RStudio Cloud

Figure 3.6: RStudio Cloud

3.3.3 Installation

Lesen Sie hier die Installation von R und seiner Freunde nach.

3.3.4 R-Pakete

Typisch für R ist sein modularer Aufbau: Man kann eine große Zahl an Erweiterungen (“Pakete”) installieren, alle kostenlos.

In R Paketen “wohnen” Funktionen, also Dinge, die R kann, wenn das Paket verfügbar ist.

Man kann sich daher ein R-Paket vorstellen wie ein Buch: Wenn R es gelesen hat, dann kennt es die Inhalte. Diese Inhalte könnten irgendwelche Formeln, also Berechnungen sein. Es könnte aber die “Bauanleitung” für ein schönes Diagramm sein.

Ist ein spezielles R-Paket auf Ihrem Computer vorhanden, so können Sie diese Funktionalität nutzen.

Die Zahl an diesen “Paketen” ist groß (zur Verdeutlichung s. Abbildung 3.7).

Containershiff, Corey Seeman, CC-BY-NC 20, Flickr.com

Figure 3.7: Containershiff, Corey Seeman, CC-BY-NC 20, Flickr.com

Erweiterungen kennt man von vielen Programmen, sie werden auch Add-Ons, Plug-Ins oder sonstwie genannt.

Man siehe zur Verdeutlichung Erweiterungen beim Broswer Chrome (Abbildung 3.8).

Erweiterungen beim Browser Chrome

Figure 3.8: Erweiterungen beim Browser Chrome

Die Anzahl der R-Pakete ist groß; allein auf dem “offiziellen Web-Store” (nennt sich “CRAN”) von R gibt es ca. 20,000 Pakete (Abbildung 3.9; Quelle).

Anzahl der Pakete auf CRAN

Figure 3.9: Anzahl der Pakete auf CRAN

3.3.4.1 Pakete installieren

Wie jede Software muss man Pakete (Erweiterungen für R) erst einmal installieren, bevor man sie verwenden kann. Ja, einmal installieren reicht.

Das geht komfortabel, wenn man beim Reiter Packages auf Install klickt (s. Abb. 3.10).

So kann man Pakete in R installieren.

Figure 3.10: So kann man Pakete in R installieren.

Dann öffnet sich ein Menü, wo man die Namen der gewünschten R-Pakete eingeben kann (s. Abbildung 3.11)

Hier den oder die Namen der gewünschten R-Pakete eingeben.

Figure 3.11: Hier den oder die Namen der gewünschten R-Pakete eingeben.

Welche R-Pakete sind denn schon installiert?

Im Reiter Packages können Sie nachschauen, welche Pakete auf Ihrem Computer schon installiert sind. Diese Pakete brauchen Sie logischerweise dann nicht noch mal installieren.

Ja, aber welche R-Pakete “soll” ich denn installieren, welche brauch ich denn?

Im Moment sollten Sie die folgenden Pakete installiert haben:

  • tidyverse
  • rstatix

Wenn Sie die noch nicht installiert haben sollten, dann können Sie das jetzt ja nachholen.

3.3.4.2 Pakete starten

Wenn Sie ein Softwareprogramm - nichts anderes sind R-Pakete - installiert haben, müssen Sie es noch starten.

Merke: Ein bestimmtes Paket muss man nur einmalig installieren. Aber man muss es jedes Mal neu starten, wenn man R (bzw. RStudio) startet.

Sie erkennen leicht, ob ein Paket gestartet ist, wenn Sie ein Häkchen vor dem Namen des Pakets in der Paketliste (Reiter Packages) sehen, s. Abbildung 3.10.

3.3.5 Projekte in R

Ein Projekt in RStudio ist letztlich ein Ordner, der als “Basis” für eine Reihe von Dateien verwendet wird. Sagen wir, das Projekt heißt cool_stuff. RStudio legt uns diesen Ordner an einem von uns gewählten Platz auf unserem Computer an. Das ist ganz praktisch, weil man dann sagen kann “Hey R, nimmt die Datei ‘daten.csv’”, ohne einen Pfad anzugeben. Vorausgesetzt, die Datei liegt auch im Projektordner (cool_stuff).

Projekte kann anlegen mit Klick auf das Icon, das einen Quader mit dem Buchstaben R darin anzeigt (s. Abbildung 3.12)

RStudio-Projekte, Beispiele

Figure 3.12: RStudio-Projekte, Beispiele

3.3.6 Skriptdateien

Die R-Befehle (“Syntax”) schreiben Sie am besten in eine speziell dafür vorgesehene Textdatei in RStudio. Eine Sammlung von (R-)Befehlen nennt man auch ein Skript, daher spricht man auch von einer Skriptdatei. Um eine neue R-Skriptdatei zu öffnen, klicken Sie auf das Icon, das ein weißes Blatt mit einem grünen Pluszeichen zeigt, s. Abbildung 3.13.

So erstellen Sie eine neue Skriptdatei.

Figure 3.13: So erstellen Sie eine neue Skriptdatei.

Vergessen Sie nicht zu speichern, wenn Sie ein tolles Skript geschrieben haben. Dafür gibt es mehrere Möglichkeiten:

  • Strg+S
  • Menü: File > Save
  • Klick auf das Icon mit der Diskette (vgl. Abbildung 3.13)

Eine Skriptdatei können Sie in typischer Manier öffnen:

  • Strg+O
  • Klick auf das Icon mit der Akte und dem grünen Pfeil (vgl. Abbildung 3.13)
  • Menü: File > Open File…

3.4 Grundlagen von R

3.4.1 Variablen

In jeder Programmiersprache kann man Variablen definieren, so auch in R:

richtige_antwort <- 42
falsche_antwort <- 43
typ <- "Antwort"
ist_korrekt <- TRUE

Der Zuweisungspfeil <- definiert eine neue Variable (oder überschreibt den Inhalt, wenn die Variable schon existiert).

Sie können sich eine Variable wie einen Becher oder Behälter vorstellen, der bestimmte Werte enthält. Auf dem Becher steht (mit Edding geschrieben) der Name des Bechers. Natürlich können Sie die Werte aus dem Becher entfernen und sie durch neue ersetzen (vgl. Abbildung 3.14).

Variablen zuweisen

Figure 3.14: Variablen zuweisen

R kann übrigens auch rechnen:

die_summe <- falsche_antwort + richtige_antwort

Der Zuweisungspfeil <- definiert eine neue Variable (oder überschreibt den Inhalt, wenn die Variable schon existiert).

Aber was ist jetzt der Wert, der “Inhalt” der Variable die_summe?

Um den Wert, d.h. den Inhalt einer Variablen in R auszulesen, geben wir einfach den Namen des Objekts ein:

die_summe
## [1] 85

Was passiert wohl, wenn wir die_summe jetzt wie folgt definieren:

die_summe <- falsche_antwort + richtige_antwort + 1

Wer hätt’s geahnt:

die_summe
## [1] 86

3.4.2 Funktionen - “Befehle”

3.4.2.1 Vektoren

Das, was R kann, ist in “Funktionen” hinterlegt. Ein Beispiel für eine solche Funktion könnte sein: “Berechne den Mittelwert” (schauen wir uns gleich an).

Ein weiteres Beispiel für eine Funktion ist: “Erstelle eine Liste (Vektor) von Werten”.

Das geht so:

Antworten <- c(42, 43)

Der Befehl c (c wie combine) fügt mehrere Werte zusammen zu einer Liste (einem Vektor).

Mit dem Zuweisungspfeil geben wir dieser Liste einen Namen, hier Antworten. Diese Liste besteht aus zwei Werten, zuerst 42, dann kommt 43.

3.4.2.2 Unsere erste statistische Funktion

Jetzt wird’s ernst. Jetzt kommt die Statistik. Berechnen wir also unsere erste statistische Funktion: Den Mittelwert. Puh.

mean(Antworten)
## [1] 42.5

Sie hätten Antworten auch durch c(42, 43) ersetzen können, so haben Sie ja schließlich die Variable gerade definiert.

3.5 Hilfe

  • Wo finde ich Hilfe zu einer bestimmten Funktion, z.B. fun? Geben Sie dazu folgenden R-Befehl ein: help(fun).
  • In welchem Paket wohnt meine R-Funktion? Suchen Sie nach der Funktion auf dieser Seite.
  • Ich weiß nicht, wie der R-Befehl funktioniert? Vermutlich haben andere Ihr Problem auch, und meistens hat irgendwer das Problem schon gelöst. Am besten suchen Sie mal auf Stackoverflow.
  • Ich muss mal grundlegend verstehen, wozu ein bestimmten R-Paket gut ist. Lesen Sie die Dokumenation (“Vignette”) eines R-Pakets durch. Für das Paket dplyr bekommen Sie so einen Überblick über die verfügbaren Vignetten diese Pakets: vignette(package = "dplyr"). Dann suchen Sie sich aus der angezeigten Liste eine Vignette raus; mit vignette("rowwise") können Sie sich dann die gewünschte Vignette (z.B. rowwise) anzeigen lassen.

3.6 Literaturhinweise

“Warum R? Warum, R?” heißt ein Kapitel in Sauer (2019), das einiges zum Pro und Contra von R aufführt. In Kapitel 3 in der gleichen Quelle finden sich viele Hinweise, wie man R startet; In Kapitel 4 werden Grundlagen von “Errisch” erläutert; Kapitel 5 führt in Datenstrukturen von R ein (schon etwas anspruchsvoller). Alternativ bietet Kapitel 1 von Ismay and Kim (2019) einen guten Überblick.

Literatur

Ismay, Chester, and Albert Kim. 2019. ModernDive - An Introduction to Statistical and Data Sciences via R.” http://moderndive.com/.
Sauer, Sebastian. 2019. Moderne Datenanalyse Mit R: Daten Einlesen, Aufbereiten, Visualisieren Und Modellieren. 1. Auflage 2019. FOM-Edition. Wiesbaden: Springer. https://www.springer.com/de/book/9783658215866.

  1. Durchgeführt am 2022-02-24, 17:21 CET↩︎