Kapitel 3 Rahmen
3.1 Der Prozess der Datenanalyse
Datenanalyse kann man als Prozess mit mehreren Schritten verstehen, s. Abb. 3.1.
Natürlich kann man sich auch andere sinnvolle Darstellungen dieses Ablaufs vorstellen.
3.2 Warum R?
R ist open source, jeder kann beitragen. Das tuen auch viele. Daher gibt es viel mehr Entwickler für R wie für ein propriäteres Programm wie z.B. SPSS. Der Unterschied in der Zahl der Entwickler ist im Diagramm 3.2 dargestellt. Achtung: Die Diagrammgrößen sind hier rein “gefühlt” und sollen lediglich einen Eindruck vermitteln.
Für einen genaueren Eindruck kann man viele Statistiken heranziehen.
Nehmen wir die Anzahl der Suchanfragen bei stackoverflow.com,
dem größten FAQ-Forum für Software-Entwicklung.
Wir vergleichen Suchanfragen mit dem Tag [r]
zu Suchanfragen mit dem Tag [spss]
1. Die Ergebnisse sind in Abbildung 3.3 dargestellt.
Das ist grob gerechnet ein Faktor von 200 (der Unterschied von R zu SPSS).
3.3 Architektur von R
3.3.1 R vs. RStudio
Ismay and Kim (2019) zeigen eine schöne Analogie, was der Unterschied von R und RStudio ist (s. Abbildung 3.4).
Wir verwenden beide Programme. Aber wir öffnen nur RStudio. RStudio findet selbständig R und öffnet diese “heimlich”. Öffnen Sie nicht noch extra R (sonst wäre R zweifach geöffnet).
Hier ein Screenshot von der Oberfläche von RStudio (s. Abbildung 3.5).
3.3.2 R-Studio Cloud
RStudio Cloud ist ein Webdienst von RStudio (zum Teil kostenlos). Man kann damit online mit R arbeiten. Die Oberfläche ist praktisch identisch zur Desktop-Version (S. Abbildung 3.6). Ein Vorteil ist, dass man als Nutzer nichts installieren muss.
3.3.3 Installation
Lesen Sie hier die Installation von R und seiner Freunde nach.
3.3.4 R-Pakete
Typisch für R ist sein modularer Aufbau: Man kann eine große Zahl an Erweiterungen (“Pakete”) installieren, alle kostenlos.
In R Paketen “wohnen” Funktionen, also Dinge, die R kann, wenn das Paket verfügbar ist.
Man kann sich daher ein R-Paket vorstellen wie ein Buch: Wenn R es gelesen hat, dann kennt es die Inhalte. Diese Inhalte könnten irgendwelche Formeln, also Berechnungen sein. Es könnte aber die “Bauanleitung” für ein schönes Diagramm sein.
Ist ein spezielles R-Paket auf Ihrem Computer vorhanden, so können Sie diese Funktionalität nutzen.
Die Zahl an diesen “Paketen” ist groß (zur Verdeutlichung s. Abbildung 3.7).
Erweiterungen kennt man von vielen Programmen, sie werden auch Add-Ons, Plug-Ins oder sonstwie genannt.
Man siehe zur Verdeutlichung Erweiterungen beim Broswer Chrome (Abbildung 3.8).
Die Anzahl der R-Pakete ist groß; allein auf dem “offiziellen Web-Store” (nennt sich “CRAN”) von R gibt es ca. 20,000 Pakete (Abbildung 3.9; Quelle).
3.3.4.1 Pakete installieren
Wie jede Software muss man Pakete (Erweiterungen für R) erst einmal installieren, bevor man sie verwenden kann. Ja, einmal installieren reicht.
Das geht komfortabel, wenn man beim Reiter Packages auf Install klickt (s. Abb. 3.10).
Dann öffnet sich ein Menü, wo man die Namen der gewünschten R-Pakete eingeben kann (s. Abbildung 3.11)
Welche R-Pakete sind denn schon installiert?
Im Reiter Packages können Sie nachschauen, welche Pakete auf Ihrem Computer schon installiert sind. Diese Pakete brauchen Sie logischerweise dann nicht noch mal installieren.
Ja, aber welche R-Pakete “soll” ich denn installieren, welche brauch ich denn?
Im Moment sollten Sie die folgenden Pakete installiert haben:
tidyverse
rstatix
Wenn Sie die noch nicht installiert haben sollten, dann können Sie das jetzt ja nachholen.
3.3.4.2 Pakete starten
Wenn Sie ein Softwareprogramm - nichts anderes sind R-Pakete - installiert haben, müssen Sie es noch starten.
Merke: Ein bestimmtes Paket muss man nur einmalig installieren. Aber man muss es jedes Mal neu starten, wenn man R (bzw. RStudio) startet.
Sie erkennen leicht, ob ein Paket gestartet ist, wenn Sie ein Häkchen vor dem Namen des Pakets in der Paketliste (Reiter Packages) sehen, s. Abbildung 3.10.
3.3.5 Projekte in R
Ein Projekt in RStudio ist letztlich ein Ordner,
der als “Basis” für eine Reihe von Dateien verwendet wird.
Sagen wir, das Projekt heißt cool_stuff
.
RStudio legt uns diesen Ordner an einem von uns gewählten Platz auf unserem Computer an.
Das ist ganz praktisch, weil man dann sagen kann “Hey R, nimmt die Datei ‘daten.csv’”,
ohne einen Pfad anzugeben.
Vorausgesetzt, die Datei liegt auch im Projektordner (cool_stuff
).
Projekte kann anlegen mit Klick auf das Icon, das einen Quader mit dem Buchstaben R darin anzeigt (s. Abbildung 3.12)
3.3.6 Skriptdateien
Die R-Befehle (“Syntax”) schreiben Sie am besten in eine speziell dafür vorgesehene Textdatei in RStudio. Eine Sammlung von (R-)Befehlen nennt man auch ein Skript, daher spricht man auch von einer Skriptdatei. Um eine neue R-Skriptdatei zu öffnen, klicken Sie auf das Icon, das ein weißes Blatt mit einem grünen Pluszeichen zeigt, s. Abbildung 3.13.
Vergessen Sie nicht zu speichern, wenn Sie ein tolles Skript geschrieben haben. Dafür gibt es mehrere Möglichkeiten:
- Strg+S
- Menü: File > Save
- Klick auf das Icon mit der Diskette (vgl. Abbildung 3.13)
Eine Skriptdatei können Sie in typischer Manier öffnen:
- Strg+O
- Klick auf das Icon mit der Akte und dem grünen Pfeil (vgl. Abbildung 3.13)
- Menü: File > Open File…
3.4 Grundlagen von R
3.4.1 Variablen
In jeder Programmiersprache kann man Variablen definieren, so auch in R:
<- 42
richtige_antwort <- 43
falsche_antwort <- "Antwort"
typ <- TRUE ist_korrekt
Der Zuweisungspfeil <-
definiert eine neue Variable (oder überschreibt den Inhalt,
wenn die Variable schon existiert).
Sie können sich eine Variable wie einen Becher oder Behälter vorstellen, der bestimmte Werte enthält. Auf dem Becher steht (mit Edding geschrieben) der Name des Bechers. Natürlich können Sie die Werte aus dem Becher entfernen und sie durch neue ersetzen (vgl. Abbildung 3.14).
R kann übrigens auch rechnen:
<- falsche_antwort + richtige_antwort die_summe
Der Zuweisungspfeil <-
definiert eine neue Variable (oder überschreibt den Inhalt,
wenn die Variable schon existiert).
Aber was ist jetzt der Wert, der “Inhalt” der Variable die_summe
?
Um den Wert, d.h. den Inhalt einer Variablen in R auszulesen, geben wir einfach den Namen des Objekts ein:
die_summe
## [1] 85
Was passiert wohl, wenn wir die_summe
jetzt wie folgt definieren:
<- falsche_antwort + richtige_antwort + 1 die_summe
Wer hätt’s geahnt:
die_summe
## [1] 86
3.4.2 Funktionen - “Befehle”
3.4.2.1 Vektoren
Das, was R kann, ist in “Funktionen” hinterlegt. Ein Beispiel für eine solche Funktion könnte sein: “Berechne den Mittelwert” (schauen wir uns gleich an).
Ein weiteres Beispiel für eine Funktion ist: “Erstelle eine Liste (Vektor) von Werten”.
Das geht so:
<- c(42, 43) Antworten
Der Befehl c
(c wie combine) fügt mehrere Werte zusammen zu einer Liste (einem Vektor).
Mit dem Zuweisungspfeil geben wir dieser Liste einen Namen, hier Antworten
.
Diese Liste besteht aus zwei Werten, zuerst 42
, dann kommt 43
.
3.4.2.2 Unsere erste statistische Funktion
Jetzt wird’s ernst. Jetzt kommt die Statistik. Berechnen wir also unsere erste statistische Funktion: Den Mittelwert. Puh.
mean(Antworten)
## [1] 42.5
Sie hätten Antworten
auch durch c(42, 43)
ersetzen können,
so haben Sie ja schließlich die Variable gerade definiert.
3.5 Hilfe
- Wo finde ich Hilfe zu einer bestimmten Funktion, z.B.
fun
? Geben Sie dazu folgenden R-Befehl ein:help(fun)
. - In welchem Paket wohnt meine R-Funktion? Suchen Sie nach der Funktion auf dieser Seite.
- Ich weiß nicht, wie der R-Befehl funktioniert? Vermutlich haben andere Ihr Problem auch, und meistens hat irgendwer das Problem schon gelöst. Am besten suchen Sie mal auf Stackoverflow.
- Ich muss mal grundlegend verstehen, wozu ein bestimmten R-Paket gut ist. Lesen Sie die Dokumenation (“Vignette”) eines R-Pakets durch. Für das Paket
dplyr
bekommen Sie so einen Überblick über die verfügbaren Vignetten diese Pakets:vignette(package = "dplyr")
. Dann suchen Sie sich aus der angezeigten Liste eine Vignette raus; mitvignette("rowwise")
können Sie sich dann die gewünschte Vignette (z.B.rowwise
) anzeigen lassen.
3.6 Literaturhinweise
“Warum R? Warum, R?” heißt ein Kapitel in Sauer (2019), das einiges zum Pro und Contra von R aufführt. In Kapitel 3 in der gleichen Quelle finden sich viele Hinweise, wie man R startet; In Kapitel 4 werden Grundlagen von “Errisch” erläutert; Kapitel 5 führt in Datenstrukturen von R ein (schon etwas anspruchsvoller). Alternativ bietet Kapitel 1 von Ismay and Kim (2019) einen guten Überblick.
Literatur
Durchgeführt am 2022-02-24, 17:21 CET↩︎