Kapitel 4 Daten importieren

4.1 CSV-Dateien importieren

In der Datenanalyse ist das gebräuchlichste Format für Daten in Tabellenform die CSV-Datei. Das hat den Grund, weil dieses Format technisch schön einfach ist. Für uns Endverbraucher tut das nichts groß zur Sache, die CSV-Datei beherbergt einfach eine brave Tabelle, sonst nichts.

Damit Sie eine Datendatei importieren können, müssen Sie wissen, wo die Datei ist.

Schauen wir uns zwei Möglichkeiten an, wo eine Datei liegen könnte.

  1. Irgendwo im Internet, z.B. hier
  2. Irgendwo auf Ihrem Computer, z.B. in Ihrem Projektordner

In beiden Fällen wird der “Aufenthaltsort” der Datei durch den Pfad (in welcher Ordnerhierarchie?) und den Namen definiert.

In beiden Fallen importieren Sie die Datei wie folgt. Klicken Sie im Reiter Environment auf Import Dataset (Ah!), s. Abbildung 4.1.

Datendateien importieren über das Menü in RStudio

Figure 4.1: Datendateien importieren über das Menü in RStudio

Wählen Sie From Text (readr)....

Im folgenden Menü geben Sie dann den Pfad zur Datei an, ganz oben bei File/URL:, s. Abbildung 4.2.

Pfad zur Datendatei eingeben

Figure 4.2: Pfad zur Datendatei eingeben

Mit einem Klick auf Update sehen Sie, was sich hinter dem Pfad verbirgt. Wenn Sie auf Import klicken, wird die Datei in R importiert. Voila!

Mit einem Klick auf Browse können Sie Ihren Rechner durchforsten nach der gesuchten Datendatei.

Jetzt sehen Sie, dass im Reiter Environment ein neuer Eintrag entstanden ist, und zwar mit dem Namen mtcars. Das ist der Name, der Datei, die wir eingelesen haben, und so heißt auch die frisch erzeugte Tabelle (s. Abbildung 4.3). Mit Klick auf das Tabellen-Icon können Sie sich die Tabelle anschauen (Nur Anschauen, nicht die Werte verändern).

Hier sehen Sie die geöffneten Tabellen.

Figure 4.3: Hier sehen Sie die geöffneten Tabellen.

Ist sie nicht schön (s. Abbildung 4.4)? Ein Prachtexampler einer Tabelle, nicht wahr?

Die ersten Zeilen der Tabelle 'mtcars'

Figure 4.4: Die ersten Zeilen der Tabelle ‘mtcars’

4.2 CSV-Dateien von innen

Ein Blick in die Motorhaube: So sieht eine CSV-Datei aus, wenn Sie sie mit einem Text-Editor öffnen.

"","mpg","cyl","disp","hp","drat","wt","qsec","vs","am","gear","carb"
"Mazda RX4",21,6,160,110,3.9,2.62,16.46,0,1,4,4
"Mazda RX4 Wag",21,6,160,110,3.9,2.875,17.02,0,1,4,4
"Datsun 710",22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
"Hornet 4 Drive",21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
"Hornet Sportabout",18.7,8,360,175,3.15,3.44,17.02,0,0,3,2

Wir erkennen: Es ist eine sehr einfach aufgebaute Textdatei. Wenn Sie lange genug in die Matrix starren, erkennen Sie die Spalten.

4.3 SPSS- und Excel-Dateien importieren mit rio

Daten in den Formaten von Minitab, SAS, SPSS, Stata, Excel, CSV und andere kann man mit dem Paket rio importieren:

Dann suchen wir uns einen Datensatz, z.B. ihn hier:

spss_path <- "https://cehd.gmu.edu/assets/dimitrovbook/Anxiety%202.sav"

4.3.1 SPSS

Probieren wir es mit SPSS-Daten aus:

d <- import(spss_path)
head(d)
##   subject anxiety tension trial1 trial2 trial3 trial4
## 1       1       1       1     18     14     12      6
## 2       2       1       1     19     12      8      4
## 3       3       1       1     14     10      6      2
## 4       4       1       2     16     12     10      4
## 5       5       1       2     12      8      6      2
## 6       6       1       2     18     10      5      1

Die Daten stammen aus dieser Quelle.

4.3.2 Excel

Oder mit Excel-Daten (.xls und .xlsx):

xlsx_path <- "https://github.com/sebastiansauer/Lehre/raw/main/data/excel-test.xlsx"
d2 <- import(xlsx_path)
head(d2)
##   id var1         var2
## 1  1    4        hallo
## 2  2    5 hier spricht
## 3  3    6        excel

4.4 Export

Und hier ist Ihre “RExit-Strategie”:

Mit export() (aus dem Paket rio) können Sie Tabellen aus R exportieren.

4.5 Literaturhinweise

Weitere Hinweise findet man z.B. in Sauer (2019) oder in Ismay and Kim (2019).

Literatur

Ismay, Chester, and Albert Kim. 2019. ModernDive - An Introduction to Statistical and Data Sciences via R.” http://moderndive.com/.
Sauer, Sebastian. 2019. Moderne Datenanalyse Mit R: Daten Einlesen, Aufbereiten, Visualisieren Und Modellieren. 1. Auflage 2019. FOM-Edition. Wiesbaden: Springer. https://www.springer.com/de/book/9783658215866.