Kapitel 4 Daten importieren
4.1 CSV-Dateien importieren
In der Datenanalyse ist das gebräuchlichste Format für Daten in Tabellenform die CSV-Datei. Das hat den Grund, weil dieses Format technisch schön einfach ist. Für uns Endverbraucher tut das nichts groß zur Sache, die CSV-Datei beherbergt einfach eine brave Tabelle, sonst nichts.
Damit Sie eine Datendatei importieren können, müssen Sie wissen, wo die Datei ist.
Schauen wir uns zwei Möglichkeiten an, wo eine Datei liegen könnte.
- Irgendwo im Internet, z.B. hier
- Irgendwo auf Ihrem Computer, z.B. in Ihrem Projektordner
In beiden Fällen wird der “Aufenthaltsort” der Datei durch den Pfad (in welcher Ordnerhierarchie?) und den Namen definiert.
In beiden Fallen importieren Sie die Datei wie folgt. Klicken Sie im Reiter Environment auf Import Dataset (Ah!), s. Abbildung 4.1.
Wählen Sie From Text (readr)...
.
Im folgenden Menü geben Sie dann den Pfad zur Datei an, ganz oben bei File/URL:, s. Abbildung 4.2.
Mit einem Klick auf Update sehen Sie, was sich hinter dem Pfad verbirgt. Wenn Sie auf Import klicken, wird die Datei in R importiert. Voila!
Mit einem Klick auf Browse können Sie Ihren Rechner durchforsten nach der gesuchten Datendatei.
Jetzt sehen Sie, dass im Reiter Environment ein neuer Eintrag entstanden ist,
und zwar mit dem Namen mtcars
.
Das ist der Name, der Datei, die wir eingelesen haben,
und so heißt auch die frisch erzeugte Tabelle (s. Abbildung 4.3).
Mit Klick auf das Tabellen-Icon können Sie sich die Tabelle anschauen (Nur Anschauen, nicht die Werte verändern).
Ist sie nicht schön (s. Abbildung 4.4)? Ein Prachtexampler einer Tabelle, nicht wahr?
4.2 CSV-Dateien von innen
Ein Blick in die Motorhaube: So sieht eine CSV-Datei aus, wenn Sie sie mit einem Text-Editor öffnen.
"","mpg","cyl","disp","hp","drat","wt","qsec","vs","am","gear","carb"
"Mazda RX4",21,6,160,110,3.9,2.62,16.46,0,1,4,4
"Mazda RX4 Wag",21,6,160,110,3.9,2.875,17.02,0,1,4,4
"Datsun 710",22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
"Hornet 4 Drive",21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
"Hornet Sportabout",18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
Wir erkennen: Es ist eine sehr einfach aufgebaute Textdatei. Wenn Sie lange genug in die Matrix starren, erkennen Sie die Spalten.
4.3 SPSS- und Excel-Dateien importieren mit rio
Daten in den Formaten von Minitab, SAS, SPSS, Stata, Excel, CSV und andere kann man mit dem
Paket rio
importieren:
Dann suchen wir uns einen Datensatz, z.B. ihn hier:
<- "https://cehd.gmu.edu/assets/dimitrovbook/Anxiety%202.sav" spss_path
4.3.1 SPSS
Probieren wir es mit SPSS-Daten aus:
<- import(spss_path)
d head(d)
## subject anxiety tension trial1 trial2 trial3 trial4
## 1 1 1 1 18 14 12 6
## 2 2 1 1 19 12 8 4
## 3 3 1 1 14 10 6 2
## 4 4 1 2 16 12 10 4
## 5 5 1 2 12 8 6 2
## 6 6 1 2 18 10 5 1
Die Daten stammen aus dieser Quelle.