library(tidyverse)
<- read_csv("https://osf.io/x89wq/?action=download") sentiws
sentiws2
textmining
tokenizer
string
Aufgabe
Importieren Sie das sentiws
Lexikon:
Die Spalte inflections
birgt eine Reihe von Word-Varianten. Es scheint sinnvoll zu sein, diese Wörter zu nutzen. Aber um sie zu nutzen, muss man sie tokenisieren.
Aufgabe: Tokenisieren Sie die Tabelle sentiws
, Spalte inflections
.
Hinweise:
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
Lösung
library(tidytext)
<-
senti_unnest %>%
sentiws unnest_tokens(input = inflections, output = word)
Das ging einfach!
Nur die NA
s sollten wir vielleicht noch entfernen.
<-
sentiws2 %>%
sentiws unnest_tokens(input = inflections, output = word) %>%
drop_na(word)
Categories:
- textmining
- tokenizer
- string