library(tidyverse)
sentiws <- read_csv("https://osf.io/x89wq/?action=download")sentiws2
textmining
tokenizer
string
Aufgabe
Importieren Sie das sentiws Lexikon:
Die Spalte inflections birgt eine Reihe von Word-Varianten. Es scheint sinnvoll zu sein, diese Wörter zu nutzen. Aber um sie zu nutzen, muss man sie tokenisieren.
Aufgabe: Tokenisieren Sie die Tabelle sentiws, Spalte inflections.
Hinweise:
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
Lösung
library(tidytext)senti_unnest <-
sentiws %>%
unnest_tokens(input = inflections, output = word)Das ging einfach!
Nur die NAs sollten wir vielleicht noch entfernen.
sentiws2 <-
sentiws %>%
unnest_tokens(input = inflections, output = word) %>%
drop_na(word)Categories:
- textmining
- tokenizer
- string