sentiws2

textmining
tokenizer
string
Published

November 8, 2023

Aufgabe

Importieren Sie das sentiws Lexikon:

library(tidyverse)
sentiws <- read_csv("https://osf.io/x89wq/?action=download")

Die Spalte inflections birgt eine Reihe von Word-Varianten. Es scheint sinnvoll zu sein, diese Wörter zu nutzen. Aber um sie zu nutzen, muss man sie tokenisieren.

Aufgabe: Tokenisieren Sie die Tabelle sentiws, Spalte inflections.

Hinweise:











Lösung

library(tidytext)
senti_unnest <- 
sentiws %>% 
  unnest_tokens(input = inflections, output = word)

Das ging einfach!

Nur die NAs sollten wir vielleicht noch entfernen.

sentiws2 <- 
sentiws %>% 
  unnest_tokens(input = inflections, output = word) %>% 
  drop_na(word)

Categories:

  • textmining
  • tokenizer
  • string