library(tidytext)
library(tidyverse)
%>%
text_df unnest_tokens(word, text) %>%
filter(str_detect(word, "[a-z]"))
tidytext
schoice
Aufgabe
Welche Aussage zu dieser Syntax ist korrekt?
Answerlist
- Der Text wird so “entschachtelt”, dass in jeder Zelle nur noch ein Wort steht. Dabei werden so viele Spalten angehängt, wie Wörter in der betreffenden Zelle standen.
- Durch
filter()
in Verbindung mitstr_detect()
werden alle Buchstaben von a bis z entfernt. - Ein Token bedeutet hier so viel wie eine numerische Analyseeinheit.
- Der Text wird in das lange Format umwandelt, so dass nur noch ein Wort pro Zeile steht.
Lösung
D: Es entsteht ein langer Dataframe.
Categories:
schoice