tidytext

schoice
Published

May 17, 2023

Aufgabe

library(tidytext)
library(tidyverse)
text_df %>%
  unnest_tokens(word, text) %>% 
  filter(str_detect(word, "[a-z]"))

Welche Aussage zu dieser Syntax ist korrekt?

Answerlist

  • Der Text wird so “entschachtelt”, dass in jeder Zelle nur noch ein Wort steht. Dabei werden so viele Spalten angehängt, wie Wörter in der betreffenden Zelle standen.
  • Durch filter() in Verbindung mit str_detect() werden alle Buchstaben von a bis z entfernt.
  • Ein Token bedeutet hier so viel wie eine numerische Analyseeinheit.
  • Der Text wird in das lange Format umwandelt, so dass nur noch ein Wort pro Zeile steht.











Lösung

D: Es entsteht ein langer Dataframe.


Categories:

schoice