tidytext

tidymodels

Published

May 17, 2023

Aufgabe

library(tidytext)
library(tidyverse)
text_df %>%
  unnest_tokens(word, text) %>% 
  filter(str_detect(word, "[a-z]"))

Welche Aussage zu dieser Syntax ist korrekt?

Answerlist

Der Text wird so “entschachtelt”, dass in jeder Zelle nur noch ein Wort steht. Dabei werden so viele Spalten angehängt, wie Wörter in der betreffenden Zelle standen.
Durch filter() in Verbindung mit str_detect() werden alle Buchstaben von a bis z entfernt.
Ein Token bedeutet hier so viel wie eine numerische Analyseeinheit.
Der Text wird in das lange Format umwandelt, so dass nur noch ein Wort pro Zeile steht.

Lösung

D: Es entsteht ein langer Dataframe.

Categories:

schoice

---
extype: schoice
exsolution: 1
exname: tidytext
date: '2023-05-17'
slug: tidytext
title: tidytext

execute:
  cache: true
  eval: false
categories:
- tidymodels  # ENTER CATEGORIES HERE
---





# Aufgabe



```{r pca1, eval = FALSE, message = FALSE}
library(tidytext)
library(tidyverse)
text_df %>%
  unnest_tokens(word, text) %>% 
  filter(str_detect(word, "[a-z]"))
```


Welche Aussage zu dieser Syntax ist korrekt?


Answerlist
----------
* Der Text wird so "entschachtelt", dass in jeder Zelle nur noch ein Wort steht. Dabei werden so viele Spalten angehängt, wie Wörter in der betreffenden Zelle standen.
* Durch `filter()` in Verbindung mit `str_detect()` werden alle Buchstaben von a bis z entfernt.
* Ein Token bedeutet hier so viel wie eine numerische Analyseeinheit.
* Der Text wird in das *lange* Format umwandelt, so dass nur noch ein Wort pro Zeile steht.




</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>

# Lösung

D: Es entsteht ein *langer* Dataframe.



---

Categories: 

schoice