sentiws2

textmining

tokenizer

string

Published

November 8, 2023

Aufgabe

Importieren Sie das sentiws Lexikon:

Die Spalte inflections birgt eine Reihe von Word-Varianten. Es scheint sinnvoll zu sein, diese Wörter zu nutzen. Aber um sie zu nutzen, muss man sie tokenisieren.

Aufgabe: Tokenisieren Sie die Tabelle sentiws, Spalte inflections.

Hinweise:

Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.

Lösung

Das ging einfach!

Nur die NAs sollten wir vielleicht noch entfernen.

Categories:

textmining
tokenizer
string

---
exname: sentiws2
expoints: 1
extype: string
exsolution: NA
categories:
- textmining
- tokenizer
- string
date: '2023-11-08'
slug: sentiws2
title: sentiws2
execute:
  results: hide
  echo: true
---



```{r global-knitr-options, include=FALSE, message=FALSE}
knitr::opts_chunk$set(fig.pos = 'H',
                      fig.asp = 0.618,
                      fig.width = 4,
                      fig.cap = "", 
                      fig.path = "",
                      echo = FALSE,
                      message = FALSE,
                      warning = FALSE,
                      fig.show = "hold")
```



# Aufgabe

Importieren Sie das `sentiws` Lexikon:

```{r}
library(tidyverse)
sentiws <- read_csv("https://osf.io/x89wq/?action=download")
```


Die Spalte `inflections` birgt eine Reihe von Word-Varianten.
Es scheint sinnvoll zu sein, diese Wörter zu nutzen.
Aber um sie zu nutzen, muss man sie tokenisieren.

*Aufgabe*: Tokenisieren Sie die Tabelle `sentiws`, Spalte `inflections`.




Hinweise:

- Orientieren Sie sich im Übrigen an den [allgemeinen Hinweisen des Datenwerks](https://datenwerk.netlify.app/hinweise).





</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>

# Lösung


```{r}
library(tidytext)
```


```{r}
senti_unnest <- 
sentiws %>% 
  unnest_tokens(input = inflections, output = word)
```

Das ging einfach!

Nur die `NA`s sollten wir vielleicht noch entfernen.

```{r}
sentiws2 <- 
sentiws %>% 
  unnest_tokens(input = inflections, output = word) %>% 
  drop_na(word)
```






---

Categories: 

- textmining
- tokenizer
- string