library(tidyverse)
library(here)purrr-map02
R
map
tidyverse
Exercise
Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).
Solution
Text aus PDF-Dateien kann man mit dem Paket pdftools einlesen:
library(pdftools)
d_path <- paste0(here(), "/data/afd-grundsatzprogramm-2022.pdf")
d <- tibble(text = pdf_text(d_path))Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:
library(tidytext)
d2 <-
d %>%
unnest_tokens(output = word, input = text)
head(d2)| word |
|---|
| programm |
| für |
| deutschland |
| das |
| grundsatzprogramm |
| der |
Dann zählen wir die Wörter:
d2 %>%
count(word, sort = TRUE) %>%
head(20)| word | n |
|---|---|
| die | 1145 |
| und | 1145 |
| der | 868 |
| zu | 429 |
| für | 395 |
| in | 391 |
| den | 267 |
| von | 258 |
| ist | 250 |
| das | 225 |
| werden | 216 |
| eine | 210 |
| nicht | 195 |
| deutschland | 190 |
| ein | 189 |
| sind | 186 |
| wir | 176 |
| afd | 173 |
| des | 170 |
| als | 156 |
Categories:
- R
- map
- tidyverse