library(tidyverse)purrr-map02
R
map
tidyverse
Exercise
Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).
Solution
Text aus PDF-Dateien kann man mit dem Paket pdftools einlesen:
library(pdftools)
d_path <- "~/Literatur/_Div/Politik/afd-grundsatzprogramm-2022.pdf"
d <- tibble(text = pdf_text(d_path))Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:
library(tidytext)
d2 <-
d %>%
unnest_tokens(output = word, input = text)
head(d2)| word |
|---|
| programm |
| für |
| deutschland |
| das |
| grundsatzprogramm |
| der |
Dann zählen wir die Wörter:
d2 %>%
count(word, sort = TRUE) %>%
head(20)| word | n |
|---|---|
| die | 1151 |
| und | 1147 |
| der | 870 |
| zu | 435 |
| für | 392 |
| in | 392 |
| den | 271 |
| von | 257 |
| ist | 251 |
| das | 225 |
| werden | 214 |
| eine | 211 |
| nicht | 196 |
| ein | 191 |
| deutschland | 190 |
| sind | 187 |
| wir | 176 |
| afd | 171 |
| des | 169 |
| sich | 158 |
Categories:
- R
- map
- tidyverse