library(tidyverse)
purrr-map02
R
map
tidyverse
Exercise
Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).
Solution
Text aus PDF-Dateien kann man mit dem Paket pdftools
einlesen:
library(pdftools)
<- "~/Literatur/_Div/Politik/afd-grundsatzprogramm-2022.pdf"
d_path
<- tibble(text = pdf_text(d_path)) d
Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:
library(tidytext)
<-
d2 %>%
d unnest_tokens(output = word, input = text)
head(d2)
word |
---|
programm |
für |
deutschland |
das |
grundsatzprogramm |
der |
Dann zählen wir die Wörter:
%>%
d2 count(word, sort = TRUE) %>%
head(20)
word | n |
---|---|
die | 1151 |
und | 1147 |
der | 870 |
zu | 435 |
für | 392 |
in | 392 |
den | 271 |
von | 257 |
ist | 251 |
das | 225 |
werden | 214 |
eine | 211 |
nicht | 196 |
ein | 191 |
deutschland | 190 |
sind | 187 |
wir | 176 |
afd | 171 |
des | 169 |
sich | 158 |
Categories:
- R
- map
- tidyverse