purrr-map02

R
map
tidyverse
Published

October 24, 2022

Exercise

Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).











Solution

library(tidyverse)

Text aus PDF-Dateien kann man mit dem Paket pdftools einlesen:

library(pdftools)
d_path <- "~/Literatur/_Div/Politik/afd-grundsatzprogramm-2022.pdf"

d <- tibble(text = pdf_text(d_path))

Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:

library(tidytext)
d2 <-
  d %>% 
  unnest_tokens(output = word, input = text)

head(d2)
word
programm
für
deutschland
das
grundsatzprogramm
der

Dann zählen wir die Wörter:

d2 %>% 
  count(word, sort = TRUE) %>% 
  head(20)
word n
die 1151
und 1147
der 870
zu 435
für 392
in 392
den 271
von 257
ist 251
das 225
werden 214
eine 211
nicht 196
ein 191
deutschland 190
sind 187
wir 176
afd 171
des 169
sich 158

Categories:

  • R
  • map
  • tidyverse