purrr-map02

R
map
tidyverse
Published

October 24, 2022

Exercise

Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).











Solution

library(tidyverse)
library(here)

Text aus PDF-Dateien kann man mit dem Paket pdftools einlesen:

library(pdftools)
d_path <- paste0(here(), "/data/afd-grundsatzprogramm-2022.pdf")

d <- tibble(text = pdf_text(d_path))

Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:

library(tidytext)
d2 <-
  d %>% 
  unnest_tokens(output = word, input = text)

head(d2)
word
programm
für
deutschland
das
grundsatzprogramm
der

Dann zählen wir die Wörter:

d2 %>% 
  count(word, sort = TRUE) %>% 
  head(20)
word n
die 1145
und 1145
der 868
zu 429
für 395
in 391
den 267
von 258
ist 250
das 225
werden 216
eine 210
nicht 195
deutschland 190
ein 189
sind 186
wir 176
afd 173
des 170
als 156

Categories:

  • R
  • map
  • tidyverse