Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:
library(tidytext)d2 <- d %>%unnest_tokens(output = word, input = text)head(d2)
# A tibble: 6 × 1
word
<chr>
1 programm
2 für
3 deutschland
4 das
5 grundsatzprogramm
6 der
Dann zählen wir die Wörter:
d2 %>%count(word, sort =TRUE) %>%head(20)
# A tibble: 20 × 2
word n
<chr> <int>
1 die 1151
2 und 1147
3 der 870
4 zu 435
5 für 392
6 in 392
7 den 271
8 von 257
9 ist 251
10 das 225
11 werden 214
12 eine 211
13 nicht 196
14 ein 191
15 deutschland 190
16 sind 187
17 wir 176
18 afd 171
19 des 169
20 sich 158
Categories:
R
map
tidyverse
Source Code
---extype: stringexsolution: NAexname: purrr-map02expoints: 1categories:- R- map- tidyversedate: '2022-10-24'slug: purrr-map02title: purrr-map02---# ExerciseBestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).</br></br></br></br></br></br></br></br></br></br># Solution```{r}library(tidyverse)```Text aus PDF-Dateien kann man mit dem Paket [`pdftools`](https://docs.ropensci.org/pdftools/) einlesen:```{r}library(pdftools)d_path <-"~/Literatur/_Div/Politik/afd-grundsatzprogramm-2022.pdf"d <-tibble(text =pdf_text(d_path))```Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:```{r}library(tidytext)d2 <- d %>%unnest_tokens(output = word, input = text)head(d2)```Dann zählen wir die Wörter:```{r}d2 %>%count(word, sort =TRUE) %>%head(20)```---Categories: - R- map- tidyverse