purrr-map02

R

map

tidyverse

Published

October 24, 2022

Exercise

Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).

Solution

library(tidyverse)
library(here)

Text aus PDF-Dateien kann man mit dem Paket pdftools einlesen:

library(pdftools)
d_path <- paste0(here(), "/data/afd-grundsatzprogramm-2022.pdf")

d <- tibble(text = pdf_text(d_path))

Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:

library(tidytext)
d2 <-
  d %>% 
  unnest_tokens(output = word, input = text)

head(d2)

word
programm
für
deutschland
das
grundsatzprogramm
der

Dann zählen wir die Wörter:

d2 %>% 
  count(word, sort = TRUE) %>% 
  head(20)

word	n
die	1145
und	1145
der	868
zu	429
für	395
in	391
den	267
von	258
ist	250
das	225
werden	216
eine	210
nicht	195
deutschland	190
ein	189
sind	186
wir	176
afd	173
des	170
als	156

Categories:

R
map
tidyverse

---
extype: string
exsolution: NA
exname: purrr-map02
expoints: 1
categories:
- R
- map
- tidyverse
date: '2022-10-24'
slug: purrr-map02
title: purrr-map02

---






# Exercise

Bestimmen Sie die häufigsten Worte im Grundatzprogramm der Partei AfD (in der aktuellsten Version).







</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>
</br>

# Solution


```{r}
library(tidyverse)
library(here)
```

Text aus PDF-Dateien kann man mit dem Paket [`pdftools`](https://docs.ropensci.org/pdftools/) einlesen:

```{r}
library(pdftools)
d_path <- paste0(here(), "/data/afd-grundsatzprogramm-2022.pdf")

d <- tibble(text = pdf_text(d_path))
```


Dann erstellen wir eine Tidy-Version und tokenisieren nach Wörtern:

```{r}
library(tidytext)
d2 <-
  d %>% 
  unnest_tokens(output = word, input = text)

head(d2)
```


Dann zählen wir die Wörter:


```{r}
d2 %>% 
  count(word, sort = TRUE) %>% 
  head(20)
```




---

Categories: 

- R
- map
- tidyverse