library(rtweet)
library(tidyverse)
library(tidytext)
library(lsa) # Stopwörter
library(SnowballC) # Stemmingtwitter04
textmining
twitter
Exercise
Laden Sie \(n=10^k\) Tweets von Twitter herunter (mit \(k=2\)) via der Twitter API; Suchterm soll sein “(karl_lauterbach?)”. Bereiten Sie die Textdaten mit grundlegenden Methoden des Textminings auf (Tokenisieren, Stopwörter entfernen, Zahlen entfernen, …). Berichten Sie dann die 10 häufigsten Wörter als Schätzer für die Dinge, die an Karl Lauterbach getweetet werden.
Solution
source("/Users/sebastiansaueruser/credentials/hate-speech-analysis-v01-twitter.R")auth <- rtweet_app(bearer_token = Bearer_Token)karl1 <- search_tweets("@karl_lauterbach", n = 1e2, include_rts = FALSE)
#write_rds(karl1, file = "karl1.rds", compress = "gz")karl2 <-
karl1 %>%
select(full_text)karl3 <-
karl2 %>%
unnest_tokens(output = word, input = full_text)karl4 <-
karl3 %>%
anti_join(tibble(word = lsa::stopwords_de)) karl5 <-
karl4 %>%
mutate(word = str_replace_na(word, "^[:digit:]+$")) %>%
mutate(word = str_replace_na(word, "hptts?://\\w+")) %>%
mutate(word = str_replace_na(word, " +")) %>%
drop_na()karl6 <-
karl5 %>%
mutate(word = wordStem(word))karl6 %>%
count(word, sort = TRUE) %>%
slice_head(n=10)Categories:
- textmining