count-emojis

textmining
tidymodels
count
germeval
emoji
string
Published

November 16, 2023

Aufgabe

Zählen sie die Emojis eines Textes.

Untersuchen Sie die Rechenzeit, die die jeweiligen Verfahren benötigen.

Hinweise:











Lösung

Setup

options(paged.print = FALSE,
        pillar.print_max = 15, 
        pillar.print_min = 10)
library(tidyverse)
library(tictoc)  # Zeitmessung

Teststring:

test_text <-
  tibble(id = 1:4,
         text = c("Abbau ist jetzt", 
                  "Hello 😊🌎🚀", 
                  "🔫", 
                  "🔫 🔪"),
         valence = c(0, 1, -1, -2))

test_text
id text valence
1 Abbau ist jetzt 0
2 Hello 😊🌎🚀 1
3 🔫 -1
4 🔫 🔪 -2

Daten importieren:

data(wild_emojis, package = "pradadata")
wild_emojis$value <- 1
wild_emojis$word <- wild_emojis$emoji

Wörter zählen im Test-Datensatz

stringr::str_count

Man kann den Unicode-Code von Emojis ansprechen, praktische Sache:

emoji_pattern <- "\\p{So}" 
test_text$text |> 
  map_int(str_count, emoji_pattern)
[1] 0 3 1 2

Die Funktion map ist nicht nötig:

str_count(test_text$text, "\\p{So}")
[1] 0 3 1 2

Als neue Spalte in der Tabelle:

test_text |>
  mutate(n_emojis = str_count(text, "\\p{So}"))
id text valence n_emojis
1 Abbau ist jetzt 0 0
2 Hello 😊🌎🚀 1 3
3 🔫 -1 1
4 🔫 🔪 -2 2

Germeval-Datensatz

data(germeval_train, package = "pradadata")

stringr::str_count

tic()
method1 <- germeval_train$text |> 
  map_int(str_count, emoji_pattern)
toc()
0.474 sec elapsed
method1 |> str()
 int [1:5009] 0 0 1 0 0 0 0 0 0 1 ...
print(method1, max = 20)
 [1] 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 4 0 0
 [ reached getOption("max.print") -- omitted 4989 entries ]

Die Funktion map ist nicht nötig:

tic()
method3 <- 
  str_count(germeval_train$text, emoji_pattern)
toc()
0.011 sec elapsed
method3 |> head()
[1] 0 0 1 0 0 0

Dann geht es auch viel schneller.

Als neue Spalte in der Tabelle:

tic()
method4 <- 
germeval_train |> 
  mutate(n_words = str_count(text, emoji_pattern))
toc()
0.017 sec elapsed
str(method4)
'data.frame':   5009 obs. of  5 variables:
 $ id     : int  1 2 3 4 5 6 7 8 9 10 ...
 $ text   : chr  "@corinnamilborn Liebe Corinna, wir würden dich gerne als Moderatorin für uns gewinnen! Wärst du begeisterbar?" "@Martin28a Sie haben ja auch Recht. Unser Tweet war etwas missverständlich. Dass das BVerfG Sachleistungen nich"| __truncated__ "@ahrens_theo fröhlicher gruß aus der schönsten stadt der welt theo ⚓️" "@dushanwegner Amis hätten alles und jeden gewählt...nur Hillary wollten sie nicht und eine Fortsetzung von Obam"| __truncated__ ...
 $ c1     : chr  "OTHER" "OTHER" "OTHER" "OTHER" ...
 $ c2     : chr  "OTHER" "OTHER" "OTHER" "OTHER" ...
 $ n_words: int  0 0 1 0 0 0 0 0 0 1 ...
 - attr(*, ".internal.selfref")=<externalptr> 
method4 |> head()
id text c1 c2 n_words
1 (corinnamilborn?) Liebe Corinna, wir würden dich gerne als Moderatorin für uns gewinnen! Wärst du begeisterbar? OTHER OTHER 0
2 (Martin28a?) Sie haben ja auch Recht. Unser Tweet war etwas missverständlich. Dass das BVerfG Sachleistungen nicht ausschließt, kritisieren wir. OTHER OTHER 0
3 (ahrens_theo?) fröhlicher gruß aus der schönsten stadt der welt theo ⚓️ OTHER OTHER 1
4 (dushanwegner?) Amis hätten alles und jeden gewählt…nur Hillary wollten sie nicht und eine Fortsetzung von Obama-Politik erst recht nicht..! OTHER OTHER 0
5 (spdde?) kein verläßlicher Verhandlungspartner. Nachkarteln nach den Sondierzngsgesprächen - schickt diese Stümper #SPD in die Versenkung. OFFENSE INSULT 0
6 (Dirki_M?) Ja, aber wo widersprechen die Zahlen denn denen, die im von uns verlinkten Artikel stehen? In unserem Tweet geht es rein um subs. Geschützte. 2017 ist der gesamte Familiennachzug im Vergleich zu 2016 - die Zahlen, die Hr. Brandner bemüht - übrigens leicht rückläufig gewesen. OTHER OTHER 0

Categories:

  • textmining
  • tidymodels
  • count
  • germeval
  • emojis
  • string