germeval01-textfeatures

2023
textmining
datawrangling
germeval
string
Published

November 16, 2023

Aufgabe

Extrahieren Sie typisches Text-Features aus einem Text.

Nutzen Sie das Paket textfeatures.

Nutzen Sie die GermEval-2018-Daten.

Die Daten sind unter CC-BY-4.0 lizensiert. Author: Wiegand, Michael (Spoken Language Systems, Saarland University (2010-2018), Leibniz Institute for the German Language (since 2019)),

Die Daten sind auch über das R-Paket PradaData zu beziehen.

library(tidyverse)
library(easystats)
data("germeval_train", package = "pradadata")

Nutzen Sie diesen Text-Datensatz, bevor Sie den größeren germeval-Datensatz verwenden:

Daten

Teststring:

text <- c("Abbau, Abbruch ist jetzt", 
          "Test   🧑‍🎓 😄 heute!!", 
          "Abbruch #morgen #perfekt", 
          "Abmachung... LORE IPSUM", 
          "boese ja", "böse nein", 
          "hallo ?! www.google.de", 
          "gut schlecht I am you are he she it is")

n_emo <- c(2, 0, 2, 1, 1, 1, 0, 2)

test_text <-
  data.frame(id = 1:length(text),
         text = text,
         n_emo = n_emo)

test_text

Hinweise:











Lösung

Das Paket textfeatures ist aktuelle nicht auf CRAN, aber über Github zu bekommen (oder im CRAN-Archiv).

library(tidyverse)
library(tictoc)
library(textfeatures)

Test 1

Hier ein Test vom Autor des Pakets:

x <- c(
  "this is A!\t sEntence https://github.com about #rstats @github",
  "and another sentence here", "THe following list:\n- one\n- two\n- three\nOkay!?!"
)

## get text features
textfeatures::textfeatures(x, verbose = FALSE)

Test 2

textfeatures::textfeatures(test_text$text,
                           sentiment = FALSE,
                           word_dims = FALSE)

Categories:

  • 2023
  • textmining
  • datawrangling
  • germeval
  • string