library(tidyverse)
library(easystats)
data("germeval_train", package = "pradadata")
germeval01-textfeatures
2023
textmining
datawrangling
germeval
string
Aufgabe
Extrahieren Sie typisches Text-Features aus einem Text.
Nutzen Sie das Paket textfeatures
.
Nutzen Sie die GermEval-2018-Daten.
Die Daten sind unter CC-BY-4.0 lizensiert. Author: Wiegand, Michael (Spoken Language Systems, Saarland University (2010-2018), Leibniz Institute for the German Language (since 2019)),
Die Daten sind auch über das R-Paket PradaData zu beziehen.
Nutzen Sie diesen Text-Datensatz, bevor Sie den größeren germeval
-Datensatz verwenden:
Daten
Teststring:
<- c("Abbau, Abbruch ist jetzt",
text "Test 🧑🎓 😄 heute!!",
"Abbruch #morgen #perfekt",
"Abmachung... LORE IPSUM",
"boese ja", "böse nein",
"hallo ?! www.google.de",
"gut schlecht I am you are he she it is")
<- c(2, 0, 2, 1, 1, 1, 0, 2)
n_emo
<-
test_text data.frame(id = 1:length(text),
text = text,
n_emo = n_emo)
test_text
Hinweise:
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
Lösung
Das Paket textfeatures
ist aktuelle nicht auf CRAN, aber über Github zu bekommen (oder im CRAN-Archiv).
library(tidyverse)
library(tictoc)
library(textfeatures)
Test 1
Hier ein Test vom Autor des Pakets:
<- c(
x "this is A!\t sEntence https://github.com about #rstats @github",
"and another sentence here", "THe following list:\n- one\n- two\n- three\nOkay!?!"
)
## get text features
::textfeatures(x, verbose = FALSE) textfeatures
Test 2
::textfeatures(test_text$text,
textfeaturessentiment = FALSE,
word_dims = FALSE)
Categories:
- 2023
- textmining
- datawrangling
- germeval
- string