germeval08-extract-spacy

wordvec
textmining
python
string
Published

November 16, 2023

Aufgabe

Extrahieren Sie deutsche Worembedding aus SpaCy für den GermEval-Datensatz (Train).

Nutzen Sie die GermEval-2018-Daten.

Die Daten sind unter CC-BY-4.0 lizensiert. Author: Wiegand, Michael (Spoken Language Systems, Saarland University (2010-2018), Leibniz Institute for the German Language (since 2019)),

Die Daten sind auch über das R-Paket PradaData zu beziehen.

library(tidyverse)
data("germeval_train", package = "pradadata")

Hinweise:











Lösung

Setup

library(tidyverse)
import spacy
import de_core_news_sm
import pandas as pd
nlp = de_core_news_sm.load()

Daten in Python importieren

csv_file_path = '/home/sebastian/git-repos/pradadata/data-raw/germeval_train.csv'

germeval_train = pd.read_csv(csv_file_path)

Vorbereiten

Als String konvertieren:

tweets = germeval_train['text']
tweets2 = tweets.astype(str)
tweets3 = tweets2.to_string()

NLP-Features berechnen:

doc = nlp(tweets3)

Wortvektoren berechnen

wordvec = [token.vector for token in doc]
len(wordvec)

Export

als Pandas DF:

df = pd.DataFrame(wordvec)

dimensions = df.shape
dimensions

In CSV schreiben:

df.to_csv("germeval_spacy_embed.csv")

Categories:

  • wordembedding
  • textmining
  • python
  • string