library(tidyverse)
data("germeval_train", package = "pradadata")germeval08-extract-spacy
wordvec
textmining
python
string
Aufgabe
Extrahieren Sie deutsche Worembedding aus SpaCy für den GermEval-Datensatz (Train).
Nutzen Sie die GermEval-2018-Daten.
Die Daten sind unter CC-BY-4.0 lizensiert. Author: Wiegand, Michael (Spoken Language Systems, Saarland University (2010-2018), Leibniz Institute for the German Language (since 2019)),
Die Daten sind auch über das R-Paket PradaData zu beziehen.
Hinweise:
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
Lösung
Setup
library(tidyverse)import spacy
import de_core_news_sm
import pandas as pd
nlp = de_core_news_sm.load()Daten in Python importieren
csv_file_path = '/home/sebastian/git-repos/pradadata/data-raw/germeval_train.csv'
germeval_train = pd.read_csv(csv_file_path)Vorbereiten
Als String konvertieren:
tweets = germeval_train['text']
tweets2 = tweets.astype(str)
tweets3 = tweets2.to_string()NLP-Features berechnen:
doc = nlp(tweets3)Wortvektoren berechnen
wordvec = [token.vector for token in doc]
len(wordvec)Export
als Pandas DF:
df = pd.DataFrame(wordvec)
dimensions = df.shape
dimensionsIn CSV schreiben:
df.to_csv("germeval_spacy_embed.csv")Categories:
- wordembedding
- textmining
- python
- string