library(tidyverse)
data("germeval_train", package = "pradadata")
germeval08-extract-spacy
wordvec
textmining
python
string
Aufgabe
Extrahieren Sie deutsche Worembedding aus SpaCy für den GermEval-Datensatz (Train).
Nutzen Sie die GermEval-2018-Daten.
Die Daten sind unter CC-BY-4.0 lizensiert. Author: Wiegand, Michael (Spoken Language Systems, Saarland University (2010-2018), Leibniz Institute for the German Language (since 2019)),
Die Daten sind auch über das R-Paket PradaData zu beziehen.
Hinweise:
- Orientieren Sie sich im Übrigen an den allgemeinen Hinweisen des Datenwerks.
Lösung
Setup
library(tidyverse)
import spacy
import de_core_news_sm
import pandas as pd
= de_core_news_sm.load() nlp
Daten in Python importieren
= '/home/sebastian/git-repos/pradadata/data-raw/germeval_train.csv'
csv_file_path
= pd.read_csv(csv_file_path) germeval_train
Vorbereiten
Als String konvertieren:
= germeval_train['text']
tweets = tweets.astype(str)
tweets2 = tweets2.to_string() tweets3
NLP-Features berechnen:
= nlp(tweets3) doc
Wortvektoren berechnen
= [token.vector for token in doc]
wordvec len(wordvec)
Export
als Pandas DF:
= pd.DataFrame(wordvec)
df
= df.shape
dimensions dimensions
In CSV schreiben:
"germeval_spacy_embed.csv") df.to_csv(
Categories:
- wordembedding
- textmining
- python
- string