Dieser Arbeitsbericht schildert das technische Vorgehen im Rahmen der Analyse der Matomo-Daten des BMBF-Projekt “HaNS”.
2 Vorgehen
Die Matomo-Klickdaten aller Semester der Projektlaufzeit wurden für diese Analyse verarbeitet. Mit Hilfe einer R-Pipeline wurden eine Reihe von Forschungsfragen analysiert.
In welcher Frequenz wird HaNS aufgesucht? Wie groß sind die zeitlichen Zwischenräume zwischen der Benutzung der Plattform?
Wie oft wird HaNS pro Zeitraum (z.B. Monat) besucht?
Wie verändert sich die Nutzung im Zeitverlauf?
Wie viele Aktionen bringt ein Visit mit sich? Wie ist die statistische Verteilung der Aktionen pro Visit?
Wie lang verweilen die Nutzer pro Visit?
W ie verändert sich die Nutzungsdauer pro Visit im Zeitverlauf?
Welche Aktionen führen die Nutzer auf Hans aus?
Wie verändern sich die Verteilungen der Aktionshäufigkeiten im Zeitverlauf?
An welchen Tagen und zu welcher Zeit kommen die User zu HaNS?
Wie häufig und in welcher Art inteagieren die Nutzer mit dem LLM in HaNS?
Wie groß ist der Anteil der Nutzer, die mit dem LLM interagieren?
Wie verändert sich der Anteil der Nutzer, die mit dem LLM interagieren, im Zeitverlauf?
Wie oft wird auf ein Wort im Transkript des LLM geklickt?
Wie oft wird ein Transkript-Dienst in HaNS in Anspruch genommen?
Wie verändert sich die Nutzung der Transkript-Dienste in HaNS im Zeitverlauf?
Wie lange werden Videos angeschaut?
Wie verändert sich die Betrachtungsdauer im Zeitverlauf?
4 Targets-Pipeline stellt Überblick aller Analyseschritte dar
Die Analyse wird im Rahmen einer Targets-Pipeline beschrieben und ist offen auf Github einsehbar.
5 Langformat
Aufgrund des “rechts flatternden” Datenformat (d.h. unterschiedliche Zeilenlängen) wurden die Daten in ein Langformat überführt, zwecks besserer/einfacherer Analyse.
Dazu wurden (neben den ID-Variablen, v.a. idvisit) die actionDetails_-Variablen verwendet. Der Code des Pivotierens in das Langformat ist in der Funktion longify-data.R einsehbar.
Die Daten im Langformat wurden dann noch etwas aufbereitet mt der Funktion slimify-data.R.
# HintergrundDieser Arbeitsbericht schildert das technische Vorgehen im Rahmen der Analyse der Matomo-Daten des BMBF-Projekt "HaNS".# VorgehenDie Matomo-Klickdaten aller Semester der Projektlaufzeit wurden für diese Analyse verarbeitet. Mit Hilfe einer R-Pipeline wurden eine Reihe von Forschungsfragen analysiert.Der komplette Code ist online dokumentiert unter <https://github.com/sebastiansauer/hans>.Aus Datenschutzgründen sind online keine Daten eingestellt.Die zentrale Analyse-Pipeline-Datei ist <https://github.com/sebastiansauer/hans/blob/main/_targets.R>.# Forschungsfragen1. Wie viele Nutzer gibt es und in welchem Zeitraum?2. In welcher Frequenz wird HaNS aufgesucht? Wie groß sind die zeitlichen Zwischenräume zwischen der Benutzung der Plattform?3. Wie oft wird HaNS pro Zeitraum (z.B. Monat) besucht?4. Wie verändert sich die Nutzung im Zeitverlauf?5. Wie viele Aktionen bringt ein Visit mit sich? Wie ist die statistische Verteilung der Aktionen pro Visit?6. Wie lang verweilen die Nutzer pro Visit?7. Wie verändert sich die Nutzungsdauer pro Visit im Zeitverlauf?8. Welche Aktionen führen die Nutzer auf Hans aus?9. Wie verändern sich die Verteilungen der Aktionshäufigkeiten im Zeitverlauf?10. An welchen Tagen und zu welcher Zeit kommen die User zu HaNS?11. Wie häufig und in welcher Art inteagieren die Nutzer mit dem LLM in HaNS?12. Wie groß ist der Anteil der Nutzer, die mit dem LLM interagieren?13. Wie verändert sich der Anteil der Nutzer, die mit dem LLM interagieren, im Zeitverlauf?14. Wie oft wird auf ein Wort im Transkript des LLM geklickt?15. Wie oft wird ein Transkript-Dienst in HaNS in Anspruch genommen?16. Wie verändert sich die Nutzung der Transkript-Dienste in HaNS im Zeitverlauf?17. Wie lange werden Videos angeschaut?18. Wie verändert sich die Betrachtungsdauer im Zeitverlauf?# Targets-Pipeline stellt Überblick aller Analyseschritte darDie Analyse wird im Rahmen einer [Targets-Pipeline](https://github.com/sebastiansauer/hans/blob/main/_targets.R) beschrieben und ist offen auf Github einsehbar. # LangformatAufgrund des "rechts flatternden" Datenformat (d.h. unterschiedliche Zeilenlängen) wurden die Daten in ein Langformat überführt, zwecks besserer/einfacherer Analyse.Dazu wurden (neben den ID-Variablen, v.a. `idvisit`) die `actionDetails_`-Variablen verwendet.Der Code des Pivotierens in das Langformat ist in der Funktion [longify-data.R](https://github.com/sebastiansauer/hans/blob/main/funs/longify-data.R) einsehbar.Die Daten im Langformat wurden dann noch etwas aufbereitet mt der Funktion [slimify-data.R](https://github.com/sebastiansauer/hans/blob/main/funs/slimify_data.R).# Targets-Objekte```{r tar-obs}targets::tar_manifest() |>select(name) |>#print(n = Inf) |> knitr::kable()```# Pipeline-Graph```{r}tar_visnetwork(targets_only =TRUE, outdated =TRUE)``````{r}tar_glimpse()```