Analyse der HaNS-Matomo-Daten

Autor:in

Sebastian Sauer

Veröffentlichungsdatum

24. Oktober 2025

1 Hintergrund

Dieser Arbeitsbericht schildert das technische Vorgehen im Rahmen der Analyse der Matomo-Daten des BMBF-Projekt “HaNS”.

2 Vorgehen

Die Matomo-Klickdaten aller Semester der Projektlaufzeit wurden für diese Analyse verarbeitet. Mit Hilfe einer R-Pipeline wurden eine Reihe von Forschungsfragen analysiert.

Der komplette Code ist online dokumentiert unter https://github.com/sebastiansauer/hans. Aus Datenschutzgründen sind online keine Daten eingestellt.

Die zentrale Analyse-Pipeline-Datei ist https://github.com/sebastiansauer/hans/blob/main/_targets.R.

3 Forschungsfragen

Wie viele Nutzer gibt es und in welchem Zeitraum?
In welcher Frequenz wird HaNS aufgesucht? Wie groß sind die zeitlichen Zwischenräume zwischen der Benutzung der Plattform?
Wie oft wird HaNS pro Zeitraum (z.B. Monat) besucht?
Wie verändert sich die Nutzung im Zeitverlauf?
Wie viele Aktionen bringt ein Visit mit sich? Wie ist die statistische Verteilung der Aktionen pro Visit?
Wie lang verweilen die Nutzer pro Visit?
W ie verändert sich die Nutzungsdauer pro Visit im Zeitverlauf?
Welche Aktionen führen die Nutzer auf Hans aus?
Wie verändern sich die Verteilungen der Aktionshäufigkeiten im Zeitverlauf?
An welchen Tagen und zu welcher Zeit kommen die User zu HaNS?
Wie häufig und in welcher Art inteagieren die Nutzer mit dem LLM in HaNS?
Wie groß ist der Anteil der Nutzer, die mit dem LLM interagieren?
Wie verändert sich der Anteil der Nutzer, die mit dem LLM interagieren, im Zeitverlauf?
Wie oft wird auf ein Wort im Transkript des LLM geklickt?
Wie oft wird ein Transkript-Dienst in HaNS in Anspruch genommen?
Wie verändert sich die Nutzung der Transkript-Dienste in HaNS im Zeitverlauf?
Wie lange werden Videos angeschaut?
Wie verändert sich die Betrachtungsdauer im Zeitverlauf?

4 Targets-Pipeline stellt Überblick aller Analyseschritte dar

Die Analyse wird im Rahmen einer Targets-Pipeline beschrieben und ist offen auf Github einsehbar.

5 Langformat

Aufgrund des “rechts flatternden” Datenformat (d.h. unterschiedliche Zeilenlängen) wurden die Daten in ein Langformat überführt, zwecks besserer/einfacherer Analyse.

Dazu wurden (neben den ID-Variablen, v.a. idvisit) die actionDetails_-Variablen verwendet. Der Code des Pivotierens in das Langformat ist in der Funktion longify-data.R einsehbar.

Die Daten im Langformat wurden dann noch etwas aufbereitet mt der Funktion slimify-data.R.

6 Targets-Objekte

Show the code

targets::tar_manifest() |>
  select(name) |> 
  #print(n = Inf) |>
  knitr::kable()

name
config_file
config
data_files_list
data_files_dupes_excluded
data_imported
data_prepped
data_all_fct
test_unique_idvisit
time_since_last_visit
data_wide_slim
data_long
time_duration
course_and_uni_per_visit
data_separated
data_separated_filtered
data_separated_distinct_slice
n_action
n_action_w_date
n_action_fingerprint
timestamps_added_to_idvisits
data_separated_filtered_date_uni_course
time_spent_fingerprint
n_action_type
ai_llm_per_months
timestamps_added_to_fingerprints
n_action_w_date_fingerprint
prompt_length
n_mc_answers_selected
time_spent
time_visit_wday_fingerprint
ai_transcript_clicks_per_month
idvisit_has_llm_fingerprint
idvisit_has_llm
time_visit_wday
time_spent_w_course_university_fingerprint
llm_response_text
prompt_length_date_uni_course
mc_answers_with_timestamps
time_spent_w_course_university

7 Pipeline-Graph

Show the code

tar_visnetwork(targets_only = TRUE, 
               outdated = TRUE)

Show the code

tar_glimpse()