WORK IN PROGRESS
1 Was Sie hier lernen und wozu das gut ist
In diesem Modul lernen Sie das Handwerk der Prognose: Auf Basis von Fakten (Daten) den (noch unbekannten) Wert einer Zielvariablen vorherzusagen. Zum Beispiel wieviel Umsatz von einem Kunden mit einem bestimmten Profil im Schnitt zu erwarten ist. Damit lernen Sie die Grundkompetenzen zum Berufsbild Data Scientist – ein angesagtes Berufsbild unserer Zeit. Außerdem lernen Sie etwas Handwerkszeug der (quantitativen) Forschung; der überwältigend große Teil der Forschung basiert auf Ideen, von denen Sie ein paar in diesem Kurs lernen.
2 Modulüberblick
KW | Terminhinweise | Kurswoche | Titel_Link |
---|---|---|---|
11 | Lehrbeginn ist am Dienstag. | 1 | ERRRstkontakt |
12 | NA | 2 | Datenimport |
13 | NA | 3 | Datenjudo |
14 | NA | 4 | Deskriptive Statistik, Teil 1 |
15 | NA | 5 | Deskriptive Statistik, Teil 2 |
16 | NA | 6 | Aufholwoche |
17 | NA | 7 | Praxisprobleme der Datenaufbereitung |
18 | NA | 8 | Datenvisualisierung |
19 | NA | 9 | Fallstudien zur EDA |
20 | NA | 10 | Lineare Modelle 1 |
21 | Nächste Woche ist Projektwoche. Diese Woche findet am Freitag kein Unterricht statt. | 11 | Lineare Modelle 2 |
22 | Projektwoche, kein regulärer Unterricht | 11 | KEIN UNTERRICHT in dieser Woche |
23 | Pfingstwoche; die Übung findet NUR ONLINE statt | 12 | Vertiefung zur Regression |
24 | Fronleichnam; die Übung wird von Dr. Alla Mogilnickaya gehalten NUR in PRÄSENZ | 13 | Wiederholung |
25 | NA | 14 | Prüfungsvorbereitung |
26 | Letzte Unterrichtswoche | 15 | Klassifikation |
4 Modulliteratur
Ein Teil der Literatur ist über viele Hochschulbibliotheken als PDF herunterladen; andere Titel sind offen im Internet verfügbar. Oft müssen Sie per VPN angemeldet sein für Volltextzugriff, wenn Sie nicht auf dem Campus sind.
- Zentrale Begleitlektüre ist Sauer (2019).
- Weiterführende Literatur (nicht zwingend nötig, aber ggf. nützlich): Wickham and Grolemund (2018) (abgekürzt als R4DS) und Çetinkaya-Rundel and Hardin (2021) (abgekürzt als IMS, frei hier im Netz verfügbar).
Weitere Literatur:
- Um grundlegende Mathekenntnisse aufzufrischen ist Knorrenschild (2021, Kap. 1-3 und 4.1-4.2) empfehlenswert.
- Ein Überblick über weitere, empfehlenswerte Literatur zum Einstieg in Statistik findet sich hier.
- Eine lockere, zur Vertiefung geeignete, aber nicht direkt prüfungsrelevante Monographie ist Bueno de Mesquita and Fowler (2021) (abgekürzt als ThinkingClearly).
5 Vorbereitung vor dem Kurs
5.1 Installation von R und seiner Freunde
- Installieren Sie R und seine Freunde.
- Installieren Sie die folgende R-Pakete:
- tidyverse
- weitere Pakete werden im Unterricht bekannt gegeben (es schadet aber nichts, jetzt schon Pakete nach eigenem Ermessen zu installieren)
5.2 Videos
Auf meinem YouTube-Kanal finden Sie eine Menge Videos, die zum Stoff passen.
- QM1-Playlist - Allgemeine Playlist mit allen Videos zu QM1 (SoSe 2022)
5.3 Lernhilfen
- R Syntax aus dem Unterricht findet sich im Github-Repo bzw. Ordner zum jeweiligen Semester.
- Frag-Jetzt-Raum zum anonymen Fragen stellen während des Unterrichts. Der Keycode wird Ihnen vom Dozenten bereitgestellt.
- Padlet zum einfachen (und anonymen) Hochladen von Arbeitsergebnissen der Studentis im Unterricht. Wir nutzen es als eine Art Pinwand zum Sammeln von Arbeitsbeiträgen. Die Zugangsdaten stellt Ihnen der Dozent bereit.
- Miro-Board genutzt als elektronische Tafel
5.4 Daten
- Saratoga Houses
6 Themen
6.1 ERRRstkontakt
6.1.1 Terminhinweise
Lehrbeginn ist am Dienstag.
6.1.2 Lernziele
- Sie kennen zentrale Begriffe im Kontext der Datenanalyse.
- Sie können den Unterschied zwischen Signal und Rauschen erklären.
- Sie können zentrale Kompetenzen im Berufsfeld Data Science nennen.
- Sie können R starten (installieren).
- Sie wissen, was R-Pakete sind und können sie installieren und starten.
- Sie können grundlegende Operationen in R durchführen, wie Variablen zuweisen und auslesen.
6.1.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. die Videos an.
- Installieren Sie R, RStudio und die benötigten Pakete, falls noch nicht getan. Alternativ können Sie sich ein Konto bei RStudio Cloud anlegen und das RStudio Cloud Projekt zu diesem Modul nutzen (dann benötigen Sie keine Installation von R auf Ihrem Computer).
6.1.4 Literatur
- MODAR, Kap. 1-4
6.1.5 Videos
6.1.6 Skript
6.1.7 Aufgaben
- Stellen Sie das Berufsbild ‘Data Scientist’ vor!
- Erstellen Sie ein Meme zum Thema Statistik bzw. Data Science!
- Erklären Sie die Installation von R (und seiner Freunde)!
- Erklären Sie, was man in der Mathe unter einer Funktion versteht!
- Fassen Sie die Literatur zum heutigen Thema zusammen (z.B. im Rahmen eines Mindmaps oder einer geteilten Dokuments)!
6.1.8 Vertiefung
- Berufsbild Data Scientist
- Video: Data Science vs. Statistics
- Zehn unverzichtbare Fertigkeiten für jeden Data Scientist
- Data Science Memes
- Data Science und das Scharnier zwischen Theorie und Praxis
- Data Science Skills
- Anatomie von Data Science
- Infografik Data Scientist
- Video: Learning from eight years of data science mistakes
- Verdienst einer deutschen Data Scientistin
- Hilfe zur Installation von R und RStudio
- Einstieg in R mit dem ‘R-Blitzkurs’
- Einführung in R von OpenIntro
- Installationsanleitung für R und RStudio von ModernDive
- Was sind R-Pakete? (ModernDive)
- RStudio Cloud Project für dieses Modul
- Tiefer gehender Online-Kurs zu R via Coursera (Johns Hopkins University)
- Playlist mit Lerntechniken speziell für mathematisch orientierte Fächer
- RStudio Cloud Project für dieses Modul
6.1.9 Hinweise
- Bitte beachten Sie die Hinweise zum Präsenzunterricht und der Streamingoption.
- Bitte stellen Sie sicher, dass Sie einen einsatzbereiten Computer haben und dass die angegebene Software läuft.
6.2 Datenimport
6.2.1 Terminhinweise
NA
6.2.2 Lernziele
- Sie können Daten (verschiedener Formate) in R importieren.
- Sie kennen einige Datenstrukturen in R.
- Sie wissen, was ‘tidy Data’ ist.
- Sie können ‘unaufgeräumte’ Datensätze bereinigen.
- Sie können RStudio-Projekte anlegen und nutzen.
6.2.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. die Videos an.
- Lesen Sie dieses Post zum Thema Datenimport in R und Pfadangaben.
6.2.4 Literatur
- MODAR, Kap. 5 (Datenstrukturen)
- Modar, Kap. 6 (Datenimport und -export); v.a. 6.1 ist wichtig zum Verstädnis von Import von Daten
- Data Organization in Spreadsheets
6.2.6 Aufgaben
6.3 Datenjudo
6.3.1 Terminhinweise
NA
6.3.2 Lernziele
- Sie können Daten in R aufbereiten mit dem Tidyverse.
6.3.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.3.4 Literatur
- MODAR, Kap. 7
6.3.5 Videos
6.3.6 Skript
6.3.7 Aufgaben
6.4 Deskriptive Statistik, Teil 1
6.4.1 Terminhinweise
NA
6.4.2 Lernziele
- Sie beherrschen grundlegende Operationen der univariaten deskriptiven Statistik sowohl für Lage- als auch Streuungsmaße.
6.4.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.4.4 Literatur
- MODAR, Kap. 8
- IMS, Kap. 5
6.4.7 Aufgaben
6.5 Deskriptive Statistik, Teil 2
6.5.1 Terminhinweise
NA
6.5.2 Lernziele
- Sie verstehen die Grundkonzepte der Korrelation und können diese in R berechnen.
- Sie kennen Maße zur Berechnung des Zusammenhangs nominaler Variablen und können diese in R anwenden.
6.5.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.5.4 Literatur
- MODAR, Kap. 8
- MODAR, Kap. 10
- IMS, Kap. 4-6
6.5.5 Videos
6.5.7 Aufgaben
6.5.8 Vertiefung
- Visualisierung zur Korrelation
- ThinkingClearly, Kap. 4
- Vertiefung zu Korrelation
6.5.9 Hinweise
- Diese Woche endet die Vorlesung schon um 14.45h. Schauen Sie sich daher ggf. die Videos zu diesem Thema an.
6.6 Aufholwoche
6.6.1 Terminhinweise
NA
6.6.2 Lernziele
- Sie vertiefen Ihr Wissen in den bisher gelernten Themen.
- Sie schließen etwaige Lernlücken individuell und selbständig.
6.6.3 Skript
- In dieser Woche gibt es kein Skript.
6.6.4 Aufgaben
- Wiederholen Sie die bisherigen Aufgaben.
6.6.5 Hinweise
- In dieser Woche fällt die Vorlesung aus (Ostern).
6.7 Praxisprobleme der Datenaufbereitung
6.7.1 Terminhinweise
NA
6.7.2 Lernziele
- Sie wissen mit typischen Problemen der Datenaufbereitung umzugehen, wie mit fehlenden Werten, Datenanomalien oder Formatänderung der Tabelle.
- Sie kennen die grundlegenden Eigenschaften der Normalverteilung.
6.7.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.7.4 Literatur
- MODAR, Kap. 9
6.7.5 Videos
6.7.6 Skript
- In dieser Woche gibt es kein Skript.
6.7.7 Aufgaben
6.7.8 Vertiefung
6.7.9 Hinweise
- Der Unterricht in dieser Woche ist sehr praktisch; es gibt keine Theorie (und daher auch kein Skript). Sie profitieren vom Unterricht am meisten, wenn Sie die Literatur vorab gelesen haben.
- Die Literatur können Sie sich als E-Book von der Bib ausleihen
- Die Installation des R-Pakets ‘pradadata’ ist in MODAR, Kap. 3.2.3 beschrieben
6.8 Datenvisualisierung
6.8.1 Terminhinweise
NA
6.8.2 Lernziele
- Sie können Daten visualisieren, um wesentliche Einsichten zu vermitteln.
6.8.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.8.4 Literatur
- MODAR, Kap. 11
- ggplot2-Cheatsheet
6.8.5 Videos
6.8.6 Skript
6.8.7 Aufgaben
6.8.8 Vertiefung
6.8.9 Hinweise
6.9 Fallstudien zur EDA
6.9.1 Terminhinweise
NA
6.9.2 Lernziele
- Sie können die gelernten Techniken der explorativen Datenanalyse praktisch anwenden.
6.9.3 Vorbereitung
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.9.4 Literatur
- NA
6.9.5 Videos
6.9.6 Aufgaben
6.9.7 Vertiefung
6.9.8 Hinweise
- In dieser Woche gibt es kein Skript, da es keinen neuen Stoff gibt. Stattdessen steht Anwendung des gelernten im Mittelpunkt.
- DataCamp-Kurs zum Tidyverse
- Google Data Analytics Kurs bei Coursera
6.10 Lineare Modelle 1
6.10.1 Terminhinweise
NA
6.10.2 Lernziele
- Sie verstehen die Methoden des Modellierens.
6.10.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.10.4 Literatur
- MODAR, Kap. 15
6.10.5 Videos
6.10.6 Skript
6.10.7 Aufgaben
6.11 Lineare Modelle 2
6.11.1 Terminhinweise
Nächste Woche ist Projektwoche. Diese Woche findet am Freitag kein Unterricht statt.
6.11.2 Lernziele
- Sie verstehen die Grundkonzepte der Regression und können diese in R anwenden.
6.11.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.11.4 Literatur
- MODAR, Kap. 18
6.11.5 Videos
6.11.6 Skript
6.11.7 Aufgaben
6.12 KEIN UNTERRICHT in dieser Woche
6.12.1 Terminhinweise
Projektwoche, kein regulärer Unterricht
6.13 Vertiefung zur Regression
6.13.1 Terminhinweise
Pfingstwoche; die Übung findet NUR ONLINE statt
6.13.2 Lernziele
- Sie können die gelernten Techniken der Regressionsanalyse praktisch anwenden.
6.13.3 Aufgaben
6.13.4 Vertiefung
6.13.5 Hinweise
- Wir nähern uns dem Ende des Moduls. Es ist wichtig, dass Sie sich einen Überblick erarbeiten. Noch ist Zeit, etwaige Wissenslücken zu schließen.
- Es kann sein, dass wir (noch) nicht allen Stoff im Unterricht behandelt haben, der in den Fallstudien vorkommt. Sie können in diesem Fall die entsprechenden Abschnitte ohne Schaden ignorieren. Alternativ können Sie sich selbständig mit diesen Inhalten beschäftigen.
6.14 Wiederholung
6.14.1 Terminhinweise
Fronleichnam; die Übung wird von Dr. Alla Mogilnickaya gehalten NUR in PRÄSENZ
6.14.2 Lernziele
- Sie vertiefen Ihr Wissen in den bisher gelernten Themen.
6.14.3 Vorbereitung
- Schauen Sie sich das Video zur Kaggle-Fallstudie TMDB an
- Arbeiten Sie die Syntax zur Kaggle-Fallstudie ‘TMDB’ durch
6.14.4 Videos
6.14.5 Aufgaben
6.14.6 Vertiefung
6.14.7 Hinweise
6.15 Prüfungsvorbereitung
6.15.1 Terminhinweise
NA
6.15.2 Lernziele
- Der genaue Ablauf und die Anforderungen der Prüfung sind Ihnen bekannt.
6.15.3 Vorbereitung
- Stellen Sie sicher, dass Sie den bisherigen Stoff gut beherrschen. Arbeiten Sie ggf. fehlende Inhalte nach. Langsam geht das Semester zu Ende. Sie sollten jetzt alle bisherigen Inhalte kennen.
6.15.4 Skript
6.15.5 Aufgaben
6.15.6 Vertiefung
6.15.7 Hinweise
- Beachten Sie die Hinweise zur Prüfungsform ‘Prognosewettbewerb’](https://sebastiansauer.github.io/vorhersagemodellierung/index.html#pr%C3%BCfung)
6.16 Klassifikation
6.16.1 Terminhinweise
Letzte Unterrichtswoche
6.16.2 Lernziele
- Sie verstehen die Grundkonzepte der logistischen Regression und können diese in R anwenden.
6.16.3 Vorbereitung
- Lesen Sie die Literatur.
- Sehen Sie sich ggf. das Video zum Folienskript an.
6.16.4 Literatur
- MODAR, Kap. 19
7 Prüfung
7.1 Was ist das für eine Prüfung?
Bei der Prüfung handelt es sich um einen Prognosewettbewerb.
Vorhersagen sind eine praktische Sache, zumindest wenn Sie stimmen. Wenn Sie den DAX-Stand von morgen genau vorhersagen können, rufen Sie mich bitte sofort an. Genau das ist Ihre Aufgabe in dieser Prüfungsleistung: Sie sollen Werte vorhersagen.
Etwas konkreter: Stellen Sie sich ein paar Studentis vor; von allen
wissen Sie, wie lange die Person für die Statistikklausur gelernt hat.
Außerdem wissen Sie die Motivation jeder Person und vielleicht noch ein
paar noten-relevante Infos. Und Sie wissen die Note jeder Person in der
Statistikklausur. Auf dieser Basis fragt sie ein Student (Alois), der im
kommenden Semester die Prüfung in Statistik schreiben muss
will: “Sag mal, wenn ich 100 Stunden lerne und so mittel motiviert bin,
welche Note kann ich dann erwarten?”. Mit Hilfe Ihrer Analyse können Sie
diese Frage beantworten. Natürlich könnten Sie es sich leicht machen und
antworten: “Mei, der Notendurchschnitt war beim letzten Mal 2.7. Also
ist das kein ganz doofer Tipp für deine Note.” Ja, das keine doofe
Antwort, aber man kann es besser machen. Da hilft Ihnen die Statistik
(doch, wirklich).
Kurz gesagt gehen Sie so vor: Importieren Sie die Daten in R, starten Sie die nötigen R-Pakete und schauen Sie sich die Daten unter verschiedenen Blickwinkeln an. Dann nehmen Sie die vielversprechendsten Prädiktoren in ein Regressionsmodell und schauen sich an, wie gut die Vorhersage ist. Wiederholen Sie das ein paar Mal, bis Sie ein Modell haben, das Sie brauchbar finden. Mit diesem Modell sagen Sie dann die Noten der neuen Studis (Alois und Co.) vorher. Je genauer Ihre Vorhersage, desto besser ist Ihr Prüfungsergebnis.
7.2 Hinweise zur Prüfung
- Hinweise zur Prüfungsform des Prognosewettbewerbs
- Einfache, beispielhafte Vorhersagemodellierung (Video)
- YouTube-Playlist zur Prüfungsleistung Prognosemodellierung
- Materialüberblick zur Prüfung
- Der gesamte Stoff, der im Unterricht behandelt bzw. für den Kurs bereitgestellt ist, ist prüfungsrelvant. Eine Ausnahme ist, wenn bestimmte Inhalte explizit als “nicht prüfungsrelevant” gekennzeichnet sind.
- Denken Sie daran, sich rechtzeitig zu den Prüfungsleistungen anzumelden. Beachten Sie, dass die Fristen für Anmeldung und Abgabe (Hochladen der Prüfungsleistung) unterschiedlich sein können.
8 Literaturverzeichnis
Bueno de Mesquita, E. and A. Fowler, ed. (2021). Thinking clearly with data: a guide to quantitative reasoning and analysis. 1st. edition. Princeton University Press. 1 p.
Çetinkaya-Rundel, M. and J. Hardin (2021). Introduction to Modern Statistics. OpenIntro. OpenIntro.
Knorrenschild, M. (2021). Vorkurs Mathematik: ein Übungsbuch für Fachhochschulen. 5., aktualisierte Auflage. Mathematik - Studienhilfen. Hanser. 164 pp.
Sauer, S. (2019). Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren und modellieren. 1. Auflage 2019. FOM-Edition. Springer.
Wickham, H. and G. Grolemund (2018). R für Data Science: Daten importieren, bereinigen, umformen, modellieren und visualisieren. Trans. by F. Langenau. 1. Auflage. O’Reilly. 473 pp.
9 Zitationsvorschlag
Wenn Sie diesen Kurs verwenden (für Ihre Analyse, Ihren Unterricht, …), zitieren Sie ihn bitte. Hier ist ein Zitationsvorschlag:
(Sie können z.B. die angegebene DOI in Ihr Zitationsprogramm importieren.)
Als Bibtex:
@software{sauer_sebastiansauervorhersagemodellierung_2022,
title = {sebastiansauer/vorhersagemodellierung: v0.1.1-alpha},
rights = {Open Access},
url = {https://zenodo.org/record/6602672},
shorttitle = {sebastiansauer/vorhersagemodellierung},
abstract = {Kurs zu den Grundlagen der Vorhersagemodellierung mit R},
version = {draft},
publisher = {Zenodo},
author = {Sauer, Sebastian},
urldate = {2022-06-02},
date = {2022-06-01},
doi = {10.5281/ZENODO.6602672}
}
10 Kudos
Beim Schreiben dieses Kurses habe ich auf der Vorarbeit vieler Menschen aufgebaut. Viele Menschen haben mich unterstützt, großzügig und auf verschiedene Weise.
Einige möchte ich herausgreifen, um Danke zu sagen:
- Kollegis wie Karsten Lübke vom ifes-Institut der FOM Hochschule, von denen ich viel gelernt habe.
- Alle Open-Source-Entwickler, die Projekte wie dieses überhaupt erst möglichen machen. 💌