Kapitel 1 Hinweise
knitr::opts_chunk$set(cache = FALSE)
1.1 Lernziele
Nach diesem Kurs sollten Sie
- grundlegende Konzepte des statistischen Lernens verstehen und mit R anwenden können
- gängige Prognose-Algorithmen kennen, in Grundzügen verstehen und mit R anwenden können
- die Güte und Grenze von Prognosemodellen einschätzen können
1.2 Voraussetzungen
Um von diesem Kurs am besten zu profitieren, sollten Sie folgendes Wissen mitbringen:
- grundlegende Kenntnisse im Umgang mit R, möglichst auch mit dem tidyverse
- grundlegende Kenntnisse der deskriptiven Statistik
- grundlegende Kenntnis der Regressionsanalyse
1.3 Lernhilfen
1.3.1 Software
- Installieren Sie R und seine Freunde.
- Installieren Sie die folgende R-Pakete:
- tidyverse
- tidymodels
- weitere Pakete werden im Unterricht bekannt gegeben (es schadet aber nichts, jetzt schon Pakete nach eigenem Ermessen zu installieren)
- R Syntax aus dem Unterricht findet sich im Github-Repo bzw. Ordner zum jeweiligen Semester.
1.3.2 Videos
- Playlist zu den Themen
- Auf dem YouTube-Kanal des Autors finden sich eine Reihe von Videos mit Bezug zum Inhalt dieses Buches.
1.3.3 Online-Zusammenarbeit
Hier finden Sie einige Werkzeuge, die das Online-Zusammenarbeiten vereinfachen:
- Frag-Jetzt-Raum zum anonymen Fragen stellen während des Unterrichts. Der Keycode wird Ihnen vom Dozenten bereitgestellt.
- Padlet zum einfachen (und anonymen) Hochladen von Arbeitsergebnissen der Studentis im Unterricht. Wir nutzen es als eine Art Pinwand zum Sammeln von Arbeitsbeiträgen. Die Zugangsdaten stellt Ihnen der Dozent bereit.
1.4 Modulzeitplan
KW | Terminhinweise | Kurswoche | Titel_Link |
---|---|---|---|
11 | Lehrbeginn am Dienstag | 1 | Statistisches Lernen |
12 | NA | 2 | R, zweiter Blick |
13 | NA | 3 | R, zweiter Blick 2 |
14 | NA | 4 | tidymodels |
15 | NA | 5 | kNN |
16 | NA | 6 | Wiederholung |
17 | NA | 7 | Resampling und Tuning |
18 | NA | 8 | Logistische Regression |
19 | NA | 9 | Entscheidungsbäume |
20 | NA | 10 | Ensemble-Lerner |
21 | nächste Woche ist Projektwoche | 11 | Regularisierung |
22 | Projektwoche, kein regulärer Unterricht | 11 | Blockwoche: kein Unterricht in dieser Woche |
23 | Pfingsten, keine Vorlesung. Die Übung findet NUR ONLINE statt. | 12 | Kaggle |
24 | Fronleichnam; die Übung WIRD VERSCHOBEN (Termin im Juli) | 13 | Der rote Faden |
25 | vorletzte Unterrichtswoche | 14 | Fallstudien |
26 | Letzte Unterrichtswoche | 15 | Dimensionsreduktion |
1.5 Literatur
Zentrale Kursliteratur für die theoretischen Konzepte ist Rhys (2020). Bitte prüfen Sie, ob das Buch in einer Bibliothek verfügbar ist. Die praktische Umsetzung in R basiert auf Silge and Kuhn (2022) (dem “Tidymodels-Konzept”); das Buch ist frei online verfügbar.
Eine gute Ergänzung ist das Lehrbuch von Timbers, Campbell, and Lee (2022), welches grundlegende Data-Science-Konzepte erläutert und mit tidymodels umsetzt.
James et al. (2021) haben ein weithin renommiertes und sehr bekanntes Buch verfasst. Es ist allerdings etwas anspruchsvoller aus Rhys (2020), daher steht es nicht im Fokus dieses Kurses, aber einige Schwenker zu Inhalten von James et al. (2021) gibt es. Schauen Sie mal rein, das Buch ist gut!
In einigen Punkten ist weiterhin Sauer (2019) hilfreich; das Buch ist über SpringerLink in Ihrer Hochschul-Bibliothek verfügbar. Eine gute Ergänzung ist das “Lab-Buch” von Hvitfeldt (2022). In dem Buch wird das Lehrbuch James et al. (2021) in Tidymodels-Konzepte übersetzt; durchaus nett!
1.6 FAQ
-
Folien
- Frage: Gibt es ein Folienskript?
- Antwort: Wo es einfache, gute Literatur gibt, gibt es kein Skript. Wo es keine gute oder keine einfach zugängliche Literatur gibt, dort gibt es ein Skript.
-
Englisch
- Ist die Literatur auf Englisch?
- Ja. Allerdings ist die Literatur gut zugänglich. Das Englisch ist nicht schwer. Bedenken Sie: Englisch ist die lingua franca in Wissenschaft und Wirtschaft. Ein solides Verständnis englischer (geschriebener) Sprache ist für eine gute Ausbildung unerlässlich. Zu dem sollte die Kursliteratur fachlich passende und gute Bücher umfassen; oft sind das englische Titel.
-
Anstrengend
- Ist der Kurs sehr anstrengend, aufwändig?
- Der Kurs hat ein mittleres Anspruchsniveau.
-
Mathe
- Muss man ein Mathe-Crack sein, um eine gute Note zu erreichen?
- Nein. Mathe steht nicht im Vordergrund. Schauen Sie sich die Literatur an, sie werden wenig Mathe darin finden.
-
Prüfungsliteratur
- Welche Literatur ist prüfungsrelevant?
- Die Prüfung ist angewandt, z.B. ein Prognosewettbewerb. Es wird keine Klausur geben, in der reines Wissen abgefragt wird.
-
Nur R?
- Wird nur R in dem Kurs gelehrt? Andere Programmiersprachen sind doch auch wichtig.
- In der Datenanalyse gibt es zwei zentrale Programmiersprachen, R und Python. Beide sind gut und beide werden viel verwendet. In einer Grundausbildung sollte man sich auf eine Sprache begrenzen, da sonst den Sprachen zu viel Zeit eingeräumt werden muss. Wichtiger als eine zweite Programmiersprache zu lernen, mit der man nicht viel mehr kann als mit der ersten, ist es, die Inhalte des Fachs zu lernen.