Boosting2

schoice
Published

May 17, 2023

Aufgabe

Boosting ist eine beliebte Methode des statistischen Lernens, da sie sich in vielen prädiktiven Fragestellungen als hoch prädiktiv herausgestellt hat. Die Modellfunktion von Boosting kann man so darstellen:

\[\hat{f}(x)=\sum_{b=1}^B \lambda \hat{f}^b(x)\]

(Dabei stellt \(B\) die Anzahl der Bäume im Modell dar und \(\lambda\) einen Tuningparamter zur Penalisierung/Regularisierung bzw. die Lernrate des Modells.)

Welche Aussage ist in diesem Zusammenhang korrekt?

Answerlist

  • Boosting gleicht einem Random-Forest-Modell, nur dass die Bäume sequenzielle Modelle darstellen und nicht parallel (gleichzeitig) in ein Modell einfließen.
  • Boosting-Modelle bestehen aus einer Sequenz von Bäumen mit jeweils nur einer Inputvariablen (Gabelung/Split; internal nodes).
  • Alle Boosting-Modelle erfüllen obige Funktionsgleichung und sind daher immer linear.
  • Boosting-Modelle analysieren im Allgemeinen in jedem der \(B\) Durchläufe einen anderen Datensatz.
  • Der Parameter \(B\) sollte nicht über Kreuzvalidierungsmethoden bestimmt werden.











Lösung

Answerlist

  • Falsch. Im Gegensatz zu Random-Forest-Modellen wird im Boosting u.a. kein Resampling verwendet.
  • Falsch. Boosting-Modelle können mehr als eine Gabelung enthalten.
  • Falsch. Boosting-Modelle sind nur dann linear, wenn Sie nur eine Gabelung enthalten.
  • Richtig. In jedem Durchlauf wird der analysierte Datensatz verändert, insofern als das jeweils die Residuen des vorherigen Durchlaufs den Datensatz des nächsten Durchlaufs bilden.
  • Falsch. Es macht Sinn, den Paramter \(B\) über Kreuzvalidierungsmethoden zu bestimmen. Allerdings ist die Überfittingsgefahr relativ gering.

Categories:

schoice