Was ist eine gestaffelte auswahl? (erklärung & beispiele)


Im Bereich des maschinellen Lernens besteht unser Ziel darin, ein Modell zu erstellen, das eine Reihe von Prädiktorvariablen effektiv verwenden kann, um den Wert einer Antwortvariablen vorherzusagen.

Bei einem Satz von insgesamt p Prädiktorvariablen gibt es viele Modelle, die wir möglicherweise erstellen könnten. Eine Methode, mit der wir das beste Modell auswählen können, ist die sogenannte Auswahl der besten Teilmenge . Dabei wird versucht, das beste Modell aus allen möglichen Modellen auszuwählen, die mit dem Satz von Prädiktoren erstellt werden könnten.

Leider hat diese Methode zwei Nachteile:

  • Dies kann rechenintensiv sein. Für einen Satz von p Prädiktorvariablen gibt es 2 p mögliche Modelle. Bei 10 Prädiktorvariablen sind beispielsweise 2 · 10 = 1000 mögliche Modelle zu berücksichtigen.
  • Da eine sehr große Anzahl von Modellen berücksichtigt wird, könnte möglicherweise ein Modell gefunden werden, das bei Trainingsdaten eine gute Leistung erbringt, bei zukünftigen Daten jedoch nicht. Dies könnte zu einer Überanpassung führen.

Eine Alternative zur Auswahl der besten Teilmenge ist die sogenannte schrittweise Auswahl , bei der eine viel kleinere Menge von Modellen verglichen wird.

Es gibt zwei Arten von Schrittauswahlmethoden: Vorwärtsschrittauswahl und Rückwärtsschrittauswahl.

Schritt für Schritt vorwärts Auswahl

Die schrittweise Vorwärtsauswahl funktioniert wie folgt:

1. Sei M 0 das Nullmodell, das keine Vorhersagevariable enthält.

2. Für k = 0, 2, … p-1:

  • Passen Sie alle pk-Modelle an, die die Prädiktoren in M k erhöhen, mit einer zusätzlichen Prädiktorvariablen.
  • Wählen Sie unter diesen pk-Modellen das beste aus und nennen Sie es M k+1 . Definieren Sie „am besten“ als das Modell mit dem höchsten R 2 oder, entsprechend, dem niedrigsten RSS.

3. Wählen Sie ein einzelnes bestes Modell aus M 0 … M p unter Verwendung des Kreuzvalidierungs-Vorhersagefehlers, Cp, BIC, AIC oder des angepassten R 2 aus.

Schrittweise Rückwärtsauswahl

Die Rückwärtsschrittauswahl funktioniert wie folgt:

1. Sei M p das vollständige Modell, das alle p Vorhersagevariablen enthält.

2. Für k = p, p-1, … 1:

  • Passen Sie alle k Modelle an, die alle bis auf einen Prädiktor in Mk enthalten, für insgesamt k-1 Prädiktorvariablen.
  • Wählen Sie aus diesen k Modellen das beste aus und nennen Sie es M k-1 . Definieren Sie „am besten“ als das Modell mit dem höchsten R 2 oder, entsprechend, dem niedrigsten RSS.

3. Wählen Sie ein einzelnes bestes Modell aus M 0 … M p unter Verwendung des Kreuzvalidierungs-Vorhersagefehlers, Cp, BIC, AIC oder des angepassten R 2 aus.

Kriterien zur Auswahl des „besten“ Modells

Der letzte Schritt der schrittweisen Vorwärts- und Rückwärtsauswahl besteht darin, das Modell mit dem niedrigsten Vorhersagefehler, dem niedrigsten Cp, dem niedrigsten BIC, dem höchsten AIC-Tief oder dem höchsten angepassten R 2 auszuwählen.

Hier sind die Formeln, die zur Berechnung jeder dieser Metriken verwendet werden:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 angepasst: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Gold:

  • d: Die Anzahl der Prädiktoren
  • n: Gesamtbeobachtungen
  • σ̂: Schätzung der Fehlervarianz, die jedem Antwortmaß in einem Regressionsmodell zugeordnet ist
  • RSS: Residualsumme der Quadrate aus dem Regressionsmodell
  • TSS: Gesamtsumme der Quadrate des Regressionsmodells

Vor- und Nachteile der stufenweisen Auswahl

Die gestaffelte Selektion bietet folgende Vorteile :

Diese Methode ist recheneffizienter als die Auswahl der besten Teilmenge. Bei p- Prädiktorvariablen muss die Auswahl der besten Teilmenge 2- p -Modellen entsprechen.

Umgekehrt sollte die schrittweise Auswahl nur für 1+p(p+ 1)/2-Modelle geeignet sein. Für p = 10 Prädiktorvariablen sollte die beste Teilmengenauswahl für 1.000 Modelle geeignet sein, während die schrittweise Auswahl nur für 56 Modelle geeignet sein sollte.

Die abgestufte Auswahl hat jedoch den folgenden potenziellen Nachteil:

Es kann nicht garantiert werden, dass unter allen potenziellen 2p- Modellen das bestmögliche Modell gefunden wird.

Angenommen, wir haben einen Datensatz mit p = 3 Prädiktoren. Das bestmögliche Modell mit einem Prädiktor kann x 1 enthalten, und das bestmögliche Modell mit zwei Prädiktoren kann stattdessen x 1 und x 2 enthalten.

In diesem Fall gelingt es der schrittweisen Vorwärtsauswahl nicht, das bestmögliche Modell mit zwei Prädiktoren auszuwählen, da M 1 x 1 enthält und M 2 daher auch x 1 sowie eine andere Variable enthalten muss.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert