Beste teilmengenauswahl beim maschinellen lernen (erklärung und beispiele)
Beim maschinellen Lernen möchten wir häufig Modelle mithilfe einer Reihe von Prädiktorvariablen und einer Antwortvariablen erstellen. Unser Ziel ist es, ein Modell zu erstellen, das die Prädiktorvariablen effektiv nutzen kann, um den Wert der Antwortvariablen vorherzusagen.
Bei einem Satz von insgesamt p Prädiktorvariablen gibt es viele Modelle, die wir möglicherweise erstellen könnten. Eine Methode, mit der wir das beste Modell auswählen können, ist die beste Teilmengenauswahl und funktioniert wie folgt:
1. Sei M 0 das Nullmodell, das keine Vorhersagevariable enthält.
2. Für k = 1, 2, … p:
- Passen Sie alle p C k- Modelle an, die genau k Prädiktoren enthalten.
- Wählen Sie unter diesen PCK- Modellen das beste aus und nennen Sie es Mk . Definieren Sie „am besten“ als das Modell mit dem höchsten R 2 oder, entsprechend, dem niedrigsten RSS.
3. Wählen Sie ein einzelnes bestes Modell aus M 0 … M p unter Verwendung des Kreuzvalidierungs-Vorhersagefehlers, Cp, BIC, AIC oder des angepassten R 2 aus.
Beachten Sie, dass es für einen Satz von p Prädiktorvariablen 2 p mögliche Modelle gibt.
Beispiel für die Auswahl der besten Teilmenge
Angenommen, wir haben einen Datensatz mit p = 3 Prädiktorvariablen und einer Antwortvariablen y. Um die beste Teilmengenauswahl mit diesem Datensatz durchzuführen, würden wir die folgenden 2 p = 2 3 = 8-Modelle anpassen:
- Ein Modell ohne Prädiktoren
- Ein Modell mit Prädiktor x 1
- Ein Modell mit Prädiktor x 2
- Ein Modell mit Prädiktor x 3
- Ein Modell mit x 1 , x 2 Prädiktoren
- Ein Modell mit Prädiktoren x 1 , x 3
- Ein Modell mit x 2 , x 3 Prädiktoren
- Ein Modell mit Prädiktoren x 1 , x 2 , x 3
Dann würden wir aus jedem Satz von Modellen mit k Prädiktoren das Modell mit dem höchsten R2 auswählen. Zum Beispiel könnten wir uns am Ende für Folgendes entscheiden:
- Ein Modell ohne Prädiktoren
- Ein Modell mit Prädiktor x 2
- Ein Modell mit x 1 , x 2 Prädiktoren
- Ein Modell mit Prädiktoren x 1 , x 2 , x 3
Dann führten wir eine Kreuzvalidierung durch und wählten das beste Modell aus, das zu dem niedrigsten Vorhersagefehler, Cp, BIC, AIC oder dem angepassten R2 führt.
Am Ende könnten wir beispielsweise das folgende Modell als „bestes“ Modell auswählen, weil es den geringsten kreuzvalidierten Vorhersagefehler erzeugt hat:
- Ein Modell mit x 1 , x 2 Prädiktoren
Kriterien zur Auswahl des „besten“ Modells
Der letzte Schritt bei der Auswahl der besten Teilmenge besteht darin, das Modell mit dem niedrigsten Vorhersagefehler, dem niedrigsten Cp, dem niedrigsten BIC, dem niedrigsten AIC oder dem niedrigsten angepassten R2 auszuwählen. höher.
Hier sind die Formeln, die zur Berechnung jeder dieser Metriken verwendet werden:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 angepasst: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Gold:
- d: Die Anzahl der Prädiktoren
- n: Gesamtbeobachtungen
- σ̂: Schätzung der Fehlervarianz, die jedem Antwortmaß in einem Regressionsmodell zugeordnet ist
- RSS: Residualsumme der Quadrate aus dem Regressionsmodell
- TSS: Gesamtsumme der Quadrate des Regressionsmodells
Vor- und Nachteile der besten Teilmengenauswahl
Die Auswahl der besten Teilmenge bietet folgende Vorteile:
- Es ist ein einfacher Ansatz zum Verstehen und Interpretieren.
- Dadurch können wir das bestmögliche Modell identifizieren, da wir alle Kombinationen von Prädiktorvariablen berücksichtigen.
Diese Methode hat jedoch folgende Nachteile:
- Dies kann rechenintensiv sein. Für einen Satz von p Prädiktorvariablen gibt es 2 p mögliche Modelle. Bei 10 Prädiktorvariablen sind beispielsweise 2 · 10 = 1000 mögliche Modelle zu berücksichtigen.
- Da eine sehr große Anzahl von Modellen berücksichtigt wird, könnte möglicherweise ein Modell gefunden werden, das bei Trainingsdaten eine gute Leistung erbringt, bei zukünftigen Daten jedoch nicht. Dies könnte zu einer Überanpassung führen .
Abschluss
Obwohl die Auswahl der besten Teilmenge einfach zu implementieren und zu verstehen ist, kann sie unpraktisch sein, wenn Sie mit einem Datensatz arbeiten, der eine große Anzahl von Prädiktoren enthält, und möglicherweise zu einer Überanpassung führen.
Eine Alternative zu dieser Methode ist die sogenannte schrittweise Auswahl , die recheneffizienter ist.