Was ist ein sparsames modell?
Ein sparsames Modell ist ein Modell, das mit möglichst wenigen erklärenden Variablen ein gewünschtes Maß an Anpassung erreicht.
Der Grundgedanke hinter dieser Art von Modell geht auf die Idee von Occams Rasiermesser (manchmal auch „Sparsamkeitsprinzip“ genannt) zurück, die besagt, dass die einfachste Erklärung wahrscheinlich die richtige ist.
Auf die Statistik angewendet sollte ein Modell, das über wenige Parameter verfügt, aber ein zufriedenstellendes Maß an Anpassung erreicht, einem Modell vorgezogen werden, das über eine Menge Parameter verfügt und nur ein geringfügig höheres Maß an Anpassung erreicht.
Dafür gibt es zwei Gründe:
1. Sparsame Modelle sind einfacher zu interpretieren und zu verstehen. Modelle mit weniger Parametern sind leichter zu verstehen und zu erklären.
2. Sparsame Modelle haben tendenziell eine größere Vorhersagefähigkeit. Modelle mit weniger Parametern weisen tendenziell eine bessere Leistung auf, wenn sie auf neue Daten angewendet werden.
Betrachten Sie die folgenden zwei Beispiele, um diese Ideen zu veranschaulichen.
Beispiel 1: Sparsame Modelle = Einfache Interpretation
Angenommen, wir möchten ein Modell erstellen, das eine Reihe immobilienbezogener erklärender Variablen verwendet, um Immobilienpreise vorherzusagen. Betrachten Sie die folgenden zwei Modelle mit ihrem angepassten R-Quadrat:
Modell 1:
- Gleichung: Hauspreis = 8.830 + 81*(Quadratfuß)
- Angepasstes R2 : 0,7734
Modell 2:
- Gleichung: Hauspreis = 8.921 + 77*(Quadratfuß) + 7*(Quadratfuß) 2 – 9*(Alter) + 600*(Schlafzimmer) + 38*(Bäder)
- Angepasstes R2 : 0,7823
Das erste Modell hat nur eine erklärende Variable und ein angepasstes R2 von 0,7734, während das zweite Modell fünf erklärende Variablen mit einem etwas höheren angepassten R2 hat.
Basierend auf dem Grundsatz der Sparsamkeit würden wir lieber das erste Modell verwenden, da jedes Modell ungefähr die gleiche Fähigkeit hat, die Variation der Immobilienpreise zu erklären, das erste Modell jedoch viel einfacher zu verstehen und zu erklären ist.
Im ersten Modell wissen wir beispielsweise, dass eine Vergrößerung der Quadratmeterzahl eines Hauses um eine Einheit mit einem durchschnittlichen Anstieg des Hauspreises um 81 US-Dollar einhergeht. Es ist einfach zu verstehen und zu erklären.
Im zweiten Beispiel sind die Koeffizientenschätzungen jedoch viel schwieriger zu interpretieren. Beispielsweise ist ein zusätzliches Zimmer im Haus mit einem durchschnittlichen Anstieg des Hauspreises um 600 US-Dollar verbunden, vorausgesetzt, dass die Quadratmeterzahl, das Alter des Hauses und die Anzahl der Badezimmer konstant bleiben. Es ist viel schwieriger zu verstehen und zu erklären.
Beispiel 2: Sparsame Modelle = bessere Vorhersagen
Sparsame Modelle neigen auch dazu, genauere Vorhersagen für neue Datensätze zu treffen, da es weniger wahrscheinlich ist, dass sie den ursprünglichen Datensatz übertreffen .
Im Allgemeinen führen Modelle mit mehr Parametern zu engeren Anpassungen und höheren R2- Werten als Modelle mit weniger Parametern. Leider kann die Aufnahme zu vieler Parameter in ein Modell dazu führen, dass sich das Modell an das Rauschen (oder die „Zufälligkeit“) der Daten anpasst und nicht an die tatsächliche zugrunde liegende Beziehung zwischen den erklärenden Variablen. und Antwortvariablen.
Dies bedeutet, dass ein sehr komplexes Modell mit vielen Parametern im Vergleich zu einem einfacheren Modell mit weniger Parametern bei einem neuen Datensatz, den es noch nie zuvor gesehen hat, wahrscheinlich eine schlechte Leistung erbringt.
So wählen Sie ein sparsames Modell aus
Dem Thema Modellauswahl könnte ein ganzer Kurs gewidmet werden, aber im Wesentlichen bedeutet die Auswahl eines sparsamen Modells, dass man sich für ein Modell entscheidet, das gemäß einer Metrik die beste Leistung erbringt.
Zu den häufig verwendeten Metriken, die Modelle anhand ihrer Leistung in einem Trainingsdatensatz und ihrer Anzahl an Parametern bewerten, gehören:
1. Akaike-Informationskriterium (AIC)
Der AIC eines Modells kann wie folgt berechnet werden:
AIC = -2/n * LL + 2 * k/n
Gold:
- n: Anzahl der Beobachtungen im Trainingsdatensatz.
- LL: Log-Likelihood des Modells im Trainingsdatensatz.
- k: Anzahl der Parameter im Modell.
Mit dieser Methode können Sie den AIC jedes Modells berechnen und dann das Modell mit dem niedrigsten AIC-Wert als bestes Modell auswählen.
Dieser Ansatz bevorzugt tendenziell komplexere Modelle im Vergleich zur nächsten Methode, BIC.
2. Bayesianisches Informationskriterium (BIC)
Der BIC eines Modells kann wie folgt berechnet werden:
BIC = -2 * LL + log(n) * k
Gold:
- n: Anzahl der Beobachtungen im Trainingsdatensatz.
- log: Der natürliche Logarithmus (Basis e)
- LL: Log-Likelihood des Modells im Trainingsdatensatz.
- k: Anzahl der Parameter im Modell.
Mit dieser Methode können Sie den BIC jedes Modells berechnen und dann das Modell mit dem niedrigsten BIC-Wert als bestes Modell auswählen.
Dieser Ansatz bevorzugt im Vergleich zur AIC-Methode tendenziell Modelle mit weniger Parametern.
3. Mindestbeschreibungslänge (MDL)
MDL ist eine Möglichkeit, Modelle aus dem Bereich der Informationstheorie zu bewerten. Es kann wie folgt berechnet werden:
MDL = L(h) + L(D | h)
Gold:
- h: Das Modell.
- D: Vorhersagen des Modells.
- L(h): Anzahl der Bits, die zur Darstellung des Modells erforderlich sind.
- L(D | h): Anzahl der Bits, die erforderlich sind, um die Vorhersagen des Modells auf den Trainingsdaten darzustellen.
Mit dieser Methode können Sie den MDL jedes Modells berechnen und dann das Modell mit dem niedrigsten MDL-Wert als bestes Modell auswählen.
Abhängig von der Art des Problems, an dem Sie arbeiten, wird möglicherweise eine dieser Methoden – AIC, BIC oder MDL – den anderen vorgezogen, um ein sparsames Modell auszuwählen.