Was sind malven? cp? (definition & beispiel)


Mallows Cp ist eine Metrik, die zur Auswahl des besten Regressionsmodells aus mehreren verschiedenen Modellen verwendet wird.

Es wird wie folgt berechnet:

Cp = RSS p /S 2 – N + 2(P+1)

Gold:

  • RSS p : Die verbleibende Quadratsumme für ein Modell mit p Prädiktorvariablen
  • S 2 : Das verbleibende mittlere Quadrat des Modells (geschätzt durch MSE)
  • N: Stichprobengröße
  • P: Die Anzahl der Prädiktorvariablen

Mallows Cp wird verwendet, wenn wir mehrere potenzielle Prädiktorvariablen haben, die wir in einem Regressionsmodell verwenden möchten, und wir das beste Modell identifizieren möchten, das eine Teilmenge dieser Prädiktorvariablen verwendet.

Wir können das „beste“ Regressionsmodell identifizieren, indem wir das Modell mit dem niedrigsten Cp-Wert kleiner als P+1 identifizieren, wobei P die Anzahl der Prädiktorvariablen im Modell ist.

Das folgende Beispiel zeigt, wie Mallows‘ Cp verwendet wird, um aus mehreren potenziellen Modellen das beste Regressionsmodell auszuwählen.

Beispiel: Verwendung von Mallows Cp zur Auswahl des besten Modells

Geht davon aus, dass ein Professor die Lernstunden, die abgelegten Vorbereitungsprüfungen und den aktuellen kumulativen GPA als Prädiktorvariablen in einem Regressionsmodell verwenden möchte, um die Note vorherzusagen, die ein Student bei der Abschlussprüfung erhalten wird.

Es passt sieben verschiedene Regressionsmodelle an und berechnet den Mallows-Cp-Wert für jedes Modell:

Verwenden Sie Mallows Cp, um das beste Regressionsmodell auszuwählen

Wenn der Wert von Mallows‘ Cp kleiner als die Anzahl der Modellkoeffizienten (P+1) ist, wird das Modell als erwartungstreu bezeichnet.

Wir können sehen, dass es zwei unparteiische Modelle gibt:

  • Das Modell mit Stunden und GPA als Prädiktorvariablen (Mallows‘ Cp = 2,9, P+1 = 3)
  • Das Modell mit Vorbereitungsprüfungen und GPA als Prädiktorvariablen (Mallows‘ Cp = 2,7, P+1 = 3)

Von diesen beiden Modellen hat das Modell, das Vorbereitungsprüfungen und GPA als Prädiktorvariablen verwendet, den niedrigsten Wert für Mallows‘ Cp, was uns sagt, dass es das bessere Modell ist, das zu der geringsten Verzerrung führt.

Anmerkungen zum Cp des mauves

Hier sind einige Dinge, die Sie bei Mallows Cp beachten sollten:

  • Modelle, die einen Mallows-Cp-Wert nahe P+1 haben, gelten als geringe Verzerrung.
  • Wenn jedes potenzielle Modell einen hohen Mallows-Cp-Wert aufweist, deutet dies darauf hin, dass in jedem Modell wahrscheinlich einige wichtige Prädiktorvariablen fehlen.
  • Wenn mehrere potenzielle Modelle niedrige Werte für Mallows Cp aufweisen, wählen Sie das Modell mit dem niedrigsten Wert als bestes zu verwendendes Modell aus.

Bedenken Sie auch, dass der Cp von Mallows nur eine Möglichkeit ist, die Anpassungsgüte eines Regressionsmodells zu messen.

Ein weiteres häufig verwendetes Maß ist das angepasste R-Quadrat, das uns den Anteil der Varianz in der Antwortvariablen angibt, der durch die Prädiktorvariablen im Modell erklärt werden kann, angepasst an die Anzahl der verwendeten Prädiktorvariablen.

Um zu entscheiden, welches Regressionsmodell aus einer Liste verschiedener Modelle das beste ist, ist es eine gute Idee, sich sowohl den Cp von Mallows als auch das angepasste R-Quadrat anzusehen.

Zusätzliche Ressourcen

So berechnen Sie Mallows Cp in R
So berechnen Sie das angepasste R-Quadrat in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert