So berechnen sie lila 'cp in r


In der Regressionsanalyse ist Mallows Cp eine Metrik, die zur Auswahl des besten Regressionsmodells aus mehreren potenziellen Modellen verwendet wird.

Wir können das „beste“ Regressionsmodell identifizieren, indem wir das Modell mit dem niedrigsten Cp-Wert nahe p +1 identifizieren, wobei p die Anzahl der Prädiktorvariablen im Modell ist.

Der einfachste Weg, den Cp von Mallows in R zu berechnen, ist die Verwendung der Funktion ols_mallows_cp() aus dem olsrr- Paket.

Das folgende Beispiel zeigt, wie diese Funktion zur Berechnung des Cp von Mallows verwendet wird, um das beste Regressionsmodell aus mehreren potenziellen Modellen in R auszuwählen.

Beispiel: Berechnung von Mallows Cp in R

Nehmen wir an, wir möchten drei verschiedene multiple lineare Regressionsmodelle mithilfe von Variablen aus dem mtcars- Datensatz anpassen.

Der folgende Code zeigt, wie die folgenden Regressionsmodelle angepasst werden:

  • Prädiktorvariablen im vollständigen Modell: die 10 Variablen
  • Prädiktorvariablen in Modell 1: disp, hp, wt, qsec
  • Prädiktorvariablen in Modell 2: disp, qsec
  • Prädiktorvariablen in Modell 3: disp, wt

Der folgende Code zeigt, wie jedes dieser Regressionsmodelle angepasst und die Funktion ols_mallows_cp() verwendet wird, um den Mallows-Cp jedes Modells zu berechnen:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

So interpretieren Sie das Ergebnis:

  • Modell 1: p + 1 = 5, Mallows Cp = 4,43
  • Modell 2: p + 1 = 3, Mallows Cp = 18,64
  • Modell 3: p + 1 = 30, Mallows Cp = 9,12

Wir können sehen, dass Modell 1 einen Wert für Mallows‘ Cp hat, der p + 1 am nächsten kommt, was darauf hinweist, dass es das beste Modell ist, das zu der geringsten Verzerrung unter den drei potenziellen Modellen führt.

Anmerkungen zum Cp des mauves

Hier sind einige Dinge, die Sie bei Mallows Cp beachten sollten:

  • Wenn jedes potenzielle Modell einen hohen Mallows-Cp-Wert aufweist, deutet dies darauf hin, dass in jedem Modell wahrscheinlich einige wichtige Prädiktorvariablen fehlen.
  • Wenn mehrere potenzielle Modelle niedrige Werte für Mallows Cp aufweisen, wählen Sie das Modell mit dem niedrigsten Wert als bestes zu verwendendes Modell aus.

Bedenken Sie, dass der Cp von Mallows nur eine Möglichkeit ist, das „beste“ Regressionsmodell unter mehreren potenziellen Modellen zu identifizieren.

Ein weiteres häufig verwendetes Maß ist das angepasste R-Quadrat, das uns den Anteil der Varianz in der Antwortvariablen angibt, der durch die Prädiktorvariablen im Modell erklärt werden kann, angepasst an die Anzahl der verwendeten Prädiktorvariablen.

Um zu entscheiden, welches Regressionsmodell aus einer Liste verschiedener Modelle das beste ist, empfiehlt es sich, sowohl den Cp von Mallows als auch das angepasste R-Quadrat zu betrachten.

Zusätzliche Ressourcen

So berechnen Sie das angepasste R-Quadrat in R
So berechnen Sie den AIC in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert