Hoe paarse 'cp in r te berekenen


Bij regressieanalyse is Mallows Cp een metriek die wordt gebruikt om het beste regressiemodel uit verschillende potentiële modellen te selecteren.

We kunnen het ‘beste’ regressiemodel identificeren door het model te identificeren met de laagste Cp-waarde dichtbij p +1, waarbij p het aantal voorspellende variabelen in het model is.

De eenvoudigste manier om de Cp van Mallows in R te berekenen is door de functie ols_mallows_cp() uit het olsrr- pakket te gebruiken.

Het volgende voorbeeld laat zien hoe u deze functie kunt gebruiken om de Cp van Mallows te berekenen om het beste regressiemodel uit verschillende potentiële modellen in R te selecteren.

Voorbeeld: berekening van Mallows Cp in R

Laten we zeggen dat we drie verschillende meervoudige lineaire regressiemodellen willen passen met behulp van variabelen uit de mtcars- dataset.

De volgende code laat zien hoe u de volgende regressiemodellen kunt aanpassen:

  • Voorspellende variabelen in het volledige model: de 10 variabelen
  • Voorspellervariabelen in model 1: disp, hp, wt, qsec
  • Voorspellende variabelen in model 2: disp, qsec
  • Voorspellende variabelen in model 3: disp, wt

De volgende code laat zien hoe u elk van deze regressiemodellen kunt aanpassen en hoe u de functie ols_mallows_cp() kunt gebruiken om de Mallows Cp van elk model te berekenen:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Zo interpreteert u het resultaat:

  • Model 1: p + 1 = 5, Kaasjesjes Cp = 4,43
  • Model 2: p + 1 = 3, Mallows Cp = 18,64
  • Model 3: p + 1 = 30, Kaasjesjes Cp = 9,12

We kunnen zien dat model 1 een waarde voor Mallows‘ Cp heeft die het dichtst bij p + 1 ligt, wat aangeeft dat dit het beste model is dat tot de minste vertekening leidt onder de drie potentiële modellen.

Opmerkingen over de Cp des mauves

Hier zijn enkele dingen waarmee u rekening moet houden bij Mallows Cp:

  • Als elk potentieel model een hoge Mallows Cp-waarde heeft, geeft dit aan dat enkele belangrijke voorspellende variabelen waarschijnlijk in elk model ontbreken.
  • Als meerdere potentiële modellen lage waarden hebben voor Mallow’s Cp, kies dan het model met de laagste waarde als het beste model om te gebruiken.

Houd er rekening mee dat de Cp van Mallows slechts één manier is om het ‚beste‘ regressiemodel uit verschillende potentiële modellen te identificeren.

Een andere veelgebruikte maatstaf is de aangepaste R-kwadraat, die ons vertelt hoeveel variantie in deresponsvariabele kan worden verklaard door de voorspellende variabelen in het model, aangepast voor het aantal gebruikte voorspellende variabelen.

Om te beslissen welk regressiemodel het beste is uit een lijst van verschillende modellen, wordt aanbevolen om zowel naar Mallows‘ Cp als naar het aangepaste R-kwadraat te kijken.

Aanvullende bronnen

Hoe u het aangepaste R-kwadraat in R kunt berekenen
Hoe AIC in R te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert