Jak obliczyć fioletowy „cp w r


W analizie regresji Mallows Cp jest metryką używaną do wyboru najlepszego modelu regresji spośród kilku potencjalnych modeli.

„Najlepszy” model regresji możemy zidentyfikować, identyfikując model o najniższej wartości Cp bliskiej p +1, gdzie p jest liczbą zmiennych predykcyjnych w modelu.

Najłatwiejszym sposobem obliczenia Cp Mallows w R jest użycie funkcji ols_mallows_cp() z pakietu olsrr .

Poniższy przykład pokazuje, jak użyć tej funkcji do obliczenia Cp Mallowsa w celu wybrania najlepszego modelu regresji spośród kilku potencjalnych modeli w R.

Przykład: obliczenie Cp Mallows w R

Załóżmy, że chcemy dopasować trzy różne modele regresji liniowej wielokrotnej, używając zmiennych ze zbioru danych mtcars .

Poniższy kod pokazuje, jak dopasować następujące modele regresji:

  • Zmienne predykcyjne w modelu pełnym: 10 zmiennych
  • Zmienne predykcyjne w modelu 1: disp, hp, wt, qsec
  • Zmienne predykcyjne w modelu 2: disp, qsec
  • Zmienne predykcyjne w modelu 3: disp, wt

Poniższy kod pokazuje, jak dopasować każdy z tych modeli regresji i użyć funkcji ols_mallows_cp() do obliczenia współczynnika Mallows Cp każdego modelu:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Oto jak zinterpretować wynik:

  • Model 1: p + 1 = 5, Mallow Cp = 4,43
  • Model 2: p + 1 = 3, Mallow Cp = 18,64
  • Model 3: p + 1 = 30, Mallow Cp = 9,12

Widzimy, że model 1 ma wartość Cp Mallowsa najbliższą p + 1, co wskazuje, że jest to najlepszy model, który prowadzi do najmniejszego obciążenia spośród trzech potencjalnych modeli.

Uwagi na temat Cp des mauves

Oto kilka rzeczy, o których warto pamiętać na temat Mallows Cp:

  • Jeśli każdy potencjalny model ma wysoką wartość Cp Mallowsa, oznacza to, że w każdym modelu prawdopodobnie brakuje niektórych ważnych zmiennych predykcyjnych.
  • Jeśli kilka potencjalnych modeli ma niskie wartości Cp Mallow, wybierz model o najniższej wartości jako najlepszy model do użycia.

Należy pamiętać, że Cp Mallowsa to tylko jeden ze sposobów zidentyfikowania „najlepszego” modelu regresji spośród kilku potencjalnych modeli.

Inną powszechnie stosowaną miarą jest skorygowana wartość R-kwadrat, która mówi nam, jaką część wariancjizmiennej odpowiedzi można wyjaśnić za pomocą zmiennych predykcyjnych w modelu, skorygowanych o liczbę zastosowanych zmiennych predykcyjnych.

Aby zdecydować, który model regresji jest najlepszy spośród kilku różnych modeli, zaleca się przyjrzenie się zarówno Cp Mallowsa, jak i skorygowanemu R-kwadratowi.

Dodatkowe zasoby

Jak obliczyć skorygowany R-kwadrat w R
Jak obliczyć AIC w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *