Jak obliczyć fioletowy „cp w r
W analizie regresji Mallows Cp jest metryką używaną do wyboru najlepszego modelu regresji spośród kilku potencjalnych modeli.
„Najlepszy” model regresji możemy zidentyfikować, identyfikując model o najniższej wartości Cp bliskiej p +1, gdzie p jest liczbą zmiennych predykcyjnych w modelu.
Najłatwiejszym sposobem obliczenia Cp Mallows w R jest użycie funkcji ols_mallows_cp() z pakietu olsrr .
Poniższy przykład pokazuje, jak użyć tej funkcji do obliczenia Cp Mallowsa w celu wybrania najlepszego modelu regresji spośród kilku potencjalnych modeli w R.
Przykład: obliczenie Cp Mallows w R
Załóżmy, że chcemy dopasować trzy różne modele regresji liniowej wielokrotnej, używając zmiennych ze zbioru danych mtcars .
Poniższy kod pokazuje, jak dopasować następujące modele regresji:
- Zmienne predykcyjne w modelu pełnym: 10 zmiennych
- Zmienne predykcyjne w modelu 1: disp, hp, wt, qsec
- Zmienne predykcyjne w modelu 2: disp, qsec
- Zmienne predykcyjne w modelu 3: disp, wt
Poniższy kod pokazuje, jak dopasować każdy z tych modeli regresji i użyć funkcji ols_mallows_cp() do obliczenia współczynnika Mallows Cp każdego modelu:
library (olsrr) #fit full model full_model <- lm(mpg ~ ., data = mtcars) #fit three smaller models model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) model2 <- lm(mpg ~ disp + qsec, data = mtcars) model3 <- lm(mpg ~ disp + wt, data = mtcars) #calculate Mallows' Cp for each model ols_mallows_cp(model1, full_model) [1] 4.430434 ols_mallows_cp(model2, full_model) [1] 18.64082 ols_mallows_cp(model3, full_model) [1] 9.122225
Oto jak zinterpretować wynik:
- Model 1: p + 1 = 5, Mallow Cp = 4,43
- Model 2: p + 1 = 3, Mallow Cp = 18,64
- Model 3: p + 1 = 30, Mallow Cp = 9,12
Widzimy, że model 1 ma wartość Cp Mallowsa najbliższą p + 1, co wskazuje, że jest to najlepszy model, który prowadzi do najmniejszego obciążenia spośród trzech potencjalnych modeli.
Uwagi na temat Cp des mauves
Oto kilka rzeczy, o których warto pamiętać na temat Mallows Cp:
- Jeśli każdy potencjalny model ma wysoką wartość Cp Mallowsa, oznacza to, że w każdym modelu prawdopodobnie brakuje niektórych ważnych zmiennych predykcyjnych.
- Jeśli kilka potencjalnych modeli ma niskie wartości Cp Mallow, wybierz model o najniższej wartości jako najlepszy model do użycia.
Należy pamiętać, że Cp Mallowsa to tylko jeden ze sposobów zidentyfikowania „najlepszego” modelu regresji spośród kilku potencjalnych modeli.
Inną powszechnie stosowaną miarą jest skorygowana wartość R-kwadrat, która mówi nam, jaką część wariancjizmiennej odpowiedzi można wyjaśnić za pomocą zmiennych predykcyjnych w modelu, skorygowanych o liczbę zastosowanych zmiennych predykcyjnych.
Aby zdecydować, który model regresji jest najlepszy spośród kilku różnych modeli, zaleca się przyjrzenie się zarówno Cp Mallowsa, jak i skorygowanemu R-kwadratowi.