R에서 보라색 'cp를 계산하는 방법
회귀 분석에서 Mallows Cp는 여러 잠재적 모델 중에서 가장 좋은 회귀 모델을 선택하는 데 사용되는 메트릭입니다.
p +1에 가까운 가장 낮은 Cp 값을 갖는 모델을 식별하여 “최상의” 회귀 모델을 식별할 수 있습니다. 여기서 p 는 모델의 예측 변수 수입니다.
R에서 Mallows의 Cp를 계산하는 가장 쉬운 방법은 olsrr 패키지의 ols_mallows_cp() 함수를 사용하는 것입니다.
다음 예에서는 이 함수를 사용하여 Mallows의 Cp를 계산하여 R의 여러 잠재적 모델 중에서 최상의 회귀 모델을 선택하는 방법을 보여줍니다.
예: R의 Mallows Cp 계산
mtcars 데이터세트의 변수를 사용하여 세 가지 다른 다중 선형 회귀 모델을 적합화한다고 가정해 보겠습니다.
다음 코드는 다음 회귀 모델을 맞추는 방법을 보여줍니다.
- 전체 모델의 예측 변수: 10개 변수
- 모델 1의 예측 변수: disp, hp, wt, qsec
- 모델 2의 예측 변수: disp, qsec
- 모델 3의 예측 변수: disp, wt
다음 코드는 이러한 각 회귀 모델을 피팅하고 ols_mallows_cp() 함수를 사용하여 각 모델의 Mallows Cp를 계산하는 방법을 보여줍니다.
library (olsrr) #fit full model full_model <- lm(mpg ~ ., data = mtcars) #fit three smaller models model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) model2 <- lm(mpg ~ disp + qsec, data = mtcars) model3 <- lm(mpg ~ disp + wt, data = mtcars) #calculate Mallows' Cp for each model ols_mallows_cp(model1, full_model) [1] 4.430434 ols_mallows_cp(model2, full_model) [1] 18.64082 ols_mallows_cp(model3, full_model) [1] 9.122225
결과를 해석하는 방법은 다음과 같습니다.
- 모델 1: p + 1 = 5, Mallows Cp = 4.43
- 모델 2: p + 1 = 3, Mallows Cp = 18.64
- 모델 3: p + 1 = 30, Mallows Cp = 9.12
모델 1이 p + 1에 가장 가까운 Mallows’ Cp 값을 갖고 있음을 알 수 있습니다. 이는 이 모델이 세 가지 잠재적 모델 중에서 편향이 가장 적은 최상의 모델임을 나타냅니다.
Cp des Mauves에 대한 참고 사항
Mallows Cp에 대해 명심해야 할 사항은 다음과 같습니다.
- 각 잠재적 모델의 Mallows Cp 값이 높은 경우 이는 일부 중요한 예측 변수가 각 모델에서 누락되었을 가능성이 있음을 나타냅니다.
- 여러 잠재적 모델의 Mallow’s Cp 값이 낮은 경우 가장 낮은 값을 갖는 모델을 사용하기에 가장 적합한 모델로 선택합니다.
Mallows의 Cp는 여러 잠재적 모델 중에서 “최고의” 회귀 모델을 식별하는 한 가지 방법일 뿐이라는 점을 명심하십시오.
일반적으로 사용되는 또 다른 측정값은 수정된 R-제곱입니다. 이는 모델의 예측 변수로 설명할 수 있는 반응 변수 의 분산 비율을 사용된 예측 변수의 수에 맞게 조정한 값을 알려줍니다.
여러 모델 목록 중에서 어떤 회귀 모델이 가장 좋은지 결정하려면 Mallows의 Cp와 수정된 R-제곱을 모두 살펴보는 것이 좋습니다.