맬로즈란 무엇인가요? cp? (정의 및 예)


Mallows Cp 는 여러 모델 중에서 가장 좋은 회귀 모델을 선택하는 데 사용되는 측정항목입니다.

다음과 같이 계산됩니다.

Cp = RSS p /S 2 – N + 2(P+1)

금:

  • RSS p : p 개의 예측 변수가 있는 모델의 잔차 제곱합
  • S 2 : 모델의 잔차 평균 제곱(MSE로 추정)
  • N: 표본 크기
  • P: 예측 변수의 수

Mallows Cp는 회귀 모델에 사용하려는 여러 잠재적인 예측 변수가 있고 이러한 예측 변수의 하위 집합을 사용하는 최상의 모델을 식별하려는 경우에 사용됩니다.

P+1보다 작은 Cp 값이 가장 낮은 모델을 식별하여 “최상의” 회귀 모델을 식별할 수 있습니다. 여기서 P는 모델의 예측 변수 수입니다.

다음 예에서는 Mallows의 Cp를 사용하여 여러 잠재적 모델 중에서 최상의 회귀 모델을 선택하는 방법을 보여줍니다.

예: Mallows Cp를 사용하여 최상의 모델 선택

교수가 학생이 최종 시험에서 받게 될 성적을 예측하기 위해 학습 시간, 응시한 준비 시험 및 현재 누적 GPA를 회귀 모델의 예측 변수로 사용한다고 가정해 보겠습니다.

7가지 다른 회귀 모델에 적합하고 각 모델에 대한 Mallows Cp 값을 계산합니다.

Mallows Cp를 사용하여 최상의 회귀 모델 선택

Mallows의 Cp 값이 모델 계수의 수(P+1)보다 작은 경우 모델은 편향되지 않은 것으로 간주됩니다.

우리는 두 가지 공정한 모델이 있음을 알 수 있습니다.

  • 시간과 GPA를 예측 변수로 사용하는 모델(Mallows의 Cp = 2.9, P+1 = 3)
  • 예측 변수로 준비 시험과 GPA를 사용하는 모델(Mallows의 Cp = 2.7, P+1 = 3)

이 두 모델 중 예비 시험과 GPA를 예측 변수로 사용하는 모델의 Mallows’ Cp 값이 가장 낮으므로 편향이 가장 적은 더 나은 모델임을 알 수 있습니다.

Cp des Mauves에 대한 참고 사항

Mallows Cp에 대해 명심해야 할 사항은 다음과 같습니다.

  • Mallows Cp 값이 P+1에 가까운 모델은 편향이 낮다고 합니다.
  • 각 잠재적 모델의 Mallows Cp 값이 높은 경우 이는 일부 중요한 예측 변수가 각 모델에서 누락되었을 가능성이 있음을 나타냅니다.
  • 여러 잠재적 모델의 Mallow’s Cp 값이 낮은 경우 가장 낮은 값을 갖는 모델을 사용하기에 가장 적합한 모델로 선택합니다.

또한 Mallows의 Cp는 회귀 모델의 적합도를 측정하는 한 가지 방법일 뿐이라는 점을 명심하십시오.

일반적으로 사용되는 또 다른 측정값은 수정된 R-제곱입니다. 이는 모델의 예측 변수로 설명할 수 있는 반응 변수 의 분산 비율을 사용된 예측 변수의 수에 맞게 조정한 값을 알려줍니다.

다양한 모델 목록에서 어떤 회귀 모델이 가장 좋은지 결정하려면 Mallows의 Cp와 수정된 R-제곱을 모두 살펴보는 것이 좋습니다.

추가 리소스

R에서 Mallows Cp를 계산하는 방법
R에서 조정된 R-제곱을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다