핏의 질

이 기사에서는 통계에서 적합도가 무엇인지 설명합니다. 마찬가지로 회귀모델의 적합도를 측정하는 방법을 보여주며, 추가적으로 적합도의 문제가 해결된 모습도 볼 수 있습니다.

적합도란 무엇인가?

통계에서 적합도는 회귀 모델이 데이터 샘플에 얼마나 잘 맞는지를 나타냅니다. 즉, 회귀 모델의 적합도는 일련의 관측값과 회귀를 통해 얻은 값 간의 결합 수준을 나타냅니다.

따라서 회귀 모델의 적합도가 좋을수록 연구 중인 데이터를 더 잘 설명합니다. 따라서 우리는 통계 모델의 적합도가 높을수록 더 좋습니다.

핏의 질

위 이미지에서 볼 수 있듯이 일반적으로 관측값은 회귀 모델로 완전히 설명될 수 없습니다. 그러나 논리적으로 회귀 모델이 데이터 세트에서 더 많은 것을 설명할수록 모델이 더 잘 적합합니다. 간단히 말해서, 우리는 가능한 한 엄격한 회귀 모델에 관심이 있습니다.

회귀 모델의 적합도

회귀 모델의 적합도를 결정하기 위해 일반적으로 회귀 모델에 의해 설명되는 백분율을 나타내는 통계 계수인 결정 계수를 사용합니다 . 따라서 모델의 결정 계수가 높을수록 모델이 데이터 샘플에 더 잘 적용됩니다.

R^2= \text{Coeficiente de determinaci\'on}

참고: 결정계수 공식

그러나 회귀 모델에 변수가 많을수록 결정 계수가 높아진다는 점에 유의해야 합니다. 이러한 이유로 수정된 결정 계수는 모델의 적합도를 측정하는 데 자주 사용됩니다. 조정된 결정 계수는 회귀 모델에 의해 설명되는 백분율을 나타내는 이전 계수의 변형으로, 모델에 포함된 각 설명 변수에 대해 페널티를 적용합니다.

\bar{R}^2= \text{Coeficiente de determinaci\'on ajustado}

따라서 수정된 결정계수를 사용하여 두 모델을 서로 다른 여러 변수와 비교하는 것이 좋습니다. 왜냐하면 모델에 포함된 변수의 수를 고려하기 때문입니다.

마지막으로 이전 두 계수의 값이 일반적으로 사용되지만 카이제곱 검정을 사용하여 회귀 모델의 적합도를 측정할 수도 있습니다.

좋은 적합성의 구체적인 예

마지막으로, 우리는 이 통계 개념의 동화를 완료하기 위해 조정 품질에 대한 해결된 연습을 보게 될 것입니다.

  • 동일한 데이터 시리즈를 사용하여 두 가지 다른 선형 회귀 모델이 수행되었으며 그 결과는 다음 표에서 볼 수 있습니다. 어떤 모델을 사용하는 것이 가장 좋습니까?
회귀 모델 1 회귀 모델 2
결정 계수 57% 64%
조정된 결정 계수 49% 43%
설명변수의 수 7

이 경우 두 모델 모두 선형회귀모델의 이전 가정을 만족한다고 가정하므로 모델의 적합도만 분석하면 됩니다.

회귀 모델 2는 회귀 모델 1보다 결정 계수가 높으므로 데이터 샘플을 더 잘 설명할 수 있기 때문에 선험적으로 더 나은 회귀 모델인 것 같습니다.

그러나 회귀 모델 2에는 모델에 7개의 독립 변수가 있는 반면 회귀 모델 1에는 3개만 있습니다. 따라서 모델 2는 첫 번째 모델보다 훨씬 더 복잡하고 해석하기 어렵습니다.

또한 모델의 변수 수를 고려한 수정 결정계수를 살펴보면 회귀모델 1이 회귀모델 2보다 수정 결정계수가 더 높은 것으로 나타났습니다.

결론적으로 회귀모델 1을 사용하는 것이 회귀모델 2보다 수정된 결정계수가 높기 때문에 더 좋지만, 회귀모델 2는 회귀모델에 포함된 변수가 더 많기 때문에 수정되지 않은 결정계수가 더 높다. 모델 1. 모델은 상기 계수의 값을 증가시키지만 모델의 해석을 더 어렵게 만들고 확실히 새로운 값에 대한 예측을 더 나쁘게 만듭니다.

변수 수가 다른 모델을 비교하려면 수정된 결정계수를 사용하는 것이 가장 좋습니다. 수정된 결정계수는 모델에 추가된 각 변수에 대해 불이익을 주기 때문입니다. 이 예에서 볼 수 있듯이 조정되지 않은 결정 계수에 따르면 회귀 모델 2가 더 좋지만 조정된 결정 계수를 통해 회귀 모델 1이 실제로 더 좋다는 것을 알 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다