조정된 r-제곱을 해석하는 방법(예제 포함)
선형 회귀 모델을 피팅할 때 모델의 R 제곱 값을 계산하는 경우가 많습니다.
R-제곱 값은 모델의 예측 변수로 설명할 수 있는 반응 변수 의 분산 비율입니다.
R 제곱 값은 0에서 1까지 다양할 수 있습니다.
- 0 값은 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다.
- 값 1 은 반응 변수가 예측 변수에 의해 완벽하게 설명될 수 있음을 나타냅니다.
이 측정항목은 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하는 데 일반적으로 사용되지만 심각한 단점이 있습니다.
R-제곱의 단점:
R-제곱은 회귀 모델에 새로운 예측 변수가 추가되면 항상 증가합니다.
새로운 예측 변수가 반응 변수와 거의 관계가 없더라도 모델의 R 제곱 값은 약간이라도 증가합니다.
이러한 이유로 예측 변수가 많은 회귀 모델은 모델이 데이터에 잘 적합하지 않더라도 높은 R-제곱 값을 가질 수 있습니다.
다행스럽게도 조정된 R-제곱이라는 R-제곱 대신 사용할 수 있는 방법이 있습니다.
조정된 R-제곱은 회귀 모델의 예측 변수 수를 조정하는 R-제곱의 수정된 버전입니다.
다음과 같이 계산됩니다.
조정된 R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
금:
- R 2 : 모델의 R 2
- n : 관측치 수
- k : 예측 변수의 수
R-제곱은 모델에 예측 변수를 추가하면 항상 증가하므로 조정된 R-제곱은 모델의 예측 변수 수에 따라 조정되어 모델이 얼마나 유용한지 알려줄 수 있습니다.
조정된 R-제곱의 장점:
수정된 R-제곱은 일련의 예측 변수가 모델의 예측 변수 수에 맞게 조정된 반응 변수의 변동을 얼마나 잘 설명할 수 있는지 알려줍니다.
계산 방식으로 인해 조정된 R-제곱을 사용하여 다양한 수의 예측 변수를 사용하여 회귀 모델의 적합성을 비교할 수 있습니다.
수정된 R-제곱을 더 잘 이해하려면 다음 예를 참조하세요.
예: 회귀 모델의 조정된 R-제곱 이해
교수가 수업 시간과 현재 성적이 학생이 최종 시험에서 받는 성적에 어떤 영향을 미치는지 이해하기 위해 수업 시간에 학생들에 대한 데이터를 수집하고 다음 회귀 모델을 적용한다고 가정합니다.
시험 점수 = β 0 + β 1 (공부한 시간) + β 2 (현재 성적)
이 회귀 모델에 다음 측정항목이 있다고 가정해 보겠습니다.
- R 제곱: 0.955
- 조정된 R-제곱: 0.946
이제 교사가 각 학생의 신발 사이즈라는 또 다른 변수에 대한 데이터를 수집하기로 결정했다고 가정해 보겠습니다.
이 변수는 최종 시험 성적과 아무런 관계가 없어야 하지만 그는 다음 회귀 모델을 적용하기로 결정했습니다.
시험 점수 = β 0 + β 1 (공부 시간) + β 2 (올해) + β 3 (신발 사이즈)
이 회귀 모델에 다음 측정항목이 있다고 가정해 보겠습니다.
- R 제곱: 0.965
- 조정된 R-제곱: 0.902
이 두 회귀 모델 각각에 대한 R 제곱 값만 살펴본다면 두 번째 모델이 R 제곱 값이 더 높기 때문에 사용하는 것이 더 낫다는 결론을 내릴 수 있습니다!
그러나 수정된 R-제곱 값을 살펴보면 다른 결론에 도달합니다. 수정된 R-제곱 값이 더 높기 때문에 첫 번째 모델을 사용하는 것이 더 좋습니다.
두 번째 모델은 첫 번째 모델보다 예측 변수가 더 많기 때문에 R-제곱 값이 더 높습니다.
그러나 우리가 추가한 예측 변수(신발 사이즈)는 최종 시험 점수를 예측하는 데 적합하지 않았으므로 조정된 R 제곱 값은 이 예측 변수를 추가하는 모델에 불이익을 가했습니다.
이 예에서는 다양한 수의 예측 변수를 사용하여 회귀 모델의 적합성을 비교할 때 조정된 R-제곱이 더 나은 측정항목인 이유를 보여줍니다.
추가 리소스
다음 튜토리얼에서는 다양한 통계 소프트웨어를 사용하여 조정된 R 제곱 값을 계산하는 방법을 설명합니다.
R에서 조정된 R-제곱을 계산하는 방법
Excel에서 조정된 R 제곱을 계산하는 방법
Python에서 조정된 R-제곱을 계산하는 방법