결정계수(r제곱)

이 기사에서는 통계에서 결정계수(또는 R 제곱)가 무엇인지 설명합니다. 따라서 결정 계수를 계산하는 방법, 해석 방법, 그리고 데이터 샘플의 결정 계수를 계산하는 온라인 계산기에 대해 알아봅니다.

결정계수(R 제곱)는 무엇입니까?

결정계수 (기호는 R 2 ( R 제곱 ))는 회귀 모델의 적합도를 측정하는 통계량입니다. 결정 계수는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지를 보여줍니다. 즉, 회귀 모델이 설명하는 백분율을 나타냅니다.

따라서 결정 계수가 높을수록 회귀 모델이 더 좋습니다. 비록 이 조건이 항상 충족되는 것은 아니지만 원칙적으로 우리는 가능한 한 큰 결정계수에 관심이 있습니다. 결정계수를 해석하는 방법을 아래에서 살펴보겠습니다.

계수를 결정하는 공식

결정계수는 1에서 잔차 분산과 종속변수 분산 사이의 비율을 뺀 것과 같습니다. 결정계수는 전체 제곱합에 대한 잔차에서 1에서 제곱합을 빼서 계산할 수도 있습니다.

따라서 결정계수를 계산하는 공식은 다음과 같습니다.

결정계수 공식, r 제곱 공식

금:

  • R^2

    결정계수입니다.

  • \sigma_r^2

    잔차 분산입니다.

  • \sigma^2

    종속변수 Y의 분산입니다.

  • y_{i}

    관측 종속 변수 i의 값입니다.

  • \widehat{y}_{i}

    관찰 i에 대한 회귀 모델에 의해 근사된 값입니다.

  • \overline{y}

    모든 관측치에 대한 종속변수의 평균입니다.

👉 아래 계산기를 사용하여 모든 데이터 세트에 대한 결정 계수를 계산할 수 있습니다.

선형 회귀 모델의 경우 결정 계수는 상관 계수 의 제곱과 같습니다.

R^2=\cfrac{\sigma_{XY}^2}{\sigma_X^2\sigma_Y^2}=\rho^2

\sigma_{XY}^2

변수 X와 Y의 공분산 입니다.

\sigma_X^2

그리고

\sigma_Y^2

는 각각 독립 변수 X와 종속 변수 Y의 분산 입니다.

결정계수 계산기

샘플 데이터를 아래 계산기에 연결하여 간단한 선형 회귀 모델을 맞추고 결정 계수를 계산하세요. 첫 번째 상자에는 독립변수 X의 값만 있고 두 번째 상자에는 종속변수 Y의 값만 있도록 데이터 쌍을 분리해야 합니다.

데이터는 공백으로 구분해야 하며 소수점 구분 기호로 마침표를 사용하여 입력해야 합니다.

  • 독립 변수

  • 종속변수 Y:

결정계수의 해석

이 섹션에서는 결정 계수를 해석하는 방법을 살펴보겠습니다. 나중에 결정 계수가 무엇을 의미하는지 모르면 결정 계수 값을 아는 것이 의미가 없기 때문입니다.

결정계수의 값은 0부터 1까지 가능하지만 일반적으로 백분율로 표시되므로 최소값은 0%, 최대값은 100%이다.

결정계수 해석 과 관련하여 값이 높을수록 회귀 모델이 데이터 샘플을 더 잘 설명한다는 의미입니다. 따라서 결정계수가 1에 가까울수록 모델이 더 많이 조정됩니다. 반면, 0에 가까울수록 생성된 회귀 모델의 신뢰성이 떨어집니다.

그러나 두 회귀 모델을 비교할 때 회귀 계수가 높은 모델이 항상 더 좋은 것은 아닙니다. 예를 들어, 회귀 모델은 많은 설명 변수가 모델에 추가되어 모든 관찰을 완벽하게 설명할 수 있기 때문에 회귀 계수 R 2 = 100%를 가질 수 있습니다. 그러나 이 모델은 회귀 모델을 구축하는 데 사용되지 않은 새로운 값에 대해 확실히 매우 잘못된 예측을 제공합니다.

또한 결과 회귀 모델이 이전 가정을 충족한다는 점도 염두에 두어야 합니다. 따라서 결정계수가 매우 높은 모델은 잔차의 변동성이 일정하지 않으면(동분산성) 쓸모가 없습니다.

더욱이 결정계수는 설명변수의 포함에 불이익을 주지 않기 때문에 중요한 한계를 제시한다 . 논리적으로 회귀 모델에 설명 변수가 많을수록 모델이 더 복잡해지지만 관찰된 데이터를 더 잘 설명하므로 결정 계수가 높아집니다. 그러나 조정된 결정 계수는 모델의 변수 수를 고려합니다(아래에서 계산 방법을 살펴보겠습니다).

결론적으로, 결정 계수는 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 알려 주기 때문에 회귀 모델을 분석하는 데 매우 유용합니다. 그러나 결과 모델을 검토하려면 통계 그래프 와 같은 다른 도구도 사용해야 합니다.

조정된 결정 계수

조정 결정 계수 라고도 하는 조정 결정 계수는 모델에 포함된 설명 변수의 수를 고려하여 회귀 모델의 적합도를 측정합니다.

결정계수와 수정결정계수 의 차이는 결정계수는 변수의 수를 고려하지 않고 조정의 질을 측정하는 반면, 수정결정계수는 조정의 질을 측정한다는 점이다. 추가된 각 변수에 대해 페널티를 적용합니다.

수정된 결정계수를 계산하는 공식은 다음과 같습니다.

\bar{R}^2=1-\cfrac{N-1}{N-k-1}\cdot (1-R^2)

금:

  • \bar{R}^2

    는 조정된 결정계수입니다.

  • R^2

    결정계수입니다.

  • N

    표본 크기입니다.

  • k

    회귀 모델의 설명 변수 수입니다.

따라서 두 모델의 설명변수 수가 다를 수 있으므로 조정된 결정계수가 서로 다른 두 모델을 비교하기 위한 결정계수보다 더 좋습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다