분산으로 설명되는 것은 무엇입니까? (정의 & #038; 예)


설명된 분산 (때때로 “설명된 변동”이라고도 함)은 모델의 예측 변수로 설명할 수 있는 모델의 반응 변수의 분산을 나타냅니다.

모델의 설명된 분산이 높을수록 모델이 설명할 수 있는 데이터의 변동이 더 많아집니다.

설명된 분산은 두 가지 다른 통계 모델의 결과에 나타납니다.

1. ANOVA: 3개 이상의 독립 그룹의 평균을 비교하는 데 사용됩니다.

2. 회귀: 하나 이상의 예측 변수와 응답 변수 간의 관계를 수량화하는 데 사용됩니다.

다음 예에서는 이러한 각 방법의 잔차 분산을 해석하는 방법을 보여줍니다.

참고 : 설명된 분산의 반대를 잔차 분산 이라고 합니다.

ANOVA 모델에서 설명되는 분산

ANOVA(“분산 분석”) 모델을 적용할 때마다 다음과 같은 ANOVA 테이블이 생성됩니다.

설명된 분산은 그룹 간 변동 에 대한 SS(‘제곱합’) 열에서 확인할 수 있습니다.

위의 ANOVA 모델에서 설명된 분산은 192.2임을 알 수 있습니다.

설명된 분산이 “높음”인지 확인하기 위해 그룹 내 평균 제곱합과 그룹 간 평균 제곱합을 계산하고 둘 사이의 비율을 찾아 ANOVA 테이블에 전체 F 값을 제공할 수 있습니다.

  • F = MS 입력 / MS 입력
  • F = 96.1 / 40.76296
  • F = 2.357

위 ANOVA 테이블의 F 값은 2.357이고 해당 p 값은 0.113848입니다.

이 p-값은 α = 0.05 이상이므로 ANOVA의 귀무 가설을 기각할 충분한 증거가 없습니다.

이는 비교하는 그룹 간의 평균 차이가 유의하게 다르다고 말할 수 있는 충분한 증거가 없음을 의미합니다.

이는 ANOVA 모델의 설명된 분산이 설명되지 않은 분산에 비해 작다는 것을 알려줍니다.

회귀 모델에서 설명되는 분산

회귀 모델에서 설명된 분산은 R-squared 로 요약되며 종종 R2 로 표시됩니다.

이 값은 모델의 예측 변수로 설명할 수 있는 반응 변수의 분산 비율을 나타냅니다.

R 제곱 값의 범위는 0부터 다음과 같습니다.

  • 0 값은 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다.
  • 1 은 응답 변수가 예측 변수에 의해 오류 없이 완벽하게 설명될 수 있음을 나타냅니다.

회귀 모델을 적합시키면 일반적으로 다음과 같은 결과를 얻습니다.

설명된 분산은 168.5976 이고 총 분산은 174.5 임을 알 수 있습니다.

이러한 값을 사용하여 다음과 같이 이 회귀 모델의 R 제곱 값을 계산할 수 있습니다.

  • R 제곱: 회귀 SS / 총 SS
  • R 제곱: 168.5976 / 174.5
  • R 제곱: 0.966

이 모델의 R-제곱 값은 1에 가깝기 때문에 모델에서 설명하는 분산이 매우 높다는 것을 알 수 있습니다.

즉, 모델은 예측 변수를 사용하여 응답 변수의 변동을 잘 설명할 수 있습니다.

관련 항목: 좋은 R 제곱 값이란 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다