분산으로 설명되는 것은 무엇입니까? (정의 & #038; 예)

에 의해 벤자민 앤더슨 7월 18, 2023 가이드 댓글 0개

설명된 분산 (때때로 “설명된 변동”이라고도 함)은 모델의 예측 변수로 설명할 수 있는 모델의 반응 변수의 분산을 나타냅니다.

모델의 설명된 분산이 높을수록 모델이 설명할 수 있는 데이터의 변동이 더 많아집니다.

설명된 분산은 두 가지 다른 통계 모델의 결과에 나타납니다.

1. ANOVA: 3개 이상의 독립 그룹의 평균을 비교하는 데 사용됩니다.

2. 회귀: 하나 이상의 예측 변수와 응답 변수 간의 관계를 수량화하는 데 사용됩니다.

다음 예에서는 이러한 각 방법의 잔차 분산을 해석하는 방법을 보여줍니다.

참고 : 설명된 분산의 반대를 잔차 분산 이라고 합니다.

ANOVA 모델에서 설명되는 분산

ANOVA(“분산 분석”) 모델을 적용할 때마다 다음과 같은 ANOVA 테이블이 생성됩니다.

설명된 분산은 그룹 간 변동 에 대한 SS(‘제곱합’) 열에서 확인할 수 있습니다.

위의 ANOVA 모델에서 설명된 분산은 192.2임을 알 수 있습니다.

설명된 분산이 “높음”인지 확인하기 위해 그룹 내 평균 제곱합과 그룹 간 평균 제곱합을 계산하고 둘 사이의 비율을 찾아 ANOVA 테이블에 전체 F 값을 제공할 수 있습니다.

위 ANOVA 테이블의 F 값은 2.357이고 해당 p 값은 0.113848입니다.

이 p-값은 α = 0.05 이상이므로 ANOVA의 귀무 가설을 기각할 충분한 증거가 없습니다.

이는 비교하는 그룹 간의 평균 차이가 유의하게 다르다고 말할 수 있는 충분한 증거가 없음을 의미합니다.

이는 ANOVA 모델의 설명된 분산이 설명되지 않은 분산에 비해 작다는 것을 알려줍니다.

회귀 모델에서 설명된 분산은 R-squared 로 요약되며 종종 ^R2 로 표시됩니다.

이 값은 모델의 예측 변수로 설명할 수 있는 반응 변수의 분산 비율을 나타냅니다.

R 제곱 값의 범위는 0부터 다음과 같습니다.

회귀 모델을 적합시키면 일반적으로 다음과 같은 결과를 얻습니다.

설명된 분산은 168.5976 이고 총 분산은 174.5 임을 알 수 있습니다.

이러한 값을 사용하여 다음과 같이 이 회귀 모델의 R 제곱 값을 계산할 수 있습니다.

이 모델의 R-제곱 값은 1에 가깝기 때문에 모델에서 설명하는 분산이 매우 높다는 것을 알 수 있습니다.

즉, 모델은 예측 변수를 사용하여 응답 변수의 변동을 잘 설명할 수 있습니다.

관련 항목: 좋은 R 제곱 값이란 무엇입니까?

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기