잔여 공백은 무엇입니까? (정의 & #038; 예)
잔차 분산 (때때로 “설명되지 않는 분산”이라고도 함)은 모델 변수로 설명할 수 없는 모델의 분산을 나타냅니다.
모델의 잔차 분산이 높을수록 모델이 데이터의 변동을 설명할 수 있는 정도가 줄어듭니다.
잔차 분산은 두 가지 다른 통계 모델의 결과에 나타납니다.
1. ANOVA: 3개 이상의 독립 그룹의 평균을 비교하는 데 사용됩니다.
2. 회귀: 하나 이상의 예측 변수와 응답 변수 간의 관계를 정량화하는 데 사용됩니다.
다음 예에서는 이러한 각 방법의 잔차 분산을 해석하는 방법을 보여줍니다.
ANOVA 모델의 잔차 분산
ANOVA(“분산 분석”) 모델을 적용할 때마다 다음과 같은 ANOVA 테이블이 생성됩니다.
ANOVA 모델의 잔차 분산 값은 그룹 내 변동에 대한 SS(“제곱합”) 열에서 찾을 수 있습니다.
이 값은 “오차 제곱합”이라고도 하며 다음 공식을 사용하여 계산됩니다.
Σ( Xij – Xj ) 2
금:
- Σ : “합계”를 의미하는 그리스 기호
- X ij : 그룹 j의 i번째 관측치
- X j : 그룹 j의 평균
위의 ANOVA 모델에서 잔차 분산은 1100.6임을 알 수 있습니다.
이 잔차 분산이 “높은”지 확인하기 위해 그룹 내 평균 제곱합과 그룹 간 평균 제곱합을 계산하고 둘 사이의 비율을 찾아 ANOVA 테이블에 전체 F 값을 제공할 수 있습니다.
- F = MS 입력 / MS 입력
- F = 96.1 / 40.76296
- F = 2.357
위 ANOVA 테이블의 F 값은 2.357이고 해당 p 값은 0.113848입니다. 이 p-값은 α = 0.05 이상이므로 귀무 가설을 기각할 충분한 증거가 없습니다.
이는 비교하는 그룹 간의 평균 차이가 유의하게 다르다고 말할 수 있는 충분한 증거가 없음을 의미합니다.
이는 모델이 실제로 설명할 수 있는 변동에 비해 ANOVA 모델의 잔차 분산이 높다는 것을 의미합니다.
회귀 모델의 잔차 분산
회귀 모델에서 잔차 분산은 예측된 데이터 포인트와 관찰된 데이터 포인트 간의 차이의 제곱의 합으로 정의됩니다.
다음과 같이 계산됩니다.
Σ(ŷ i – y i ) 2
금:
- Σ : “합계”를 의미하는 그리스 기호
- ŷ i : 예측된 데이터 포인트
- y i : 관찰된 데이터 포인트
회귀 모델을 적합시키면 일반적으로 다음과 같은 결과를 얻습니다.
ANOVA 모델의 잔차 분산 값은 잔차 변동에 대한 SS(“제곱합”) 열에서 찾을 수 있습니다.
모델의 전체 변동에 대한 잔차 변동의 비율은 모델의 예측 변수로 설명할 수 없는 반응 변수의 변동 비율을 알려줍니다.
예를 들어, 위 표에서는 이 비율을 다음과 같이 계산합니다.
- 설명되지 않는 변동 = SS 잔여 / SS 총계
- 설명되지 않는 변동 = 5.9024 / 174.5
- 설명되지 않는 변동 = 0.0338
이 값은 다음 공식을 사용하여 계산할 수도 있습니다.
- 설명되지 않는 변동 = 1 – R 2
- 설명되지 않는 변동 = 1 – 0.96617
- 설명되지 않는 변동 = 0.0338
모델의 R 제곱 값은 예측 변수로 설명할 수 있는 반응 변수의 변동 비율을 알려줍니다.
따라서 설명되지 않는 변동이 낮을수록 모델은 예측 변수를 사용하여 응답 변수의 변동을 설명할 수 있는 능력이 더 커집니다.