잔여 공백은 무엇입니까? (정의 & #038; 예)


잔차 분산 (때때로 “설명되지 않는 분산”이라고도 함)은 모델 변수로 설명할 수 없는 모델의 분산을 나타냅니다.

모델의 잔차 분산이 높을수록 모델이 데이터의 변동을 설명할 수 있는 정도가 줄어듭니다.

잔차 분산은 두 가지 다른 통계 모델의 결과에 나타납니다.

1. ANOVA: 3개 이상의 독립 그룹의 평균을 비교하는 데 사용됩니다.

2. 회귀: 하나 이상의 예측 변수와 응답 변수 간의 관계를 정량화하는 데 사용됩니다.

다음 예에서는 이러한 각 방법의 잔차 분산을 해석하는 방법을 보여줍니다.

ANOVA 모델의 잔차 분산

ANOVA(“분산 분석”) 모델을 적용할 때마다 다음과 같은 ANOVA 테이블이 생성됩니다.

ANOVA 모델의 잔차 분산

ANOVA 모델의 잔차 분산 값은 그룹 내 변동에 대한 SS(“제곱합”) 열에서 찾을 수 있습니다.

이 값은 “오차 제곱합”이라고도 하며 다음 공식을 사용하여 계산됩니다.

Σ( XijXj ) 2

금:

  • Σ : “합계”를 의미하는 그리스 기호
  • X ij : 그룹 j의 i번째 관측치
  • X j : 그룹 j의 평균

위의 ANOVA 모델에서 잔차 분산은 1100.6임을 알 수 있습니다.

이 잔차 분산이 “높은”지 확인하기 위해 그룹 내 평균 제곱합과 그룹 간 평균 제곱합을 계산하고 둘 사이의 비율을 찾아 ANOVA 테이블에 전체 F 값을 제공할 수 있습니다.

  • F = MS 입력 / MS 입력
  • F = 96.1 / 40.76296
  • F = 2.357

위 ANOVA 테이블의 F 값은 2.357이고 해당 p 값은 0.113848입니다. 이 p-값은 α = 0.05 이상이므로 귀무 가설을 기각할 충분한 증거가 없습니다.

이는 비교하는 그룹 간의 평균 차이가 유의하게 다르다고 말할 수 있는 충분한 증거가 없음을 의미합니다.

이는 모델이 실제로 설명할 수 있는 변동에 비해 ANOVA 모델의 잔차 분산이 높다는 것을 의미합니다.

회귀 모델의 잔차 분산

회귀 모델에서 잔차 분산은 예측된 데이터 포인트와 관찰된 데이터 포인트 간의 차이의 제곱의 합으로 정의됩니다.

다음과 같이 계산됩니다.

Σ(ŷ i – y i ) 2

금:

  • Σ : “합계”를 의미하는 그리스 기호
  • ŷ i : 예측된 데이터 포인트
  • y i : 관찰된 데이터 포인트

회귀 모델을 적합시키면 일반적으로 다음과 같은 결과를 얻습니다.

회귀 모델의 잔차 분산

ANOVA 모델의 잔차 분산 값은 잔차 변동에 대한 SS(“제곱합”) 열에서 찾을 수 있습니다.

모델의 전체 변동에 대한 잔차 변동의 비율은 모델의 예측 변수로 설명할 수 없는 반응 변수의 변동 비율을 알려줍니다.

예를 들어, 위 표에서는 이 비율을 다음과 같이 계산합니다.

  • 설명되지 않는 변동 = SS 잔여 / SS 총계
  • 설명되지 않는 변동 = 5.9024 / 174.5
  • 설명되지 않는 변동 = 0.0338

이 값은 다음 공식을 사용하여 계산할 수도 있습니다.

  • 설명되지 않는 변동 = 1 – R 2
  • 설명되지 않는 변동 = 1 – 0.96617
  • 설명되지 않는 변동 = 0.0338

모델의 R 제곱 값은 예측 변수로 설명할 수 있는 반응 변수의 변동 비율을 알려줍니다.

따라서 설명되지 않는 변동이 낮을수록 모델은 예측 변수를 사용하여 응답 변수의 변동을 설명할 수 있는 능력이 더 커집니다.

추가 리소스

좋은 R 제곱 값이란 무엇입니까?
Excel에서 R 제곱을 계산하는 방법
R에서 R 제곱을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다