통계에서 등분산 가정은 무엇입니까?
많은 통계 검정에서는 등분산을 가정 합니다. 이 가정이 존중되지 않으면 테스트 결과를 신뢰할 수 없게 됩니다.
등분산을 가정하는 가장 일반적인 통계 테스트 및 절차는 다음과 같습니다.
1. 분산분석
2. t-테스트
3. 선형 회귀
이 튜토리얼에서는 각 테스트에 대한 가정, 해당 가정이 충족되는지 확인하는 방법, 위반할 경우 수행할 작업에 대해 설명합니다.
ANOVA의 등분산 가정
ANOVA (“분산 분석”)는 세 개 이상의 독립 그룹 평균 간에 유의한 차이가 있는지 여부를 확인하는 데 사용됩니다.
다음은 ANOVA를 사용할 수 있는 경우의 예입니다.
체중 감량 실험에 참여할 90명을 모집한다고 가정해 보겠습니다. 한 달 동안 프로그램 A, B, C를 사용하도록 무작위로 30명을 할당합니다.
프로그램이 체중 감량에 영향을 미치는지 확인하기 위해 일원 분산 분석을 수행할 수 있습니다.
ANOVA는 각 그룹의 분산이 동일하다고 가정합니다. 이 가설이 사실인지 테스트하는 방법에는 두 가지가 있습니다.
1. 상자 그림을 만듭니다.
상자 그림은 등분산 가정을 확인하는 시각적 방법을 제공합니다.
각 그룹의 체중 감소 차이는 각 상자 그림의 길이를 통해 관찰할 수 있습니다. 상자가 길수록 분산이 높아집니다. 예를 들어, 프로그램 A 및 프로그램 B에 비해 프로그램 C 참가자의 차이가 약간 더 높다는 것을 알 수 있습니다.
2. Bartlett 테스트를 수행합니다.
Bartlett 검정은 표본의 분산이 동일하지 않다는 대립 가설에 대해 표본의 분산이 동일하다는 귀무가설을 테스트합니다.
검정의 p-값이 특정 유의 수준(예: 0.05)보다 낮으면 표본의 분산이 모두 동일하지 않다는 증거가 있습니다.
등분산 가정이 충족되지 않으면 어떻게 되나요?
일반적으로 ANOVA는 각 그룹이 동일한 표본 크기를 갖는 한 등분산 가정 위반에 대해 상당히 견고한 것으로 간주됩니다.
그러나 표본 크기가 동일하지 않고 이 가정이 심각하게 위반되는 경우 대신 일원 분산 분석의 비모수적 버전인 Kruskal-Wallis 검정을 실행할 수 있습니다.
t-검정의 등분산 가정
2-표본 t-검정은 두 모집단의 평균이 같은지 여부를 검정하는 데 사용됩니다.
테스트에서는 두 그룹 간의 분산이 동일하다고 가정합니다. 이 가설이 사실인지 테스트하는 방법에는 두 가지가 있습니다.
1. 경험적으로 비율 법칙을 사용하십시오.
일반적으로 가장 큰 분산과 가장 작은 분산의 비율이 4보다 작으면 분산이 대략 같다고 가정하고 2-표본 t-검정을 사용할 수 있습니다.
예를 들어, 표본 1의 분산이 24.5이고 표본 2의 분산이 15.2라고 가정합니다. 가장 큰 표본 분산과 가장 작은 표본 분산의 비율은 24.5 / 15.2 = 1.61로 계산됩니다.
이 비율이 4보다 작으므로 두 그룹 간의 차이가 거의 동일하다고 가정할 수 있습니다.
2. F-검정을 수행합니다.
F-검정은 표본의 분산이 동일하지 않다는 대립 가설에 대해 표본의 분산이 동일하다는 귀무가설을 검정합니다.
검정의 p-값이 특정 유의 수준(예: 0.05)보다 낮으면 표본의 분산이 모두 동일하지 않다는 증거가 있습니다.
등분산 가정이 충족되지 않으면 어떻게 되나요?
이 가정이 위반되면 Welch의 t-검정을 수행할 수 있습니다. 이는 2-표본 t-검정의 비모수적 버전이며 두 표본의 분산이 동일하다고 가정하지 않습니다.
선형 회귀 분석의 등분산 가정
선형 회귀는 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용됩니다.
선형 회귀 분석에서는 잔차가 예측 변수의 각 수준에서 일정한 분산을 갖는다고 가정합니다. 이것을 동분산성 이라고 합니다. 그렇지 않은 경우 잔차에 이분산성이 발생하여 회귀 분석 결과를 신뢰할 수 없게 됩니다.
이 가정이 충족되는지 확인하는 가장 일반적인 방법은 잔차 대 적합치의 도표를 작성하는 것입니다. 이 그래프의 잔차가 0 주위에 무작위로 흩어져 있는 것처럼 보이면 등분산성 가정이 충족될 가능성이 높습니다.
그러나 다음 그래프의 “원뿔” 모양과 같이 잔차에 체계적인 추세가 있는 경우 이분산성이 문제가 됩니다.
등분산 가정이 충족되지 않으면 어떻게 되나요?
이 가정이 위반되는 경우 문제를 해결하는 가장 일반적인 방법은 다음 세 가지 변환 중 하나를 사용하여 응답 변수를 변환하는 것입니다.
1. 로그 변환: 응답 변수를 y에서 log(y) 로 변환합니다.
2. 제곱근 변환: 응답 변수를 y에서 √y 로 변환합니다.
3. 세제곱근 변환: 응답 변수를 y에서 y 1/3 으로 변환합니다.
이러한 변환을 수행하면 일반적으로 이분산성 문제가 사라집니다.
이분산성을 수정하는 또 다른 방법은 가중치 최소 제곱 회귀를 사용하는 것입니다. 이 유형의 회귀는 적합치의 분산을 기반으로 각 데이터 포인트에 가중치를 할당합니다.
본질적으로 이는 분산이 더 높은 데이터 포인트에 낮은 가중치를 부여하여 잔차 제곱을 줄입니다. 적절한 가중치를 사용하면 이분산성 문제를 해결할 수 있습니다.