통계에서 독립성 가정은 무엇입니까?
많은 통계 검정에서는 관측치 가 독립적이라고 가정합니다. 이는 데이터 세트의 관측값이 서로 관련되거나 어떤 방식으로든 서로 영향을 미치지 않음을 의미합니다.
예를 들어, 두 종의 고양이 사이에 평균 체중에 차이가 있는지 여부를 테스트한다고 가정해 보겠습니다. A종의 고양이 10마리와 B종의 고양이 10마리의 체중을 측정하면 각 고양이 그룹이 같은 배에서 나왔다면 독립 가정을 위반하게 됩니다.
종 A의 어미 고양이는 단순히 체중이 적은 새끼 고양이를 모두 갖고 있는 반면, 종 B의 어미 고양이는 무거운 새끼 고양이를 키웠을 가능성이 있습니다. 이와 관련하여 각 표본의 관측치는 서로 독립적이지 않습니다.
이러한 독립성을 가정하는 통계 검정에는 세 가지 일반적인 유형이 있습니다.
1. 2-표본 t-검정
2. ANOVA(분산분석)
3. 선형 회귀
다음 섹션에서는 각 테스트 유형에 대해 이러한 가정이 만들어진 이유 와 이 가정이 충족되는지 여부를 결정하는 방법을 설명합니다.
t-검정의 독립성 가정
2-표본 t-검정은 두 모집단의 평균이 같은지 여부를 검정하는 데 사용됩니다.
가정: 이 유형의 검정은 각 표본 내의 관측치가 서로 독립적이고 표본 간의 관측치도 서로 독립적이라고 가정합니다.
이 가설 테스트: 이 가설을 테스트하는 가장 간단한 방법은 각 관측치가 각 표본에 한 번만 나타나고 각 표본의 관측치가 무작위 샘플링으로 수집되었는지 확인하는 것입니다.
ANOVA의 독립 가정
ANOVA 는 세 개 이상의 독립 그룹의 평균 간에 유의한 차이가 있는지 여부를 확인하는 데 사용됩니다.
가정: ANOVA는 각 그룹의 관측치가 서로 독립적이며 그룹 내의 관측치가 무작위 표본에 의해 얻어졌다고 가정합니다.
이 가설 테스트: t-테스트와 유사하게 이 가설을 테스트하는 가장 간단한 방법은 각 관측치가 각 표본에 한 번만 나타나고 각 표본의 관측치가 무작위 샘플링으로 수집되었는지 확인하는 것입니다.
가정된 회귀의 독립성
선형 회귀는 하나 이상의 예측 변수와 반응 변수 간의 관계를 이해하는 데 사용됩니다.
가정: 선형 회귀는 적합 모델의 잔차가 독립적이라고 가정합니다.
이 가설 테스트: 이 가설을 테스트하는 가장 쉬운 방법은 잔차 대 시간의 도표인 잔차의 시계열 도표를 보는 것입니다. 이상적으로 대부분의 잔차 자기상관은 0 주위의 95% 신뢰대 내에 속해야 하며, 이는 n 의 제곱근에서 약 +/- 2에 위치합니다. 여기서 n은 표본 크기입니다. Durbin-Watson 테스트를 사용하여 이 가정이 충족되는지 공식적으로 테스트할 수도 있습니다.
비독립의 일반적인 원인
데이터 세트에는 세 가지 일반적인 비독립성 원인이 있습니다.
1. 관찰은 시간에 맞춰 함께 마감됩니다.
예를 들어, 연구자는 특정 도로에서 자동차의 평균 속도에 대한 데이터를 수집할 수 있습니다. 저녁에 속도를 추적하기로 선택하면 모든 운전자가 직장에서 집으로 달려가기 때문에 평균 속도가 예상보다 훨씬 높다는 것을 알 수 있습니다.
이러한 데이터는 각 관측치가 독립적이라는 가정을 위반합니다. 각 관측은 하루 중 동일한 시간에 관측되었으므로 각 자동차의 속도는 비슷할 가능성이 높습니다.
2. 관측은 공간에서 함께 닫혀 있습니다.
예를 들어, 연구자는 편리하기 때문에 모두 같은 고소득 동네에 사는 사람들로부터 연간 소득 데이터를 수집할 수 있습니다.
이런 점에서, 데이터 표본에 포함된 모든 사람들은 서로 가까운 곳에 살고 있기 때문에 비슷한 소득을 가질 가능성이 높습니다. 이는 각 관측값이 독립적이라는 가정을 위반합니다.
3. 관찰은 동일한 데이터세트에 여러 번 나타납니다.
예를 들어, 연구자는 50명의 개인에 대한 데이터를 수집해야 하지만 훨씬 더 쉽기 때문에 25명의 개인에 대한 데이터를 두 번 수집하기로 결정할 수 있습니다.
이는 데이터세트의 각 관측값이 자체적으로 관련되기 때문에 독립성 가정을 위반합니다.
독립성 가정을 위반하지 않는 방법
독립성 가정 위반을 방지하는 가장 간단한 방법은 모집단에서 표본을 얻을 때 단순 무작위 표본 추출을 사용하는 것입니다.
이 방법을 사용하면 관심 모집단 의 각 개인이 표본에 포함될 확률이 동일합니다.
예를 들어, 관심 모집단에 10,000명의 개인이 포함되어 있는 경우 모집단의 각 개인에게 무작위로 숫자를 할당한 다음 난수 생성기를 사용하여 40개의 난수를 선택할 수 있습니다. 그러면 이 숫자와 일치하는 개인이 표본에 포함됩니다.
이 방법을 사용함으로써 우리는 서로 매우 가깝거나 어떤 방식으로든 관련이 있을 수 있는 두 개인을 선택할 가능성을 최소화합니다.
이는 다음과 같은 다른 샘플링 방법과 직접적인 대조를 이룹니다.
- 편의 샘플링: 쉽게 접근할 수 있는 개인을 샘플에 포함합니다.
- 자발적 샘플링: 포함되기 위해 자원한 개인을 샘플에 포함합니다.
무작위 표본 추출 방법을 사용하면 독립성 가정을 위반할 가능성을 최소화할 수 있습니다.
추가 리소스
T 테스트에서 공식화된 네 가지 가설
선형 회귀의 네 가지 가정
ANOVA의 세 가지 가설
대표 표본은 무엇이며 왜 중요한가요?