Python에서 카이제곱 독립성 테스트를 수행하는 방법
카이 제곱 독립성 검정 두 범주형 변수 사이에 유의미한 연관성이 있는지 여부를 확인하는 데 사용됩니다.
이 튜토리얼에서는 Python에서 카이제곱 독립성 테스트를 수행하는 방법을 설명합니다.
예: Python의 카이제곱 독립성 테스트
성별이 정당 선호와 연관되어 있는지 여부를 알고 싶다고 가정해 보겠습니다. 우리는 유권자 500명을 무작위로 표본 추출하여 선호하는 정당에 대해 질문합니다. 다음 표는 설문 조사 결과를 나타냅니다.
| 공화주의자 | 민주당 | 독립적인 | 총 | |
| 남성 | 120 | 90 | 40 | 250 |
| 여성 | 110 | 95 | 45 | 250 |
| 총 | 230 | 185 | 85 | 500 |
다음 단계를 사용하여 Python에서 카이제곱 독립성 테스트를 수행하여 성별이 정당 선호도와 연관되어 있는지 확인합니다.
1단계: 데이터를 생성합니다.
먼저 데이터를 보관할 테이블을 만듭니다.
data = [[120, 90, 40],
[110, 95, 45]]
2단계: 카이제곱 독립성 검정을 수행합니다.
다음으로, 다음 구문을 사용하는 SciPy 라이브러리의 chi2_contingency 함수를 사용하여 카이제곱 독립성 테스트를 수행할 수 있습니다.
chi2_contingency(관찰됨)
금:
- 관찰: 관찰된 값의 분할표입니다.
다음 코드는 특정 예에서 이 함수를 사용하는 방법을 보여줍니다.
import scipy.stats as stats #perform the Chi-Square Test of Independence stats.chi2_contingency(data) (0.864, 0.649, 2, array([[115. , 92.5, 42.5], [115. , 92.5, 42.5]]))
결과를 해석하는 방법은 다음과 같습니다.
- 카이제곱 검정 통계량: 0.864
- p-값: 0.649
- 자유도: 2 (#rows-1 * #columns-1로 계산됨)
- 표: 마지막 표에는 분할표의 각 셀에 대한 예상 값이 표시됩니다.
카이제곱 독립성 검정에서는 다음과 같은 귀무 가설과 대립 가설을 사용합니다.
- H 0 : (귀무가설) 두 변수는 독립적입니다.
- H 1 : (대립 가설) 두 변수는 독립적 이지 않습니다 .
검정의 p-값(0.649)이 0.05 이상이므로 귀무가설을 기각할 수 없습니다. 이는 성별과 정당 선호도 사이에 연관성이 있다고 말할 수 있는 충분한 증거가 없음을 의미합니다.
즉, 성별과 정당 선호도는 독립적입니다.