적합도에 대한 g 테스트: 정의 + 예
통계에서 적합도에 대한 G 검정은 범주형 변수가 가상 분포를 따르는지 여부를 확인하는 데 사용됩니다.
이 검정은 카이제곱 적합도 검정 의 대안이며 데이터에 이상값이 있거나 작업 중인 데이터가 매우 큰 경우에 자주 사용됩니다.
적합도에 대한 G-검정은 다음과 같은 귀무 가설과 대립 가설을 사용합니다.
- H 0 : 변수가 가상 분포를 따릅니다.
- H A : 변수가 가상 분포를 따르지 않습니다 .
검정 통계량은 다음과 같이 계산됩니다.
G=2 * Σ[O * ln(O/E)]
금:
- O: 셀에서 관찰되는 숫자
- E: 셀의 예상 숫자
검정 통계량에 해당하는 p-값이 특정 유의 수준 보다 낮으면 귀무 가설을 기각하고 연구 중인 변수가 가설 분포를 따르지 않는다는 결론을 내릴 수 있습니다.
다음 예에서는 실제로 적합도 G 테스트를 수행하는 방법을 보여줍니다.
예: 적합도에 대한 G 테스트
한 생물학자는 특정 지역에 세 종의 거북이 동일한 비율로 존재한다고 주장합니다. 이 주장을 테스트하기 위해 독립적인 연구자가 각 종 유형의 수를 세어 다음을 알아냈습니다.
- A종: 80종
- 종 B: 125
- C종: 95
독립적인 연구자는 자신이 수집한 데이터가 생물학자의 주장과 일치하는지 여부를 확인하기 위해 적합도 G 검정을 수행하기 위해 다음 단계를 사용할 수 있습니다.
1단계: 귀무가설과 대립가설을 진술합니다.
연구원은 다음 가정을 사용하여 적합도에 대한 G 테스트를 수행합니다.
- H 0 : 이 지역에는 세 종의 거북이가 동일한 비율로 존재합니다.
- H A : 이 지역에는 세 종의 거북이 같은 비율로 존재하지 않습니다 .
2단계: 검정 통계량을 계산합니다.
검정 통계량을 계산하는 공식은 다음과 같습니다.
G=2 * Σ[O * ln(O/E)]
이 예에서는 총 300마리의 거북이가 관찰되었습니다. 각 종의 비율이 같다면 각 종마다 100마리의 거북이를 관찰할 수 있을 것으로 예상됩니다. 따라서 테스트 통계량은 다음과 같이 계산할 수 있습니다.
G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10.337
3단계: 검정 통계량의 p-값을 계산합니다.
카이제곱-P-값 계산기 에 따르면 검정 통계량 10.337 및 #categories-1 = 3-1 = 2 자유도와 연관된 p-값은 0.005693 입니다.
이 p-값은 0.05보다 작으므로 연구자는 귀무가설을 기각합니다. 이는 그녀가 특정 지역에 각 거북 종의 동일한 비율이 존재하지 않는다고 말할 수 있는 충분한 증거가 있음을 의미합니다.
보너스: R의 적합도에 대한 G 테스트
DescTools 패키지의 Gtest() 함수를 사용하여 R에서 적합도 G 테스트를 빠르게 수행할 수 있습니다.
다음 코드는 이전 예제에 대한 G 테스트를 수행하는 방법을 보여줍니다.
#load the DescTools library library (DescTools) #perform the G-test GTest(x = c(80, 125, 95), #observed values p = c(1/3, 1/3, 1/3), #expected proportions correct=" none ") Log likelihood ratio (G-test) goodness of fit test data: c(80, 125, 95) G = 10.337, X-squared df = 2, p-value = 0.005693
G 테스트 통계량은 10.337 이고 해당 p-값은 0.005693 입니다. 이 p-값은 0.05보다 작으므로 귀무가설을 기각합니다.
이는 수동으로 계산한 결과와 일치합니다.
추가 리소스
이 적합도 G 테스트 계산기를 사용하여 모든 데이터 세트에 대해 G 테스트를 자동으로 수행하세요.