적합도에 대한 g 테스트: 정의 + 예


통계에서 적합도에 대한 G 검정은 범주형 변수가 가상 분포를 따르는지 여부를 확인하는 데 사용됩니다.

이 검정은 카이제곱 적합도 검정 의 대안이며 데이터에 이상값이 있거나 작업 중인 데이터가 매우 큰 경우에 자주 사용됩니다.

적합도에 대한 G-검정은 다음과 같은 귀무 가설과 대립 가설을 사용합니다.

  • H 0 : 변수가 가상 분포를 따릅니다.
  • H A : 변수가 가상 분포를 따르지 않습니다 .

검정 통계량은 다음과 같이 계산됩니다.

G=2 * Σ[O * ln(O/E)]

금:

  • O: 셀에서 관찰되는 숫자
  • E: 셀의 예상 숫자

검정 통계량에 해당하는 p-값이 특정 유의 수준 보다 낮으면 귀무 가설을 기각하고 연구 중인 변수가 가설 분포를 따르지 않는다는 결론을 내릴 수 있습니다.

다음 예에서는 실제로 적합도 G 테스트를 수행하는 방법을 보여줍니다.

예: 적합도에 대한 G 테스트

한 생물학자는 특정 지역에 세 종의 거북이 동일한 비율로 존재한다고 주장합니다. 이 주장을 테스트하기 위해 독립적인 연구자가 각 종 유형의 수를 세어 다음을 알아냈습니다.

  • A종: 80종
  • 종 B: 125
  • C종: 95

독립적인 연구자는 자신이 수집한 데이터가 생물학자의 주장과 일치하는지 여부를 확인하기 위해 적합도 G 검정을 수행하기 위해 다음 단계를 사용할 수 있습니다.

1단계: 귀무가설과 대립가설을 진술합니다.

연구원은 다음 가정을 사용하여 적합도에 대한 G 테스트를 수행합니다.

  • H 0 : 이 지역에는 세 종의 거북이가 동일한 비율로 존재합니다.
  • H A : 이 지역에는 세 종의 거북이 같은 비율로 존재하지 않습니다 .

2단계: 검정 통계량을 계산합니다.

검정 통계량을 계산하는 공식은 다음과 같습니다.

G=2 * Σ[O * ln(O/E)]

이 예에서는 총 300마리의 거북이가 관찰되었습니다. 각 종의 비율이 같다면 각 종마다 100마리의 거북이를 관찰할 수 있을 것으로 예상됩니다. 따라서 테스트 통계량은 다음과 같이 계산할 수 있습니다.

G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10.337

3단계: 검정 통계량의 p-값을 계산합니다.

카이제곱-P-값 계산기 에 따르면 검정 통계량 10.337 및 #categories-1 = 3-1 = 2 자유도와 연관된 p-값은 0.005693 입니다.

이 p-값은 0.05보다 작으므로 연구자는 귀무가설을 기각합니다. 이는 그녀가 특정 지역에 각 거북 종의 동일한 비율이 존재하지 않는다고 말할 수 있는 충분한 증거가 있음을 의미합니다.

보너스: R의 적합도에 대한 G 테스트

DescTools 패키지의 Gtest() 함수를 사용하여 R에서 적합도 G 테스트를 빠르게 수행할 수 있습니다.

다음 코드는 이전 예제에 대한 G 테스트를 수행하는 방법을 보여줍니다.

 #load the DescTools library
library (DescTools)

#perform the G-test 
GTest(x = c(80, 125, 95), #observed values
      p = c(1/3, 1/3, 1/3), #expected proportions
      correct=" none ")

	Log likelihood ratio (G-test) goodness of fit test

data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693

G 테스트 통계량은 10.337 이고 해당 p-값은 0.005693 입니다. 이 p-값은 0.05보다 작으므로 귀무가설을 기각합니다.

이는 수동으로 계산한 결과와 일치합니다.

추가 리소스

이 적합도 G 테스트 계산기를 사용하여 모든 데이터 세트에 대해 G 테스트를 자동으로 수행하세요.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다