G перевірка відповідності: визначення + приклад


У статистиці тест G на відповідність використовується для визначення того, чи відповідає категоріальна змінна гіпотетичному розподілу.

Цей тест є альтернативою тесту відповідності хі-квадрат і часто використовується, коли в даних присутні викиди або коли дані, з якими ви працюєте, надзвичайно великі.

G-тест відповідності використовує такі нульові та альтернативні гіпотези:

  • H 0 : змінна відповідає гіпотетичному розподілу.
  • H A : Змінна не відповідає гіпотетичному розподілу.

Статистика тесту розраховується наступним чином:

G=2 * Σ[O * ln(O/E)]

золото:

  • O: число, яке спостерігається в клітинці
  • E: очікуване число в клітинці

Якщо p-значення, яке відповідає тестовій статистиці, є нижчим за певний рівень значущості , ви можете відхилити нульову гіпотезу та зробити висновок, що досліджувана змінна не відповідає гіпотетичному розподілу.

У наступному прикладі показано, як на практиці виконати G-тест на відповідність.

Приклад: тест G на відповідність

Біолог стверджує, що в певній місцевості існує рівна частка трьох видів черепах. Щоб перевірити це твердження, незалежний дослідник підраховує кількість кожного типу видів і знаходить наступне:

  • Вид А: 80
  • Вид B: 125
  • Вид C: 95

Незалежний дослідник може використати наступні кроки, щоб виконати G-тест на відповідність, щоб визначити, чи відповідають дані, які вона зібрала, твердженням біолога.

Крок 1: Сформулюйте нульову та альтернативну гіпотези.

Дослідник виконає G-тест відповідності, використовуючи такі припущення:

  • H 0 : у цій місцевості існує рівна частка трьох видів черепах.
  • H A : у цій місцевості не існує рівної частки трьох видів черепах.

Крок 2: Обчисліть статистику тесту.

Формула для розрахунку тестової статистики така:

G=2 * Σ[O * ln(O/E)]

У цьому прикладі загалом спостерігається 300 черепах. Якби була рівна частка кожного виду, ми очікували б спостерігати 100 черепах кожного виду. Отже, ми можемо розрахувати статистику тесту наступним чином:

G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337

Крок 3: Обчисліть p-значення тестової статистики.

Відповідно до калькулятора хі-квадрат до P-value , p-value, пов’язане зі статистикою тесту 10,337 і #categories-1 = 3-1 = 2 ступені свободи, становить 0,005693 .

Оскільки це p-значення менше 0,05, дослідник відхилив би нульову гіпотезу. Це означає, що вона має достатньо доказів, щоб стверджувати, що рівна частка кожного виду черепах не існує в цій конкретній території.

Бонус: тест G на відповідність R

Ви можете використовувати функцію Gtest() із пакета DescTools, щоб швидко виконати G-тест на відповідність у R.

Наступний код показує, як виконати G-тест для попереднього прикладу:

 #load the DescTools library
library (DescTools)

#perform the G-test 
GTest(x = c(80, 125, 95), #observed values
      p = c(1/3, 1/3, 1/3), #expected proportions
      correct=" none ")

	Log likelihood ratio (G-test) goodness of fit test

data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693

Зауважте, що статистика тесту G становить 10,337 , а відповідне значення p — 0,005693 . Оскільки це p-значення менше 0,05, ми б відхилили нульову гіпотезу.

Це відповідає результатам, які ми обчислили вручну.

Додаткові ресурси

Не соромтеся використовувати цей калькулятор G-тесту відповідності, щоб автоматично виконувати G-тест для будь-якого набору даних.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *