G перевірка відповідності: визначення + приклад
У статистиці тест G на відповідність використовується для визначення того, чи відповідає категоріальна змінна гіпотетичному розподілу.
Цей тест є альтернативою тесту відповідності хі-квадрат і часто використовується, коли в даних присутні викиди або коли дані, з якими ви працюєте, надзвичайно великі.
G-тест відповідності використовує такі нульові та альтернативні гіпотези:
- H 0 : змінна відповідає гіпотетичному розподілу.
- H A : Змінна не відповідає гіпотетичному розподілу.
Статистика тесту розраховується наступним чином:
G=2 * Σ[O * ln(O/E)]
золото:
- O: число, яке спостерігається в клітинці
- E: очікуване число в клітинці
Якщо p-значення, яке відповідає тестовій статистиці, є нижчим за певний рівень значущості , ви можете відхилити нульову гіпотезу та зробити висновок, що досліджувана змінна не відповідає гіпотетичному розподілу.
У наступному прикладі показано, як на практиці виконати G-тест на відповідність.
Приклад: тест G на відповідність
Біолог стверджує, що в певній місцевості існує рівна частка трьох видів черепах. Щоб перевірити це твердження, незалежний дослідник підраховує кількість кожного типу видів і знаходить наступне:
- Вид А: 80
- Вид B: 125
- Вид C: 95
Незалежний дослідник може використати наступні кроки, щоб виконати G-тест на відповідність, щоб визначити, чи відповідають дані, які вона зібрала, твердженням біолога.
Крок 1: Сформулюйте нульову та альтернативну гіпотези.
Дослідник виконає G-тест відповідності, використовуючи такі припущення:
- H 0 : у цій місцевості існує рівна частка трьох видів черепах.
- H A : у цій місцевості не існує рівної частки трьох видів черепах.
Крок 2: Обчисліть статистику тесту.
Формула для розрахунку тестової статистики така:
G=2 * Σ[O * ln(O/E)]
У цьому прикладі загалом спостерігається 300 черепах. Якби була рівна частка кожного виду, ми очікували б спостерігати 100 черепах кожного виду. Отже, ми можемо розрахувати статистику тесту наступним чином:
G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337
Крок 3: Обчисліть p-значення тестової статистики.
Відповідно до калькулятора хі-квадрат до P-value , p-value, пов’язане зі статистикою тесту 10,337 і #categories-1 = 3-1 = 2 ступені свободи, становить 0,005693 .
Оскільки це p-значення менше 0,05, дослідник відхилив би нульову гіпотезу. Це означає, що вона має достатньо доказів, щоб стверджувати, що рівна частка кожного виду черепах не існує в цій конкретній території.
Бонус: тест G на відповідність R
Ви можете використовувати функцію Gtest() із пакета DescTools, щоб швидко виконати G-тест на відповідність у R.
Наступний код показує, як виконати G-тест для попереднього прикладу:
#load the DescTools library library (DescTools) #perform the G-test GTest(x = c(80, 125, 95), #observed values p = c(1/3, 1/3, 1/3), #expected proportions correct=" none ") Log likelihood ratio (G-test) goodness of fit test data: c(80, 125, 95) G = 10.337, X-squared df = 2, p-value = 0.005693
Зауважте, що статистика тесту G становить 10,337 , а відповідне значення p — 0,005693 . Оскільки це p-значення менше 0,05, ми б відхилили нульову гіпотезу.
Це відповідає результатам, які ми обчислили вручну.
Додаткові ресурси
Не соромтеся використовувати цей калькулятор G-тесту відповідності, щоб автоматично виконувати G-тест для будь-якого набору даних.