G-критерий согласия: определение + пример
В статистике G-критерий согласия используется, чтобы определить, соответствует ли категориальная переменная гипотетическому распределению.
Этот тест является альтернативой критерию согласия хи-квадрат и часто используется, когда в данных присутствуют выбросы или когда данные, с которыми вы работаете, чрезвычайно велики.
В G-тесте согласия используются следующие нулевые и альтернативные гипотезы:
- H 0 : переменная следует гипотетическому распределению.
- H A : Переменная не соответствует гипотетическому распределению.
Статистика теста рассчитывается следующим образом:
G=2 * Σ[O * ln(O/E)]
Золото:
- O: число, наблюдаемое в ячейке
- E: ожидаемое число в ячейке.
Если значение p, соответствующее тестовой статистике, ниже определенного уровня значимости , то вы можете отвергнуть нулевую гипотезу и сделать вывод, что изучаемая переменная не соответствует предполагаемому распределению.
В следующем примере показано, как на практике выполнить G-критерий согласия.
Пример: G-критерий согласия
Биолог утверждает, что на определенной территории существует равная пропорция трех видов черепах. Чтобы проверить это утверждение, независимый исследователь подсчитал количество каждого типа видов и обнаружил следующее:
- Вид А: 80
- Вид Б: 125
- Вид С: 95
Независимый исследователь может использовать следующие шаги для проведения G-критерия согласия, чтобы определить, соответствуют ли собранные им данные утверждениям биолога.
Шаг 1: Сформулируйте нулевую и альтернативную гипотезы.
Исследователь проведет G-критерий согласия, используя следующие предположения:
- H 0 : На этой территории обитает поровну три вида черепах.
- Х А : В этом районе не существует равного количества трех видов черепах.
Шаг 2: Рассчитайте статистику теста.
Формула расчета статистики теста:
G=2 * Σ[O * ln(O/E)]
В этом примере всего наблюдалось 300 черепах. Если бы доля каждого вида была равна, мы бы ожидали увидеть по 100 черепах каждого вида. Итак, мы можем рассчитать статистику теста следующим образом:
G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337
Шаг 3: Рассчитайте p-значение тестовой статистики.
Согласно калькулятору преобразования хи-квадрат в значение P , значение p, связанное со статистикой теста 10,337 и #categories-1 = 3-1 = 2 степенями свободы, составляет 0,005693 .
Поскольку это значение p меньше 0,05, исследователь отвергнет нулевую гипотезу. Это означает, что у нее достаточно доказательств, чтобы сказать, что в этой конкретной области не существует равной доли черепах каждого вида.
Бонус: G-тест на соответствие R
Вы можете использовать функцию Gtest() из пакета DescTools, чтобы быстро выполнить G-тест соответствия в R.
Следующий код показывает, как выполнить G-тест для предыдущего примера:
#load the DescTools library library (DescTools) #perform the G-test GTest(x = c(80, 125, 95), #observed values p = c(1/3, 1/3, 1/3), #expected proportions correct=" none ") Log likelihood ratio (G-test) goodness of fit test data: c(80, 125, 95) G = 10.337, X-squared df = 2, p-value = 0.005693
Обратите внимание, что статистика G-теста равна 10,337 , а соответствующее значение p — 0,005693 . Поскольку это значение p меньше 0,05, мы бы отвергли нулевую гипотезу.
Это соответствует результатам, которые мы рассчитали вручную.
Дополнительные ресурсы
Не стесняйтесь использовать этот калькулятор G-теста на соответствие, чтобы автоматически выполнить G-тест для любого набора данных.