G-критерий согласия: определение + пример


В статистике G-критерий согласия используется, чтобы определить, соответствует ли категориальная переменная гипотетическому распределению.

Этот тест является альтернативой критерию согласия хи-квадрат и часто используется, когда в данных присутствуют выбросы или когда данные, с которыми вы работаете, чрезвычайно велики.

В G-тесте согласия используются следующие нулевые и альтернативные гипотезы:

  • H 0 : переменная следует гипотетическому распределению.
  • H A : Переменная не соответствует гипотетическому распределению.

Статистика теста рассчитывается следующим образом:

G=2 * Σ[O * ln(O/E)]

Золото:

  • O: число, наблюдаемое в ячейке
  • E: ожидаемое число в ячейке.

Если значение p, соответствующее тестовой статистике, ниже определенного уровня значимости , то вы можете отвергнуть нулевую гипотезу и сделать вывод, что изучаемая переменная не соответствует предполагаемому распределению.

В следующем примере показано, как на практике выполнить G-критерий согласия.

Пример: G-критерий согласия

Биолог утверждает, что на определенной территории существует равная пропорция трех видов черепах. Чтобы проверить это утверждение, независимый исследователь подсчитал количество каждого типа видов и обнаружил следующее:

  • Вид А: 80
  • Вид Б: 125
  • Вид С: 95

Независимый исследователь может использовать следующие шаги для проведения G-критерия согласия, чтобы определить, соответствуют ли собранные им данные утверждениям биолога.

Шаг 1: Сформулируйте нулевую и альтернативную гипотезы.

Исследователь проведет G-критерий согласия, используя следующие предположения:

  • H 0 : На этой территории обитает поровну три вида черепах.
  • Х А : В этом районе не существует равного количества трех видов черепах.

Шаг 2: Рассчитайте статистику теста.

Формула расчета статистики теста:

G=2 * Σ[O * ln(O/E)]

В этом примере всего наблюдалось 300 черепах. Если бы доля каждого вида была равна, мы бы ожидали увидеть по 100 черепах каждого вида. Итак, мы можем рассчитать статистику теста следующим образом:

G = 2 * [80*ln(80/100) + 125*ln(125/100) + 95*ln(95/100)] = 10,337

Шаг 3: Рассчитайте p-значение тестовой статистики.

Согласно калькулятору преобразования хи-квадрат в значение P , значение p, связанное со статистикой теста 10,337 и #categories-1 = 3-1 = 2 степенями свободы, составляет 0,005693 .

Поскольку это значение p меньше 0,05, исследователь отвергнет нулевую гипотезу. Это означает, что у нее достаточно доказательств, чтобы сказать, что в этой конкретной области не существует равной доли черепах каждого вида.

Бонус: G-тест на соответствие R

Вы можете использовать функцию Gtest() из пакета DescTools, чтобы быстро выполнить G-тест соответствия в R.

Следующий код показывает, как выполнить G-тест для предыдущего примера:

 #load the DescTools library
library (DescTools)

#perform the G-test 
GTest(x = c(80, 125, 95), #observed values
      p = c(1/3, 1/3, 1/3), #expected proportions
      correct=" none ")

	Log likelihood ratio (G-test) goodness of fit test

data: c(80, 125, 95)
G = 10.337, X-squared df = 2, p-value = 0.005693

Обратите внимание, что статистика G-теста равна 10,337 , а соответствующее значение p — 0,005693 . Поскольку это значение p меньше 0,05, мы бы отвергли нулевую гипотезу.

Это соответствует результатам, которые мы рассчитали вручную.

Дополнительные ресурсы

Не стесняйтесь использовать этот калькулятор G-теста на соответствие, чтобы автоматически выполнить G-тест для любого набора данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *