Q-тест диксона: определение + пример


Q-тест Диксона , часто называемый просто Q-тестом , представляет собой статистический тест, используемый для обнаружения выбросов в наборе данных.

Статистика Q-теста:

Q = |x axb | /Р

где x a — предполагаемый выброс, x b — ближайшая точка данных к x a , а R — диапазон набора данных. В большинстве случаев x a — это максимальное значение набора данных, но оно также может быть минимальным значением.

Важно отметить, что тест Q обычно выполняется на небольших наборах данных и предполагает, что данные нормально распределены. Также важно отметить, что тест Q следует выполнять только один раз для данного набора данных.

Как выполнить тест Диксона Q вручную

Предположим, у нас есть следующий набор данных:

1, 3, 5, 7, 8, 9, 13, 25

Мы можем следовать стандартной пятиэтапной процедуре проверки гипотез, чтобы вручную выполнить тест Q Диксона, чтобы определить, является ли максимальное значение в этом наборе данных выбросом:

Шаг 1. Сформулируйте гипотезы.

Нулевая гипотеза (H0): максимум не является выбросом.

Альтернативная гипотеза: (Ха): Максимум — это выброс.

Шаг 2. Определите уровень значимости для использования.

Обычно выбираются значения 0,1, 0,05 и 0,01. Для этого примера мы будем использовать уровень значимости 0,05.

Шаг 3. Найдите статистику теста.

Q = |x axb | /Р

В этом случае наше максимальное значение — x a = 25, наше следующее ближайшее значение — x b = 13, а наш диапазон — R = 25 – 1 = 24.

Таким образом, Q = |25 – 13| / 24 = 0,5 .

Затем мы можем сравнить эту статистику теста с критическими значениями теста Q, которые показаны ниже для разных размеров выборки (n) и уровней достоверности:

п 90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
11 0,392 0,444 0,542
12 0,376 0,426 0,522
13 0,361 0,410 0,503
14 0,349 0,396 0,488
15 0,338 0,384 0,475
16 0,329 0,374 0,463
17 0,320 0,365 0,452
18 0,313 0,356 0,442
19 0,306 0,349 0,433
20 0,300 0,342 0,425
21 0,295 0,337 0,418
22 0,290 0,331 0,411
23 0,285 0,326 0,404
24 0,281 0,321 0,399
25 0,277 0,317 0,393
26 0,273 0,312 0,388
27 0,269 0,308 0,384
28 0,266 0,305 0,380
29 0,263 0,301 0,376
30 0,260 0,290 0,372

Критическое значение для выборки из 8 человек и уровня достоверности 95% составляет 0,526 .

Шаг 4. Отклонить или не отвергать нулевую гипотезу.

Поскольку наша тестовая статистика Q (0,5) меньше критического значения (0,526), мы не можем отвергнуть нулевую гипотезу.

Шаг 5. Интерпретируйте результаты.

Поскольку нам не удалось отвергнуть нулевую гипотезу, мы пришли к выводу, что максимальное значение 25 не является выбросом в этом наборе данных.

Как выполнить Q-тест Диксона в R

Чтобы выполнить Q-тест Диксона для того же набора данных в R, мы можем использовать функцию dixon.test() из библиотеки выбросов , которая использует следующий синтаксис:

dixon.test(данные, , тип = 10, напротив = ЛОЖЬ)

  • данные: числовой вектор значений данных.
  • тип: тип формулы, которая будет использоваться для выполнения статистического теста Q. Установите значение 10, чтобы использовать формулу, описанную ранее.
  • напротив: если ЛОЖЬ, тест определяет, является ли максимальное значение выбросом. Если TRUE, тест определяет, является ли минимальное значение выбросом. По умолчанию это ЛОЖЬ.

Примечание . Полную документацию по dixon.test() можно найти здесь .

Следующий код демонстрирует, как выполнить тест Q Диксона, чтобы определить, является ли максимальное значение в наборе данных выбросом.

 #load the outliers library
library(outliers)

#create data
data <- c(1, 3, 5, 7, 8, 9, 13, 25)

#conduct Dixon's Q Test
dixon.test(data, type = 10)

# Dixon test for outliers
#
#data:data
#Q = 0.5, p-value = 0.06913
#alternative hypothesis: highest value 25 is an outlier

Из результата мы видим, что статистика теста равна Q = 0,5 , а соответствующее значение p составляет 0,06913 . Таким образом, мы не можем отвергнуть нулевую гипотезу на уровне значимости 0,05 и прийти к выводу, что 25 не является выбросом. Это соответствует результату, полученному нами вручную.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *