Тест діксона q: визначення + приклад
Q-тест Діксона , який часто називають просто Q-тестом , є статистичним тестом, який використовується для виявлення викидів у наборі даних.
Статистика тесту Q:
Q = |x a – xb | /Р
де x a — підозрюваний викид, x b — найближча точка даних до x a , а R — діапазон набору даних. У більшості випадків x a є максимальним значенням набору даних, але воно також може бути мінімальним значенням.
Важливо зазначити, що тест Q зазвичай виконується на невеликих наборах даних і передбачає, що дані розподілені нормально. Також важливо зазначити, що тест Q слід виконувати лише один раз для певного набору даних.
Як виконати тест Dixon Q вручну
Припустимо, що ми маємо наступний набір даних:
1, 3, 5, 7, 8, 9, 13, 25
Ми можемо слідувати стандартній п’ятиетапній процедурі перевірки гіпотези, щоб вручну виконати Q-тест Діксона, щоб визначити, чи є максимальне значення в цьому наборі даних викидом:
Крок 1. Висловіть гіпотези.
Нульова гіпотеза (H0): максимум не є викидом.
Альтернативна гіпотеза: (Ха): максимальне значення є викидом.
Крок 2. Визначте рівень значущості для використання.
Загальні варіанти: 0,1, 0,05 і 0,01. Для цього прикладу ми використаємо рівень значущості 0,05.
Крок 3. Знайти статистику тесту.
Q = |x a – xb | /Р
У цьому випадку наше максимальне значення становить x a = 25, наше наступне найближче значення – x b = 13, а наш діапазон – R = 25 – 1 = 24.
Отже, Q = |25 – 13| / 24 = 0,5 .
Потім ми можемо порівняти цю тестову статистику з критичними значеннями тесту Q, які наведено нижче для різних розмірів вибірки (n) і рівнів довіри:
n 90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
11 0,392 0,444 0,542
12 0,376 0,426 0,522
13 0,361 0,410 0,503
14 0,349 0,396 0,488
15 0,338 0,384 0,475
16 0,329 0,374 0,463
17 0,320 0,365 0,452
18 0,313 0,356 0,442
19 0,306 0,349 0,433
20 0,300 0,342 0,425
21 0,295 0,337 0,418
22 0,290 0,331 0,411
23 0,285 0,326 0,404
24 0,281 0,321 0,399
25 0,277 0,317 0,393
26 0,273 0,312 0,388
27 0,269 0,308 0,384
28 0,266 0,305 0,380
29 0,263 0,301 0,376
30 0,260 0,290 0,372
Критичне значення для вибірки 8 і рівня довіри 95% становить 0,526 .
Крок 4. Відкинути або не відхилити нульову гіпотезу.
Оскільки наша тестова статистика Q (0,5) менше критичного значення (0,526), ми не можемо відхилити нульову гіпотезу.
Крок 5. Інтерпретація результатів.
Оскільки нам не вдалося відхилити нульову гіпотезу, ми робимо висновок, що максимальне значення 25 не є викидом у цьому наборі даних.
Як виконати Q-тест Діксона в R
Щоб виконати Q-тест Діксона для того самого набору даних у R, ми можемо використати функцію dixon.test() із бібліотеки викидів , яка використовує такий синтаксис:
dixon.test(дані, , тип = 10, протилежність = FALSE)
- дані: числовий вектор значень даних
- тип: тип формули для виконання статистичного тесту Q. Встановіть значення 10, щоб використовувати формулу, описану раніше.
- протилежне: якщо FALSE, перевірка визначає, чи є максимальне значення викидом. Якщо TRUE, тест визначає, чи є мінімальне значення викидом. За замовчуванням це FALSE.
Примітка . Знайдіть повну документацію для dixon.test() тут .
Наступний код демонструє, як виконати Q-тест Діксона, щоб визначити, чи є максимальне значення в наборі даних викидом.
#load the outliers library library(outliers) #create data data <- c(1, 3, 5, 7, 8, 9, 13, 25) #conduct Dixon's Q Test dixon.test(data, type = 10) # Dixon test for outliers # #data:data #Q = 0.5, p-value = 0.06913 #alternative hypothesis: highest value 25 is an outlier
З результату ми бачимо, що тестова статистика Q = 0,5 , а відповідне p-значення становить 0,06913 . Таким чином, ми не можемо відхилити нульову гіпотезу на рівні значущості 0,05 і робимо висновок, що 25 не є викидом. Це відповідає результату, який ми отримали вручну.