Керівництво по процедурі бенджаміні-хохберга
Кожного разу, коли ви виконуєте статистичний тест, цілком можливо, що ви отримаєте значення p менше 0,05 випадково, навіть якщо ваша нульова гіпотеза вірна.
Наприклад, скажімо, ви хочете знати, чи середня висота певної рослини перевищує 10 дюймів. Ваші нульові та альтернативні гіпотези для перевірки будуть такими:
H 0 : μ = 10 дюймів
H A : μ > 10 дюймів
Щоб перевірити цю гіпотезу, ви можете піти і зібрати випадкову пробу з 20 рослин для вимірювання. Незважаючи на те, що справжня середня висота цього виду рослин становить 10 дюймів, цілком можливо, що ви вибрали зразок із 20 незвично високих рослин, що змусило вас відхилити нульову гіпотезу.
Навіть якщо нульова гіпотеза була вірною (середня висота цієї рослини насправді становила 10 дюймів), ви відкинули її. У статистиці ми називаємо це «помилковим відкриттям». Ви стверджуєте, що зробили відкриття — «значний результат», — але насправді це неправда.
А тепер уявіть, що ви виконуєте 100 статистичних тестів одночасно. Використовуючи альфа-рівень 0,05, існує лише 5% ймовірності помилкового відкриття за допомогою окремого тесту, але оскільки ви виконуєте таку велику кількість тестів, ви очікуєте, що лише приблизно 5 із 100 призведуть до помилкових відкриттів.
У сучасному світі помилкові відкриття можуть бути поширеною проблемою, оскільки технологія дозволила дослідникам виконувати сотні чи навіть тисячі статистичних тестів одночасно.
Наприклад, медичні дослідники можуть виконувати статистичні тести на десятках тисяч генів одночасно. Навіть якщо рівень помилкових відкриттів становить лише 5%, це означає, що сотні тестів можуть призвести до помилкових відкриттів.
Один із способів контролювати рівень помилкових відкриттів — це використовувати так звану процедуру Бенджаміні-Хохберга.
Процедура Бенджаміні-Хохберга
Процедура Бенджаміні-Хохберга працює наступним чином:
Крок 1. Виконайте всі статистичні тести та знайдіть значення p для кожного тесту.
Крок 2: ранжуйте p-значення в порядку спадання, призначаючи ранг кожному: найменше значення має ранг 1, наступне найменше має ранг 2 тощо.
Крок 3: Обчисліть критичне значення Бенджаміні-Хохберга для кожного p-значення, використовуючи формулу (i/m)*Q
золото:
i = ранг значення p
m = загальна кількість тестів
Q = вибраний вами рівень помилкових виявлень
Крок 4: Знайдіть найбільше значення p, менше критичного значення. Позначте кожне значення p, яке є меншим за це значення p, як значуще.
Наступний приклад ілюструє, як виконати цю процедуру з конкретними значеннями.
приклад
Скажімо, дослідники хочуть визначити, чи пов’язані 20 різних змінних із захворюваннями серця. Вони виконують 20 окремих статистичних тестів за раз і отримують значення p для кожного тесту. У наступній таблиці наведено p-значення для кожного тесту, перераховані в порядку спадання.
Припустімо, що дослідники готові погодитися на рівень помилкових відкриттів у 20%. Отже, щоб обчислити критичне значення Бенджаміні-Хохберга для кожного p-значення, ми можемо використати таку формулу: (i/20)*0,2, де i = ранг p-значення.
У наступній таблиці показано критичне значення Бенджаміні-Хохберга для кожного окремого p-значення:
Критерієм із найбільшим значенням p, нижчим за критичне значення Бенджаміні-Хохберга, є змінна №11, яка має значення p 0,039 і критичне значення BH 0,040.
Таким чином, цей тест і всі тести з меншим р-значенням будуть вважатися значущими.
Зауважте, що незважаючи на те, що змінні №17 і №3 не мали значення р, менші за критичні значення ЧН, вони все одно вважаються значущими, оскільки вони мають менші значення р, ніж змінна №11.
Як вибрати коефіцієнт помилкового виявлення
Одним із найважливіших кроків у процедурі Бенджаміні-Хохберга є вибір коефіцієнта помилкових відкриттів. Перш ніж збирати дані чи виконувати статистичні тести, вам слід вибрати рівень помилкових виявлень.
Як правило, ви виконуєте велику кількість статистичних тестів під час дослідницького етапу аналізу, після чого ви доповнюєте інші тести для подальшого вивчення своїх результатів.
Якщо подальше тестування недорого, ви можете розглянути можливість встановлення вищого рівня помилкових відкриттів, тому що навіть якщо у вас є кілька помилкових відкриттів, ви, швидше за все, виявите ці помилкові відкриття під час наступного тестування.
Крім того, якщо вартість пропуску важливого відкриття висока, ви можете збільшити рівень помилкових відкриттів, щоб не пропустити нічого важливого.
Залежно від вартості вашого дослідження та важливості не втратити жодних важливих знахідок, рівень помилкових відкриттів буде різним залежно від ситуації.
Додаткові ресурси
Пояснення значень P і статистичної значущості
Який рівень помилок на сім’ю?