Каков процент ошибок на семью?
При проверке гипотез всегда существует частота ошибок I рода, которая говорит нам о вероятности отклонения нулевой гипотезы, которая на самом деле верна. Другими словами, это вероятность получения «ложноположительного результата», то есть когда мы утверждаем, что существует статистически значимый эффект, тогда как на самом деле его нет и нет.
Когда мы проводим проверку гипотез, частота ошибок типа I равна уровню значимости (α), который обычно выбирается равным 0,01, 0,05 или 0,10. Однако когда мы запускаем несколько тестов гипотез одновременно, вероятность получения ложноположительного результата возрастает.
Например, представьте, что мы бросаем 20-гранный кубик. Вероятность того, что на кубике выпадет «1», составляет всего 5%. Но если вы бросите два таких кубика одновременно, вероятность того, что на одном из них выпадет «1», увеличится до 9,75%. Если мы бросим пять кубиков одновременно, вероятность увеличится до 22,6%.
Чем больше кубиков мы бросаем, тем выше вероятность того, что на одном из кубиков выпадет 1. Аналогично, если мы запускаем несколько тестов гипотез одновременно, используя уровень значимости 0,05, вероятность того, что мы получим ложноположительный результат, увеличится за пределы 0,05. 0,05.
Как оценить частоту ошибок на семью
Формула для оценки частоты ошибок на семью выглядит следующим образом:
Частота ошибок на семейство = 1 – (1-α) n
Золото:
- α: уровень значимости для проверки одной гипотезы.
- n: Общее количество тестов
Например, предположим, что мы выполняем 5 различных сравнений, используя уровень альфа α = 0,05. Коэффициент ошибок на семью будет рассчитываться следующим образом:
Коэффициент ошибок на семейство = 1 – (1-α) c = 1 – (1-.05) 5 = 0,2262 .
Другими словами, вероятность получения ошибки I рода хотя бы при одной из проверок гипотезы превышает 22%!
Как контролировать уровень ошибок в семье
Существует несколько методов, которые можно использовать для контроля частоты ошибок по семействам, в том числе:
1. Поправка Бонферрони.
Отрегулируйте значение α, используемое для оценки значимости, так, чтобы:
α новый = α старый / n
Например, если мы выполним 5 различных сравнений, используя альфа-уровень α = 0,05, то с использованием поправки Бонферрони наш новый альфа-уровень будет:
α новый = α старый / n = 0,05/5 = 0,01 .
2. Поправка Сидака.
Отрегулируйте значение α, используемое для оценки значимости, так, чтобы:
α новый = 1 – (1-α старый ) 1/n
Например, если мы выполним 5 различных сравнений, используя альфа-уровень α = 0,05, то с использованием поправки Сидака наш новый альфа-уровень будет:
α новый = 1 – (1-α старый ) 1/n = 1 – (1-05) 1/5 = 0,010206 .
3. Поправка Бонферрони-Холма.
Эта процедура работает следующим образом:
- Используйте поправку Бонферрони для расчета α new = α old / n.
- Выполните каждую проверку гипотезы и упорядочите значения p всех тестов от наименьшего к наибольшему.
- Если первое значение p больше или равно α new , остановите процедуру. Ни одно значение p не является значимым.
- Если первое значение p меньше α new , то оно значимо. Теперь сравните второе значение p с α new . Если оно больше или равно α new , остановите процедуру. Никакие другие значения p не являются значимыми.
Используя одну из этих поправок на уровень значимости, мы можем значительно снизить вероятность совершения ошибки I рода в семействе проверок гипотез.