Руководство по процедуре бенджамини-хохберга
Каждый раз, когда вы проводите статистический тест, вполне возможно, что вы по чистой случайности получите значение p меньше 0,05, даже если ваша нулевая гипотеза верна.
Например, предположим, вы хотите знать, имеет ли определенное растение среднюю высоту более 10 дюймов. Ваши нулевая и альтернативная гипотезы для проверки будут следующими:
H 0 : μ = 10 дюймов
H A : мкм > 10 дюймов
Чтобы проверить эту гипотезу, вы можете взять случайную выборку из 20 растений для измерения. Несмотря на то, что истинная средняя высота этого вида растений составляет 10 дюймов, вполне возможно, что вы выбрали образец из 20 необычно высоких растений, что приведет вас к отклонению нулевой гипотезы.
Даже если нулевая гипотеза была верна (средняя высота этого растения на самом деле составляла 10 дюймов), вы ее отвергли. В статистике мы называем это «ложным открытием». Вы утверждаете, что сделали открытие – «значительный результат» – но на самом деле это неправда.
Теперь представьте, что вы одновременно проводите 100 статистических тестов. При использовании альфа-уровня 0,05 вероятность ложного открытия при отдельном тесте составляет всего 5 %, но поскольку вы проводите такое большое количество тестов, можно ожидать, что только около 5 из 100 приведут к ложным открытиям.
В современном мире ложные открытия могут стать распространенной проблемой, поскольку технологии позволяют исследователям проводить сотни или даже тысячи статистических тестов одновременно.
Например, медицинские исследователи могут проводить статистические тесты на десятках тысяч генов одновременно. Даже если уровень ложных обнаружений составляет всего 5%, это означает, что сотни тестов могут привести к ложным открытиям.
Один из способов контролировать частоту ложных открытий — использовать так называемую процедуру Бенджамини-Хохберга.
Процедура Бенджамини-Хохберга
Процедура Бенджамини-Хохберга работает следующим образом:
Шаг 1. Проведите все статистические тесты и найдите значение p для каждого теста.
Шаг 2. Проранжируйте p-значения в порядке убывания, присвоив каждому из них ранг: наименьшее значение имеет ранг 1, следующее наименьшее значение имеет ранг 2 и т. д.
Шаг 3. Рассчитайте критическое значение Бенджамини-Хохберга для каждого значения p, используя формулу (i/m)*Q.
Золото:
я = ранг значения p
m = общее количество тестов
Q = выбранный вами уровень ложного обнаружения
Шаг 4: Найдите наибольшее значение p, меньшее критического значения. Обозначьте каждое значение p, меньшее этого значения p, как значимое.
Следующий пример иллюстрирует, как выполнить эту процедуру с конкретными значениями.
Пример
Допустим, исследователи хотят определить, связаны ли 20 различных переменных с болезнями сердца. Они выполняют 20 отдельных статистических тестов одновременно и получают значение p для каждого теста. В следующей таблице показаны значения p для каждого теста, перечисленные в порядке убывания.
Предположим, исследователи готовы принять уровень ложных открытий в 20%. Итак, чтобы вычислить критическое значение Бенджамини-Хохберга для каждого значения p, мы можем использовать следующую формулу: (i/20)*0,2, где i = ранг значения p.
В следующей таблице показано критическое значение Беньямини-Хохберга для каждого отдельного значения p:
Тест с наибольшим значением p ниже критического значения Бенджамини-Хохберга — это переменная № 11, которая имеет значение p 0,039 и критическое значение BH 0,040.
Таким образом, этот тест и все тесты с меньшим значением p будут считаться значимыми.
Обратите внимание, что хотя переменные № 17 и № 3 не имели p-значений, меньших их критических значений BH, они все равно считаются значимыми, поскольку имеют меньшие p-значения, чем переменная № 11.
Как выбрать уровень ложного обнаружения
Одним из наиболее важных шагов в процедуре Бенджамини-Хохберга является выбор частоты ложного открытия. Прежде чем собирать данные или проводить статистические тесты, вам следует выбрать уровень ложного обнаружения.
Как правило, на исследовательском этапе анализа вы выполняете большое количество статистических тестов, а затем проводите другие тесты для дальнейшего изучения результатов.
Если последующее тестирование обходится недорого, вы можете рассмотреть возможность установки более высокого уровня ложных обнаружений, потому что даже если у вас будет несколько ложных обнаружений, вы, скорее всего, обнаружите эти ложные открытия при последующем тестировании.
Кроме того, если цена пропуска важного открытия высока, вы можете увеличить частоту ложных открытий, чтобы не пропустить ничего важного.
В зависимости от стоимости вашего исследования и важности не пропустить ни одного важного открытия, процент ложных открытий будет варьироваться от ситуации к ситуации.
Дополнительные ресурсы
Объяснение значений P и статистической значимости
Каков процент ошибок на семью?