Простое объяснение статистической и практической важности
Статистическая гипотеза – это предположение о параметре совокупности . Например, мы можем предположить, что средний рост мужчины в определенном округе составляет 68 дюймов. Гипотеза относительно роста является статистической гипотезой , а истинный средний рост мужчины в Соединенных Штатах является параметром населения .
Проверка гипотезы — это формальный статистический тест, который мы используем, чтобы отвергнуть или не отвергнуть статистическую гипотезу. Чтобы выполнить проверку гипотезы, мы получаем случайную выборку из совокупности и определяем, вероятно ли, что данные в выборке имели место, учитывая, что нулевая гипотеза действительно верна.
Если выборочные данные достаточно маловероятны согласно этой гипотезе, то мы можем отвергнуть нулевую гипотезу и заключить, что эффект существует.
Способ определения того, являются ли выборочные данные «достаточно маловероятными», предполагая, что ноль верен, состоит в том, чтобы установить определенный уровень значимости (обычно выбираемый равным 0,01, 0,05 или 0,10), а затем проверить, меньше ли p-значение проверки гипотезы. чем этот уровень значимости.
Если значение p меньше уровня значимости, то мы говорим, что результаты статистически значимы . Это просто означает, что определенный эффект существует, но это не обязательно означает, что этот эффект действительно практичен в реальном мире. Результаты могут быть статистически значимыми, но не иметь практической значимости .
Связанный: объяснение значений P и статистической значимости.
Практическая значимость
Проверка гипотезы может дать статистически значимые результаты, несмотря на небольшой размер эффекта. Существует два основных способа, с помощью которых малые размеры эффекта могут привести к низким (и, следовательно, статистически значимым) значениям p:
1. Вариабельность выборочных данных очень низкая. Когда данные вашей выборки имеют низкую изменчивость, проверка гипотезы способна дать более точные оценки эффекта совокупности, позволяя тесту обнаружить даже небольшие эффекты.
Например, предположим, что мы хотим выполнить независимый двухвыборочный t-тест для следующих двух выборок, которые показывают результаты тестов 20 учащихся из двух разных школ, чтобы определить, значительно ли различаются средние результаты тестов между школами:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
Среднее значение образца 1 составляет 85,55 , а среднее значение образца 2 — 86,40 . Когда мы выполняем независимый двухвыборочный t-тест, оказывается, что статистика теста равна -5,3065 , а соответствующее значение p составляет <0,0001 . Разница между результатами испытаний статистически значима.
Разница между средними результатами тестов для этих двух выборок составляет всего 0,85 , но низкая вариативность результатов тестов для каждой школы приводит к статистически значимому результату. Обратите внимание, что стандартное отклонение оценок составляет 0,51 для образца 1 и 0,50 для образца 2.
Именно эта низкая вариабельность позволила тесту гипотезы обнаружить небольшую разницу между оценками и сделать различия статистически значимыми.
Основная причина, по которой низкая вариабельность может привести к статистически значимым выводам, заключается в том, что статистика t- критерия для независимого двухвыборочного t-критерия рассчитывается следующим образом:
статистика теста t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
где s 2 1 и s 2 2 указывают выборочное изменение для образца 1 и образца 2 соответственно. Обратите внимание: когда эти два числа малы, целочисленный знаменатель статистики t- теста мал.
А если разделить на маленькое число, то получится большое число. Это означает, что статистика t- критерия будет большой, а соответствующее значение p будет небольшим, что приведет к статистически значимым результатам.
2. Размер выборки очень велик. Чем больше размер выборки, тем выше статистическая мощность проверки гипотезы, что позволяет обнаружить даже небольшие эффекты. Это может привести к статистически значимым результатам, несмотря на небольшие эффекты, которые могут не иметь практического значения.
Например, предположим, что мы хотим выполнить независимый двухвыборочный t-тест для следующих двух выборок, которые показывают результаты тестов 20 учащихся из двух разных школ, чтобы определить, значительно ли различаются средние результаты тестов между школами:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Если мы создадим коробчатую диаграмму для каждого образца, чтобы отобразить распределение оценок, мы увидим, что они выглядят очень похоже:
Среднее значение образца 1 составляет 90,65 , а среднее значение образца 2 — 90,75 . Стандартное отклонение для образца 1 составляет 2,77 , а стандартное отклонение для образца 2 — 2,78 . Когда мы выполняем независимый двухвыборочный t-тест, оказывается, что статистика теста равна -0,113 , а соответствующее значение p равно 0,91 . Разница между средними баллами тестов не является статистически значимой.
Однако представьте, что размеры выборок обеих выборок равны 200 . В этом случае независимый двухвыборочный t-критерий покажет, что статистика теста равна -1,97 , а соответствующее значение p чуть ниже 0,05 . Разница между средними баллами тестов статистически значима.
Основная причина, по которой большие размеры выборки могут привести к статистически значимым выводам, снова восходит к статистике Стьюдента для независимого двухвыборочного t-критерия Стьюдента:
статистика теста t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
Обратите внимание, что когда n 1 и n 2 малы, целочисленный знаменатель статистики t -теста мал. А если разделить на маленькое число, то получится большое число. Это означает, что статистика t- критерия будет большой, а соответствующее значение p будет небольшим, что приведет к статистически значимым результатам.
Используйте экспертные знания в предметной области для оценки практической важности.
Чтобы определить, является ли статистически значимый результат проверки гипотезы практически значимым, часто необходима предметная экспертиза.
В предыдущих примерах, когда мы проверяли разницу между результатами тестов в двух школах, было бы полезно воспользоваться опытом кого-то, кто работает в школах или проводит тесты такого типа, чтобы помочь нам определить, соответствует ли средняя разница в 1 балл. точка существует или нет. имеет практическое значение.
Например, средняя разница в 1 балл может быть статистически значимой на уровне альфа = 0,05, но означает ли это, что школа с наименьшими баллами должна принять программу, которую школа с наивысшими баллами использует выше? Или это повлечет за собой слишком большие административные расходы и будет слишком дорогостоящим/слишком быстрым в реализации?
Тот факт, что существует статистически значимая разница в результатах тестов между двумя школами, не означает, что размер эффекта этой разницы достаточно велик, чтобы вызвать какие-то изменения в системе образования.
Использование доверительных интервалов для оценки практической значимости
Еще одним полезным инструментом для определения практической значимости является доверительный интервал . Доверительный интервал дает нам диапазон значений, в пределах которого, скорее всего, находится истинный параметр популяции.
Например, давайте вернемся к примеру сравнения разницы в результатах тестов между двумя школами. Директор может заявить, что для того, чтобы школа приняла новую программу, необходима разница в среднем балле не менее 5 баллов.
В одном исследовании мы видим, что средняя разница между результатами тестов составляет 8 баллов. Однако доверительный интервал вокруг этого среднего значения может составлять [4, 12], что указывает на то, что 4 может быть истинной разницей между средними результатами теста. В этом случае директор может сделать вывод, что школа не будет менять программу, поскольку доверительный интервал указывает на то, что истинная разница может быть меньше 5.
Однако в другом исследовании мы видим, что средняя разница между результатами тестов снова составляет 8 баллов, но доверительный интервал вокруг среднего может составлять [6, 10]. Поскольку этот интервал не содержит 5 , директор, скорее всего, придет к выводу, что истинная разница между результатами тестов больше 5, и, таким образом, решит, что имеет смысл изменить программу.
Заключение
В заключение, вот что мы узнали:
- Статистическая значимость указывает на наличие эффекта, основанного на определенном уровне значимости.
- Практическая важность заключается в том, имеет ли этот эффект практические последствия в реальном мире.
- Мы используем статистический анализ для определения статистической значимости и экспертные знания в предметной области для оценки практической значимости.
- Небольшие размеры эффекта могут давать небольшие значения p, когда (1) изменчивость выборочных данных очень мала и когда (2) размер выборки очень велик.
- Установив минимальный размер эффекта перед проверкой гипотезы, мы сможем лучше оценить, действительно ли результат проверки гипотезы (даже если он статистически значим) практичен в реальном мире.
- Доверительные интервалы могут быть полезны при определении практической значимости. Если минимальный размер эффекта не находится в пределах доверительного интервала, то результаты могут быть практически значимыми.