Что такое предположение нормальности в статистике?
Многие статистические тесты основаны на так называемом предположении нормальности .
Эта гипотеза утверждает, что если мы соберем множество независимых случайных выборок из совокупности и вычислим интересующее значение (например , выборочное среднее ), а затем создадим гистограмму для визуализации распределения выборочных средних, мы должны наблюдать идеальную колоколообразную кривую .
Многие статистические методы делают такое предположение о данных, в том числе:
1. Одновыборочный t-критерий : предполагается, что выборочные данные нормально распределены.
2. Двухвыборочный t-критерий : предполагается, что две выборки имеют нормальное распределение.
3. ANOVA : Предполагается, что остатки модели имеют нормальное распределение.
4. Линейная регрессия . Предполагается, что остатки модели имеют нормальное распределение.
Если это предположение не выполняется, результаты этих тестов становятся ненадежными, и мы не сможем с уверенностью обобщить наши выводы, сделанные на основе выборок данных, на генеральную совокупность в целом. Вот почему важно проверить, выполняется ли эта гипотеза.
Существует два распространенных способа проверить, выполняется ли это предположение о нормальности:
1. Визуализируйте нормальность
2. Проведите формальный статистический тест.
В следующих разделах описываются конкретные графики, которые вы можете создать, и конкретные статистические тесты, которые вы можете выполнить для проверки нормальности.
Визуализируйте нормальность
Быстрый и неформальный способ проверить, нормально ли распределен набор данных, — создать гистограмму или график QQ.
1. Гистограмма
Если гистограмма набора данных имеет примерно колоколообразную форму, вполне вероятно, что данные распределены нормально.
2. QQLand
График QQ, сокращение от «квантиль-квантиль», представляет собой тип графика, который отображает теоретические квантили по оси X (т. е. где были бы ваши данные, если бы они следовали нормальному распределению) и квантили выборок по оси Y. (т.е. где на самом деле находятся ваши данные).
Если значения данных следуют примерно прямой линии, образующей угол 45 градусов, то предполагается, что данные распределены нормально.
Проведите формальный статистический тест
Вы также можете выполнить формальный статистический тест, чтобы определить, является ли набор данных нормально распределенным.
Если значение p теста ниже определенного уровня значимости (например, α = 0,05), то у вас есть достаточно доказательств, чтобы сказать, что данные не распределены нормально.
Для проверки нормальности обычно используются три статистических теста:
1. Тест Харке-Бера
- Как выполнить тест Жарка-Бера в Excel
- Как выполнить тест Жарка-Бера в R
- Как выполнить тест Жарка-Бера на Python
2. Тест Шапиро-Уилка
3. Тест Колмогорова-Смирнова.
- Как выполнить тест Колмогорова-Смирнова в Excel
- Как выполнить тест Колмогорова-Смирнова в R
- Как выполнить тест Колмогорова-Смирнова в Python
Что делать, если предположение о нормальности нарушено
Если окажется, что ваши данные не распределены нормально, у вас есть два варианта:
1. Преобразуйте данные.
Один из вариантов — просто преобразовать данные, чтобы сделать их более нормально распределенными. Общие преобразования включают в себя:
- Преобразование журнала: преобразование данных из y в log(y) .
- Преобразование квадратного корня: преобразование данных из y в √y
- Преобразование корня куба: преобразование данных из y в y 1/3
- Преобразование Бокса-Кокса: преобразуйте данные с помощью процедуры Бокса-Кокса.
Выполняя эти преобразования, распределение значений данных в целом становится более нормально распределенным.
2. Выполните непараметрический тест.
Статистические тесты, которые делают предположение о нормальности, называются параметрическими тестами . Но существует также семейство так называемых непараметрических тестов, которые не делают предположения о нормальности.
Если окажется, что ваши данные не распределены нормально, вы можете просто выполнить непараметрический тест. Вот несколько непараметрических версий распространенных статистических тестов:
Параметрическое тестирование | Непараметрический эквивалент |
---|---|
Образец t-теста | Образец подписанного рангового теста Уилкоксона |
Двухвыборочный t-критерий | U-тест Манна-Уитни |
Парные выборки t-критерий | Два образца знакового рангового теста Уилкоксона |
Односторонний дисперсионный анализ | Тест Краскала-Уоллиса |
Каждый из этих непараметрических тестов позволяет провести статистический тест без соблюдения предположения о нормальности.
Дополнительные ресурсы
Четыре гипотезы, сформулированные в Т-тесте
Четыре предположения линейной регрессии
Четыре гипотезы ANOVA