Що таке припущення нормальності в статистиці?
Багато статистичних тестів спираються на те, що називається припущенням нормальності .
Ця гіпотеза стверджує, що якщо ми збираємо багато незалежних випадкових вибірок із сукупності та обчислюємо цікаве значення (наприклад , вибіркове середнє ), а потім створюємо гістограму для візуалізації розподілу вибіркових середніх, ми повинні спостерігати ідеальну дзвоноподібну криву .
Багато статистичних методів роблять це припущення щодо даних, зокрема:
1. Один вибірковий t-тест : припускається, що вибіркові дані розподілені нормально.
2. T-критерій двох вибірок : передбачається, що дві вибірки розподілені нормально.
3. ANOVA : передбачається, що залишки моделі нормально розподілені.
4. Лінійна регресія : передбачається, що модельні залишки розподілені нормально.
Якщо це припущення не виконується, результати цих тестів стають ненадійними, і ми не можемо впевнено узагальнити наші висновки, зроблені на основі вибірок даних, на загальну сукупність . Ось чому важливо перевірити, чи виконується ця гіпотеза.
Є два поширених способи перевірити, чи виконується це припущення про нормальність:
1. Візуалізуйте нормальність
2. Виконайте формальний статистичний тест
У наступних розділах пояснюється конкретні графіки, які можна створити, і конкретні статистичні тести, які можна виконати для перевірки нормальності.
Візуалізуйте нормальність
Швидкий і неформальний спосіб перевірити, чи набір даних розподілено нормально, – це створити гістограму або графік QQ.
1. Гістограма
Якщо гістограма набору даних має приблизно форму дзвона, швидше за все, дані розподілені нормально.
2. QQLand
Діаграма QQ, скорочення від «квантиль-квантиль», — це тип графіка, який відображає теоретичні квантилі вздовж осі абсцис (тобто де були б ваші дані, якби вони відповідали нормальному розподілу) і квантилі зразків вздовж осі у. (тобто де фактично знаходяться ваші дані).
Якщо значення даних йдуть по приблизно прямій лінії, що утворює кут 45 градусів, то дані вважаються нормально розподіленими.
Виконайте формальний статистичний тест
Ви також можете виконати формальний статистичний тест, щоб визначити, чи набір даних розподілений нормально.
Якщо p-значення тесту нижче певного рівня значущості (наприклад, α = 0,05), то у вас є достатньо доказів того, що дані не розподілені нормально.
Існує три статистичні тести, які зазвичай використовуються для перевірки нормальності:
1. Тест Жарке-Бера
- Як виконати тест Жарке-Бера в Excel
- Як виконати тест Жарке-Бера в R
- Як виконати тест Jarque-Bera в Python
2. Тест Шапіро-Вілка
3. Тест Колмогорова-Смирнова
- Як виконати тест Колмогорова-Смирнова в Excel
- Як виконати пробу Колмогорова-Смирнова в Р
- Як виконати тест Колмогорова-Смирнова на Python
Що робити, якщо порушується припущення про нормальність
Якщо виявиться, що ваші дані розподіляються неправильно, у вас є два варіанти:
1. Перетворення даних.
Один із варіантів — просто трансформувати дані, щоб зробити їх більш нормальним розподілом. Загальні перетворення включають:
- Перетворення журналу: перетворює дані з y на log(y) .
- Перетворення квадратного кореня: перетворює дані з y на √y
- Перетворення кубічного кореня: перетворення даних з y на y 1/3
- Перетворення Бокса-Кокса: перетворення даних за допомогою процедури Бокса-Кокса
Виконуючи ці перетворення, розподіл значень даних, як правило, стає більш нормально розподіленим.
2. Виконайте непараметричний тест
Статистичні тести, які роблять припущення нормальності, називаються параметричними тестами . Але існує також сімейство так званих непараметричних тестів, які не роблять це припущення нормальним.
Якщо виявиться, що ваші дані розподілені неправильно, ви можете просто виконати непараметричний тест. Ось кілька непараметричних версій поширених статистичних тестів:
Параметричне тестування | Непараметричний еквівалент |
---|---|
Зразок t тесту | Зразок рейтингового тесту Вілкоксона |
Двовибірковий t-тест | U-тест Манна-Уітні |
Т-критерій парних вибірок | Два зразки тесту рангового підпису Вілкоксона |
Односторонній дисперсійний аналіз | Тест Краскела–Уолліса |
Кожен із цих непараметричних тестів дає змогу виконати статистичний тест, не задовольняючи припущення про нормальність.
Додаткові ресурси
Чотири гіпотези, сформульовані в тесті T
Чотири припущення лінійної регресії
Чотири гіпотези ANOVA