Пояснення значень p і статистичної значущості
У статистиці p-значення зазвичай використовуються для перевірки гіпотез для t-тестів, тестів хі-квадрат, регресійного аналізу, дисперсійного аналізу та інших статистичних методів.
Незважаючи на те, що вони настільки поширені, люди часто інтерпретують значення p неправильно, що може призвести до помилок під час інтерпретації результатів аналізу чи дослідження.
У цій статті пояснюється, як розуміти та інтерпретувати p-значення чітким і практичним способом.
Перевірка гіпотези
Щоб зрозуміти p-значення, нам спочатку потрібно зрозуміти концепцію перевірки гіпотези .
Перевірка гіпотези — це формальний статистичний тест, який ми використовуємо, щоб відхилити або не відхилити гіпотезу. Наприклад, ми можемо висунути гіпотезу про те, що новий препарат, метод або процедура має певні переваги перед поточним препаратом, методом або процедурою.
Щоб перевірити це, ми можемо виконати перевірку гіпотези, де ми використовуємо нульову та альтернативну гіпотезу:
Нульова гіпотеза – немає ефекту чи різниці між новим і старим методами.
Альтернативна гіпотеза – існує ефект або відмінність між новим і старим методами.
P-значення вказує на те, наскільки достовірною є нульова гіпотеза, враховуючи вибіркові дані. Зокрема, якщо припустити, що нульова гіпотеза вірна, p-значення говорить нам про ймовірність отримання ефекту, щонайменше такого ж великого, як той, який ми фактично спостерігали у вибірці даних.
Якщо p-значення перевірки гіпотези досить низьке, ми можемо відхилити нульову гіпотезу. Зокрема, коли ми виконуємо перевірку гіпотези, нам потрібно вибрати рівень значущості з самого початку. Поширені варіанти рівнів значущості: 0,01, 0,05 і 0,10.
Якщо p-значення нижче нашого рівня значущості, то ми можемо відхилити нульову гіпотезу.
В іншому випадку, якщо p-значення дорівнює або перевищує наш рівень значущості, ми не зможемо відхилити нульову гіпотезу.
Як інтерпретувати значення P
Класичне визначення p-значення:
P-значення — це ймовірність спостереження статистичних даних вибірки, яка є принаймні такою ж екстремальною, як статистика вашої вибірки, враховуючи, що нульова гіпотеза вірна.
Наприклад, припустімо, що фабрика стверджує, що виробляє шини середньою вагою 200 фунтів. Аудитор припускає, що фактична середня вага шин, вироблених на цьому заводі, відрізняється на 200 фунтів. Тож він виконує перевірку гіпотези та виявляє, що p-значення тесту становить 0,04. Ось як інтерпретувати це p-значення:
Якщо фабрика справді виробляє шини із середньою вагою 200 фунтів, то 4% усіх аудитів досягнуть ефекту, який спостерігається у вибірці, або більше через помилку випадкової вибірки. Це говорить нам про те, що отримання зразків даних, отриманих аудитором, було б досить рідкісним явищем, якби фабрика справді виробляла шини із середньою вагою 200 фунтів.
Залежно від рівня значущості, використаного в цьому тесті гіпотези, аудитор, швидше за все, відхилить нульову гіпотезу про те, що фактична середня вага шин, вироблених на цьому заводі, справді становить 200 фунтів. Зразки даних, які він отримав під час аудиту, не дуже узгоджуються з нульовою гіпотезою.
Як не інтерпретувати значення P
Найбільша помилка щодо p-значень полягає в тому, що вони прирівнюються до ймовірності зробити помилку, відхиливши справжню нульову гіпотезу (так звану помилку типу I).
Є дві основні причини, чому p-значення не можуть відповідати частоті помилок:
1. Значення P обчислюються на основі припущення, що нульова гіпотеза вірна і що різниця між даними вибірки та нульовою гіпотезою є просто випадковою. Таким чином, p-значення не можуть визначити ймовірність того, що нульове значення є істинним чи хибним, оскільки воно на 100% істинне з точки зору розрахунків.
2. Хоча низьке значення p вказує на те, що ваші вибіркові дані є малоймовірними, якщо припустити, що нуль є істинним, значення p все одно не може сказати вам, який із наведених нижче випадків більш імовірний:
- Нуль є хибним
- Нульове значення вірно, але ви отримали дивний зразок
Порівняно з попереднім прикладом, ось правильний і неправильний спосіб інтерпретації p-значення:
- Правильна інтерпретація: якщо припустити, що фабрика виробляє шини із середньою вагою 200 фунтів, ви отримаєте спостережувану різницю, яку ви отримали у своїй вибірці, або більш надзвичайну різницю в 4% перевірок через випадкову вибірку.
- Неправильна інтерпретація: якщо ви відкидаєте нульову гіпотезу, існує 4% ймовірність того, що ви робите помилку.
Приклади інтерпретації значень P
Наступні приклади ілюструють правильні способи інтерпретації p-значень у контексті перевірки гіпотез.
Приклад 1
Телефонна компанія стверджує, що 90% її клієнтів задоволені їхнім обслуговуванням. Щоб перевірити це твердження, незалежний дослідник зібрав просту випадкову вибірку з 200 клієнтів і запитав їх, чи задоволені вони їхнім обслуговуванням, на що 85% відповіли ствердно. Виявлено, що p-значення, пов’язане з цією вибіркою даних, становить 0,018.
Правильна інтерпретація p-значення: якщо припустити, що 90% клієнтів насправді задоволені своїм обслуговуванням, дослідник отримає спостережувану різницю, яку він отримав у своїй вибірці, або більш екстремальну різницю в 1,8% перевірок через випадкову вибірку. помилка. .
Приклад 2
Компанія винаходить новий акумулятор для телефонів. Компанія стверджує, що нова батарея працюватиме принаймні на 10 хвилин довше, ніж стара. Щоб перевірити це твердження, дослідник бере просту випадкову вибірку з 80 нових і 80 старих батарей. Нові батареї працюють у середньому 120 хвилин із стандартним відхиленням 12 хвилин, а старі батареї працюють у середньому 115 хвилин із стандартним відхиленням 15 хвилин. P-значення, отримане в результаті тесту на різницю середніх популяцій, становить 0,011.
Правильна інтерпретація p-значення: якщо припустити, що нова батарея працює так само або менше, ніж стара батарея, дослідник отримає спостережувану різницю або більш надзвичайну різницю в 1,1% досліджень через помилкову випадкову вибірку.