Просте пояснення статистичної та практичної важливості


Статистична гіпотеза — це припущення щодо параметра сукупності . Наприклад, ми можемо припустити, що середній зріст чоловіка в певному окрузі становить 68 дюймів. Гіпотеза щодо зростання є статистичною гіпотезою , а справжній середній зріст чоловіка в Сполучених Штатах є параметром чисельності населення .

Перевірка гіпотези — це формальний статистичний тест, який ми використовуємо, щоб відхилити або не відхилити статистичну гіпотезу. Щоб виконати перевірку гіпотези, ми отримуємо випадкову вибірку із генеральної сукупності та визначаємо, чи ймовірно дані у вибірці мали місце, враховуючи, що нульова гіпотеза справді вірна.

Якщо вибіркові дані є достатньо малоймовірними за цією гіпотезою, тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що ефект існує.

Спосіб визначення того, чи дані вибірки є «досить малоймовірними», припускаючи, що нуль є істинним, полягає в тому, щоб встановити певний рівень значущості (зазвичай вибирається 0,01, 0,05 або 0,10), а потім перевірити, чи значення p перевірки гіпотези менше. ніж цей рівень значущості.

Якщо p-значення менше за рівень значущості, ми говоримо, що результати є статистично значущими . Це просто означає, що існує певний ефект, але це не обов’язково означає, що цей ефект дійсно практичний у реальному світі. Результати можуть бути статистично значущими, але не бути практично значущими .

Пов’язане: Пояснення значень P і статистичної значущості

Практичне значення

Перевірка гіпотези може дати статистично значущі результати, незважаючи на невеликий розмір ефекту. Існує два основні способи, за допомогою яких невеликі розміри ефекту можуть спричинити низькі (і, отже, статистично значущі) значення p:

1. Мінливість вибіркових даних дуже низька. Якщо ваші вибіркові дані мають низьку мінливість, перевірка гіпотез може дати більш точні оцінки ефекту сукупності, дозволяючи тесту виявити навіть незначні ефекти.

Наприклад, припустімо, що ми хочемо виконати незалежний двовибірковий t-тест на наступних двох вибірках, які показують результати тестів 20 учнів з двох різних шкіл, щоб визначити, чи суттєво відрізняються середні результати тестів між школами:

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

Середнє значення зразка 1 становить 85,55 , а середнє значення зразка 2 становить 86,40 . Коли ми виконуємо незалежний двовибірковий t-тест, виявляється, що статистика тесту становить -5,3065 , а відповідне значення p <0,0001 . Різниця між результатами тесту є статистично значущою.

Різниця між середніми тестовими балами для цих двох вибірок становить лише 0,85 , але низька мінливість тестових балів для кожної школи призводить до статистично значущого результату. Зверніть увагу, що стандартне відхилення балів становить 0,51 для зразка 1 і 0,50 для зразка 2.

Ця низька мінливість дозволила перевірці гіпотези виявити невелику різницю між балами та зробити відмінності статистично значущими.

Основна причина, чому низька мінливість може призвести до статистично значущих висновків, полягає в тому, що статистика t- критерію для незалежного t-тесту з двох вибірок обчислюється наступним чином:

тестова статистика t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

де s 2 1 і s 2 2 вказують варіацію зразка для зразка 1 і зразка 2 відповідно. Зауважте, що коли ці два числа малі, цілий знаменник статистики t- критерію є малим.

А коли ділиш на мале число, то отримуєш велике число. Це означає, що статистика t- критерію буде великою, а відповідне значення p – малим, що призведе до статистично значущих результатів.

2. Обсяг вибірки дуже великий. Чим більший розмір вибірки, тим більша статистична потужність перевірки гіпотези, що дозволяє виявити навіть незначні ефекти. Це може призвести до статистично значущих результатів, незважаючи на невеликі ефекти, які можуть не мати практичного значення.

Наприклад, припустімо, що ми хочемо виконати незалежний двовибірковий t-тест на наступних двох вибірках, які показують результати тестів 20 учнів з двох різних шкіл, щоб визначити, чи суттєво відрізняються середні результати тестів між школами:

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

Якщо ми створимо коробковий графік для кожного зразка, щоб відобразити розподіл балів, ми побачимо, що вони виглядають дуже схожими:

Середнє значення зразка 1 становить 90,65 , а середнє значення зразка 2 становить 90,75 . Стандартне відхилення для зразка 1 становить 2,77 , а стандартне відхилення для зразка 2 становить 2,78 . Коли ми виконуємо незалежний t-тест із двома вибірками, виявляється, що статистика тесту становить -0,113 , а відповідне значення p — 0,91 . Різниця між середніми тестовими балами не є статистично значущою.

Однак подумайте, чи розміри двох вибірок обидва були 200 . У цьому випадку незалежний двовибірковий t-критерій показав би, що тестова статистика становить -1,97 , а відповідне значення p трохи нижче 0,05 . Різниця між середніми тестовими балами є статистично значущою.

Основна причина, чому великі розміри вибірки можуть призвести до статистично значущих висновків, знову повертається до статистики t- критерію для незалежного t-критерію двох вибірок:

тестова статистика t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

Зверніть увагу, що коли n 1 і n 2 малі, цілочисельний знаменник статистики t -критерію є малим. А коли ділиш на мале число, то отримуєш велике число. Це означає, що статистика t- критерію буде великою, а відповідне значення p – малим, що призведе до статистично значущих результатів.

Використовуйте предметний досвід для оцінки практичної важливості

Щоб визначити, чи є статистично значущий результат перевірки гіпотези практично значущим, часто необхідна експертиза предмета.

У попередніх прикладах, коли ми перевіряли різницю між результатами тестів у двох школах, було б корисно мати досвід когось, хто працює в школах або хто проводить ці типи тестів, щоб допомогти нам визначити, чи середня різниця в 1 точка існує чи ні. має практичне значення.

Наприклад, середня різниця в 1 бал може бути статистично значущою на рівні альфа = 0,05, але чи означає це, що школа з найнижчими балами повинна прийняти програму, яку використовує школа з найвищими балами? Або це потребуватиме занадто великих адміністративних витрат і буде занадто дорогим/надто швидким для реалізації?

Те, що існує статистично значуща різниця в результатах тестів між двома школами, не означає, що розмір ефекту різниці є достатньо великим, щоб спричинити певні зміни в системі освіти.

Використання довірчих інтервалів для оцінки практичної значущості

Іншим корисним інструментом для визначення практичної значущості є довірчий інтервал . Довірчий інтервал дає нам діапазон значень, в якому, ймовірно, буде знаходитися справжній параметр сукупності.

Для прикладу повернемося до прикладу порівняння різниці в тестових результатах між двома школами. Директор може заявити, що середня різниця в балах принаймні на 5 балів необхідна для того, щоб школа прийняла нову програму.

В одному дослідженні ми бачимо, що середня різниця між тестовими оцінками становить 8 балів. Однак довірчий інтервал навколо цього середнього може становити [4, 12], що вказує на те, що 4 може бути справжньою різницею між середніми результатами тесту. У цьому випадку директор може зробити висновок, що школа не буде змінювати програму, оскільки довірчий інтервал вказує на те, що справжня різниця може бути менше 5.

Проте в іншому дослідженні ми бачимо, що середня різниця між результатами тесту знову становить 8 балів, але довірчий інтервал навколо середнього може становити [6, 10]. Оскільки цей інтервал не містить 5 , директор, швидше за все, прийде до висновку, що справжня різниця між тестовими балами перевищує 5, і таким чином визначить, що є сенс змінити програму.

Висновок

На завершення ось що ми дізналися:

  • Лише статистична значущість вказує на наявність ефекту на основі певного рівня значущості.
  • Практичне значення полягає в тому, чи має цей ефект практичні наслідки в реальному світі.
  • Ми використовуємо статистичні аналізи для визначення статистичної значущості та експертні знання в галузі для оцінки практичної значущості.
  • Невеликі розміри ефекту можуть давати малі значення p, коли (1) мінливість вибіркових даних дуже мала і коли (2) розмір вибірки дуже великий.
  • Встановлюючи мінімальний розмір ефекту перед проведенням перевірки гіпотези, ми можемо краще оцінити, чи результат перевірки гіпотези (навіть якщо він є статистично значущим) насправді практичний у реальному світі.
  • Довірчі інтервали можуть бути корисними для визначення практичної значущості. Якщо мінімальний розмір ефекту не знаходиться в межах довірчого інтервалу, то результати можуть бути практично значущими.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *