Proste wyjaśnienie znaczenia statystycznego i praktycznego
Hipoteza statystyczna to założenie dotyczące parametru populacji . Na przykład możemy założyć, że średni wzrost mężczyzny w pewnym hrabstwie wynosi 68 cali. Hipoteza dotycząca wzrostu jest hipotezą statystyczną , a prawdziwy średni wzrost mężczyzny w Stanach Zjednoczonych jest parametrem populacyjnym .
Test hipotezy to formalny test statystyczny, którego używamy do odrzucenia lub nieodrzucenia hipotezy statystycznej. Aby przetestować hipotezę, pozyskujemy losową próbkę z populacji i ustalamy, czy dane w próbie prawdopodobnie miały miejsce, zakładając, że hipoteza zerowa jest rzeczywiście prawdziwa.
Jeśli przykładowe dane są wystarczająco nieprawdopodobne w ramach tej hipotezy, wówczas możemy odrzucić hipotezę zerową i stwierdzić, że efekt istnieje.
Sposób, w jaki ustalamy, czy dane próbki są „wystarczająco nieprawdopodobne”, zakładając, że zero jest prawdą, polega na ustaleniu pewnego poziomu istotności (zwykle wybieranego na 0,01, 0,05 lub 0,10), a następnie sprawdzeniu, czy wartość p testu hipotezy jest mniejsza niż ten poziom znaczenia.
Jeśli wartość p jest mniejsza niż poziom istotności, wówczas mówimy, że wyniki są istotne statystycznie . Oznacza to po prostu, że istnieje pewien efekt, ale niekoniecznie oznacza to, że efekt ten jest faktycznie praktyczny w prawdziwym świecie. Wyniki mogą być istotne statystycznie, ale nie istotne praktycznie .
Powiązane: Wyjaśnienie wartości P i istotności statystycznej
Znaczenie praktyczne
Testowanie hipotez może dać statystycznie istotne wyniki, pomimo małej wielkości efektu. Istnieją dwa główne sposoby, dzięki którym małe rozmiary efektu mogą dawać niskie (a zatem statystycznie istotne) wartości p:
1. Zmienność danych objętych próbą jest bardzo niska. Jeśli przykładowe dane charakteryzują się niską zmiennością, test hipotez może dostarczyć bardziej precyzyjnych szacunków efektu populacji, umożliwiając wykrycie nawet małych efektów.
Załóżmy na przykład, że chcemy przeprowadzić niezależny test t dla dwóch prób na następujących dwóch próbach, które pokazują wyniki testów 20 uczniów z dwóch różnych szkół, aby ustalić, czy średnie wyniki testów znacząco różnią się pomiędzy szkołami:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
Średnia próbki 1 wynosi 85,55 , a średnia próbki 2 wynosi 86,40 . Kiedy przeprowadzamy niezależny test t dla dwóch próbek, okazuje się, że statystyka testowa wynosi -5,3065 , a odpowiadająca jej wartość p wynosi <0,0001 . Różnica pomiędzy wynikami testu jest istotna statystycznie.
Różnica pomiędzy średnimi wynikami testów dla tych dwóch próbek wynosi zaledwie 0,85 , ale niewielka zmienność wyników testów dla każdej szkoły skutkuje wynikiem istotnym statystycznie. Należy zauważyć, że odchylenie standardowe wyników wynosi 0,51 dla próbki 1 i 0,50 dla próbki 2.
Ta niska zmienność pozwoliła testowi hipotez wykryć niewielką różnicę między wynikami i sprawić, że różnice będą statystycznie istotne.
Podstawowym powodem, dla którego niska zmienność może prowadzić do statystycznie istotnych wniosków, jest to, że statystykę testu t dla niezależnego testu t dla dwóch próbek oblicza się w następujący sposób:
statystyka testowa t = [ ( x 1 – x 2 ) – re ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
gdzie s 2 1 i s 2 2 oznaczają zmienność próbki odpowiednio dla próbki 1 i próbki 2. Należy zauważyć, że gdy te dwie liczby są małe, mianownik całkowity statystyki testu t jest mały.
A jeśli podzielisz przez małą liczbę, otrzymasz dużą liczbę. Oznacza to, że statystyka testu t będzie duża, a odpowiadająca jej wartość p będzie mała, co doprowadzi do statystycznie istotnych wyników.
2. Wielkość próbki jest bardzo duża. Im większa wielkość próby, tym większa moc statystyczna testu hipotezy, umożliwiająca wykrycie nawet małych efektów. Może to prowadzić do statystycznie istotnych wyników, pomimo niewielkich efektów, które mogą nie mieć praktycznego znaczenia.
Załóżmy na przykład, że chcemy przeprowadzić niezależny test t dla dwóch prób na następujących dwóch próbach, które pokazują wyniki testów 20 uczniów z dwóch różnych szkół, aby ustalić, czy średnie wyniki testów znacząco różnią się pomiędzy szkołami:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Jeśli dla każdej próbki utworzymy wykres pudełkowy, aby wyświetlić rozkład wyników, zobaczymy, że wyglądają one bardzo podobnie:
Średnia próbki 1 wynosi 90,65 , a średnia próbki 2 wynosi 90,75 . Odchylenie standardowe dla próbki 1 wynosi 2,77 , a odchylenie standardowe dla próbki 2 wynosi 2,78 . Kiedy przeprowadzamy niezależny test t dla dwóch prób, okazuje się, że statystyka testowa wynosi -0,113 , a odpowiadająca jej wartość p wynosi 0,91 . Różnica pomiędzy średnimi wynikami testów nie jest istotna statystycznie.
Należy jednak rozważyć, czy wielkość próbek w obu próbkach wynosiła 200 . W tym przypadku niezależny test t dla dwóch próbek ujawniłby, że statystyka testowa wynosi -1,97 , a odpowiadająca jej wartość p wynosi nieco poniżej 0,05 . Różnica pomiędzy średnimi wynikami testów jest istotna statystycznie.
Podstawowy powód, dla którego duże próbki mogą prowadzić do statystycznie istotnych wniosków, sięga ponownie do statystyki testu t dla niezależnego testu t dla dwóch próbek:
statystyka testowa t = [ ( x 1 – x 2 ) – re ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
Należy zauważyć, że gdy n 1 i n 2 są małe, całkowity mianownik statystyki testu t jest mały. A jeśli podzielisz przez małą liczbę, otrzymasz dużą liczbę. Oznacza to, że statystyka testu t będzie duża, a odpowiadająca jej wartość p będzie mała, co doprowadzi do statystycznie istotnych wyników.
Wykorzystaj wiedzę merytoryczną, aby ocenić znaczenie praktyczne
Aby określić, czy statystycznie istotny wynik testu hipotezy ma praktyczne znaczenie, często konieczna jest specjalistyczna wiedza merytoryczna.
W poprzednich przykładach, gdy sprawdzaliśmy różnice między wynikami testów z dwóch szkół, pomocne byłoby skorzystanie z wiedzy osoby pracującej w szkołach lub przeprowadzającej tego typu testy, która pomogłaby nam ustalić, czy średnia różnica wynosząca 1 punkt istnieje, czy nie. ma praktyczne implikacje.
Na przykład średnia różnica 1 punktu może być istotna statystycznie na poziomie alfa = 0,05, ale czy to oznacza, że szkoła z najniższymi wynikami powinna przyjąć program, który szkoła z najwyższymi wynikami stosuje wyżej? A może wiązałoby się to ze zbyt dużymi kosztami administracyjnymi i byłoby zbyt kosztowne/zbyt szybkie do wdrożenia?
To, że istnieje statystycznie istotna różnica w wynikach testów pomiędzy dwiema szkołami, nie oznacza, że wielkość efektu różnicy jest na tyle duża, aby spowodować jakiś rodzaj zmian w systemie edukacji.
Stosowanie przedziałów ufności do oceny znaczenia praktycznego
Innym użytecznym narzędziem do określania praktycznego znaczenia jest przedział ufności . Przedział ufności daje nam zakres wartości, w którym prawdopodobnie będzie mieścić się prawdziwy parametr populacji.
Wróćmy na przykład do przykładu porównania różnic w wynikach testów pomiędzy dwiema szkołami. Dyrektor może oświadczyć, że do przyjęcia przez szkołę nowego programu wymagana jest różnica w średniej punktacji wynosząca co najmniej 5 punktów.
W jednym badaniu widzimy, że średnia różnica między wynikami testów wynosi 8 punktów. Jednakże przedział ufności wokół tej średniej może wynosić [4, 12], co wskazuje, że 4 może być prawdziwą różnicą pomiędzy średnimi wynikami testu. W takim przypadku dyrektor może stwierdzić, że szkoła nie zmieni programu, ponieważ przedział ufności wskazuje, że rzeczywista różnica może być mniejsza niż 5.
Jednak w innym badaniu widzimy, że średnia różnica między wynikami testów ponownie wynosi 8 punktów, ale przedział ufności wokół średniej może wynosić [6, 10]. Ponieważ przedział ten nie zawiera 5 , reżyser prawdopodobnie dojdzie do wniosku, że rzeczywista różnica między wynikami testu jest większa niż 5 i w ten sposób uzna, że modyfikacja programu ma sens.
Wniosek
Podsumowując, oto czego się nauczyliśmy:
- Tylko istotność statystyczna wskazuje, czy istnieje efekt w oparciu o określony poziom istotności.
- Praktyczne znaczenie polega na tym, czy efekt ten ma praktyczne implikacje w świecie rzeczywistym.
- Korzystamy z analiz statystycznych w celu określenia istotności statystycznej oraz wiedzy dziedzinowej w celu oceny znaczenia praktycznego.
- Małe rozmiary efektów mogą dawać małe wartości p, gdy (1) zmienność danych próbki jest bardzo mała i gdy (2) wielkość próby jest bardzo duża.
- Ustalając minimalną wielkość efektu przed przeprowadzeniem testu hipotez, możemy lepiej ocenić, czy wynik testu hipotezy (nawet jeśli jest istotny statystycznie) jest rzeczywiście praktyczny w świecie rzeczywistym.
- Przedziały ufności mogą być przydatne przy określaniu znaczenia praktycznego. Jeśli minimalna wielkość efektu nie mieści się w przedziale ufności, wówczas wyniki mogą być praktycznie znaczące.