Cztery hipotezy sformułowane w teście t


Test t dla dwóch prób służy do sprawdzenia, czy średnie z dwóch populacji są równe, czy nie.

Ten typ testu przyjmuje następujące założenia dotyczące danych:

1. Niezależność: obserwacje jednej próbki są niezależne od obserwacji drugiej próbki.

2. Normalność: Obie próbki mają w przybliżeniu rozkład normalny.

3. Jednorodność wariancji: Obie próbki mają w przybliżeniu tę samą wariancję.

4. Dobór losowy: Obie próbki otrzymano metodą losowego doboru próby.

Jeśli jedno lub więcej z tych założeń zostanie naruszonych, wyniki testu t dla dwóch próbek mogą być niewiarygodne lub nawet mylące.

W tym samouczku wyjaśniamy każde założenie, jak ustalić, czy założenie jest spełnione i co zrobić, jeśli zostanie naruszone.

Hipoteza 1: Niepodległość

Test t dla dwóch prób zakłada, że obserwacje z jednej próbki są niezależne od obserwacji z drugiej próbki.

Jest to istotne założenie, gdyż jeśli w obu próbach występują te same osoby, to nie można wyciągać wniosków na temat różnic pomiędzy próbami.

Jak zweryfikować tę hipotezę

Najprostszym sposobem sprawdzenia tego założenia jest sprawdzenie, czy każda obserwacja pojawia się tylko raz w każdej próbie i czy obserwacje w każdej próbie zostały zebrane w drodze losowego doboru próby.

Co zrobić, jeśli to założenie nie jest przestrzegane

Jeżeli to założenie nie jest spełnione, wyniki testu t dla dwóch próbek są całkowicie nieważne. W takim scenariuszu najlepiej jest pobrać dwie nowe próbki metodą losowego doboru próby i upewnić się, że żadna osoba w jednej próbie nie należy do drugiej.

Hipoteza 2: normalność

Test t dla dwóch próbek zakłada, że dwie próbki mają w przybliżeniu rozkład normalny.

Jest to kluczowe założenie, ponieważ jeśli próbki nie mają rozkładu normalnego, nie można używać wartości p z testu do wyciągania wniosków na temat różnic między próbkami.

Jak zweryfikować tę hipotezę

Jeśli liczebność próbek jest mała (n < 50), możemy zastosować test Shapiro-Wilka, aby określić, czy każda wielkość próby ma rozkład normalny. Jeśli wartość p testu jest poniżej pewnego poziomu istotności, dane prawdopodobnie nie mają rozkładu normalnego.

Jeśli wielkość próby jest duża, lepiej jest użyć wykresu QQ , aby wizualnie sprawdzić, czy dane mają rozkład normalny.

Jeśli punkty danych leżą w przybliżeniu wzdłuż prostej linii ukośnej na wykresie QQ, wówczas zbiór danych prawdopodobnie ma rozkład normalny.

Co zrobić, jeśli to założenie nie jest przestrzegane

Jeżeli to założenie zostanie naruszone, wówczas możemy wykonać test U Manna-Whitneya , który jest uważany za nieparametryczny odpowiednik testu t dla dwóch próbek i nie zakłada, że dwie próbki mają rozkład normalny.

Hipoteza 3: Homogeniczność różnic

Test t dla dwóch próbek zakłada, że dwie próbki mają w przybliżeniu równe wariancje.

Jak zweryfikować tę hipotezę

Aby określić, czy wariancje między dwiema próbami są równe, stosujemy następującą praktyczną regułę: Jeśli stosunek największej wariancji do najmniejszej wariancji jest mniejszy niż 4, wówczas możemy założyć, że wariancje są w przybliżeniu równe i zastosować obie próbki t -test.

Załóżmy na przykład, że próbka 1 ma wariancję 24,5, a próbka 2 ma wariancję 15,2. Stosunek największej wariancji próbki do najmniejszej wariancji próbki można obliczyć w następujący sposób:

Stosunek: 24,5 / 15,2 = 1,61

Ponieważ stosunek ten jest mniejszy niż 4, można założyć, że różnice między obiema grupami są w przybliżeniu równe.

Co zrobić, jeśli to założenie nie jest przestrzegane

Jeżeli to założenie zostanie naruszone, wówczas możemy wykonać test t Welcha , który jest nieparametryczną wersją testu t dla dwóch prób i nie zakłada, że obie próbki mają równe wariancje.

Założenie 4: Próbkowanie losowe

Test t dla dwóch próbek zakłada, że obie próbki otrzymano metodą losowego doboru próby.

Jak zweryfikować tę hipotezę

Nie ma formalnego testu statystycznego, za pomocą którego moglibyśmy przetestować tę hipotezę. Zamiast tego musimy po prostu upewnić się, że obie próbki zostały uzyskane przy użyciu metody losowego doboru próby, tak aby każda osoba w populacji będącej przedmiotem zainteresowania miała równe prawdopodobieństwo znalezienia się w jednej lub drugiej próbie.

Co zrobić, jeśli to założenie nie jest przestrzegane

Jeśli to założenie nie zostanie spełnione, jest mało prawdopodobne, aby nasze dwie próbki były reprezentatywne dla populacji będącej przedmiotem zainteresowania. W tym przypadku nie możemy wiarygodnie uogólniać wyników testu t dla dwóch prób na całą populację .

W tym scenariuszu najlepiej jest pobrać dwie nowe próbki, stosując metodę losowego doboru próby.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *