Jakie jest założenie o równej wariancji w statystyce?


Wiele testów statystycznych zakłada równą wariancję . Jeżeli to założenie nie jest przestrzegane, wyniki testów stają się niewiarygodne.

Do najpopularniejszych testów i procedur statystycznych, które przyjmują założenie o równej wariancji, należą:

1. ANOVA

2. testy t

3. Regresja liniowa

W tym samouczku wyjaśniono założenia przyjęte dla każdego testu, sposób ustalenia, czy to założenie jest spełnione i co zrobić, jeśli zostanie naruszone.

Założenie równości wariancji w ANOVA

Do określenia, czy istnieje istotna różnica między średnimi trzech lub więcej niezależnych grup, stosuje się analizę ANOVA („analiza wariancji”).

Oto przykład, kiedy możemy zastosować ANOVA:

Załóżmy, że rekrutujemy 90 osób do udziału w eksperymencie dotyczącym utraty wagi. Losowo przydzielamy 30 osób do korzystania z programu A, B lub C na miesiąc.

Aby sprawdzić, czy program ma wpływ na utratę wagi, możemy wykonać jednokierunkową ANOVA .

W analizie ANOVA zakłada się, że każda z grup ma równą wariancję. Prawdziwość tej hipotezy można sprawdzić na dwa sposoby:

1. Utwórz wykresy pudełkowe.

Wykresy pudełkowe umożliwiają wizualną weryfikację założenia o równości wariancji.

Różnicę w utracie masy ciała w każdej grupie można zaobserwować na podstawie długości każdego wykresu pudełkowego. Im dłuższe pudełko, tym większa wariancja. Na przykład widzimy, że wariancja jest nieco większa w przypadku uczestników Programu C w porównaniu z Programem A i Programem B.

2. Wykonaj test Bartletta.

Test Bartletta sprawdza hipotezę zerową, że próbki mają równe wariancje, w porównaniu z alternatywną hipotezą, że próbki nie mają równych wariancji.

Jeśli wartość p testu jest poniżej pewnego poziomu istotności (np. 0,05), wówczas mamy dowód, że nie wszystkie próbki mają równe wariancje.

Co się stanie, jeśli założenie o równej wariancji nie zostanie spełnione?

Ogólnie rzecz biorąc, analizy ANOVA uważa się za dość odporne na naruszenia założenia o równych wariancjach, o ile każda grupa ma tę samą wielkość próby.

Jeśli jednak rozmiary próbek nie są takie same i to założenie zostanie poważnie naruszone, można zamiast tego przeprowadzić test Kruskala-Wallisa , który jest nieparametryczną wersją jednokierunkowej analizy ANOVA.

Założenie równej wariancji w testach t

Test t dla dwóch prób służy do sprawdzenia, czy średnie z dwóch populacji są równe, czy nie.

W teście założono, że wariancje pomiędzy obiema grupami są równe. Prawdziwość tej hipotezy można sprawdzić na dwa sposoby:

1. Skorzystaj z praktycznej zasady proporcji.

Ogólnie rzecz biorąc, jeśli stosunek największej wariancji do najmniejszej wariancji jest mniejszy niż 4, wówczas możemy założyć, że wariancje są w przybliżeniu równe i zastosować test t dla dwóch prób.

Załóżmy na przykład, że próbka 1 ma wariancję 24,5, a próbka 2 ma wariancję 15,2. Stosunek największej wariancji próbki do najmniejszej wariancji próbki zostanie obliczony jako: 24,5 / 15,2 = 1,61.

Ponieważ stosunek ten jest mniejszy niż 4, można założyć, że różnice między obiema grupami są w przybliżeniu równe.

2. Wykonaj test F.

Test F sprawdza hipotezę zerową, że próbki mają równe wariancje, w porównaniu z alternatywną hipotezą, że próbki nie mają równych wariancji.

Jeśli wartość p testu jest poniżej pewnego poziomu istotności (np. 0,05), wówczas mamy dowód, że nie wszystkie próbki mają równe wariancje.

Co się stanie, jeśli założenie o równej wariancji nie zostanie spełnione?

Jeżeli to założenie zostanie naruszone, wówczas możemy wykonać test t Welcha , który jest nieparametryczną wersją testu t dla dwóch prób i nie zakłada, że obie próbki mają równe wariancje.

Założenie równej wariancji w regresji liniowej

Regresję liniową stosuje się do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi.

Regresja liniowa zakłada, że reszty mają stałą wariancję na każdym poziomie zmiennych predykcyjnych. Nazywa się to homoskedastycznością . Jeżeli tak nie jest, reszty charakteryzują się heteroskedastycznością i wyniki analizy regresji stają się niewiarygodne.

Najczęstszym sposobem sprawdzenia, czy to założenie jest spełnione, jest utworzenie wykresu reszt w funkcji dopasowanych wartości. Jeśli reszty na tym wykresie wydają się być losowo rozproszone wokół zera, wówczas założenie o homoskedastyczności jest prawdopodobnie spełnione.

Jeśli jednak istnieje systematyczny trend reszt, taki jak kształt „stożka” na poniższym wykresie, wówczas problemem jest heteroskedastyczność:

Co się stanie, jeśli założenie o równej wariancji nie zostanie spełnione?

Jeżeli to założenie zostanie naruszone, najczęstszym sposobem rozwiązania problemu jest przekształcenie zmiennej odpowiedzi za pomocą jednej z trzech transformacji:

1. Transformacja logu: przekształć zmienną odpowiedzi z y na log(y) .

2. Transformacja pierwiastka kwadratowego: Przekształć zmienną odpowiedzi z y na √y .

3. Transformacja pierwiastka sześciennego: przekształć zmienną odpowiedzi z y na y 1/3 .

Dokonując tych przekształceń, problem heteroskedastyczności generalnie znika.

Innym sposobem skorygowania heteroskedastyczności jest zastosowanie regresji ważonej metodą najmniejszych kwadratów . Ten typ regresji przypisuje wagę każdemu punktowi danych na podstawie wariancji jego dopasowanej wartości.

Zasadniczo nadaje to niskie wagi punktom danych o większych wariancjach, zmniejszając ich kwadraty resztowe. Zastosowanie odpowiednich wag może wyeliminować problem heteroskedastyczności.

Dodatkowe zasoby

Trzy hipotezy sformułowane w analizie ANOVA
Cztery hipotezy sformułowane w teście T
Cztery założenia regresji liniowej

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *