Analiza wariancji (anova)

W tym artykule wyjaśniono, czym jest analiza wariancji, znana również jako ANOVA, w statystyce. W ten sposób dowiesz się, jak przeprowadzić analizę wariancji, czym jest tabela ANOVA i dowiesz się, jak wykonać ćwiczenie krok po kroku. Ponadto pokazuje, jakie są wstępne założenia, których należy przestrzegać, aby przeprowadzić analizę wariancji i wreszcie, jakie są zalety i wady analizy ANOVA.

Co to jest analiza wariancji (ANOVA)?

W statystyce analiza wariancji , zwana także ANOVA (analiza wariancji), jest techniką pozwalającą na porównanie wariancji pomiędzy średnimi różnych próbek.

Analizę wariancji (ANOVA) stosuje się do analizy, czy istnieje różnica między średnimi z więcej niż dwóch populacji. Zatem analiza wariancji pozwala nam określić, czy średnie populacji dwóch lub więcej grup różnią się, poprzez analizę zmienności pomiędzy średnimi z próby.

Hipotezą zerową analizy wariancji jest zatem to, że średnie wszystkich analizowanych grup są równe. Natomiast hipoteza alternatywna głosi, że co najmniej jeden ze środków jest inny.

\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}

Zatem analiza wariancji jest szczególnie przydatna przy porównywaniu średnich więcej niż dwóch grup, ponieważ dzięki tego typu analizie można badać średnie wszystkich grup jednocześnie, zamiast porównywać średnie parami. Poniżej zobaczymy, jakie są zalety i wady analizy wariancji.

Tabela ANOVA

Analizę wariancji podsumowuje się w tabeli zwanej tabelą ANOVA , której wzory są następujące:

analiza wariancji lub wzory ANOVA

Złoto:

  • n_i

    to wielkość próbki, tj.

  • N

    to całkowita liczba obserwacji.

  • k

    jest liczbą różnych grup w analizie wariancji.

  • y_{ij}

    jest wartością j grupy i.

  • \overline{y}_{i}

    jest średnią grupy i.

  • \overline{y}

    Jest to średnia wszystkich analizowanych danych.

Przykład analizy wariancji (ANOVA)

Aby zakończyć zrozumienie koncepcji ANOVA, zobaczmy, jak przeprowadzić analizę wariancji, rozwiązując przykład krok po kroku.

  • Przeprowadza się badanie statystyczne w celu porównania wyników uzyskanych przez czterech uczniów z trzech różnych przedmiotów (A, B i C). Poniższa tabela zawiera szczegółowe informacje na temat wyników uzyskanych przez każdego ucznia w teście, przy czym maksymalny wynik wynosi 20. Przeprowadź analizę wariancji, aby porównać wyniki uzyskane przez każdego ucznia z każdego przedmiotu.

Hipotezą zerową tej analizy wariancji jest to, że średnie wyników trzech przedmiotów są równe. Z drugiej strony hipoteza zerowa głosi, że niektóre z tych średnich są różne.

\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}

Aby przeprowadzić analizę wariancji, pierwszą rzeczą do zrobienia jest obliczenie średniej dla każdego pacjenta i całkowitej średniej danych:

\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5

\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75

\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75

\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33

Kiedy już znamy wartość średnich, obliczamy sumy kwadratów, korzystając ze wzorów analizy wariancji (ANOVA) przedstawionych powyżej:

\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}

\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}

\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}

Następnie wyznaczamy stopnie swobody czynnika, błąd i sumę:

GL_F=k-1=3-1=2

GL_E=N-k=12-3=9

GL_F=N-1=12-1=11

Teraz obliczamy błędy średniokwadratowe, dzieląc sumy kwadratów współczynnika i błędu przez ich odpowiednie stopnie swobody:

MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08

MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17

Na koniec obliczamy wartość statystyki F, dzieląc dwa błędy obliczone w poprzednim kroku:

F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08

W skrócie, tabela ANOVA dla przykładowych danych wyglądałaby następująco:

przykład analizy wariancji (ANOVA)

Po obliczeniu wszystkich wartości w tabeli ANOVA pozostaje jedynie zinterpretować uzyskane wyniki. Aby to zrobić, musimy znaleźć prawdopodobieństwo otrzymania wartości większej niż statystyka F w rozkładzie Snedecora F z odpowiednimi stopniami swobody, to znaczy musimy wyznaczyć wartość p testu:

P[F>11,08]=0,004″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”172″ style=”vertical-align: -5px;”></p>
</p>
<p> Dlatego też, jeśli przyjmiemy poziom istotności α=0,05 (najczęstszy), musimy odrzucić hipotezę zerową i przyjąć hipotezę alternatywną, ponieważ wartość p testu jest niższa niż poziom istotności. Oznacza to, że przynajmniej część średnich badanych grup różni się od pozostałych.</p>
</p>
<p class=0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0

Należy zaznaczyć, że obecnie istnieje kilka programów komputerowych, które potrafią przeprowadzić analizę wariancji w ciągu zaledwie kilku sekund. Jednak ważna jest również znajomość teorii leżącej u podstaw obliczeń.

Założenia analizy wariancji (ANOVA)

Aby przeprowadzić analizę wariancji (ANOVA), muszą zostać spełnione następujące warunki:

  • Niezależność : obserwowane wartości są od siebie niezależne. Jednym ze sposobów zapewnienia niezależności obserwacji jest dodanie losowości do procesu pobierania próbek.
  • Homoscedastyczność : wariancje muszą być jednorodne, to znaczy zmienność reszt jest stała.
  • Normalność : reszty powinny mieć rozkład normalny, czyli innymi słowy powinny mieć rozkład normalny.
  • Ciągłość : zmienna zależna musi być ciągła.

Rodzaje analizy wariancji (ANOVA)

Istnieją trzy typy analizy wariancji (ANOVA) :

  • Jednoczynnikowa analiza wariancji (jednokierunkowa analiza wariancji) : W analizie wariancji występuje tylko jeden czynnik, tj. istnieje tylko jedna zmienna niezależna.
  • Dwukierunkowa analiza wariancji (dwukierunkowa analiza wariancji) : Analiza wariancji uwzględnia dwa czynniki, zatem analizowane są dwie niezależne zmienne i interakcja między nimi.
  • Wielowymiarowa analiza wariancji (MANOVA) : W analizie wariancji istnieje więcej niż jedna zmienna zależna. Celem jest określenie, czy zmienne niezależne zmieniają swoją wartość, gdy zmieniają się zmienne zależne.

Zalety i wady analizy wariancji (ANOVA)

Na koniec zobaczymy, kiedy warto zastosować analizę wariancji i jakie są ograniczenia tego typu analizy statystycznej.

Główną zaletą analizy wariancji (ANOVA) jest to, że umożliwia porównanie więcej niż dwóch grup w tym samym czasie. W przeciwieństwie do testu t , w którym można analizować tylko średnią z jednej lub dwóch próbek, analiza wariancji służy do ustalenia, czy wiele populacji ma tę samą średnią.

Jednak analiza wariancji nie mówi nam, która grupa badana ma inną średnią, pozwala jedynie dowiedzieć się, czy istnieją znacząco różne średnie lub czy wszystkie średnie są podobne.

Podobnie inną wadą analizy wariancji jest to, że aby przeprowadzić analizę ANOVA, należy spełnić cztery wcześniejsze założenia (patrz wyżej), w przeciwnym razie wyciągnięte wnioski mogą być błędne. Dlatego zawsze należy sprawdzić, czy zbiór danych statystycznych spełnia te cztery wymagania.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *