Analisi della varianza (anova)

Questo articolo spiega cos’è l’analisi della varianza, nota anche come ANOVA, nelle statistiche. Scoprirai quindi come fare un’analisi della varianza, cos’è la tabella ANOVA e un esercizio risolto passo dopo passo. Inoltre, mostra quali sono le ipotesi preliminari che devono essere rispettate per eseguire un’analisi della varianza e, infine, quali sono i vantaggi e gli svantaggi dell’analisi ANOVA.

Cos’è l’analisi della varianza (ANOVA)?

In statistica, l’analisi della varianza , chiamata anche ANOVA (Analysis of Variance), è una tecnica che permette di confrontare le varianze tra le medie di diversi campioni.

L’analisi della varianza (ANOVA) viene utilizzata per analizzare se esiste una differenza tra le medie di più di due popolazioni. Pertanto, l’analisi della varianza ci consente di determinare se le medie della popolazione di due o più gruppi sono diverse analizzando la variabilità tra le medie campionarie.

L’ipotesi nulla dell’analisi della varianza è quindi che le medie di tutti i gruppi analizzati siano uguali. Mentre l’ipotesi alternativa sostiene che almeno uno dei mezzi sia diverso.

\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}

Quindi, l’analisi della varianza è particolarmente utile per confrontare le medie di più di due gruppi, perché con questo tipo di analisi puoi studiare le medie di tutti i gruppi contemporaneamente, invece di confrontare le medie a coppie. Di seguito vedremo quali sono i vantaggi e gli svantaggi dell’analisi della varianza.

Tabella ANOVA

L’analisi della varianza è riassunta in una tabella denominata tabella ANOVA , le cui formule sono le seguenti:

analisi della varianza o formule ANOVA

Oro:

  • n_i

    è la dimensione del campione i.

  • N

    è il numero totale di osservazioni.

  • k

    è il numero di gruppi diversi nell’analisi della varianza.

  • y_{ij}

    è il valore j del gruppo i.

  • \overline{y}_{i}

    è la media del gruppo i.

  • \overline{y}

    Questa è la media di tutti i dati analizzati.

Esempio di Analisi della Varianza (ANOVA)

Per finire di comprendere il concetto di ANOVA, vediamo come eseguire l’analisi della varianza risolvendo un esempio passo dopo passo.

  • Viene effettuato uno studio statistico per confrontare i punteggi ottenuti da quattro studenti in tre diverse materie (A, B e C). La tabella seguente descrive in dettaglio i punteggi ottenuti da ciascuno studente in un test con un punteggio massimo di 20. Eseguire un’analisi della varianza per confrontare i punteggi ottenuti da ciascuno studente in ciascuna materia.

L’ipotesi nulla di questa analisi della varianza è che le medie dei punteggi dei tre soggetti siano uguali. D’altra parte, l’ipotesi nulla è che alcune di queste medie siano diverse.

\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}

Per eseguire l’analisi della varianza, la prima cosa da fare è calcolare la media di ciascun soggetto e la media totale dei dati:

\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5

\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75

\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75

\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33

Una volta conosciuto il valore delle medie, calcoliamo le somme dei quadrati utilizzando le formule di analisi della varianza (ANOVA) viste sopra:

\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}

\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}

\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}

Successivamente determiniamo i gradi di libertà del fattore, dell’errore e del totale:

GL_F=k-1=3-1=2

GL_E=N-k=12-3=9

GL_F=N-1=12-1=11

Calcoliamo ora gli errori quadratici medi dividendo le somme dei quadrati del fattore e dell’errore per i rispettivi gradi di libertà:

MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08

MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17

E infine, calcoliamo il valore della statistica F dividendo i due errori calcolati nel passaggio precedente:

F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08

In breve, la tabella ANOVA per i dati di esempio sarebbe simile a questa:

esempio di analisi della varianza (ANOVA)

Una volta calcolati tutti i valori della tabella ANOVA non resta che interpretare i risultati ottenuti. Per fare ciò, dobbiamo trovare la probabilità di ottenere un valore maggiore della statistica F in una distribuzione Snedecor F con i corrispondenti gradi di libertà, ovvero dobbiamo determinare il valore p del test:

P[F>11,08]=0,004″ title=”Rendered by QuickLaTeX.com” height=”18″ width=”172″ style=”vertical-align: -5px;”></p>
</p>
<p> Pertanto, se prendiamo un livello di significatività α=0,05 (il più comune), dobbiamo rifiutare l’ipotesi nulla e accettare l’ipotesi alternativa, poiché il valore p del test è inferiore al livello di significatività. Ciò significa che almeno alcune delle medie dei gruppi studiati sono diverse dalle altre.</p>
</p>
<p class=0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0

Va notato che attualmente esistono diversi programmi per computer in grado di eseguire l’analisi della varianza in pochi secondi. Tuttavia, è anche importante conoscere la teoria alla base dei calcoli.

Presupposti dell’analisi della varianza (ANOVA)

Per poter eseguire un’analisi della varianza (ANOVA), devono essere soddisfatte le seguenti condizioni:

  • Indipendenza : i valori osservati sono indipendenti l’uno dall’altro. Un modo per garantire l’indipendenza delle osservazioni è aggiungere casualità al processo di campionamento.
  • Omoschedasticità : deve esserci omogeneità nelle varianze, cioè la variabilità dei residui è costante.
  • Normalità : i residui dovrebbero essere distribuiti normalmente o, in altre parole, dovrebbero seguire una distribuzione normale.
  • Continuità : la variabile dipendente deve essere continua.

Tipi di analisi della varianza (ANOVA)

Esistono tre tipi di analisi della varianza (ANOVA) :

  • Analisi della varianza unidirezionale (ANOVA unidirezionale) : Nell’analisi della varianza esiste un solo fattore, ovvero esiste una sola variabile indipendente.
  • Analisi della varianza a due vie (ANOVA a due vie) : l’analisi della varianza ha due fattori, quindi vengono analizzate due variabili indipendenti e l’interazione tra loro.
  • Analisi multivariata della varianza (MANOVA) : nell’analisi della varianza, esiste più di una variabile dipendente. L’obiettivo è determinare se le variabili indipendenti cambiano il loro valore al variare delle variabili dipendenti.

Vantaggi e svantaggi dell’analisi della varianza (ANOVA)

Vedremo infine quando è opportuno utilizzare l’analisi della varianza e, inoltre, quali sono i limiti di questo tipo di analisi statistica.

Il vantaggio principale dell’analisi della varianza (ANOVA) è che consente di confrontare più di due gruppi contemporaneamente. A differenza del t-test , in cui è possibile analizzare solo la media di uno o due campioni, l’analisi della varianza viene utilizzata per determinare se più popolazioni hanno o meno la stessa media.

Tuttavia, l’analisi della varianza non ci dice quale gruppo di studio ha una media diversa, ci fa solo sapere se esistono medie significativamente diverse o se tutte le medie sono simili.

Allo stesso modo, un altro svantaggio dell’analisi della varianza è che per eseguire l’analisi ANOVA devono essere soddisfatte quattro ipotesi precedenti (vedi sopra), altrimenti le conclusioni tratte potrebbero essere errate. Pertanto, occorre sempre verificare che il set di dati statistici soddisfi questi quattro requisiti.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *