Qual è l'ipotesi di equa varianza in statistica?


Molti test statistici presuppongono che la varianza sia uguale . Se questo presupposto non viene rispettato, i risultati del test diventano inaffidabili.

I test e le procedure statistiche più comuni che rendono questa ipotesi di uguale varianza includono:

1.ANOVA

2. test t

3. Regressione lineare

Questo tutorial spiega il presupposto formulato per ciascun test, come determinare se tale presupposto è soddisfatto e cosa fare se viene violato.

Presupposto dell’uguaglianza della varianza nell’ANOVA

Un’ANOVA (“Analisi della varianza”) viene utilizzata per determinare se esiste o meno una differenza significativa tra le medie di tre o più gruppi indipendenti.

Ecco un esempio di quando potremmo utilizzare un’ANOVA:

Supponiamo di reclutare 90 persone per partecipare a un esperimento sulla perdita di peso. Assegnamo in modo casuale 30 persone a utilizzare il programma A, B o C per un mese.

Per vedere se il programma ha un impatto sulla perdita di peso, possiamo eseguire un’ANOVA unidirezionale .

Un’ANOVA presuppone che ciascuno dei gruppi abbia la stessa varianza. Esistono due modi per verificare se questa ipotesi è vera:

1. Crea box plot.

I boxplot forniscono un modo visivo per verificare l’ipotesi di uguaglianza delle varianze.

La varianza nella perdita di peso in ciascun gruppo può essere osservata dalla lunghezza di ciascun boxplot. Più lunga è la scatola, maggiore è la varianza. Ad esempio, possiamo vedere che la varianza è leggermente superiore per i partecipanti al Programma C rispetto al Programma A e al Programma B.

2. Eseguire il test Bartlett.

Il test di Bartlett verifica l’ipotesi nulla che i campioni abbiano varianze uguali rispetto all’ipotesi alternativa che i campioni non abbiano varianze uguali.

Se il valore p del test è inferiore a un certo livello di significatività (come 0,05), allora abbiamo la prova che i campioni non hanno tutti la stessa varianza.

Cosa succede se l’ipotesi di uguale varianza non viene soddisfatta?

In generale, gli ANOVA sono considerati abbastanza robusti contro le violazioni del presupposto di uguaglianza delle varianze purché ciascun gruppo abbia la stessa dimensione del campione.

Tuttavia, se le dimensioni del campione non sono le stesse e questo presupposto viene gravemente violato, è possibile eseguire invece un test Kruskal-Wallis , che è la versione non parametrica dell’ANOVA unidirezionale.

Presupposto di uguale varianza nei test t

Un t-test a due campioni viene utilizzato per verificare se le medie di due popolazioni sono uguali o meno.

Il test presuppone che le varianze siano uguali tra i due gruppi. Esistono due modi per verificare se questa ipotesi è vera:

1. Utilizzare la regola pratica del rapporto.

Generalmente, se il rapporto tra la varianza maggiore e la varianza minima è inferiore a 4, allora possiamo supporre che le varianze siano approssimativamente uguali e utilizzare il test t a due campioni.

Ad esempio, supponiamo che il campione 1 abbia una varianza di 24,5 e il campione 2 abbia una varianza di 15,2. Il rapporto tra la varianza campionaria più grande e la varianza campionaria più piccola verrebbe calcolato come: 24,5 / 15,2 = 1,61.

Essendo questo rapporto inferiore a 4, si potrebbe supporre che le differenze tra i due gruppi siano approssimativamente uguali.

2. Eseguire un test F.

Il test F verifica l’ipotesi nulla che i campioni abbiano varianze uguali rispetto all’ipotesi alternativa che i campioni non abbiano varianze uguali.

Se il valore p del test è inferiore a un certo livello di significatività (come 0,05), allora abbiamo la prova che i campioni non hanno tutti la stessa varianza.

Cosa succede se l’ipotesi di uguale varianza non viene soddisfatta?

Se questo presupposto viene violato, è possibile eseguire il test t di Welch , che è una versione non parametrica del test t a due campioni e non presuppone che i due campioni abbiano varianze uguali.

Presupposto della uguale varianza nella regressione lineare

La regressione lineare viene utilizzata per quantificare la relazione tra una o più variabili predittive e una variabile di risposta.

La regressione lineare presuppone che i residui abbiano una varianza costante a ciascun livello delle variabili predittive. Questa si chiama omoschedasticità . Quando questo non è il caso, i residui soffrono di eteroschedasticità e i risultati dell’analisi di regressione diventano inaffidabili.

Il modo più comune per determinare se questo presupposto è soddisfatto è creare un grafico dei residui rispetto ai valori adattati. Se i residui in questo grafico sembrano essere sparsi in modo casuale attorno allo zero, probabilmente è soddisfatta l’ipotesi di omoschedasticità.

Tuttavia, se esiste una tendenza sistematica nei residui, come la forma a “cono” nel grafico seguente, allora l’eteroschedasticità è un problema:

Cosa succede se l’ipotesi di uguale varianza non viene soddisfatta?

Se questo presupposto viene violato, il modo più comune per risolvere il problema è trasformare la variabile di risposta utilizzando una delle tre trasformazioni:

1. Trasformazione del log: trasforma la variabile di risposta da y a log(y) .

2. Trasformazione della radice quadrata: trasforma la variabile di risposta da y a √y .

3. Trasformazione della radice del cubo: trasforma la variabile di risposta da y a y 1/3 .

Eseguendo queste trasformazioni, il problema dell’eteroschedasticità generalmente scompare.

Un altro modo per correggere l’eteroschedasticità è utilizzare la regressione dei minimi quadrati ponderati . Questo tipo di regressione assegna un peso a ciascun punto dati in base alla varianza del relativo valore adattato.

In sostanza, ciò attribuisce pesi bassi ai punti dati che presentano varianze più elevate, riducendo i loro quadrati residui. Quando vengono utilizzati i pesi appropriati, ciò può eliminare il problema dell’eteroschedasticità.

Risorse addizionali

Le tre ipotesi formulate in un’ANOVA
Le quattro ipotesi formulate in un T test
Le quattro ipotesi della regressione lineare

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *