Qual è il presupposto di normalità in statistica?


Molti test statistici si basano su quello che viene chiamato presupposto di normalità .

Questa ipotesi afferma che se raccogliamo molti campioni casuali indipendenti da una popolazione e calcoliamo un valore di interesse (come la media campionaria ), quindi creiamo un istogramma per visualizzare la distribuzione delle medie campionarie, dovremmo osservare una curva a campana perfetta.

Molte tecniche statistiche fanno questa ipotesi sui dati, tra cui:

1. Un test t del campione : si presuppone che i dati del campione siano distribuiti normalmente.

2. T-test a due campioni : si presuppone che i due campioni siano distribuiti normalmente.

3. ANOVA : Si presuppone che i residui del modello siano distribuiti normalmente.

4. Regressione lineare : si presuppone che i residui del modello siano distribuiti normalmente.

Se questo presupposto non viene soddisfatto, i risultati di questi test diventano inaffidabili e non siamo in grado di generalizzare con sicurezza le nostre conclusioni tratte dai campioni di dati alla popolazione complessiva. Ecco perché è importante verificare se questa ipotesi è soddisfatta.

Esistono due modi comuni per verificare se questo presupposto di normalità è soddisfatto:

1. Visualizza la normalità

2. Eseguire un test statistico formale

Le sezioni seguenti spiegano i grafici specifici che è possibile creare e i test statistici specifici che è possibile eseguire per verificare la normalità.

Visualizza la normalità

Un modo rapido e informale per verificare se un set di dati è distribuito normalmente è creare un istogramma o un grafico QQ.

1. Istogramma

Se l’istogramma di un set di dati ha approssimativamente la forma di una campana, è probabile che i dati siano distribuiti normalmente.

2. QQLand

Un grafico QQ, abbreviazione di “quantile-quantile”, è un tipo di grafico che mostra i quantili teorici lungo l’asse x (ovvero dove si troverebbero i dati se seguissero una distribuzione normale) e i quantili dei campioni lungo l’asse y. (cioè dove risiedono effettivamente i tuoi dati).

Se i valori dei dati seguono una linea approssimativamente retta che forma un angolo di 45 gradi, si presuppone che i dati siano distribuiti normalmente.

Eseguire un test statistico formale

È inoltre possibile eseguire un test statistico formale per determinare se un set di dati è distribuito normalmente.

Se il valore p del test è inferiore a un certo livello di significatività (come α = 0,05), allora hai prove sufficienti per affermare che i dati non sono distribuiti normalmente.

Esistono tre test statistici comunemente utilizzati per testare la normalità:

1. Il test di Jarque-Bera

2. Il test di Shapiro-Wilk

3. Il test di Kolmogorov-Smirnov

Cosa fare se viene violato il presupposto della normalità

Se risulta che i tuoi dati non sono distribuiti normalmente, hai due opzioni:

1. Trasforma i dati.

Un’opzione è semplicemente trasformare i dati per renderli distribuiti in modo più normale. Le trasformazioni comuni includono:

  • Trasformazione del log: trasforma i dati da y a log(y) .
  • Trasformazione radice quadrata: trasforma i dati da y a √y
  • Trasformazione della radice del cubo: trasforma i dati da y a y 1/3
  • Trasformazione Box-Cox: trasforma i dati utilizzando una procedura Box-Cox

Eseguendo queste trasformazioni, la distribuzione dei valori dei dati generalmente diventa più normalmente distribuita.

2. Eseguire un test non parametrico

I test statistici che presuppongono la normalità sono detti test parametrici . Ma esiste anche una famiglia di cosiddetti test non parametrici che non presuppongono questa normalità.

Se risulta che i tuoi dati non sono distribuiti normalmente, puoi semplicemente eseguire un test non parametrico. Ecco alcune versioni non parametriche dei comuni test statistici:

Test parametrici Equivalente non parametrico
Un test t del campione Un campione di test di grado firmato Wilcoxon
Test t a due campioni Test U di Mann-Whitney
Test t per campioni accoppiati Due campioni di test dei gradi firmati Wilcoxon
ANOVA unidirezionale Test di Kruskal-Wallis

Ciascuno di questi test non parametrici consente di effettuare un test statistico senza soddisfare il presupposto di normalità.

Risorse addizionali

Le quattro ipotesi formulate in un T test
Le quattro ipotesi della regressione lineare
Le quattro ipotesi dell’ANOVA

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *