Qual è il presupposto di normalità in statistica?
Molti test statistici si basano su quello che viene chiamato presupposto di normalità .
Questa ipotesi afferma che se raccogliamo molti campioni casuali indipendenti da una popolazione e calcoliamo un valore di interesse (come la media campionaria ), quindi creiamo un istogramma per visualizzare la distribuzione delle medie campionarie, dovremmo osservare una curva a campana perfetta.
Molte tecniche statistiche fanno questa ipotesi sui dati, tra cui:
1. Un test t del campione : si presuppone che i dati del campione siano distribuiti normalmente.
2. T-test a due campioni : si presuppone che i due campioni siano distribuiti normalmente.
3. ANOVA : Si presuppone che i residui del modello siano distribuiti normalmente.
4. Regressione lineare : si presuppone che i residui del modello siano distribuiti normalmente.
Se questo presupposto non viene soddisfatto, i risultati di questi test diventano inaffidabili e non siamo in grado di generalizzare con sicurezza le nostre conclusioni tratte dai campioni di dati alla popolazione complessiva. Ecco perché è importante verificare se questa ipotesi è soddisfatta.
Esistono due modi comuni per verificare se questo presupposto di normalità è soddisfatto:
1. Visualizza la normalità
2. Eseguire un test statistico formale
Le sezioni seguenti spiegano i grafici specifici che è possibile creare e i test statistici specifici che è possibile eseguire per verificare la normalità.
Visualizza la normalità
Un modo rapido e informale per verificare se un set di dati è distribuito normalmente è creare un istogramma o un grafico QQ.
1. Istogramma
Se l’istogramma di un set di dati ha approssimativamente la forma di una campana, è probabile che i dati siano distribuiti normalmente.
2. QQLand
Un grafico QQ, abbreviazione di “quantile-quantile”, è un tipo di grafico che mostra i quantili teorici lungo l’asse x (ovvero dove si troverebbero i dati se seguissero una distribuzione normale) e i quantili dei campioni lungo l’asse y. (cioè dove risiedono effettivamente i tuoi dati).
Se i valori dei dati seguono una linea approssimativamente retta che forma un angolo di 45 gradi, si presuppone che i dati siano distribuiti normalmente.
Eseguire un test statistico formale
È inoltre possibile eseguire un test statistico formale per determinare se un set di dati è distribuito normalmente.
Se il valore p del test è inferiore a un certo livello di significatività (come α = 0,05), allora hai prove sufficienti per affermare che i dati non sono distribuiti normalmente.
Esistono tre test statistici comunemente utilizzati per testare la normalità:
1. Il test di Jarque-Bera
- Come eseguire un test Jarque-Bera in Excel
- Come eseguire un test Jarque-Bera in R
- Come eseguire un test Jarque-Bera in Python
2. Il test di Shapiro-Wilk
3. Il test di Kolmogorov-Smirnov
- Come eseguire un test di Kolmogorov-Smirnov in Excel
- Come eseguire un test di Kolmogorov-Smirnov in R
- Come eseguire un test di Kolmogorov-Smirnov in Python
Cosa fare se viene violato il presupposto della normalità
Se risulta che i tuoi dati non sono distribuiti normalmente, hai due opzioni:
1. Trasforma i dati.
Un’opzione è semplicemente trasformare i dati per renderli distribuiti in modo più normale. Le trasformazioni comuni includono:
- Trasformazione del log: trasforma i dati da y a log(y) .
- Trasformazione radice quadrata: trasforma i dati da y a √y
- Trasformazione della radice del cubo: trasforma i dati da y a y 1/3
- Trasformazione Box-Cox: trasforma i dati utilizzando una procedura Box-Cox
Eseguendo queste trasformazioni, la distribuzione dei valori dei dati generalmente diventa più normalmente distribuita.
2. Eseguire un test non parametrico
I test statistici che presuppongono la normalità sono detti test parametrici . Ma esiste anche una famiglia di cosiddetti test non parametrici che non presuppongono questa normalità.
Se risulta che i tuoi dati non sono distribuiti normalmente, puoi semplicemente eseguire un test non parametrico. Ecco alcune versioni non parametriche dei comuni test statistici:
Test parametrici | Equivalente non parametrico |
---|---|
Un test t del campione | Un campione di test di grado firmato Wilcoxon |
Test t a due campioni | Test U di Mann-Whitney |
Test t per campioni accoppiati | Due campioni di test dei gradi firmati Wilcoxon |
ANOVA unidirezionale | Test di Kruskal-Wallis |
Ciascuno di questi test non parametrici consente di effettuare un test statistico senza soddisfare il presupposto di normalità.
Risorse addizionali
Le quattro ipotesi formulate in un T test
Le quattro ipotesi della regressione lineare
Le quattro ipotesi dell’ANOVA