Una semplice spiegazione su come interpretare la varianza
Nelle statistiche, spesso vogliamo capire come sono i valori “diffusi” in un set di dati. Per misurarlo, spesso utilizziamo le seguenti misure di dispersione:
- Intervallo: la differenza tra i valori più grandi e più piccoli in un set di dati.
- L’intervallo interquartile: la differenza tra il primo quartile e il terzo quartile di un set di dati (i quartili sono semplicemente valori che dividono un set di dati in quattro parti uguali).
- Deviazione standard: un modo per misurare la distanza tipica tra i valori e la media.
- Varianza: deviazione standard al quadrato.
Di queste quattro misure, la varianza tende ad essere la più difficile da comprendere intuitivamente. Questo articolo mira a fornire una semplice spiegazione della varianza.
Comprendere la deviazione standard
Prima di poter comprendere la varianza, dobbiamo prima comprendere la deviazione standard , solitamente indicata con σ .
La formula per calcolare la deviazione standard è:
σ = √(Σ (x i – μ) 2 / N)
dove μ è la media della popolazione, x i è l’ i-esimo elemento della popolazione, N è la dimensione della popolazione e Σ è solo un simbolo di fantasia che significa “somma”.
In pratica, raramente sarà necessario calcolare manualmente la deviazione standard; puoi invece utilizzare un software statistico o una calcolatrice.
Al suo livello più elementare, la deviazione standard ci dice la distribuzione dei valori dei dati in un set di dati. Per illustrare ciò, si considerino i seguenti tre set di dati insieme alle corrispondenti deviazioni standard:
[5, 5, 5] deviazione standard = 0 (nessuno spread)
[3, 5, 7] deviazione standard = 1,63 (alcune deviazioni)
[1, 5, 99] deviazione standard = 45,28 (molto spread)
Il termine “deviazione standard” può essere compreso guardando le due parole che lo compongono:
- “deviazione” – si riferisce alla distanza dalla media.
- “standard” – si riferisce alla distanza “standard” o “tipica” tra un valore e la media.
Una volta compresa la deviazione standard, è molto più semplice comprendere la varianza.
Comprendere il divario
La varianza, solitamente indicata con σ2 , è semplicemente la deviazione standard al quadrato. La formula per trovare la varianza di un set di dati è:
σ 2 = Σ (x i – μ) 2 / N
dove μ è la media della popolazione, x i è l’ i-esimo elemento della popolazione, N è la dimensione della popolazione e Σ è solo un simbolo di fantasia che significa “somma”.
Quindi, se la deviazione standard di un set di dati è 8, la variazione sarebbe 8 2 = 64.
Oppure, se la deviazione standard di un set di dati è 10, la variazione sarebbe 10 2 = 100.
Oppure, se la deviazione standard di un set di dati è 3,7, la variazione sarebbe 3,7 · 2 = 13,69.
Più i valori sono sparsi in un set di dati, maggiore è la varianza. Per illustrare ciò, si considerino i seguenti tre set di dati insieme alle loro varianze corrispondenti:
[5, 5, 5] varianza = 0 (nessuno spread)
[3, 5, 7] varianza = 2,67 (alcune deviazioni)
[1, 5, 99] varianza = 2.050,67 (molto spread)
Quando utilizzeresti la varianza invece della deviazione standard?
Dopo aver letto le spiegazioni sopra riportate su deviazione standard e varianza, potresti chiederti quando mai utilizzeresti la varianza invece della deviazione standard per descrivere un set di dati.
Dopotutto, la deviazione standard ci dice la distanza media tra un valore e la media, mentre la varianza ci dice il quadrato di quel valore. Sembrerebbe che la deviazione standard sia molto più facile da comprendere e interpretare.
In realtà, utilizzerai quasi sempre la deviazione standard per descrivere la distribuzione dei valori in un set di dati.
Tuttavia, la varianza può essere utile quando si utilizza una tecnica come ANOVA o regressione e si cerca di spiegare la varianza totale di un modello dovuta a fattori specifici.
Ad esempio, potresti voler capire quanta varianza nei punteggi dei test può essere spiegata dal QI e quanta varianza può essere spiegata dalle ore di studio.
Se il 36% della variazione è dovuta al QI e il 64% alle ore di studio, questo è facilmente intuibile. Ma se usiamo le deviazioni standard di 6 e 8, è molto meno intuitivo e non ha molto senso nel contesto del problema.
Un altro caso in cui potrebbe essere meglio utilizzare la varianza piuttosto che la deviazione standard è quando si esegue un lavoro statistico teorico.
In questo caso, è molto più semplice utilizzare la varianza durante il calcolo poiché non è necessario utilizzare il segno della radice quadrata.
Risorse addizionali
Le esercitazioni seguenti forniscono informazioni aggiuntive sulla varianza:
Varianza campionaria e varianza della popolazione: qual è la differenza?
Come calcolare la varianza del campione e della popolazione in Excel