Una semplice spiegazione su come interpretare la varianza


Nelle statistiche, spesso vogliamo capire come sono i valori “diffusi” in un set di dati. Per misurarlo, spesso utilizziamo le seguenti misure di dispersione:

  • Intervallo: la differenza tra i valori più grandi e più piccoli in un set di dati.
  • L’intervallo interquartile: la differenza tra il primo quartile e il terzo quartile di un set di dati (i quartili sono semplicemente valori che dividono un set di dati in quattro parti uguali).
  • Deviazione standard: un modo per misurare la distanza tipica tra i valori e la media.
  • Varianza: deviazione standard al quadrato.

Di queste quattro misure, la varianza tende ad essere la più difficile da comprendere intuitivamente. Questo articolo mira a fornire una semplice spiegazione della varianza.

Comprendere la deviazione standard

Prima di poter comprendere la varianza, dobbiamo prima comprendere la deviazione standard , solitamente indicata con σ .

La formula per calcolare la deviazione standard è:

σ = √(Σ (x i – μ) 2 / N)

dove μ è la media della popolazione, x i è l’ i-esimo elemento della popolazione, N è la dimensione della popolazione e Σ è solo un simbolo di fantasia che significa “somma”.

In pratica, raramente sarà necessario calcolare manualmente la deviazione standard; puoi invece utilizzare un software statistico o una calcolatrice.

Al suo livello più elementare, la deviazione standard ci dice la distribuzione dei valori dei dati in un set di dati. Per illustrare ciò, si considerino i seguenti tre set di dati insieme alle corrispondenti deviazioni standard:

[5, 5, 5] deviazione standard = 0 (nessuno spread)

[3, 5, 7] deviazione standard = 1,63 (alcune deviazioni)

[1, 5, 99] deviazione standard = 45,28 (molto spread)

Il termine “deviazione standard” può essere compreso guardando le due parole che lo compongono:

  • “deviazione” – si riferisce alla distanza dalla media.
  • “standard” – si riferisce alla distanza “standard” o “tipica” tra un valore e la media.

Una volta compresa la deviazione standard, è molto più semplice comprendere la varianza.

Comprendere il divario

La varianza, solitamente indicata con σ2 , è semplicemente la deviazione standard al quadrato. La formula per trovare la varianza di un set di dati è:

σ 2 = Σ (x i – μ) 2 / N

dove μ è la media della popolazione, x i è l’ i-esimo elemento della popolazione, N è la dimensione della popolazione e Σ è solo un simbolo di fantasia che significa “somma”.

Quindi, se la deviazione standard di un set di dati è 8, la variazione sarebbe 8 2 = 64.

Oppure, se la deviazione standard di un set di dati è 10, la variazione sarebbe 10 2 = 100.

Oppure, se la deviazione standard di un set di dati è 3,7, la variazione sarebbe 3,7 · 2 = 13,69.

Più i valori sono sparsi in un set di dati, maggiore è la varianza. Per illustrare ciò, si considerino i seguenti tre set di dati insieme alle loro varianze corrispondenti:

[5, 5, 5] varianza = 0 (nessuno spread)

[3, 5, 7] varianza = 2,67 (alcune deviazioni)

[1, 5, 99] varianza = 2.050,67 (molto spread)

Quando utilizzeresti la varianza invece della deviazione standard?

Dopo aver letto le spiegazioni sopra riportate su deviazione standard e varianza, potresti chiederti quando mai utilizzeresti la varianza invece della deviazione standard per descrivere un set di dati.

Dopotutto, la deviazione standard ci dice la distanza media tra un valore e la media, mentre la varianza ci dice il quadrato di quel valore. Sembrerebbe che la deviazione standard sia molto più facile da comprendere e interpretare.

In realtà, utilizzerai quasi sempre la deviazione standard per descrivere la distribuzione dei valori in un set di dati.

Tuttavia, la varianza può essere utile quando si utilizza una tecnica come ANOVA o regressione e si cerca di spiegare la varianza totale di un modello dovuta a fattori specifici.

Ad esempio, potresti voler capire quanta varianza nei punteggi dei test può essere spiegata dal QI e quanta varianza può essere spiegata dalle ore di studio.

Se il 36% della variazione è dovuta al QI e il 64% alle ore di studio, questo è facilmente intuibile. Ma se usiamo le deviazioni standard di 6 e 8, è molto meno intuitivo e non ha molto senso nel contesto del problema.

Un altro caso in cui potrebbe essere meglio utilizzare la varianza piuttosto che la deviazione standard è quando si esegue un lavoro statistico teorico.

In questo caso, è molto più semplice utilizzare la varianza durante il calcolo poiché non è necessario utilizzare il segno della radice quadrata.

Risorse addizionali

Le esercitazioni seguenti forniscono informazioni aggiuntive sulla varianza:

Varianza campionaria e varianza della popolazione: qual è la differenza?
Come calcolare la varianza del campione e della popolazione in Excel

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *