Varianza del campione vs. varianza della popolazione: qual è la differenza?
La varianza è un modo per misurare la distribuzione dei valori in un set di dati.
La formula per calcolare la varianza della popolazione è:
σ 2 = Σ (x i – μ) 2 / N
Oro:
- Σ : Un simbolo che significa “somma”
- μ : media della popolazione
- x i : L’i- esimo elemento della popolazione
- N : dimensione della popolazione
La formula per calcolare la varianza campionaria è:
s2 = Σ (x i – x ) 2 / (n-1)
Oro:
- x : mezzi campione
- x i : L’ iesimo elemento del campione
- n : dimensione del campione
Tieni presente che c’è solo una piccola differenza tra le due formule:
Quando calcoliamo la varianza della popolazione, dividiamo per N (la dimensione della popolazione).
Quando calcoliamo la varianza del campione, dividiamo per n-1 (la dimensione del campione – 1).
Quando calcoliamo la varianza campionaria, applichiamo la cosiddetta correzione di Bessel , che prevede la divisione per n-1.
Senza impantanarsi nei dettagli matematici, la divisione per n-1 può rivelarsi una stima imparziale della varianza della popolazione, che è comunque il valore a cui solitamente siamo interessati.
Quando calcolare la varianza del campione rispetto alla varianza della popolazione
Se non sei sicuro se calcolare la varianza campionaria o quella della popolazione, tieni presente questa regola generale:
Dovresti calcolare la varianza del campione quando il set di dati con cui stai lavorando rappresenta un campione prelevato da una popolazione di interesse più ampia.
Dovresti calcolare la varianza della popolazione quando il set di dati con cui stai lavorando rappresenta un’intera popolazione, ovvero ogni valore a cui sei interessato.
Gli esempi seguenti mostrano diversi scenari per il calcolo della varianza del campione rispetto alla varianza della popolazione.
Esempio: calcolo della varianza del campione
Supponiamo che un botanico voglia calcolare la variazione di altezza di una certa specie vegetale. Poiché in un’area ci sono migliaia di singole piante, decide di prendere un semplice campione casuale di 20 piante e misurarne l’altezza.
In questo scenario, il botanico deve calcolare la varianza del campione perché è interessato alla varianza dell’intera popolazione vegetale ma utilizza semplicemente questo campione per stimare la varianza reale della popolazione.
Esempio: calcolo della varianza della popolazione
Supponiamo che un insegnante voglia calcolare la varianza dei punteggi degli esami dei 20 studenti della sua classe.
In questo scenario, l’insegnante deve calcolare la varianza della popolazione , perché il set di dati con cui sta lavorando (i 20 risultati degli esami) rappresenta l’intera popolazione di interesse.
Risorse addizionali
I seguenti tutorial spiegano come calcolare la varianza del campione e la varianza della popolazione in diversi software statistici:
Come calcolare la varianza del campione e della popolazione in Excel
Come calcolare la varianza del campione e della popolazione in R
Come calcolare la varianza del campione e della popolazione in Python