Come calcolare la varianza del campione e della popolazione in python
La varianza è un modo per misurare la distribuzione dei valori in un set di dati.
La formula per calcolare la varianza della popolazione è:
σ 2 = Σ (x i – μ) 2 / N
Oro:
- Σ : Un simbolo che significa “somma”
- μ : media della popolazione
- x i : L’i- esimo elemento della popolazione
- N : dimensione della popolazione
La formula per calcolare la varianza campionaria è:
s2 = Σ (x i – x ) 2 / (n-1)
Oro:
- x : mezzi campione
- x i : L’ iesimo elemento del campione
- n : dimensione del campione
Possiamo utilizzare le funzioni varianza e pvarianza della libreria statistica in Python per calcolare rapidamente la varianza del campione e la varianza della popolazione (rispettivamente) per una determinata tabella.
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
Gli esempi seguenti mostrano come utilizzare nella pratica ciascuna funzione.
Esempio 1: calcolo della varianza del campione in Python
Il codice seguente mostra come calcolare la varianza campionaria di una tabella in Python:
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
La varianza campionaria risulta essere 22.067 .
Esempio 2: calcolo della varianza della popolazione in Python
Il codice seguente mostra come calcolare la varianza della popolazione di una tabella in Python:
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
La varianza della popolazione risulta essere 20.596 .
Note sul calcolo della varianza del campione e della popolazione
Tieni presente quanto segue quando calcoli la varianza del campione e della popolazione:
- Dovresti calcolare la varianza della popolazione quando il set di dati con cui stai lavorando rappresenta un’intera popolazione, ovvero ogni valore a cui sei interessato.
- Dovresti calcolare la varianza del campione quando il set di dati con cui stai lavorando rappresenta un campione prelevato da una popolazione di interesse più ampia.
- La varianza campionaria di una determinata tabella dati sarà sempre maggiore della varianza della popolazione per la stessa tabella dati perché c’è maggiore incertezza nel calcolo della varianza campionaria, quindi la nostra stima della varianza sarà maggiore.
Risorse addizionali
I seguenti tutorial spiegano come calcolare altre metriche di spread in Python:
Come calcolare l’intervallo interquartile in Python
Come calcolare il coefficiente di variazione in Python
Come calcolare la deviazione standard di una lista in Python