Come calcolare la varianza del campione e della popolazione in python


La varianza è un modo per misurare la distribuzione dei valori in un set di dati.

La formula per calcolare la varianza della popolazione è:

σ 2 = Σ (x i – μ) 2 / N

Oro:

  • Σ : Un simbolo che significa “somma”
  • μ : media della popolazione
  • x i : L’i- esimo elemento della popolazione
  • N : dimensione della popolazione

La formula per calcolare la varianza campionaria è:

s2 = Σ (x ix ) 2 / (n-1)

Oro:

  • x : mezzi campione
  • x i : L’ iesimo elemento del campione
  • n : dimensione del campione

Possiamo utilizzare le funzioni varianza e pvarianza della libreria statistica in Python per calcolare rapidamente la varianza del campione e la varianza della popolazione (rispettivamente) per una determinata tabella.

 from statistics import variance, pvariance

#calculate sample variance
variance(s)

#calculate population variance
pvariance(x)

Gli esempi seguenti mostrano come utilizzare nella pratica ciascuna funzione.

Esempio 1: calcolo della varianza del campione in Python

Il codice seguente mostra come calcolare la varianza campionaria di una tabella in Python:

 from statistics import variance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
variance(data)

22,067

La varianza campionaria risulta essere 22.067 .

Esempio 2: calcolo della varianza della popolazione in Python

Il codice seguente mostra come calcolare la varianza della popolazione di una tabella in Python:

 from statistics import pvariance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
pvariance(data)

20,596

La varianza della popolazione risulta essere 20.596 .

Note sul calcolo della varianza del campione e della popolazione

Tieni presente quanto segue quando calcoli la varianza del campione e della popolazione:

  • Dovresti calcolare la varianza della popolazione quando il set di dati con cui stai lavorando rappresenta un’intera popolazione, ovvero ogni valore a cui sei interessato.
  • Dovresti calcolare la varianza del campione quando il set di dati con cui stai lavorando rappresenta un campione prelevato da una popolazione di interesse più ampia.
  • La varianza campionaria di una determinata tabella dati sarà sempre maggiore della varianza della popolazione per la stessa tabella dati perché c’è maggiore incertezza nel calcolo della varianza campionaria, quindi la nostra stima della varianza sarà maggiore.

Risorse addizionali

I seguenti tutorial spiegano come calcolare altre metriche di spread in Python:

Come calcolare l’intervallo interquartile in Python
Come calcolare il coefficiente di variazione in Python
Come calcolare la deviazione standard di una lista in Python

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *