Media campionaria vs media popolazione: qual è la differenza?


Spesso in statistica vogliamo rispondere a domande come:

  • Qual è il reddito familiare medio in una determinata città?
  • Qual è il peso medio di una certa specie di tartaruga?
  • Qual è la frequenza media alle partite di football universitario?

In ogni scenario, vogliamo rispondere a una domanda su una popolazione , che rappresenta tutti i possibili elementi individuali che vogliamo misurare.

Tuttavia, invece di raccogliere dati su ciascun individuo di una popolazione, raccogliamo dati su un campione della popolazione, che rappresenta una parte della popolazione totale.

Ad esempio, potremmo voler conoscere il peso medio di una certa specie di tartaruga che conta una popolazione totale di 800 tartarughe.

Dato che individuare e pesare ogni tartaruga della popolazione richiederebbe troppo tempo, raccogliamo invece un semplice campione casuale di 30 tartarughe e ne misuriamo il peso:

Esempio medio Esempio

Potremmo quindi utilizzare il peso medio di questo campione di tartarughe per stimare il peso medio di tutte le tartarughe della popolazione.

Come calcolare la media campionaria

La formula per calcolare la media campionaria, spesso indicata con x , è la seguente:

x = Σx io /n

Oro:

  • Σ: un sofisticato simbolo greco che significa “somma”
  • x i : il valore dell’iesima osservazione nel set di dati
  • n: la dimensione del campione

Ad esempio, supponiamo di raccogliere un campione di 10 tartarughe con i seguenti pesi (in libbre):

  • 70, 80, 80, 85, 90, 95, 110, 120, 140, 150

La media campionaria verrebbe calcolata come segue:

  • x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102

Perché la media campionaria è imparziale

Nel gergo statistico diremmo che la media campionaria è una statistica mentre la media della popolazione è un parametro .

Ecco la differenza tra i due termini:

Una statistica è un numero che descrive determinate caratteristiche di un campione.

Un parametro è un numero che descrive una caratteristica di una popolazione.

Il parametro è il valore che vogliamo effettivamente misurare, ma la statistica è il valore che utilizziamo per stimare il valore del parametro poiché la statistica è molto più semplice da ottenere.

Quando utilizziamo un metodo come il campionamento casuale semplice per ottenere un campione, diciamo che la media campionaria è uno stimatore imparziale della media della popolazione.

In altre parole, non abbiamo motivo di credere che la media campionaria possa sottostimare o sovrastimare la vera media della popolazione.

Il motivo è che quando utilizziamo un metodo come il campionamento casuale semplice, ogni membro della popolazione ha la stessa probabilità di essere incluso nel campione, il che significa che è probabile che il campione sia una “mini-versione” della popolazione complessiva. .

Diremmo che il campione è rappresentativo della popolazione complessiva , il che significa che la media del campione dovrebbe essere una buona stima della media della popolazione, presupponendo che la dimensione del campione sia sufficientemente grande.

Sull’utilizzo degli intervalli di confidenza con la media campionaria

Sebbene la media campionaria fornisca una stima imparziale della media della popolazione, è improbabile che corrisponda esattamente alla media della popolazione.

Ad esempio, se vogliamo utilizzare un campione di tartarughe per stimare il peso medio di una popolazione di tartarughe, potremmo scegliere un campione pieno di tartarughe di basso peso o magari un campione pieno di tartarughe pesanti.

Per catturare questa incertezza attorno alla nostra stima della media della popolazione, possiamo creare un intervallo di confidenza .

Un intervallo di confidenza è un intervallo di valori che probabilmente contiene un parametro della popolazione con un certo livello di confidenza.

Ad esempio, potremmo raccogliere un campione di 30 tartarughe e scoprire che il peso medio di quel campione è di 102 libbre. Se poi costruiamo un intervallo di confidenza al 95%, potremmo scoprire che l’intervallo è:

Intervallo di confidenza al 95% = [98,5, 105,5]

Interpreteremmo ciò nel senso che esiste una probabilità del 95% che l’intervallo di confidenza di [98,5, 105,5] contenga il vero peso medio della popolazione di tartarughe.

Questo intervallo di confidenza è più utile della semplice media campionaria, perché ci fornisce un intervallo di valori all’interno del quale è probabile che si trovi la vera media della popolazione.

Risorse addizionali

Popolazione vs. campione: qual è la differenza?
Statistiche contro parametri: qual è la differenza?
Un’introduzione agli intervalli di confidenza

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *