Quando utilizzare la media vs. mediana: con esempi
La media di un set di dati rappresenta il valore medio del set di dati. Viene calcolato come segue:
Media = Σx i /n
Oro:
- Σ: Un simbolo che significa “somma”
- x i : l’ iesima osservazione in un set di dati
- n: il numero totale di osservazioni nel set di dati
La mediana rappresenta il valore medio di un set di dati. Viene calcolato ordinando tutte le osservazioni in un set di dati dal più piccolo al più grande e quindi identificando il valore mediano.
Ad esempio, supponiamo di avere il seguente set di dati con 11 osservazioni :
Set di dati: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17
La media del set di dati viene calcolata come segue:
Media = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
La mediana del set di dati è il valore direttamente al centro, che risulta essere 8:
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
La stima media e mediana della posizione del centro di un set di dati. Tuttavia, a seconda della natura dei dati, la media o la mediana possono essere più utili nel descrivere il centro del set di dati.
Quando utilizzare la media
È meglio utilizzare la media per descrivere il centro di un set di dati quando la distribuzione è essenzialmente simmetrica e non sono presenti valori anomali.
Ad esempio, supponiamo di avere la seguente distribuzione che mostra gli stipendi dei residenti di una determinata città:
Poiché questa distribuzione è abbastanza simmetrica (se la dividessi a metà, ciascuna metà sembrerebbe più o meno uguale) e non ci sono valori anomali, possiamo usare la media per descrivere il centro di questo insieme di dati.
La media risulta essere $ 63.000, che è approssimativamente al centro della distribuzione:
Quando utilizzare la mediana
È meglio utilizzare la mediana quando la distribuzione è asimmetrica o quando sono presenti valori anomali.
Dati distorti:
Quando una distribuzione è asimmetrica, la mediana descrive il centro della distribuzione meglio della media.
Ad esempio, considera la seguente distribuzione degli stipendi dei residenti di una determinata città:
La mediana riflette meglio la retribuzione “tipica” di un residente rispetto alla media. Questo perché valori elevati nella coda della distribuzione tendono a spingere la media lontano dal centro e verso la coda lunga.
In questo esempio, la media ci dice che un individuo tipico guadagna circa $ 47.000 all’anno, mentre la mediana ci dice che l’individuo tipico guadagna solo circa $ 32.000 all’anno, che è molto più rappresentativo dell’individuo tipico.
Valori anomali:
La mediana aiuta inoltre a catturare meglio la posizione centrale di una distribuzione quando nei dati sono presenti valori anomali. Ad esempio, considera il seguente grafico che mostra la metratura delle case in una determinata strada:
La media è fortemente influenzata da alcune case estremamente grandi, mentre la mediana non lo è. Pertanto, la mediana fa un lavoro migliore nel catturare la metratura “tipica” di una casa su quella strada rispetto alla media.
Riepilogo
In sintesi:
- La media e la mediana possono essere utilizzate per descrivere dove si trova il “centro” di un set di dati.
- È meglio utilizzare la media quando la distribuzione dei valori dei dati è simmetrica e non sono presenti valori anomali evidenti.
- È preferibile utilizzare la mediana quando la distribuzione dei valori dei dati è distorta o quando sono presenti valori anomali evidenti.
Risorse addizionali
In che modo i valori anomali influenzano la media?
Come stimare la media e la mediana di qualsiasi istogramma
Come trovare la media e la mediana dei grafici di fusti e foglie