Perché la mediana è importante nelle statistiche?
La mediana rappresenta il valore medio di un set di dati, quando tutti i valori sono ordinati dal più piccolo al più grande.
Ad esempio, la mediana nel seguente set di dati è 19:
Set di dati: 3, 4, 11, 15, 19 , 22, 23, 23, 26
La mediana rappresenta anche il 50° percentile di un set di dati. Cioè, esattamente la metà dei valori nel set di dati sono al di sopra della mediana e la metà dei valori al di sotto.
La mediana è una metrica importante da calcolare perché ci dà un’idea di dove si trova il “centro” di un set di dati. Questo ci dà anche un’idea del valore “tipico” in un dato set di dati.
Ad esempio, supponiamo di avere un set di dati contenente i prezzi di vendita di 10.000 case diverse in una determinata città.
Invece di guardare righe e righe di dati grezzi , possiamo calcolare il valore mediano per comprendere rapidamente il prezzo di vendita medio delle case in quella città.
Sapendo che il prezzo di vendita medio è di $ 271.000, sappiamo che esattamente la metà delle 10.000 case è stata venduta per più di tale importo e l’altra metà per meno.
Questo ci dà anche un’idea del prezzo di vendita “tipico” delle case in questa città.
Quando utilizzare la mediana
Quando analizziamo i set di dati, spesso vogliamo capire dove si trova il valore centrale.
In statistica, esistono due parametri comuni che utilizziamo per misurare il centro di un set di dati:
- Media : il valore medio in un insieme di dati
- Mediana : il valore mediano in un set di dati
Risulta che la mediana è una misura più utile nelle seguenti circostanze:
- Quando la distribuzione è asimmetrica .
- Quando la distribuzione contiene valori anomali.
Per illustrare ciò, si considerino i due esempi seguenti.
Esempio 1: calcolo della mediana di una distribuzione asimmetrica
Considera la seguente distribuzione degli stipendi per i residenti di una determinata città:
La mediana riflette meglio la retribuzione “tipica” di un residente rispetto alla media, perché la distribuzione è sbilanciata verso destra.
Ciò significa che i salari elevati sul lato destro della distribuzione spingono la media lontano dal centro della distribuzione.
In questo particolare esempio, lo stipendio medio è di $ 47.000 mentre lo stipendio medio è di $ 32.000. La mediana è molto più rappresentativa dello stipendio tipico in questa città.
Esempio 2: calcolo della mediana in presenza di valori anomali
Considera il seguente grafico che mostra la metratura delle case in una determinata strada:
La media è fortemente influenzata da alcune case estremamente grandi, mentre la mediana non lo è.
Possiamo vedere che la mediana fa un lavoro migliore nel catturare la metratura “tipica” di una casa su quella strada rispetto alla media, perché non è influenzata da valori anomali.
Riepilogo
Ecco un breve riassunto dei punti principali trattati in questo articolo:
- La mediana rappresenta il valore medio in un set di dati.
- La mediana è importante perché ci dà un’idea di dove si trova il valore centrale in un set di dati.
- La mediana tende ad essere più utile da calcolare rispetto alla media quando una distribuzione è distorta e/o presenta valori anomali.
Risorse addizionali
Esempi concreti: utilizzo della media, della mediana e della moda
Quando utilizzare la media vs. Mediana: con esempi
Perché la modalità è importante nelle statistiche?