Vantaggi e svantaggi dell'utilizzo della mediana nelle statistiche


La mediana rappresenta il valore medio di un set di dati.

Viene calcolato ordinando tutte le osservazioni in un set di dati dal più piccolo al più grande e quindi identificando il valore mediano.

Ci sono due vantaggi principali nell’usare la mediana per descrivere il centro di un set di dati:

Vantaggio n. 1: la mediana non è influenzata dai valori anomali. Poiché la mediana trova solo il valore medio di un set di dati, non è influenzata da valori estremamente piccoli o estremamente grandi alle due estremità di un set di dati.

Vantaggio n. 2: la mediana è una buona misura del centro per set di dati distorti. Quando un set di dati è inclinato a sinistra o a destra , la mediana riesce comunque a identificare il valore centrale di un set di dati, a differenza della media che è fortemente influenzata da distribuzioni asimmetriche.

Tuttavia, l’utilizzo della mediana per riassumere un set di dati presenta due potenziali inconvenienti:

Svantaggio n. 1: la mediana non utilizza nel suo calcolo tutte le osservazioni di un set di dati. In statistica, generalmente diciamo che è positivo poter utilizzare tutte le osservazioni in un set di dati, perché in questo modo stiamo utilizzando tutte le informazioni disponibili dai nostri dati. Tuttavia, la mediana non tiene conto delle informazioni provenienti da valori estremamente piccoli o estremamente grandi in un set di dati.

Svantaggio n. 2: la mediana non può essere utilizzata per trovare la somma di tutte le osservazioni nel set di dati. Se conosciamo la dimensione media e totale del campione di un set di dati, possiamo trovare la somma di tutti i valori nel set di dati. Tuttavia, non possiamo fare la stessa cosa con la mediana.

I seguenti esempi illustrano nella pratica questi vantaggi e svantaggi.

Esempio 1: i vantaggi dell’utilizzo della mediana

Supponiamo di avere una distribuzione salariale molto sbilanciata e di decidere di calcolare sia il salario medio che quello mediano:

La media ci dice che un individuo tipico guadagna circa $ 47.000 all’anno, mentre la mediana ci dice che l’individuo tipico guadagna solo circa $ 32.000 all’anno, che è molto più rappresentativo dell’individuo tipico.

In questo esempio, la media è influenzata dai valori più alti sulla coda destra della distribuzione, mentre la mediana no.

Oppure supponiamo di avere un’altra distribuzione contenente informazioni sulla metratura delle case su una determinata strada e decidiamo di calcolare sia la media che la mediana del set di dati:

Quando utilizzare la media rispetto alla mediana

La media è influenzata da poche case estremamente grandi, per cui assume un valore molto più alto.

Tuttavia, la mediana non è influenzata da questi valori anomali e pertanto fornisce una misura molto migliore della metratura “tipica” di una casa su quella strada.

Esempio 2: gli svantaggi dell’utilizzo della mediana

Ricordiamo il primo potenziale svantaggio della mediana:

Svantaggio n. 1: la mediana non utilizza nel suo calcolo tutte le osservazioni di un set di dati.

Ad esempio, supponiamo di avere il seguente set di dati che mostra la distribuzione dei punteggi degli esami per gli studenti in una classe:

Valutazioni: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

Il punteggio medio dell’esame è 83.

Supponiamo ora di avere lo stesso set di dati, ma i tre punteggi più bassi degli esami sono molto più bassi:

Valutazioni: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

Il punteggio medio dell’esame in questa distribuzione è ancora 83.

Per questo diciamo che la mediana non utilizza tutte le informazioni disponibili in un set di dati: non tiene conto dei valori effettivi dei dati poiché è solo una misura di posizione.

Ora ricordiamo il secondo potenziale svantaggio della mediana:

Svantaggio n. 2: la mediana non può essere utilizzata per trovare la somma di tutte le osservazioni nel set di dati.

Supponiamo di avere il seguente set di dati contenente informazioni sulle vendite totali effettuate da 11 dipendenti diversi in un particolare trimestre:

Vendite: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

Sappiamo che il valore medio è 24 e sappiamo che ci sono 11 dipendenti in totale. Tuttavia, non possiamo utilizzare queste informazioni per conoscere l’importo totale delle vendite di tutti i dipendenti.

D’altra parte, se sapessimo che il valore medio è 24 e che ci sono 11 dipendenti in totale, potremmo semplicemente moltiplicare 24 per 11 per trovare che la somma totale delle vendite è 24 * 11 = 264.

Nota : a seconda della distribuzione dei dati e del problema che stai tentando di risolvere, la media o la mediana potrebbe essere la metrica preferibile da utilizzare.

Risorse addizionali

Le esercitazioni seguenti forniscono informazioni aggiuntive sulla media e sulla mediana nelle statistiche:

In che modo i valori anomali influenzano la media?
Come stimare la media e la mediana di qualsiasi istogramma
Come trovare la media e la mediana dei grafici di fusti e foglie

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *