Vantaggi e svantaggi dell'utilizzo della media nelle statistiche
La media di un set di dati rappresenta il valore medio del set di dati.
Viene calcolato come segue:
Media = Σx i /n
Oro:
- Σ: Un simbolo che significa “somma”
- x i : l’ iesima osservazione in un set di dati
- n: il numero totale di osservazioni nel set di dati
Ci sono due vantaggi principali nell’usare la media per descrivere il “centro” o la “media” di un set di dati:
Vantaggio n. 1: la media utilizza nel suo calcolo tutte le osservazioni di un set di dati. In statistica, questo è generalmente una buona cosa perché si dice che utilizzi tutte le informazioni disponibili in un set di dati.
Vantaggio n. 2: la media è facile da calcolare e interpretare. La media è la somma di tutte le osservazioni divisa per il numero totale di osservazioni. È facile da calcolare (anche manualmente) e facile da interpretare.
Tuttavia, l’utilizzo della media per riassumere un set di dati presenta due potenziali inconvenienti:
Svantaggio n. 1: la media è influenzata da valori anomali. Se un set di dati presenta un valore anomalo estremo, ciò influisce sulla media e la rende una misura inaffidabile del centro di un set di dati.
Svantaggio n. 2: la media può essere fuorviante con set di dati distorti. Quando un set di dati è inclinato a sinistra o a destra , la media può essere un modo fuorviante di misurare il centro di un set di dati.
I seguenti esempi illustrano nella pratica questi vantaggi e svantaggi.
Esempio 1: i vantaggi dell’utilizzo della media
Supponiamo di avere il seguente istogramma che mostra gli stipendi dei residenti di una particolare città:
Poiché questa distribuzione è generalmente simmetrica (se la dividessi a metà, ciascuna metà sembrerebbe più o meno uguale) e non ci sono valori anomali, la media è un modo utile per descrivere il centro di questo insieme di dati.
La media risulta essere $ 63.000, che è approssimativamente al centro della distribuzione:
In questo esempio particolare, siamo stati in grado di sfruttare entrambi i vantaggi della media:
Vantaggio n. 1: la media utilizza nel suo calcolo tutte le osservazioni di un set di dati.
Poiché la distribuzione era essenzialmente simmetrica e non vi erano valori anomali estremi, abbiamo potuto utilizzare tutti gli stipendi disponibili per calcolare la media, che ci ha dato una buona idea dello stipendio “medio” o “tipico” in questa particolare città.
Vantaggio n. 2: la media è facile da calcolare e interpretare. È facile capire che lo stipendio medio di 63.000 dollari rappresenta lo stipendio “medio” di un individuo in questa città.
Sebbene alcuni individui guadagnino molto di più e altri molto meno, questo valore medio ci dà una buona idea di uno stipendio “tipico” in questa città.
Esempio 2: gli svantaggi dell’utilizzo della media
Supponiamo di avere una distribuzione salariale molto sbilanciata e di decidere di calcolare sia il salario medio che quello mediano:
Valori più alti nella coda della distribuzione spostano la media lontano dal centro e verso la coda lunga.
In questo esempio, la media ci dice che un individuo tipico guadagna circa $ 47.000 all’anno, mentre la mediana ci dice che l’individuo tipico guadagna solo circa $ 32.000 all’anno, che è molto più rappresentativo dell’individuo tipico.
In questo esempio, la media riassume male il valore “tipico” o “medio” in questa distribuzione poiché la distribuzione è distorta.
Oppure supponiamo di avere un’altra distribuzione contenente informazioni sulla metratura delle case su una determinata strada e decidiamo di calcolare sia la media che la mediana del set di dati:
La media è influenzata da poche case estremamente grandi, per cui assume un valore molto più alto.
Ciò rende fuorviante il valore medio della metratura e fornisce una misura inadeguata della metratura “tipica” di una casa in quella strada.
Risorse addizionali
Le esercitazioni seguenti forniscono informazioni aggiuntive sulla media e sulla mediana nelle statistiche:
In che modo i valori anomali influenzano la media?
Come stimare la media e la mediana di qualsiasi istogramma
Come trovare la media e la mediana dei grafici di fusti e foglie