In che modo i valori anomali influenzano la media?
Nelle statistiche, la media di un insieme di dati è il valore medio. Questo è utile saperlo perché ci dà un’idea di dove si trova il “centro” del set di dati. Si calcola utilizzando la semplice formula:
media = (somma delle osservazioni) / (numero di osservazioni)
Ad esempio, supponiamo di avere il seguente set di dati:
[1, 4, 5, 6, 7]
La media del set di dati è (1+4+5+6+7) / (5) = 4,6
Ma anche se la media è utile e facile da calcolare, presenta uno svantaggio: può essere influenzata da valori anomali . In particolare, quanto più piccolo è il set di dati, tanto più un valore anomalo potrebbe influenzare la media.
Per illustrare ciò, si consideri il seguente classico esempio:
Dieci uomini sono seduti in un bar. Il reddito medio di dieci uomini è di 50.000 dollari. All’improvviso esce un uomo ed entra Bill Gates. Oggi il reddito medio dei dieci uomini del bar è di 40 milioni di dollari.
Questo esempio mostra come un valore anomalo (Bill Gates) potrebbe influenzare in modo significativo la media.
Valori anomali piccoli e grandi
Un valore anomalo può influenzare la media essendo insolitamente piccolo o insolitamente grande. Nell’esempio precedente, Bill Gates aveva un reddito insolitamente alto, rendendo la media fuorviante.
Tuttavia, anche un valore insolitamente basso può influenzare la media. Per illustrare ciò, si consideri il seguente esempio:
Dieci studenti sostengono un esame e ottengono i seguenti voti:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Il punteggio medio è 84,6 .
Tuttavia, se rimuoviamo il punteggio “0” dal set di dati, il punteggio medio diventa 94 .
Il punteggio insolitamente basso di uno studente abbassa la media dell’intero set di dati.
Dimensione del campione e valori anomali
Minore è la dimensione del campione del set di dati, maggiore è la probabilità che un valore anomalo incida sulla media.
Ad esempio, supponiamo di avere un set di dati di 100 punteggi di esami in cui tutti gli studenti hanno ottenuto un punteggio pari o superiore a 90, tranne uno studente che ha ottenuto un punteggio pari a zero:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
La media risulta essere 93,18 . Se rimuovessimo lo “0” dal set di dati, la media sarebbe 94,12 . Questa è una differenza relativamente piccola. Ciò dimostra che anche un valore anomalo estremo ha solo un effetto minimo se il set di dati è sufficientemente grande.
Come gestire i valori anomali
Se temi che possa esserci un valore anomalo nel tuo set di dati, hai diverse opzioni:
- Assicurarsi che il valore anomalo non sia il risultato di un errore di immissione dei dati. A volte un individuo inserisce semplicemente il valore dei dati errato durante il salvataggio dei dati. Se è presente un valore anomalo, verificare innanzitutto che il valore sia stato immesso correttamente e che non si tratti di un errore.
- Assegnare un nuovo valore al valore anomalo . Se l’outlier risulta essere il risultato di un errore di immissione dei dati, puoi decidere di assegnargli un nuovo valore come la media o la mediana del set di dati.
- Rimuovi il valore anomalo. Se il valore è davvero un valore anomalo, puoi scegliere di rimuoverlo se avrà un impatto significativo sull’analisi complessiva. Assicurati solo di menzionare nel rapporto finale o nell’analisi che hai rimosso un valore anomalo.
Usa la mediana
Un altro modo per trovare il “centro” di un set di dati è utilizzare la mediana , ottenuta ordinando tutti i singoli valori in un set di dati dal più piccolo al più grande e trovando il valore mediano.
Per il modo in cui viene calcolata, la mediana è meno influenzata dai valori anomali e cattura meglio la posizione centrale di una distribuzione quando sono presenti valori anomali.
Ad esempio, considera il seguente grafico che mostra la metratura delle case in un particolare quartiere:
La media è fortemente influenzata da alcune case estremamente grandi, mentre la mediana non lo è. Pertanto, la mediana fa un lavoro migliore nel catturare la metratura “tipica” di una casa in quel quartiere rispetto alla media.
Ulteriori letture:
Misure di tendenza centrale – media, mediana e moda
Test Q di Dixon per rilevare valori anomali
Calcolatore dei valori anomali