Come trovare facilmente i valori anomali in excel
Un valore anomalo è un’osservazione anormalmente distante da altri valori in un set di dati.
I valori anomali possono essere problematici perché possono influenzare i risultati di un’analisi.
Utilizzeremo il seguente set di dati in Excel per dimostrare due metodi per trovare valori anomali:
Correlato: Come calcolare la media escludendo i valori anomali in Excel
Metodo 1: utilizzare l’intervallo interquartile
L’ intervallo interquartile (IQR) è la differenza tra il 75° percentile (Q3) e il 25° percentile (Q1) in un set di dati. Misura la distribuzione media del 50% dei valori.
Possiamo definire un’osservazione come un valore anomalo se è 1,5 volte l’intervallo interquartile al di sopra del terzo quartile (Q3) o 1,5 volte l’intervallo interquartile al di sotto del primo quartile (Q1).
L’immagine seguente mostra come calcolare l’intervallo interquartile in Excel:
Quindi possiamo utilizzare la formula menzionata sopra per assegnare un “1” a qualsiasi valore anomalo nel set di dati:
Vediamo che solo un valore – 164 – risulta essere un valore anomalo in questo set di dati.
Metodo 2: utilizzare i punteggi z
Un punteggio z ti dice quante deviazioni standard un dato valore è dalla media. Usiamo la seguente formula per calcolare uno z-score:
z = (X – μ) / σ
Oro:
- X è un singolo valore di dati grezzi
- μ è la media della popolazione
- σ è la deviazione standard della popolazione
Possiamo definire un’osservazione come un valore anomalo se ha uno z-score inferiore a -3 o maggiore di 3.
L’immagine seguente mostra come calcolare la media e la deviazione standard di un set di dati in Excel:
Possiamo quindi utilizzare la media e la deviazione standard per trovare il punteggio z per ogni singolo valore nel set di dati:
Possiamo quindi assegnare un “1” a qualsiasi valore il cui z-score sia inferiore a -3 o maggiore di 3:
Utilizzando questo metodo, vediamo che non ci sono valori anomali nel set di dati.
Nota: a volte viene utilizzato un punteggio z di 2,5 anziché 3. In questo caso, il valore individuale di 164 verrebbe considerato un valore anomalo perché ha un punteggio z maggiore di 2,5.
Quando utilizzi il metodo z-score, usa il tuo giudizio per determinare quale valore z-score consideri un valore anomalo.
Come gestire i valori anomali
Se nei tuoi dati è presente un valore anomalo, hai diverse opzioni:
1. Assicurarsi che il valore anomalo non sia il risultato di un errore di immissione dei dati.
A volte un individuo inserisce semplicemente il valore dei dati errato durante il salvataggio dei dati. Se è presente un valore anomalo, verificare innanzitutto che il valore sia stato immesso correttamente e che non si tratti di un errore.
2. Rimuovere il valore anomalo.
Se il valore è davvero un valore anomalo, puoi scegliere di rimuoverlo se avrà un impatto significativo sull’analisi complessiva. Assicurati solo di menzionare nel rapporto finale o nell’analisi che hai rimosso un valore anomalo.
3. Assegnare un nuovo valore al valore anomalo .
Se il valore anomalo è il risultato di un errore di immissione dei dati, puoi decidere di assegnargli un nuovo valore come la media o la mediana del set di dati.