Come trovare facilmente i valori anomali in excel


Un valore anomalo è un’osservazione anormalmente distante da altri valori in un set di dati.

I valori anomali possono essere problematici perché possono influenzare i risultati di un’analisi.

Utilizzeremo il seguente set di dati in Excel per dimostrare due metodi per trovare valori anomali:

Correlato: Come calcolare la media escludendo i valori anomali in Excel

Metodo 1: utilizzare l’intervallo interquartile

L’ intervallo interquartile (IQR) è la differenza tra il 75° percentile (Q3) e il 25° percentile (Q1) in un set di dati. Misura la distribuzione media del 50% dei valori.

Possiamo definire un’osservazione come un valore anomalo se è 1,5 volte l’intervallo interquartile al di sopra del terzo quartile (Q3) o 1,5 volte l’intervallo interquartile al di sotto del primo quartile (Q1).

L’immagine seguente mostra come calcolare l’intervallo interquartile in Excel:

Quindi possiamo utilizzare la formula menzionata sopra per assegnare un “1” a qualsiasi valore anomalo nel set di dati:

Trova valori anomali in Excel

Vediamo che solo un valore – 164 – risulta essere un valore anomalo in questo set di dati.

Metodo 2: utilizzare i punteggi z

Un punteggio z ti dice quante deviazioni standard un dato valore è dalla media. Usiamo la seguente formula per calcolare uno z-score:

z = (X – μ) / σ

Oro:

  • X è un singolo valore di dati grezzi
  • μ è la media della popolazione
  • σ è la deviazione standard della popolazione

Possiamo definire un’osservazione come un valore anomalo se ha uno z-score inferiore a -3 o maggiore di 3.

L’immagine seguente mostra come calcolare la media e la deviazione standard di un set di dati in Excel:

Possiamo quindi utilizzare la media e la deviazione standard per trovare il punteggio z per ogni singolo valore nel set di dati:

Possiamo quindi assegnare un “1” a qualsiasi valore il cui z-score sia inferiore a -3 o maggiore di 3:

Trovare valori anomali in Excel utilizzando i punteggi Z

Utilizzando questo metodo, vediamo che non ci sono valori anomali nel set di dati.

Nota: a volte viene utilizzato un punteggio z di 2,5 anziché 3. In questo caso, il valore individuale di 164 verrebbe considerato un valore anomalo perché ha un punteggio z maggiore di 2,5.

Quando utilizzi il metodo z-score, usa il tuo giudizio per determinare quale valore z-score consideri un valore anomalo.

Come gestire i valori anomali

Se nei tuoi dati è presente un valore anomalo, hai diverse opzioni:

1. Assicurarsi che il valore anomalo non sia il risultato di un errore di immissione dei dati.

A volte un individuo inserisce semplicemente il valore dei dati errato durante il salvataggio dei dati. Se è presente un valore anomalo, verificare innanzitutto che il valore sia stato immesso correttamente e che non si tratti di un errore.

2. Rimuovere il valore anomalo.

Se il valore è davvero un valore anomalo, puoi scegliere di rimuoverlo se avrà un impatto significativo sull’analisi complessiva. Assicurati solo di menzionare nel rapporto finale o nell’analisi che hai rimosso un valore anomalo.

3. Assegnare un nuovo valore al valore anomalo .

Se il valore anomalo è il risultato di un errore di immissione dei dati, puoi decidere di assegnargli un nuovo valore come la media o la mediana del set di dati.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *