Come identificare i valori anomali in spss


Un valore anomalo è un’osservazione anormalmente distante da altri valori in un set di dati. I valori anomali possono essere problematici perché possono influenzare i risultati di un’analisi.

Questo tutorial spiega come identificare e gestire i valori anomali in SPSS.

Come identificare i valori anomali in SPSS

Supponiamo di avere il seguente set di dati che mostra il reddito annuo (in migliaia) di 15 persone:

Un modo per determinare se sono presenti valori anomali è creare un boxplot per il set di dati. Per fare ciò, fare clic sulla scheda Analizza , quindi su Statistiche descrittive e infine su Esplora :

Nella nuova finestra che appare, trascina il reddito variabile nella casella denominata Elenco delle persone a carico. Quindi fai clic su Statistiche e assicurati che la casella accanto a Percentili sia selezionata. Quindi fare clic su Continua . Quindi fare clic su OK .

Dopo aver fatto clic su OK , verrà visualizzato un boxplot:

Diagramma a scatole in SPSS

Se non sono presenti cerchi o asterischi alle estremità del boxplot, ciò indica che non sono presenti valori anomali.

SPSS considera qualsiasi valore dei dati un valore anomalo se non rientra nei seguenti intervalli:

  • 3° quartile + 1,5*intervallo interquartile
  • 1° quartile – 1,5*intervallo interquartile

Possiamo calcolare l’intervallo interquartile prendendo la differenza tra il 75° e il 25° percentile nella riga denominata Tukey Hinges nel risultato:

Intervallo interquartile delle cerniere di Tukey in SPSS

Per questo set di dati, l’intervallo interquartile è 82 – 36 = 46 . Pertanto, qualsiasi valore al di fuori dei seguenti intervalli verrebbe considerato anomalo:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Ovviamente, il reddito non può essere negativo, quindi il limite inferiore in questo esempio non è utile. Tuttavia, qualsiasi reddito superiore a 151 sarebbe considerato un valore anomalo.

Ad esempio, supponiamo che il valore più grande nel nostro set di dati sia invece 152. Ecco il box plot per quel set di dati:

Boxplot con valore anomalo in SPSS

Il cerchio indica che nei dati è presente un valore anomalo. Il numero 15 indica quale osservazione nel set di dati è l’anomalia.

SPSS considera inoltre qualsiasi valore dei dati un valore anomalo estremo se non rientra nei seguenti intervalli:

  • 3° quartile + 3*intervallo interquartile
  • 1° quartile – 3*intervallo interquartile

Pertanto, qualsiasi valore esterno ai seguenti intervalli verrebbe considerato anomalo estremo in questo esempio:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Ad esempio, supponiamo che il valore più grande nel nostro set di dati sia 221. Ecco il box plot di questo set di dati:

Valore anomalo estremo in un boxplot in SPSS

L’asterisco (*) indica che nei dati è presente un valore anomalo estremo. Il numero 15 indica quale osservazione nel set di dati è l’anomalia estrema.

Come gestire i valori anomali

Se nei tuoi dati è presente un valore anomalo, hai diverse opzioni:

1. Assicurarsi che il valore anomalo non sia il risultato di un errore di immissione dei dati.

A volte un individuo inserisce semplicemente il valore dei dati errato durante il salvataggio dei dati. Se è presente un valore anomalo, verificare innanzitutto che il valore sia stato immesso correttamente e che non si tratti di un errore.

2. Rimuovere il valore anomalo.

Se il valore è davvero un valore anomalo, puoi scegliere di rimuoverlo se avrà un impatto significativo sull’analisi complessiva. Assicurati solo di menzionare nel rapporto finale o nell’analisi che hai rimosso un valore anomalo.

3. Assegnare un nuovo valore al valore anomalo .

Se l’outlier risulta essere il risultato di un errore di immissione dei dati, puoi decidere di assegnargli un nuovo valore come la media o la mediana del set di dati.

Risorse addizionali

Se lavori con più variabili contemporaneamente, potresti voler utilizzare la distanza di Mahalanobis per rilevare valori anomali.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *