La guida completa: quando rimuovere i valori anomali nei dati
Un valore anomalo è un’osservazione anormalmente distante da altri valori in un set di dati.
I valori anomali possono essere problematici perché possono influenzare i risultati di un’analisi.
Tuttavia, possono anche fornire informazioni dettagliate sui dati studiati, poiché possono rivelare casi anormali o individui con tratti rari.
In qualsiasi analisi, è necessario decidere se rimuovere o mantenere i valori anomali.
Fortunatamente, puoi utilizzare il seguente diagramma di flusso per aiutarti a prendere una decisione:
Diamo un’occhiata più da vicino a ciascuna domanda nel diagramma di flusso.
Il valore anomalo è il risultato di un errore di immissione dei dati?
A volte i valori anomali in un set di dati sono semplicemente il risultato di un errore di immissione dei dati.
Ad esempio, supponiamo che un biologo raccolga dati sull’altezza di una determinata specie di piante e registri i seguenti dati:
- 6,83 pollici
- 7,51 pollici
- 5,21 pollici
- 5,84 pollici
- 7,83 pollici
- 755 pollici
- 6,53 pollici
- 6,31 pollici
- 5,91 pollici
Ovviamente la voce 755 pollici è un valore anomalo ed è probabilmente il risultato di un errore di immissione dei dati. Molto probabilmente l’altezza avrebbe dovuto essere 7,55 pollici, ma è stata semplicemente inserita in modo errato.
Se il biologo mantenesse questa osservazione e calcolasse una statistica descrittiva come l’altezza media delle piante nel campione, questa osservazione distorcerebbe notevolmente i risultati e fornirebbe un quadro impreciso della vera altezza media delle piante.
In questo scenario (e in scenari simili a questo), ha senso rimuovere questo valore anomalo dal set di dati perché si tratta di un errore e non di un punto dati legittimo da includere nell’analisi.
Il valore anomalo influisce in modo significativo sui risultati dell’analisi?
Se un’osservazione è un vero valore anomalo e non è semplicemente il risultato di un errore di immissione dei dati, allora dobbiamo esaminare se il valore anomalo influisce o meno sui risultati dell’analisi.
Ad esempio, supponiamo che un biologo stia studiando la relazione tra fertilizzante e altezza delle piante. Vuole adattare un semplice modello di regressione lineare utilizzando il fertilizzante come variabile predittiva e l’altezza delle piante come variabile di risposta .
Raccoglie i seguenti dati per 12 stabilimenti diversi:
È chiaro che l’ultima osservazione è aberrante.
Tuttavia, se creiamo un grafico a dispersione per visualizzare questo set di dati, possiamo vedere che la linea di regressione non cambierebbe molto indipendentemente dal fatto che includiamo o meno il valore anomalo:
In questo scenario, il valore anomalo in realtà non viola nessuno dei presupposti di un modello di regressione lineare , quindi potremmo mantenerlo nel set di dati.
Tuttavia, supponiamo di avere il seguente valore anomalo nei dati:
Ovviamente, questo valore anomalo influisce in modo significativo sulla retta di regressione, quindi possiamo adattare un modello di regressione con il valore anomalo e uno senza, e quindi riportare i risultati di entrambi i modelli di regressione.
Il valore anomalo influisce sulle ipotesi formulate nell’analisi?
Se un valore anomalo non è il risultato di un errore di immissione dei dati e non influenza in modo significativo i risultati di un’analisi, allora dobbiamo chiederci se il valore anomalo influisce o meno sulle ipotesi fatte in un’analisi. analisi.
Se non influisce sulle ipotesi, possiamo semplicemente mantenerlo nei dati.
Tuttavia, se ciò influisce sulle ipotesi, abbiamo diverse opzioni:
1. Rimuovilo. Possiamo semplicemente rimuoverlo dai dati e prenderne nota quando riportiamo i risultati.
2. Eseguire una trasformazione sui dati. Invece di rimuovere il valore anomalo, potremmo provare a eseguire una trasformazione sui dati, ad esempio prendendo la radice quadrata o il log di tutti i valori nei dati. È stato dimostrato che ciò riduce i valori anomali e spesso rende i dati distribuiti in modo più normale .
Indipendentemente da come decidi di gestire i valori anomali nei tuoi dati, dovresti annotare la tua decisione nel risultato dell’analisi insieme al tuo ragionamento.
Risorse addizionali
I seguenti tutorial spiegano come trovare e rimuovere valori anomali in diversi software statistici:
Come trovare valori anomali in Excel
Come trovare valori anomali in Fogli Google
Come trovare valori anomali in R
Come trovare valori anomali in Python
Come trovare valori anomali in SPSS