Valori atipici (outlier)
Questo articolo spiega cosa sono gli outlier e come vengono calcolati. Inoltre, puoi calcolare i valori anomali per qualsiasi campione di dati con un calcolatore online.
Cosa sono i valori anomali?
In statistica, gli outlier , detti anche outlier o outlier , sono valori significativamente diversi dal resto del set di dati. In altre parole, un valore anomalo è un valore anomalo estremamente diverso dal resto dei valori del campione.
È importante identificare i valori anomali in un campione perché possono influenzare in modo significativo il calcolo delle misure statistiche.
Ad esempio, se abbiamo la serie di dati [1, 3, 5, 2, 79, 4, 8, 6], il numero 79 è chiaramente un valore anomalo. Perché il suo valore è estremamente più alto rispetto al resto dei dati. In questo caso, la media includendo il valore anomalo è 13,5, mentre la media senza il valore anomalo sarebbe 4,14. Come puoi vedere, un singolo valore anomalo influenza già in modo significativo il risultato di una misurazione statistica.
In genere, i valori anomali si distinguono facilmente nei grafici a dispersione perché sono isolati dal resto dei dati. Guarda il seguente grafico a dispersione, il valore anomalo è molto separato dal resto dei valori:
👉 Puoi utilizzare la calcolatrice qui sotto per trovare valori anomali per qualsiasi set di dati.
Come calcolare gli outlier
Per calcolare i valori anomali da un campione di dati, è necessario seguire i seguenti passaggi:
- Calcolare i quartili del set di dati.
- Calcolare l’intervallo interquartile dei dati.
- Verranno considerati valori atipici (outlier) valori che soddisfano una delle seguenti condizioni:
- Il valore è inferiore al primo quartile meno 1,5 volte l’intervallo interquartile.
➤ Vedi: come calcolare i quartili
➤ Vedi: come calcolare l’intervallo interquartile
Nel boxplot seguente potete vedere rappresentati graficamente due valori anomali secondo questo criterio:
Nota: tenere presente che esistono diversi criteri per determinare i limiti oltre i quali i dati sono considerati valori anomali. In questo articolo è stato preso come riferimento il criterio del test di Tukey, perché è il più utilizzato.
Esempio di valori anomali
Considerando la definizione di outlier, in questa sezione vedremo un esempio pratico di come identificare gli outlier in una serie di dati.
- Calcola valori anomali o valori anomali dal seguente set di dati statistici.
Innanzitutto, calcoliamo i tre quartili del set di dati:
Una volta trovati i tre quartili, troviamo l’intervallo interquartile sottraendo il quartile 3 meno il quartile 1:
E ora calcoliamo i limiti fissati dai valori anomali. Per fare ciò, utilizziamo le formule spiegate nella sezione precedente:
Quindi, se uno qualsiasi dei valori è inferiore a 3,16, si tratta di un valore anomalo. Allo stesso modo, se un valore è maggiore di 5,56, anche questo è un valore anomalo.
In conclusione, in questo caso abbiamo due valori estremi, perché 3,02 è inferiore a 3,16 e 5,71 è maggiore di 5,56.
Calcolatore dei valori anomali
Immettere un set di dati statistici nel seguente calcolatore per calcolare i relativi valori anomali, se presenti. I dati devono essere separati da uno spazio e inseriti utilizzando il punto come separatore decimale.
Cause dei valori anomali
Esistono diverse possibili cause di valori anomali, i più comuni dei quali sono:
- Il dispositivo utilizzato per effettuare le misurazioni si è rotto o ha subito un incidente.
- La parte misurata presentava un difetto dovuto a una causa anomala.
- Si è verificato un errore nella trasmissione o nella trascrizione dei dati.
- Si è verificato un errore umano. Indipendentemente dalle precauzioni adottate, gli errori umani non sono del tutto inevitabili e quindi possono ancora esistere valori anomali.
Queste sono le cause più comuni, ma ovviamente il motivo potrebbe essere qualsiasi cosa. Allo stesso modo, bisogna tenere conto del fatto che quando si realizza uno studio statistico con numerose osservazioni, è normale che compaiano alcuni valori anomali.
Cosa fare con i valori anomali
Una domanda comune quando incontriamo un valore anomalo è cosa dovremmo farne. I valori anomali dovrebbero essere rimossi dal campione?
Si ritiene che gli outlier debbano sempre essere eliminati, perché sono dati che non assomigliano al resto dell’insieme. Tuttavia, anche se i valori anomali influenzano notevolmente i risultati di alcune misure statistiche, ciò non significa che debbano essere sempre eliminati.
In generale, gli outlier dovrebbero essere rimossi solo se sappiamo che la causa dell’anomalia è veramente giustificata e, quindi, questi outlier sono osservazioni che non corrispondono a ciò che si sta studiando.
Ciò è particolarmente importante in campioni di piccole dimensioni, poiché i valori estremi influenzano maggiormente le metriche statistiche.
Ad esempio, se si misura la lunghezza di una parte di un prodotto per effettuare un controllo qualità, logicamente se improvvisamente appare un altro tipo di prodotto e si misura la stessa parte, il valore misurato sarà molto diverso dai precedenti e probabilmente sarà essere un valore anomalo. In questo caso il valore anomalo potrebbe essere escluso perché la sua causa è nota ed è noto che i dati misurati non fanno parte della popolazione che si intende analizzare.