Che cos'è un punteggio z modificato? (definizione & #038; esempio)
Nelle statistiche, un punteggio z ci dice quante deviazioni standard un valore è dalla media . Usiamo la seguente formula per calcolare uno z-score:
Punteggio Z = (x i – μ) / σ
Oro:
- x i : un singolo valore di dati
- μ: la media del set di dati
- σ: la deviazione standard del set di dati
I punteggi Z vengono spesso utilizzati per rilevare valori anomali in un set di dati. Ad esempio, le osservazioni con un punteggio z inferiore a -3 o superiore a 3 sono spesso considerate valori anomali.
Tuttavia, i punteggi z possono essere influenzati da valori di dati insolitamente grandi o piccoli. Questo è il motivo per cui un modo più efficace per rilevare valori anomali è utilizzare uno z-score modificato , calcolato come segue:
Punteggio z modificato = 0,6745 (x i – x̃) / MAD
Oro:
- x i : un singolo valore di dati
- x̃: la mediana del set di dati
- MAD: la deviazione assoluta mediana del set di dati
Un punteggio z modificato è più robusto perché utilizza la mediana per calcolare i punteggi z, al contrario della media, che è nota per essere influenzata da valori anomali .
Iglewicz e Hoaglin raccomandano che i valori con punteggi z modificati inferiori a -3,5 o superiori a 3,5 siano etichettati come potenziali valori anomali.
Il seguente esempio passo passo mostra come calcolare i punteggi z modificati per un determinato set di dati.
Passaggio 1: creare i dati
Supponiamo di avere il seguente set di dati con 16 valori:
Passaggio 2: trova la mediana
Successivamente troveremo la mediana. Questo rappresenta il punto medio del set di dati, che risulta essere 16 .
Passaggio 3: trova la differenza assoluta tra ciascun valore e la mediana
Successivamente, troveremo la differenza assoluta tra ogni singolo valore dei dati e la mediana. Ad esempio, la differenza assoluta tra il primo valore dei dati e la mediana viene calcolata come segue:
Differenza assoluta = |6 – 16| = 10
Possiamo utilizzare la stessa formula per calcolare la differenza assoluta tra ogni singolo valore dei dati e la mediana:
Passaggio 4: trovare la deviazione mediana assoluta
Successivamente, troveremo la deviazione mediana assoluta. Questa è la mediana della seconda colonna, che risulta essere 8 .
Passaggio 5: trova il punteggio Z modificato per ciascun valore di dati
Infine, possiamo calcolare il punteggio z modificato per ciascun valore di dati utilizzando la seguente formula:
Punteggio z modificato = 0,6745 (x i – x̃) / MAD
Ad esempio, il punteggio z modificato per il primo valore dei dati viene calcolato come segue:
Punteggio z modificato = 0,6745*(6-16) / 8 = -0,843
Possiamo ripetere questa formula per ogni valore nel set di dati:
Possiamo vedere che nessun valore nel set di dati ha un punteggio z modificato inferiore a -3,5 o maggiore di 3,5, quindi non etichetteremo alcun valore in questo set di dati come potenziale valore anomalo.
Come gestire i valori anomali
Se nel set di dati è presente un valore anomalo, hai diverse opzioni:
- Assicurarsi che il valore anomalo non sia il risultato di un errore di immissione dei dati. A volte un individuo inserisce semplicemente il valore dei dati errato durante il salvataggio dei dati. Se è presente un valore anomalo, verificare innanzitutto che il valore sia stato immesso correttamente e che non si tratti di un errore.
- Assegnare un nuovo valore al valore anomalo . Se l’outlier risulta essere il risultato di un errore di immissione dei dati, puoi decidere di assegnargli un nuovo valore come la media o la mediana del set di dati.
- Rimuovi il valore anomalo. Se il valore è davvero un valore anomalo, puoi scegliere di rimuoverlo se avrà un impatto significativo sull’analisi complessiva. Assicurati solo di menzionare nel rapporto finale o nell’analisi che hai rimosso un valore anomalo.