Che cos'è un punteggio z modificato? (definizione & #038; esempio)


Nelle statistiche, un punteggio z ci dice quante deviazioni standard un valore è dalla media . Usiamo la seguente formula per calcolare uno z-score:

Punteggio Z = (x i – μ) / σ

Oro:

  • x i : un singolo valore di dati
  • μ: la media del set di dati
  • σ: la deviazione standard del set di dati

I punteggi Z vengono spesso utilizzati per rilevare valori anomali in un set di dati. Ad esempio, le osservazioni con un punteggio z inferiore a -3 o superiore a 3 sono spesso considerate valori anomali.

Tuttavia, i punteggi z possono essere influenzati da valori di dati insolitamente grandi o piccoli. Questo è il motivo per cui un modo più efficace per rilevare valori anomali è utilizzare uno z-score modificato , calcolato come segue:

Punteggio z modificato = 0,6745 (x i – x̃) / MAD

Oro:

  • x i : un singolo valore di dati
  • x̃: la mediana del set di dati
  • MAD: la deviazione assoluta mediana del set di dati

Un punteggio z modificato è più robusto perché utilizza la mediana per calcolare i punteggi z, al contrario della media, che è nota per essere influenzata da valori anomali .

Iglewicz e Hoaglin raccomandano che i valori con punteggi z modificati inferiori a -3,5 o superiori a 3,5 siano etichettati come potenziali valori anomali.

Il seguente esempio passo passo mostra come calcolare i punteggi z modificati per un determinato set di dati.

Passaggio 1: creare i dati

Supponiamo di avere il seguente set di dati con 16 valori:

Passaggio 2: trova la mediana

Successivamente troveremo la mediana. Questo rappresenta il punto medio del set di dati, che risulta essere 16 .

Passaggio 3: trova la differenza assoluta tra ciascun valore e la mediana

Successivamente, troveremo la differenza assoluta tra ogni singolo valore dei dati e la mediana. Ad esempio, la differenza assoluta tra il primo valore dei dati e la mediana viene calcolata come segue:

Differenza assoluta = |6 – 16| = 10

Possiamo utilizzare la stessa formula per calcolare la differenza assoluta tra ogni singolo valore dei dati e la mediana:

Passaggio 4: trovare la deviazione mediana assoluta

Successivamente, troveremo la deviazione mediana assoluta. Questa è la mediana della seconda colonna, che risulta essere 8 .

Passaggio 5: trova il punteggio Z modificato per ciascun valore di dati

Infine, possiamo calcolare il punteggio z modificato per ciascun valore di dati utilizzando la seguente formula:

Punteggio z modificato = 0,6745 (x i – x̃) / MAD

Ad esempio, il punteggio z modificato per il primo valore dei dati viene calcolato come segue:

Punteggio z modificato = 0,6745*(6-16) / 8 = -0,843

Possiamo ripetere questa formula per ogni valore nel set di dati:

Possiamo vedere che nessun valore nel set di dati ha un punteggio z modificato inferiore a -3,5 o maggiore di 3,5, quindi non etichetteremo alcun valore in questo set di dati come potenziale valore anomalo.

Come gestire i valori anomali

Se nel set di dati è presente un valore anomalo, hai diverse opzioni:

  • Assicurarsi che il valore anomalo non sia il risultato di un errore di immissione dei dati. A volte un individuo inserisce semplicemente il valore dei dati errato durante il salvataggio dei dati. Se è presente un valore anomalo, verificare innanzitutto che il valore sia stato immesso correttamente e che non si tratti di un errore.
  • Assegnare un nuovo valore al valore anomalo . Se l’outlier risulta essere il risultato di un errore di immissione dei dati, puoi decidere di assegnargli un nuovo valore come la media o la mediana del set di dati.
  • Rimuovi il valore anomalo. Se il valore è davvero un valore anomalo, puoi scegliere di rimuoverlo se avrà un impatto significativo sull’analisi complessiva. Assicurati solo di menzionare nel rapporto finale o nell’analisi che hai rimosso un valore anomalo.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *