Intervallo interquartile e deviazione standard: qual è la differenza?
L’ intervallo interquartile e la deviazione standard sono due modi per misurare la distribuzione dei valori in un set di dati.
Questo tutorial fornisce una breve spiegazione di ciascuna metrica insieme alle somiglianze e alle differenze tra i due.
Intervallo interquartile
L’ intervallo interquartile (IQR) di un set di dati è la differenza tra il primo quartile (il 25° percentile) e il terzo quartile (il 75° percentile). Misura la distribuzione media del 50% dei valori.
IQR = Q3 – Q1
Ad esempio, supponiamo di avere il seguente set di dati:
Set di dati: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Secondo il calcolatore dell’intervallo interquartile, l’intervallo interquartile (IQR) per questo set di dati viene calcolato come segue:
- T1: 12
- T3: 26,5
- IQR = Q3 – Q1 = 14,5
Questo ci dice che il 50% centrale dei valori nel set di dati ha una deviazione di 14,5 .
Deviazione standard
La deviazione standard di un set di dati è un modo per misurare la deviazione tipica dei singoli valori dal valore medio. Viene calcolato come segue:
s = √(Σ(x i – x ) 2 / (n-1))
Ad esempio, supponiamo di avere il seguente set di dati:
Set di dati: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Possiamo usare una calcolatrice per scoprire che la deviazione standard di questo set di dati è 9,25 . Questo ci dà un’idea di quanto il valore tipico sia lontano dalla media.
Somiglianze e differenze
L’intervallo interquartile e la deviazione standard condividono la seguente somiglianza:
- Entrambe le metriche misurano la distribuzione dei valori in un set di dati.
Tuttavia, l’intervallo interquartile e la deviazione standard presentano la seguente differenza fondamentale:
- L’intervallo interquartile (IQR) non è influenzato da valori anomali estremi. Ad esempio, un valore estremamente piccolo o estremamente grande in un set di dati non influirà sul calcolo IQR perché l’IQR utilizza solo i valori del 25° e 75° percentile del set di dati.
- La deviazione standard è influenzata da valori anomali estremi. Ad esempio, un valore estremamente grande in un set di dati risulterà in una deviazione standard molto più grande poiché la deviazione standard utilizza nella sua formula ogni valore in un set di dati.
Quando utilizzarli ciascuno
Dovresti utilizzare l’intervallo interquartile per misurare la distribuzione dei valori in un set di dati quando sono presenti valori anomali estremi.
Al contrario, dovresti utilizzare la deviazione standard per misurare la distribuzione dei valori quando non sono presenti valori anomali estremi.
Per illustrare il motivo, si consideri il seguente set di dati:
Set di dati: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
In precedenza nell’articolo, abbiamo calcolato le seguenti metriche per questo set di dati:
- IQR: 14.5
- Deviazione standard: 9,25
Tuttavia, considera se il set di dati avesse un valore anomalo estremo:
Set di dati: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378
Potremmo utilizzare una calcolatrice per trovare le seguenti metriche per questo set di dati:
- IQR: 15
- Deviazione standard: 85,02
Si noti che l’intervallo interquartile cambia appena quando è presente un valore anomalo, mentre la deviazione standard aumenta da 9,25 a 85,02.
Risorse addizionali
Misure di tendenza centrale: definizione ed esempi
Misure di dispersione: definizione ed esempi
Come trovare valori anomali utilizzando l’intervallo interquartile