Vantaggi e svantaggi dell'utilizzo della deviazione standard
La deviazione standard di un set di dati è un modo per misurare la deviazione tipica dei singoli valori dal valore medio.
La formula per calcolare una deviazione standard campionaria, indicata con s , è:
s = √ Σ(x i – x̄) 2 / (n – 1)
Oro:
- Σ : Un simbolo che significa “somma”
- x i : l’ iesimo valore in un set di dati
- x̄ : Il campione significa
- n : la dimensione del campione
Esistono due vantaggi principali nell’utilizzare la deviazione standard per descrivere la distribuzione dei valori in un set di dati:
Vantaggio n. 1: la deviazione standard utilizza tutte le osservazioni in un set di dati nel suo calcolo. In statistica, generalmente diciamo che è una buona cosa poter utilizzare tutte le osservazioni di un set di dati per eseguire calcoli, perché stiamo utilizzando tutte le possibili “informazioni” disponibili nel set di dati.
Vantaggio n. 2: la deviazione standard è facile da interpretare . La deviazione standard è un singolo valore che ci dà una buona idea di quanto l’osservazione “tipica” in un set di dati sia lontana dal valore medio.
Tuttavia, l’utilizzo della deviazione standard presenta un grave inconveniente:
Svantaggio n. 1: la deviazione standard può essere influenzata da valori anomali . Quando in un set di dati sono presenti valori anomali estremi, il valore della deviazione standard può gonfiarsi e quindi dare un’idea fuorviante della distribuzione dei valori in un set di dati.
I seguenti esempi forniscono ulteriori informazioni sui vantaggi e sugli svantaggi dell’utilizzo della deviazione standard.
Vantaggio n. 1: la deviazione standard utilizza tutte le osservazioni
Supponiamo di avere il seguente set di dati che mostra la distribuzione dei punteggi degli esami per gli studenti in una classe:
Valutazioni: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Possiamo utilizzare una calcolatrice o un software statistico per scoprire che la deviazione standard campionaria di questo set di dati è 8,46.
Il vantaggio di utilizzare la deviazione standard in questo esempio è che utilizziamo tutte le possibili osservazioni nel set di dati per trovare la tipica “distribuzione” dei valori.
Al contrario, potremmo utilizzare un’altra metrica come l’intervallo interquartile per misurare la distribuzione dei valori in questo set di dati.
Possiamo usare una calcolatrice per scoprire che l’ intervallo interquartile è 17,5 . Questo rappresenta il divario tra il 50% centrale dei valori nel set di dati.
Supponiamo ora di modificare il valore più basso nel set di dati in modo che sia molto più basso:
Valutazioni: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Possiamo usare una calcolatrice per scoprire che la deviazione standard del campione è 18,37 .
Tuttavia, l’intervallo interquartile è ancora 17,5 perché nessuno del 50% medio dei valori è interessato.
Ciò dimostra che la deviazione standard del campione tiene conto di tutte le osservazioni presenti nel set di dati nel suo calcolo, a differenza di altre misure di dispersione.
Vantaggio n. 2: la deviazione standard è facile da interpretare
Ricordiamo il seguente set di dati che mostra la distribuzione dei punteggi degli esami per gli studenti in una classe:
Valutazioni: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Abbiamo utilizzato una calcolatrice per scoprire che la deviazione standard campionaria di questo set di dati era 8,46 .
Questo è facile da interpretare perché significa semplicemente che la deviazione del punteggio di un esame “tipico” è di circa 8,46 dal punteggio medio dell’esame.
D’altro canto, altre misure di dispersione non sono così semplici da interpretare.
Ad esempio, un coefficiente di variazione è un’altra misura di dispersione che rappresenta il rapporto tra la deviazione standard e la media campionaria.
Coefficiente di variazione: s/x̄
In questo esempio, il punteggio medio dell’esame è 81,46, quindi il coefficiente di variazione viene calcolato come segue: 8,46 / 81,46 = 0,104 .
Questo rappresenta il rapporto tra la deviazione standard del campione e la media del campione, che può essere utile per confrontare la distribuzione dei valori su più set di dati, ma non è molto semplice da interpretare come una metrica di per sé.
Svantaggio n. 1: la deviazione standard può essere influenzata da valori anomali
Supponiamo di avere il seguente set di dati contenente informazioni sullo stipendio di 10 dipendenti (in migliaia di dollari) presso un’azienda:
Stipendi: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
La deviazione standard campionaria degli stipendi è pari a circa 15,57 .
Supponiamo ora di avere esattamente lo stesso set di dati, ma lo stipendio più alto è molto più alto:
Stipendi: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
La deviazione standard campionaria degli stipendi in questo set di dati è circa 262,47 .
Includendo solo un valore anomalo estremo, la deviazione standard viene fortemente influenzata e ora fornisce un’idea fuorviante della distribuzione salariale “tipica”.
Nota : quando in un set di dati sono presenti valori anomali, l’intervallo interquartile può fornire una misura migliore della dispersione perché non è influenzato dai valori anomali.
Risorse addizionali
Le seguenti esercitazioni forniscono ulteriori informazioni sull’utilizzo della deviazione standard nelle statistiche:
Intervallo interquartile e deviazione standard: la differenza
Coefficiente di variazione rispetto alla deviazione standard: la differenza
Popolazione vs. Deviazione standard del campione: quando utilizzarli