Come identificare l'asimmetria nei box plot
Un box plot è un tipo di grafico che visualizza il riepilogo di cinque cifre di un set di dati, che include:
- Il valore minimo
- Il primo quartile (il 25° percentile)
- Il valore mediano
- Il terzo quartile (il 75° percentile)
- Il valore massimo
Usiamo il seguente processo per disegnare un box plot:
- Disegna una casella dal primo quartile (Q1) al terzo quartile (Q3)
- Quindi traccia una linea all’interno della scatola in corrispondenza della mediana
- Quindi disegna i “baffi” dei quartili sui valori minimo e massimo.
Possiamo determinare se una distribuzione è distorta o meno in base alla posizione del valore mediano nel boxplot.
Quando la mediana è più vicina al fondo del riquadro e il baffo è più corto all’estremità inferiore del riquadro, la distribuzione è distorta a destra (o distorta “positivamente”).
Quando la mediana è più vicina alla parte superiore del riquadro e il baffo è più corto all’estremità superiore del riquadro, la distribuzione viene lasciata asimmetrica (o asimmetrica “negativamente”).
Quando la mediana è al centro della scatola e i baffi sono approssimativamente uguali su entrambi i lati, la distribuzione è simmetrica (o “non” asimmetrica).
Gli esempi seguenti illustrano come utilizzare i boxplot per determinare se una distribuzione è distorta a destra, a sinistra o senza disallineamento.
Esempio 1: distribuzione distorta a destra
La distribuzione del reddito familiare annuo negli Stati Uniti è distorta a destra. La maggior parte delle famiglie guadagna tra i 40.000 e gli 80.000 dollari all’anno, ma esiste una lunga coda destra nella distribuzione che rappresenta le famiglie che guadagnano molto di più.
Se creassimo un box plot per visualizzare la distribuzione del reddito familiare, sarebbe simile a questo:
Si noti che la linea verticale all’interno del riquadro che rappresenta la mediana è molto più vicina al primo quartile che al terzo quartile, il che significa che la distribuzione è distorta verso destra.
Esempio 2: distribuzione distorta a sinistra
La distribuzione per età dei decessi nella maggior parte delle popolazioni è sbilanciata verso sinistra. La maggior parte delle persone vive tra i 70 e gli 80 anni, e sempre meno vivono al di sotto di questa età.
Se creassimo un box plot per visualizzare la distribuzione per età dei decessi, sarebbe simile a questo:
Si noti che la linea verticale all’interno del riquadro che rappresenta la mediana è molto più vicina al terzo quartile che al primo quartile, il che significa che la distribuzione è distorta verso sinistra.
Esempio 3: distribuzione simmetrica
La distribuzione dimensionale dei maschi è approssimativamente simmetrica e non mostra asimmetria. Ad esempio, l’altezza media di un uomo negli Stati Uniti è di circa 69,1 pollici. La distribuzione dell’altezza è più o meno simmetrica, con alcuni più bassi e altri più alti.
Se creassimo un box plot per visualizzare la distribuzione dell’altezza maschile negli Stati Uniti, sarebbe simile a questo:
Si noti che la linea verticale all’interno del riquadro che rappresenta la mediana è anche vicina al primo quartile e al terzo quartile, il che significa che la distribuzione è simmetrica e senza asimmetria.
Risorse addizionali
Distribuzioni distorte a sinistra o a destra
Come confrontare i box plot: con esempi
Come creare box plot affiancati in Excel