Come winsorizzare i dati: definizione ed esempi
Winsorizzare i dati significa impostare valori anomali estremi pari a un percentile specificato dei dati.
Ad esempio, una winsorizzazione del 90% imposta tutte le osservazioni al di sopra del 95° percentile pari al valore al 95° percentile e tutte le osservazioni al di sotto del 5° percentile pari al valore al 5° percentile.
In effetti, winsorizzare i dati significa modificare i valori estremi di un set di dati in valori meno estremi.
Esempio: come Winsorizzare i dati
Supponiamo di avere il seguente set di dati:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Per eseguire una winsorizzazione del 90% su questo set di dati, dovremmo prima trovare il 5° percentile e il 95° percentile, che risultano essere:
- 5° percentile: 12,35
- 95° percentile: 92,05
Imposteremo quindi tutti i valori inferiori a 12,35 uguali a 12,35 e tutti i valori superiori a 92,05 uguali a 92,05:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
In questo caso, il valore 3 è diventato 12.35 e il valore 98 è diventato 92.05 .
Perché Winsorizzare i dati?
La media e la deviazione standard sono due metodi comuni per misurare rispettivamente la posizione del centro di un set di dati e la distribuzione delle osservazioni in un set di dati.
Tuttavia, queste due misure possono entrambe essere influenzate da valori anomali estremi. Pertanto, la winsorizzazione dei dati ci consente di definire valori anomali estremi pari a valori meno estremi.
Questo spesso ci consente di ottenere una visione più accurata della media e della deviazione standard del set di dati.
Winsorize color prugna dorata
Un altro modo comune per gestire i valori anomali è rimuoverli dal set di dati, il che significa rimuoverli completamente.
Ad esempio, considera il set di dati precedente:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Se volessimo ridurre i valori al di sotto del 5° percentile o al di sopra del 95° percentile, rimuoveremmo semplicemente i valori 3 e 98 .
Ecco alcune regole pratiche su quando utilizzare l’affettamento o la winsorizzazione:
Taglio: ha senso tagliare i valori dei dati quando alcuni valori sembrano del tutto irragionevoli, cioè sono il risultato di un errore di immissione dei dati.
Winsorizzazione: ha senso vincere i dati quando vogliamo mantenere le osservazioni che sono agli estremi, ma non vogliamo prenderle troppo alla lettera.
Precauzioni relative alla winsorizzazione dei dati
Ecco alcune cose da tenere a mente quando si decide di acquisire dati:
1. Se non sono presenti valori anomali estremi, l’ottimizzazione dei dati modificherà solo leggermente i valori più piccoli e più grandi. Questa generalmente non è una buona idea perché significa che stiamo semplicemente modificando i valori dei dati al solo scopo di modificarli.
2. I valori anomali possono rappresentare casi limite interessanti nei dati. Quindi, prima di modificare i valori anomali, è una buona idea esaminarli più da vicino per vedere cosa potrebbe averli causati.
3. Dovresti decidere se acquisire o meno i dati dopo la raccolta dei dati, non prima. Dovresti vedere se ci sono effettivamente dei valori anomali estremi prima di decidere di vincere. Se non sono presenti valori anomali estremi, la winsorizzazione potrebbe non essere necessaria.
Tutorial: Winsorize dati in Excel
Fare riferimento a questo tutorial per un esempio passo passo su come eseguire il winsorize di un set di dati in Excel.