Como winsorizar dados: definição e exemplos
Winsorizar dados significa definir valores discrepantes extremos iguais a um percentil especificado dos dados.
Por exemplo, uma winsorização de 90% define todas as observações acima do percentil 95 iguais ao valor no percentil 95 e todas as observações abaixo do percentil 5 iguais ao valor no percentil 5.
Na verdade, winorizar dados significa alterar os valores extremos de um conjunto de dados para valores menos extremos.
Exemplo: como Winsorizar dados
Suponha que temos o seguinte conjunto de dados:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Para realizar uma winsorização de 90% neste conjunto de dados, primeiro encontraríamos o 5º percentil e o 95º percentil, que seriam:
- 5º percentil: 12,35
- 95º percentil: 92,05
Definiríamos então todos os valores menores que 12,35 iguais a 12,35 e todos os valores maiores que 92,05 iguais a 92,05:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
Neste caso, o valor 3 passou a ser 12,35 e o valor 98 passou a ser 92,05 .
Por que Winsorizar dados?
A média e o desvio padrão são dois métodos comuns para medir a localização do centro de um conjunto de dados e a distribuição das observações em um conjunto de dados, respectivamente.
No entanto, estas duas medidas podem ser influenciadas por valores extremos. Assim, a winorização dos dados nos permite definir valores discrepantes extremos iguais a valores menos extremos.
Isso geralmente nos permite obter uma visão mais precisa da média e do desvio padrão do conjunto de dados.
Winsorize ouro ameixa
Outra maneira comum de lidar com valores discrepantes é removê -los do conjunto de dados, o que significa removê-los totalmente.
Por exemplo, considere o conjunto de dados anterior:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Se quiséssemos reduzir valores abaixo do percentil 5 ou acima do percentil 95, simplesmente retiraríamos os valores 3 e 98 .
Aqui estão algumas regras básicas sobre quando usar fatiamento ou Winsorização:
Corte: Faz sentido cortar valores de dados quando alguns valores parecem completamente irracionais, ou seja, são resultado de um erro de entrada de dados.
Winsorização: Faz sentido Winsorizar dados quando queremos manter observações que estão nos extremos, mas não queremos interpretá-las muito literalmente.
Precauções com relação à winsorização de dados
Aqui estão algumas coisas que você deve ter em mente ao decidir obter dados:
1. Se não houver valores discrepantes extremos, a winorização dos dados alterará apenas ligeiramente os valores menores e maiores. Geralmente, isso não é uma boa ideia porque significa que estamos simplesmente alterando os valores dos dados com o único propósito de alterá-los.
2. Outliers podem representar casos extremos interessantes nos dados. Portanto, antes de editar os valores discrepantes, é uma boa ideia examiná-los mais de perto para ver o que pode tê-los causado.
3. Você deve decidir se deseja ou não ganhar os dados após a coleta de dados, não antes. Você deve ver se realmente existem valores discrepantes extremos antes de decidir pelo Winsorize. Se não houver valores discrepantes extremos, a Winsorização pode ser desnecessária.
Tutorial: Winsorizar dados no Excel
Consulte este tutorial para obter um exemplo passo a passo de como ganhar um conjunto de dados no Excel.