Como winsorizar dados: definição e exemplos


Winsorizar dados significa definir valores discrepantes extremos iguais a um percentil especificado dos dados.

Por exemplo, uma winsorização de 90% define todas as observações acima do percentil 95 iguais ao valor no percentil 95 e todas as observações abaixo do percentil 5 iguais ao valor no percentil 5.

Na verdade, winorizar dados significa alterar os valores extremos de um conjunto de dados para valores menos extremos.

Exemplo: como Winsorizar dados

Suponha que temos o seguinte conjunto de dados:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Para realizar uma winsorização de 90% neste conjunto de dados, primeiro encontraríamos o 5º percentil e o 95º percentil, que seriam:

  • 5º percentil: 12,35
  • 95º percentil: 92,05

Definiríamos então todos os valores menores que 12,35 iguais a 12,35 e todos os valores maiores que 92,05 iguais a 92,05:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

Neste caso, o valor 3 passou a ser 12,35 e o valor 98 passou a ser 92,05 .

Por que Winsorizar dados?

A média e o desvio padrão são dois métodos comuns para medir a localização do centro de um conjunto de dados e a distribuição das observações em um conjunto de dados, respectivamente.

No entanto, estas duas medidas podem ser influenciadas por valores extremos. Assim, a winorização dos dados nos permite definir valores discrepantes extremos iguais a valores menos extremos.

Isso geralmente nos permite obter uma visão mais precisa da média e do desvio padrão do conjunto de dados.

Winsorize ouro ameixa

Outra maneira comum de lidar com valores discrepantes é removê -los do conjunto de dados, o que significa removê-los totalmente.

Por exemplo, considere o conjunto de dados anterior:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Se quiséssemos reduzir valores abaixo do percentil 5 ou acima do percentil 95, simplesmente retiraríamos os valores 3 e 98 .

Aqui estão algumas regras básicas sobre quando usar fatiamento ou Winsorização:

Corte: Faz sentido cortar valores de dados quando alguns valores parecem completamente irracionais, ou seja, são resultado de um erro de entrada de dados.

Winsorização: Faz sentido Winsorizar dados quando queremos manter observações que estão nos extremos, mas não queremos interpretá-las muito literalmente.

Precauções com relação à winsorização de dados

Aqui estão algumas coisas que você deve ter em mente ao decidir obter dados:

1. Se não houver valores discrepantes extremos, a winorização dos dados alterará apenas ligeiramente os valores menores e maiores. Geralmente, isso não é uma boa ideia porque significa que estamos simplesmente alterando os valores dos dados com o único propósito de alterá-los.

2. Outliers podem representar casos extremos interessantes nos dados. Portanto, antes de editar os valores discrepantes, é uma boa ideia examiná-los mais de perto para ver o que pode tê-los causado.

3. Você deve decidir se deseja ou não ganhar os dados após a coleta de dados, não antes. Você deve ver se realmente existem valores discrepantes extremos antes de decidir pelo Winsorize. Se não houver valores discrepantes extremos, a Winsorização pode ser desnecessária.

Tutorial: Winsorizar dados no Excel

Consulte este tutorial para obter um exemplo passo a passo de como ganhar um conjunto de dados no Excel.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *