Como encontrar facilmente valores discrepantes no excel


Um outlier é uma observação anormalmente distante de outros valores em um conjunto de dados.

Valores discrepantes podem ser problemáticos porque podem afetar os resultados de uma análise.

Usaremos o seguinte conjunto de dados no Excel para demonstrar dois métodos para encontrar valores discrepantes:

Relacionado: Como calcular a média excluindo valores discrepantes no Excel

Método 1: use o intervalo interquartil

O intervalo interquartil (IQR) é a diferença entre o percentil 75 (Q3) e o percentil 25 (Q1) em um conjunto de dados. Mede a distribuição da média de 50% dos valores.

Podemos definir uma observação como outlier se for 1,5 vezes o intervalo interquartil acima do terceiro quartil (Q3) ou 1,5 vezes o intervalo interquartil abaixo do primeiro quartil (Q1).

A imagem a seguir mostra como calcular o intervalo interquartil no Excel:

Então podemos usar a fórmula mencionada acima para atribuir “1” a quaisquer valores discrepantes no conjunto de dados:

Encontre valores discrepantes no Excel

Vemos que apenas um valor – 164 – acaba sendo um valor discrepante neste conjunto de dados.

Método 2: use pontuações z

Uma pontuação z informa quantos desvios padrão um determinado valor está da média. Usamos a seguinte fórmula para calcular uma pontuação z:

z = (X – μ) / σ

Ouro:

  • X é um único valor de dados brutos
  • μ é a média da população
  • σ é o desvio padrão da população

Podemos definir uma observação como outlier se ela tiver um escore z menor que -3 ou maior que 3.

A imagem a seguir mostra como calcular a média e o desvio padrão de um conjunto de dados no Excel:

Podemos então usar a média e o desvio padrão para encontrar a pontuação z para cada valor individual no conjunto de dados:

Podemos então atribuir “1” a qualquer valor cujo escore z seja menor que -3 ou maior que 3:

Encontrando valores discrepantes no Excel usando pontuações Z

Usando este método, vemos que não há valores discrepantes no conjunto de dados.

Nota: Às vezes, um escore z de 2,5 é usado em vez de 3. Nesse caso, o valor individual de 164 seria considerado um valor atípico porque tem um escore z maior que 2,5.

Ao usar o método de pontuação z, use seu julgamento para determinar qual valor de pontuação z você considera um valor atípico.

Como lidar com outliers

Se um valor discrepante estiver presente em seus dados, você terá várias opções:

1. Certifique-se de que o valor discrepante não seja resultado de um erro de entrada de dados.

Às vezes, um indivíduo simplesmente insere o valor errado dos dados ao salvar os dados. Se houver um valor discrepante, primeiro verifique se o valor foi inserido corretamente e se não houve um erro.

2. Remova o valor discrepante.

Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral. Apenas certifique-se de mencionar em seu relatório ou análise final que você removeu um valor discrepante.

3. Atribua um novo valor ao valor discrepante .

Se o valor discrepante for o resultado de um erro de entrada de dados, você pode decidir atribuir-lhe um novo valor, como a média ou mediana do conjunto de dados.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *