Valores atípicos (outliers)

Este artigo explica o que são outliers e como são calculados. Além disso, você pode calcular valores discrepantes para qualquer amostra de dados com uma calculadora online.

O que são valores discrepantes?

Nas estatísticas, outliers , também chamados de outliers ou outliers , são valores significativamente diferentes do restante do conjunto de dados. Em outras palavras, um outlier é um valor anormal extremamente diferente do restante dos valores da amostra.

É importante identificar valores discrepantes em uma amostra porque eles podem afetar significativamente o cálculo de medidas estatísticas.

Por exemplo, se tivermos a série de dados [1, 3, 5, 2, 79, 4, 8, 6], o número 79 é claramente um valor atípico. Porque seu valor é extremamente superior ao restante dos dados. Nesse caso, a média incluindo o outlier é 13,5, enquanto a média sem o outlier seria 4,14. Como você pode ver, um único valor discrepante já influencia significativamente o resultado de uma medição estatística.

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

Normalmente, os valores discrepantes são facilmente distinguidos em gráficos de dispersão porque estão isolados do restante dos dados. Observe o gráfico de dispersão a seguir, o outlier está muito separado do restante dos valores:

gráfico de dispersão de outliers ou outros

👉 Você pode usar a calculadora abaixo para encontrar valores discrepantes para qualquer conjunto de dados.

Como calcular valores discrepantes

Para calcular outliers a partir de uma amostra de dados, as seguintes etapas devem ser seguidas:

  1. Calcule os quartis do conjunto de dados.
  2. Calcule o intervalo interquartil dos dados.
  3. Serão considerados valores atípicos (outliers) valores que atendam a uma das seguintes condições:

No boxplot a seguir, você pode ver dois outliers de acordo com este critério representados graficamente:

valores discrepantes do boxplot

Observação: lembre-se de que existem vários critérios para determinar os limites além dos quais os dados são considerados discrepantes. Neste artigo tomou-se como referência o critério do teste de Tukey, por ser o mais utilizado.

Exemplo de valores discrepantes

Considerando a definição de outlier, nesta seção veremos um exemplo prático de como identificar outliers em uma série de dados.

  • Calcule valores discrepantes ou discrepantes do seguinte conjunto de dados estatísticos.

Primeiro, calculamos os três quartis do conjunto de dados:

Q_1=4,06

Q_2=4,38

Q_3=4,66

Depois de encontrarmos os três quartis, encontramos o intervalo interquartil subtraindo o quartil 3 menos o quartil 1:

IQR=Q_3-Q_1=4,66-4,06=0,6

E agora calculamos os limites definidos pelos valores discrepantes. Para fazer isso, usamos as fórmulas explicadas na seção acima:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

Portanto, se algum dos valores for inferior a 3,16, é um valor discrepante. Da mesma forma, se um valor for superior a 5,56, também é um valor atípico.

Concluindo, neste caso temos dois valores extremos, pois 3,02 é menor que 3,16 e 5,71 é maior que 5,56.

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

Calculadora de valores discrepantes

Insira um conjunto de dados estatísticos na calculadora a seguir para calcular seus valores discrepantes, se houver. Os dados devem ser separados por espaço e inseridos usando o ponto final como separador decimal.

Causas de valores discrepantes

Existem várias causas possíveis para valores discrepantes, sendo as mais comuns:

  • O dispositivo utilizado para fazer as medições quebrou ou sofreu um acidente.
  • A peça medida apresentou defeito devido a uma causa anormal.
  • Ocorreu um erro na transmissão ou transcrição de dados.
  • Houve um erro humano. Independentemente das precauções tomadas, os erros humanos não são totalmente inevitáveis e, portanto, ainda podem existir valores anormais.

Estas são as causas mais comuns, mas obviamente o motivo pode ser qualquer coisa. Da mesma forma, deve-se levar em consideração que quando se realiza um estudo estatístico com numerosas observações, é normal que apareçam alguns outliers.

O que fazer com valores discrepantes

Uma pergunta comum quando encontramos um valor discrepante é o que devemos fazer com ele. Os valores discrepantes devem ser removidos da amostra?

Acredita-se que os outliers devem ser sempre eliminados, pois são dados que não se assemelham ao restante do conjunto. No entanto, embora os valores discrepantes afectem grandemente os resultados de algumas medidas estatísticas, isso não significa que devam ser sempre eliminados.

Em geral, os outliers só devem ser removidos se soubermos que a causa da anomalia é verdadeiramente justificada e, portanto, estes outliers são observações que não correspondem ao que está sendo estudado.

Isso é particularmente importante em amostras pequenas, pois os valores extremos afetam mais as métricas estatísticas.

Por exemplo, se o comprimento de uma parte de um produto for medido para realizar o controle de qualidade, logicamente se outro tipo de produto aparecer repentinamente e a mesma parte for medida, o valor medido será muito diferente dos anteriores e provavelmente será ser um estranho. Neste caso, o outlier poderia ser descartado porque sua causa é conhecida e sabe-se que os dados medidos não fazem parte da população que se pretende analisar.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *