Como encontrar outliers usando intervalo interquartil
Um outlier é uma observação anormalmente distante de outros valores em um conjunto de dados. Valores discrepantes podem ser problemáticos porque podem afetar os resultados de uma análise.
Uma maneira comum de detectar valores discrepantes em um conjunto de dados é usar o intervalo interquartil .
O intervalo interquartil, muitas vezes abreviado como IQR, é a diferença entre o percentil 25 (Q1) e o percentil 75 (Q3) num conjunto de dados. Mede a distribuição da média de 50% dos valores.
Um método popular é declarar uma observação como outlier se ela tiver um valor 1,5 vezes maior que o AIQ ou 1,5 vezes menor que o AIQ.
Este tutorial fornece um exemplo passo a passo de como encontrar valores discrepantes em um conjunto de dados usando este método.
Etapa 1: crie os dados
Suponha que temos o seguinte conjunto de dados:
Etapa 2: Identifique o primeiro e o terceiro quartil
O primeiro quartil é 5 e o terceiro quartil é 20,75 .
Assim, o intervalo interquartil acaba sendo 20,75 -5 = 15,75 .
Etapa 3: Encontre os limites inferior e superior
O limite inferior é calculado da seguinte forma:
Limite inferior = Q1 – 1,5*IQR = 5 – 1,5*15,75 = -18,625
E o limite superior é calculado da seguinte forma:
Limite superior = Q3 + 1,5*IQR = 20,75 + 1,5*15,75 = 44,375
Etapa 4: identificar valores discrepantes
A única observação no conjunto de dados com um valor abaixo do limite inferior ou acima do limite superior é 46 . Portanto, este é o único valor discrepante neste conjunto de dados.
Nota: Você pode usar esta calculadora de limites de valores discrepantes para encontrar automaticamente os limites superior e inferior de valores discrepantes em um determinado conjunto de dados.
Como encontrar outliers na prática
Os tutoriais a seguir explicam como encontrar valores discrepantes usando o intervalo interquartil em diferentes softwares estatísticos:
Como encontrar valores discrepantes no Excel
Como encontrar outliers em R
Como encontrar valores discrepantes em Python
Como encontrar valores discrepantes no SPSS