Como executar o testador grubbs em r


O teste de Grubbs é um teste estatístico que pode ser usado para identificar a presença de outliers em um conjunto de dados.

Para utilizar este teste, um conjunto de dados deve ter uma distribuição aproximadamente normal e conter pelo menos 7 observações.

Este tutorial explica como realizar o teste de Grubbs em R para detectar valores discrepantes em um conjunto de dados.

Exemplo: teste de Grubbs em R

Para realizar o teste Grubbs em R, podemos usar a função grubbs.test() do pacote Outliers , que usa a seguinte sintaxe:

grubbs.test(x, tipo = 10, oposto = FALSO, frente e verso = FALSO)

Ouro:

  • x: um vetor numérico de valores de dados
  • tipo: 10 = teste se o valor máximo é um valor discrepante, 11 = teste se os valores mínimo e máximo são valores discrepantes, 20 = teste se há dois valores discrepantes em uma cauda
  • oposto: lógica que indica se deseja verificar não o valor com maior diferença da média, mas sim o contrário (o menor, se o mais suspeito é o maior, etc.)
  • bilateral: valor lógico que indica se você deve ou não tratar o teste como bilateral

Este teste usa as duas hipóteses a seguir:

H 0 (hipótese nula): Não há outliers nos dados.

HA (hipótese alternativa): Há um valor discrepante nos dados.

O exemplo a seguir ilustra como realizar o teste de Grubbs para determinar se o valor máximo em um conjunto de dados é um valor atípico:

 #load Outliers package
library(Outliers)

#createdata
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40)

#perform Grubbs' Test to see if '40' is an outlier
grubbs.test(data)

# Grubbs test for one outlier
#
#data:data
#G = 2.65990, U = 0.55935, p-value = 0.02398
#alternative hypothesis: highest value 40 is an outlier

A estatística de teste do teste é G = 2,65990 e o valor p correspondente é p = 0,02398 . Como este valor é inferior a 0,05, rejeitaremos a hipótese nula e concluiremos que o valor máximo de 40 é um outlier.

Se, em vez disso, quiséssemos testar se o valor mais baixo de “5” era um valor discrepante, poderíamos usar o comando oposto=TRUE :

 #perform Grubbs' Test to see if '5' is an outlier
grubbs.test(data, opposite= TRUE )

# Grubbs test for one outlier
#
#data:data
#G = 1.4879, U = 0.8621, p-value = 1
#alternative hypothesis: lowest value 5 is an outlier

A estatística de teste é G = 1,4879 e o valor p correspondente é p = 1 . Como este valor não é inferior a 0,05, não rejeitamos a hipótese nula. Não temos evidências suficientes para afirmar que o valor mínimo de “5” seja um valor atípico.

Finalmente, suponha que temos dois valores grandes em uma extremidade do conjunto de dados: 40 e 42. Para testar se esses dois valores são discrepantes, poderíamos realizar o teste de Grubbs e especificar type=20 :

 #create dataset with two large values at one end: 40 and 42
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) 

#perform Grubbs' Test to see if both 40 and 42 are outliers
grubbs.test(data, type=20)

# Grubbs test for two outliers
#
#data: data
#U = 0.38111, p-value = 0.01195
#alternative hypothesis: highest values 40, 42 are outliers

O valor p do teste é 0,01195 . Como este valor é inferior a 0,05, podemos rejeitar a hipótese nula e concluir que temos evidências suficientes para dizer que os valores 40 e 42 são ambos outliers.

Como lidar com outliers

Se o teste de Grubbs identificar um valor discrepante em seu conjunto de dados, você terá várias opções:

1. Verifique novamente se o valor não é um erro de digitação ou de entrada de dados. Às vezes, os valores que aparecem como valores discrepantes em conjuntos de dados são simplesmente erros de digitação cometidos por um indivíduo durante a entrada de dados. Volte e verifique se o valor foi inserido corretamente antes de tomar outras decisões.

2. Atribua um novo valor ao valor discrepante . Se o valor discrepante for resultado de um erro de digitação ou de entrada de dados, você pode decidir atribuir a ele um novo valor, como a média ou mediana do conjunto de dados.

3. Remova o valor discrepante. Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *