Jak uruchomić tester grubbsa w r


Test Grubbsa to test statystyczny, który można zastosować do identyfikacji obecności wartości odstających w zbiorze danych.

Aby skorzystać z tego testu, zbiór danych musi mieć w przybliżeniu rozkład normalny i zawierać co najmniej 7 obserwacji.

W tym samouczku wyjaśniono, jak wykonać test Grubbsa w języku R, aby wykryć wartości odstające w zbiorze danych.

Przykład: test Grubbsa w R

Aby wykonać test Grubbsa w R, możemy skorzystać z funkcji grubbs.test() z pakietu Outliers , która wykorzystuje następującą składnię:

grubbs.test(x, typ = 10, przeciwny = FAŁSZ, dwustronny = FAŁSZ)

Złoto:

  • x: wektor numeryczny wartości danych
  • wpisz: 10 = sprawdź, czy maksymalna wartość jest wartością odstającą, 11 = sprawdź, czy wartości minimalna i maksymalna są wartością odstającą, 20 = sprawdź, czy na końcu znajdują się dwie wartości odstające
  • odwrotnie: logika wskazująca, czy chcesz sprawdzić nie wartość o największej różnicy od średniej, ale odwrotnie (najniższą, jeśli najbardziej podejrzaną jest najwyższa itp.)
  • dwustronny: wartość logiczna wskazująca, czy należy traktować badanie jako dwustronne

W teście tym wykorzystuje się dwie hipotezy:

H 0 (hipoteza zerowa): W danych nie ma wartości odstających.

H A (hipoteza alternatywna): Dane zawierają wartość odstającą.

Poniższy przykład ilustruje sposób przeprowadzenia testu Grubbsa w celu ustalenia, czy maksymalna wartość w zbiorze danych jest wartością odstającą:

 #load Outliers package
library(Outliers)

#createdata
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40)

#perform Grubbs' Test to see if '40' is an outlier
grubbs.test(data)

# Grubbs test for one outlier
#
#data:data
#G = 2.65990, U = 0.55935, p-value = 0.02398
#alternative hypothesis: highest value 40 is an outlier

Statystyka testowa testu wynosi G = 2,65990 , a odpowiadająca wartość p wynosi p = 0,02398 . Ponieważ wartość ta jest mniejsza niż 0,05, odrzucimy hipotezę zerową i dochodzimy do wniosku, że maksymalna wartość 40 jest wartością odstającą.

Gdybyśmy zamiast tego chcieli sprawdzić, czy najniższa wartość „5” jest wartością odstającą, moglibyśmy użyć polecenia przeciwnego=TRUE :

 #perform Grubbs' Test to see if '5' is an outlier
grubbs.test(data, opposite= TRUE )

# Grubbs test for one outlier
#
#data:data
#G = 1.4879, U = 0.8621, p-value = 1
#alternative hypothesis: lowest value 5 is an outlier

Statystyka testowa wynosi G = 1,4879 , a odpowiadająca jej wartość p wynosi p = 1 . Ponieważ wartość ta jest nie mniejsza niż 0,05, nie możemy odrzucić hipotezy zerowej. Nie mamy wystarczających dowodów, aby stwierdzić, że minimalna wartość „5” jest wartością odstającą.

Na koniec załóżmy, że na jednym końcu zbioru danych mamy dwie duże wartości: 40 i 42. Aby sprawdzić, czy te dwie wartości są wartościami odstającymi, możemy wykonać test Grubbsa i określić type=20 :

 #create dataset with two large values at one end: 40 and 42
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) 

#perform Grubbs' Test to see if both 40 and 42 are outliers
grubbs.test(data, type=20)

# Grubbs test for two outliers
#
#data: data
#U = 0.38111, p-value = 0.01195
#alternative hypothesis: highest values 40, 42 are outliers

Wartość p testu wynosi 0,01195 . Ponieważ wartość ta jest mniejsza niż 0,05, możemy odrzucić hipotezę zerową i stwierdzić, że mamy wystarczające dowody, aby stwierdzić, że obie wartości 40 i 42 są wartościami odstającymi.

Jak postępować z wartościami odstającymi

Jeśli test Grubbsa wykryje w Twoim zbiorze danych wartość odstającą, masz kilka możliwości:

1. Sprawdź dokładnie, czy podana wartość nie jest literówką lub błędem przy wprowadzaniu danych. Czasami wartości pojawiające się w zbiorach danych jako wartości odstające są po prostu literówkami popełnionymi przez osobę podczas wprowadzania danych. Przed podjęciem dalszych decyzji wróć i sprawdź, czy wartość została wprowadzona poprawnie.

2. Przypisz nową wartość wartości odstającej . Jeśli okaże się, że wartość odstająca wynika z literówki lub błędu przy wprowadzaniu danych, możesz zdecydować się na przypisanie jej nowej wartości, takiej jak średnia lub mediana zbioru danych.

3. Usuń wartość odstającą. Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *