Jak wykonać test jarque-bera w r
Test Jarque-Bera to test dobroci dopasowania, który określa, czy przykładowe dane wykazują skośność i kurtozę odpowiadające rozkładowi normalnemu .
Statystyka testu Jarque-Bera jest zawsze liczbą dodatnią i jeśli jest daleka od zera, oznacza to, że przykładowe dane nie mają rozkładu normalnego.
Statystykę testową JB definiuje się jako:
JB =[(n-k+1) / 6] * [S 2 + (0,25*(C-3) 2 )]
gdzie n to liczba obserwacji w próbie, k to liczba regresorów (k = 1, jeśli nie jest stosowane w kontekście regresji), S to skośność próbki, a C to kurtoza próbki.
W ramach zerowej hipotezy normalności JB ~
W tym samouczku wyjaśniono, jak wykonać test Jarque-Bera w języku R.
Test Jarque-Bera w R
Aby wykonać test Jarque-Bera dla przykładowego zbioru danych, możemy skorzystać z pakietu tseries :
#install (if not already installed) and load tseries package if(!require(tseries)){install.packages('tseries')} #generate a list of 100 normally distributed random variables dataset <- rnorm(100) #conduct Jarque-Bera test jarque.bera.test(dataset)
Generuje to następujące dane wyjściowe:
To mówi nam, że statystyka testowa wynosi 0,67446, a wartość p wynosi 0,7137. W takim przypadku nie bylibyśmy w stanie odrzucić hipotezy zerowej, że dane mają rozkład normalny.
Wynik ten nie powinien być zaskakujący, ponieważ wygenerowany przez nas zbiór danych składa się ze 100 zmiennych losowych o rozkładzie normalnym.
Zamiast tego rozważ, czy wygenerowaliśmy zbiór danych składający się z listy 100 zmiennych losowych o równomiernym rozkładzie:
#install (if not already installed) and load tseries package if(!require(tseries)){install.packages('tseries')} #generate a list of 100 uniformly distributed random variables dataset <- runif(100) #conduct Jarque-Bera test jarque.bera.test(dataset)
Generuje to następujące dane wyjściowe:
To mówi nam, że statystyka testowa wynosi 8,0807, a wartość p testu wynosi 0,01759. W tym przypadku odrzucilibyśmy hipotezę zerową, że dane mają rozkład normalny. Mamy wystarczające dowody, aby stwierdzić, że dane w tym przykładzie nie mają rozkładu normalnego.
Wynik ten nie powinien być zaskakujący, ponieważ wygenerowany przez nas zbiór danych składa się ze 100 zmiennych losowych o rozkładzie równomiernym. W końcu dane mają być dystrybuowane równomiernie, a nie normalnie.