Как выполнить тест жарка-бера на python
Критерий Жара-Бера — это критерий согласия, который определяет, демонстрируют ли выборочные данные асимметрию и эксцесс, соответствующие нормальному распределению.
Статистика теста Жара-Бера всегда является положительным числом, и чем дальше она от нуля, тем больше доказательств того, что данные выборки не соответствуют нормальному распределению.
В этом руководстве объясняется, как выполнить тест Жарка-Бера на Python.
Как выполнить тест Жарка-Бера на Python
Чтобы выполнить тест Жарка-Бера в Python, вы можете использовать функцию jarque_bera из библиотеки Scipy, которая использует следующий синтаксис:
jarque_bera(x)
Золото:
- х: таблица наблюдений
Эта функция возвращает тестовую статистику и соответствующее значение p.
Пример 1
Предположим, мы выполняем тест Жарка-Бера для списка из 5000 значений, который соответствует нормальному распределению:
import numpy as np import scipy.stats as stats #generate array of 5000 values that follows a standard normal distribution np.random.seed(0) data = np.random.normal(0, 1, 5000) #perform Jarque-Bera test stats.jarque_bera(data) (statistic=1.2287, pvalue=0.54098)
Статистика теста равна 1,2287 , а соответствующее значение p — 0,54098 . Поскольку это значение p не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. У нас недостаточно доказательств, чтобы сказать, что эти данные демонстрируют асимметрию и эксцесс, существенно отличающиеся от нормального распределения.
Этот результат не должен вызывать удивления, поскольку сгенерированные нами данные состоят из 5000 случайных величин, которые подчиняются нормальному распределению.
Пример 2
Теперь предположим, что мы выполняем тест Жарка-Бера для списка из 5000 значений, которые следуют равномерному распределению:
import numpy as np import scipy.stats as stats #generate array of 5000 values that follows a uniform distribution np.random.seed(0) data = np.random.uniform(0, 1, 5000) #perform Jarque-Bera test stats.jarque_bera(data) (statistic=300.1043, pvalue=0.0)
Статистика теста равна 300,1043 , а соответствующее значение p равно 0,0 . Поскольку это значение p меньше 0,05, мы отвергаем нулевую гипотезу. Таким образом, у нас есть достаточно доказательств, чтобы утверждать, что эти данные демонстрируют существенно иную асимметрию и эксцесс, чем нормальное распределение.
Этот результат также не должен вызывать удивления, поскольку сгенерированные нами данные состоят из 5000 случайных величин, которые подчиняются равномерному распределению, которое должно иметь асимметрию и эксцесс, сильно отличающиеся от нормального распределения.
Когда использовать тест Жарке-Бера
Критерий Жарка-Бера обычно используется для больших наборов данных (n > 2000), в которых другие тесты нормальности (например, критерий Шапиро-Уилка) ненадежны.
Это подходящий тест, который следует использовать перед выполнением анализа, в котором предполагается, что набор данных соответствует нормальному распределению. Тест Жара-Бера может сказать вам, выполняется это предположение или нет.