Как выполнить многомерные тесты на нормальность в python
Когда мы хотим проверить, нормально ли распределена одна переменная или нет, мы можем создать График QQ для визуализации распределения или мы можем выполнить формальный статистический тест, такой как тест Андерсона-Дарлинга или тест Жарка-Бера .
Однако, когда мы хотим проверить, нормально ли распределяются несколько переменных как группа, нам необходимо выполнить многомерный тест на нормальность .
В этом руководстве объясняется, как выполнить многомерный тест Хенце-Цирклера на нормальность для заданного набора данных в Python.
Связанный: Если мы хотим идентифицировать выбросы в многомерном контексте, мы можем использовать расстояние Махаланобиса .
Пример: многомерный тест Хенце-Цирклера на нормальность в Python
Тест многомерной нормальности Хенце-Цирклера определяет, соответствует ли группа переменных многомерному нормальному распределению. Нулевая и альтернативная гипотезы теста следующие:
H 0 (ноль): переменные подчиняются многомерному нормальному распределению.
H a (альтернативный вариант): переменные не подчиняются многомерному нормальному распределению.
Чтобы выполнить этот тест на Python, мы можем использовать функцию multivariate_normality() из библиотеки penguin.
Сначала нам нужно установить пингвина:
pip install penguin
Далее мы можем импортировать функцию multivariate_normality() и использовать ее для выполнения многомерной проверки нормальности для заданного набора данных:
#import necessary packages from penguin import multivariate_normality import pandas as pd import numpy as np #create a dataset with three variables x1, x2, and x3 df = pd.DataFrame({'x1':np.random.normal(size= 50 ), 'x2': np.random.normal(size= 50 ), 'x3': np.random.normal(size= 50 )}) #perform the Henze-Zirkler Multivariate Normality Test multivariate_normality(df, alpha= .05 ) HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)
Результаты испытаний следующие:
- Статистика теста Гц: 0,59569
- p-значение: 0,64618
Поскольку значение p теста не меньше указанного нами значения альфа 0,05, мы не можем отвергнуть нулевую гипотезу. Можно предположить, что набор данных соответствует многомерному нормальному распределению.
По теме: Узнайте, как тест Хенце-Цирклера используется в реальных медицинских целях, в этой исследовательской статье .