Как выполнить многомерные тесты на нормальность в python


Когда мы хотим проверить, нормально ли распределена одна переменная или нет, мы можем создать   График QQ для визуализации распределения или мы можем выполнить формальный статистический тест, такой как тест Андерсона-Дарлинга или тест Жарка-Бера .

Однако, когда мы хотим проверить, нормально ли распределяются несколько переменных как группа, нам необходимо выполнить многомерный тест на нормальность .

В этом руководстве объясняется, как выполнить многомерный тест Хенце-Цирклера на нормальность для заданного набора данных в Python.

Связанный: Если мы хотим идентифицировать выбросы в многомерном контексте, мы можем использовать расстояние Махаланобиса .

Пример: многомерный тест Хенце-Цирклера на нормальность в Python

Тест многомерной нормальности Хенце-Цирклера определяет, соответствует ли группа переменных многомерному нормальному распределению. Нулевая и альтернативная гипотезы теста следующие:

H 0 (ноль): переменные подчиняются многомерному нормальному распределению.

H a (альтернативный вариант): переменные не подчиняются многомерному нормальному распределению.

Чтобы выполнить этот тест на Python, мы можем использовать функцию multivariate_normality() из библиотеки penguin.

Сначала нам нужно установить пингвина:

 pip install penguin

Далее мы можем импортировать функцию multivariate_normality() и использовать ее для выполнения многомерной проверки нормальности для заданного набора данных:

 #import necessary packages
from penguin import multivariate_normality
import pandas as pd
import numpy as np

#create a dataset with three variables x1, x2, and x3
df = pd.DataFrame({'x1':np.random.normal(size= 50 ),
                   'x2': np.random.normal(size= 50 ),
                   'x3': np.random.normal(size= 50 )})

#perform the Henze-Zirkler Multivariate Normality Test
multivariate_normality(df, alpha= .05 )

HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)

Результаты испытаний следующие:

  • Статистика теста Гц: 0,59569
  • p-значение: 0,64618

Поскольку значение p теста не меньше указанного нами значения альфа 0,05, мы не можем отвергнуть нулевую гипотезу. Можно предположить, что набор данных соответствует многомерному нормальному распределению.

По теме: Узнайте, как тест Хенце-Цирклера используется в реальных медицинских целях, в этой исследовательской статье .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *