Cara melakukan uji normalitas multivariat dengan python
Ketika kita ingin menguji apakah suatu variabel terdistribusi normal atau tidak, kita dapat membuat a Plot QQ untuk memvisualisasikan distribusi atau kita dapat melakukan uji statistik formal seperti uji Anderson Darling atau uji Jarque-Bera .
Namun, ketika kita ingin menguji apakah beberapa variabel terdistribusi normal sebagai suatu kelompok, kita perlu melakukan uji normalitas multivariat .
Tutorial ini menjelaskan cara melakukan uji normalitas multivariat Henze-Zirkler untuk kumpulan data tertentu dengan Python.
Terkait: Jika kita ingin mengidentifikasi outlier dalam konteks multivariat, kita dapat menggunakan jarak Mahalanobis .
Contoh: Uji normalitas multivariat Henze-Zirkler dengan Python
Uji normalitas multivariat Henze-Zirkler menentukan apakah suatu kelompok variabel mengikuti distribusi normal multivariat atau tidak. Hipotesis nol dan alternatif dari pengujian tersebut adalah sebagai berikut:
H 0 (null): Variabel mengikuti distribusi normal multivariat.
H a (alternatif): Variabel tidak mengikuti distribusi normal multivariat.
Untuk melakukan pengujian ini dengan Python kita dapat menggunakan fungsi multivariate_normality() dari perpustakaan penguin.
Pertama, kita perlu menginstal penguin:
pip install penguin
Selanjutnya, kita dapat mengimpor fungsi multivariate_normality() dan menggunakannya untuk melakukan uji normalitas multivariat untuk kumpulan data tertentu:
#import necessary packages from penguin import multivariate_normality import pandas as pd import numpy as np #create a dataset with three variables x1, x2, and x3 df = pd.DataFrame({'x1':np.random.normal(size= 50 ), 'x2': np.random.normal(size= 50 ), 'x3': np.random.normal(size= 50 )}) #perform the Henze-Zirkler Multivariate Normality Test multivariate_normality(df, alpha= .05 ) HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)
Hasil tesnya adalah sebagai berikut:
- Statistik uji Hz: 0,59569
- nilai p: 0,64618
Karena nilai p pengujian tidak kurang dari nilai alfa yang kami tentukan yaitu 0,05, kami gagal menolak hipotesis nol. Kumpulan data dapat diasumsikan mengikuti distribusi normal multivariat.
Terkait: Pelajari bagaimana tes Henze-Zirkler digunakan dalam aplikasi medis dunia nyata dalam makalah penelitian ini .