Python'da çok değişkenli normallik testleri nasıl gerçekleştirilir
Tek bir değişkenin normal dağılıp dağılmadığını test etmek istediğimizde Dağılımı görselleştirmek içinQQ grafiği veya Anderson Darling testi veya Jarque-Bera testi gibi resmi bir istatistiksel test yapabiliriz .
Ancak birden fazla değişkenin grup halinde normal dağılıp dağılmadığını test etmek istediğimizde çok değişkenli normallik testi yapmamız gerekir.
Bu eğitimde Python’da belirli bir veri kümesi için Henze-Zirkler çok değişkenli normallik testinin nasıl gerçekleştirileceği açıklanmaktadır.
İlgili: Çok değişkenli bir bağlamda aykırı değerleri belirlemek istiyorsak Mahalanobis mesafesini kullanabiliriz .
Örnek: Python’da Henze-Zirkler çok değişkenli normallik testi
Henze-Zirkler çok değişkenli normallik testi, bir grup değişkenin çok değişkenli normal dağılıma uyup uymadığını belirler. Testin sıfır ve alternatif hipotezleri aşağıdaki gibidir:
H 0 (boş): Değişkenler çok değişkenli normal dağılıma uygundur.
H a (alternatif): Değişkenler çok değişkenli normal dağılıma uymamaktadır .
Bu testi Python’da gerçekleştirmek için penguin kütüphanesindeki multivariate_normality() fonksiyonunu kullanabiliriz.
İlk önce pengueni kurmamız gerekiyor:
pip install penguin
Daha sonra, multivariate_normality() fonksiyonunu içe aktarabilir ve bunu belirli bir veri seti için çok değişkenli normallik testi gerçekleştirmek için kullanabiliriz:
#import necessary packages from penguin import multivariate_normality import pandas as pd import numpy as np #create a dataset with three variables x1, x2, and x3 df = pd.DataFrame({'x1':np.random.normal(size= 50 ), 'x2': np.random.normal(size= 50 ), 'x3': np.random.normal(size= 50 )}) #perform the Henze-Zirkler Multivariate Normality Test multivariate_normality(df, alpha= .05 ) HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)
Test sonuçları aşağıdaki gibidir:
- Test istatistiği Hz: 0,59569
- p-değeri: 0,64618
Testin p değeri, belirlediğimiz alfa değeri olan 0,05’ten az olmadığından sıfır hipotezini reddetmede başarısız oluyoruz. Veri kümesinin çok değişkenli normal dağılıma uyduğu varsayılabilir.
İlgili: Bu araştırma makalesinde Henze-Zirkler testinin gerçek dünyadaki tıbbi uygulamalarda nasıl kullanıldığını öğrenin.