Python'da çok değişkenli normallik testleri nasıl gerçekleştirilir


Tek bir değişkenin normal dağılıp dağılmadığını test etmek istediğimizde  Dağılımı görselleştirmek içinQQ grafiği veya Anderson Darling testi veya Jarque-Bera testi gibi resmi bir istatistiksel test yapabiliriz .

Ancak birden fazla değişkenin grup halinde normal dağılıp dağılmadığını test etmek istediğimizde çok değişkenli normallik testi yapmamız gerekir.

Bu eğitimde Python’da belirli bir veri kümesi için Henze-Zirkler çok değişkenli normallik testinin nasıl gerçekleştirileceği açıklanmaktadır.

İlgili: Çok değişkenli bir bağlamda aykırı değerleri belirlemek istiyorsak Mahalanobis mesafesini kullanabiliriz .

Örnek: Python’da Henze-Zirkler çok değişkenli normallik testi

Henze-Zirkler çok değişkenli normallik testi, bir grup değişkenin çok değişkenli normal dağılıma uyup uymadığını belirler. Testin sıfır ve alternatif hipotezleri aşağıdaki gibidir:

H 0 (boş): Değişkenler çok değişkenli normal dağılıma uygundur.

H a (alternatif): Değişkenler çok değişkenli normal dağılıma uymamaktadır .

Bu testi Python’da gerçekleştirmek için penguin kütüphanesindeki multivariate_normality() fonksiyonunu kullanabiliriz.

İlk önce pengueni kurmamız gerekiyor:

 pip install penguin

Daha sonra, multivariate_normality() fonksiyonunu içe aktarabilir ve bunu belirli bir veri seti için çok değişkenli normallik testi gerçekleştirmek için kullanabiliriz:

 #import necessary packages
from penguin import multivariate_normality
import pandas as pd
import numpy as np

#create a dataset with three variables x1, x2, and x3
df = pd.DataFrame({'x1':np.random.normal(size= 50 ),
                   'x2': np.random.normal(size= 50 ),
                   'x3': np.random.normal(size= 50 )})

#perform the Henze-Zirkler Multivariate Normality Test
multivariate_normality(df, alpha= .05 )

HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)

Test sonuçları aşağıdaki gibidir:

  • Test istatistiği Hz: 0,59569
  • p-değeri: 0,64618

Testin p değeri, belirlediğimiz alfa değeri olan 0,05’ten az olmadığından sıfır hipotezini reddetmede başarısız oluyoruz. Veri kümesinin çok değişkenli normal dağılıma uyduğu varsayılabilir.

İlgili: Bu araştırma makalesinde Henze-Zirkler testinin gerçek dünyadaki tıbbi uygulamalarda nasıl kullanıldığını öğrenin.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir