So führen sie multivariate normalitätstests in python durch


Wenn wir testen möchten, ob eine einzelne Variable normalverteilt ist oder nicht, können wir eine erstellen   QQ-Diagramm zur Visualisierung der Verteilung oder wir können einen formalen statistischen Test wie einen Anderson-Darling-Test oder einen Jarque-Bera-Test durchführen .

Wenn wir jedoch testen möchten, ob mehrere Variablen als Gruppe normalverteilt sind, müssen wir einen multivariaten Normalitätstest durchführen.

In diesem Tutorial wird erläutert, wie Sie den multivariaten Henze-Zirkler-Normalitätstest für einen bestimmten Datensatz in Python durchführen.

Verwandt: Wenn wir Ausreißer in einem multivariaten Kontext identifizieren möchten, können wir die Mahalanobis-Distanz verwenden .

Beispiel: Multivariater Henze-Zirkler-Normalitätstest in Python

Der multivariate Normalverteilungstest von Henze-Zirkler bestimmt, ob eine Gruppe von Variablen einer multivariaten Normalverteilung folgt oder nicht. Die Null- und Alternativhypothese des Tests lauten wie folgt:

H 0 (null): Die Variablen folgen einer multivariaten Normalverteilung.

H a (alternativ): Die Variablen folgen keiner multivariaten Normalverteilung.

Um diesen Test in Python durchzuführen, können wir die Funktion multivariate_normality() aus der Penguin-Bibliothek verwenden.

Zuerst müssen wir Penguin installieren:

 pip install penguin

Als nächstes können wir die Funktion multivariate_normality() importieren und damit einen multivariaten Normalitätstest für einen bestimmten Datensatz durchführen:

 #import necessary packages
from penguin import multivariate_normality
import pandas as pd
import numpy as np

#create a dataset with three variables x1, x2, and x3
df = pd.DataFrame({'x1':np.random.normal(size= 50 ),
                   'x2': np.random.normal(size= 50 ),
                   'x3': np.random.normal(size= 50 )})

#perform the Henze-Zirkler Multivariate Normality Test
multivariate_normality(df, alpha= .05 )

HZResults(hz=0.5956866563391165, pval=0.6461804077893423, normal=True)

Die Testergebnisse lauten wie folgt:

  • Teststatistik Hz: 0,59569
  • p-Wert: 0,64618

Da der p-Wert des Tests nicht kleiner als unser angegebener Alpha-Wert von 0,05 ist, können wir die Nullhypothese nicht ablehnen. Es kann davon ausgegangen werden, dass der Datensatz einer multivariaten Normalverteilung folgt.

Verwandte Themen: Erfahren Sie in diesem Forschungsbericht , wie der Henze-Zirkler-Test in realen medizinischen Anwendungen eingesetzt wird.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert