Ein leitfaden zu bartletts sphärizitätstest


Bartletts Sphärizitätstest vergleicht eine beobachtete Korrelationsmatrix mit der Identitätsmatrix. Im Wesentlichen wird geprüft, ob eine gewisse Redundanz zwischen Variablen besteht, die mit einer Reihe von Faktoren zusammengefasst werden können.

Die Nullhypothese des Tests besagt, dass die Variablen orthogonal, also unkorreliert sind. Die Alternativhypothese besagt, dass die Variablen nicht orthogonal sind, das heißt, sie sind ausreichend korreliert bis zu dem Punkt, an dem die Korrelationsmatrix deutlich von der Identitätsmatrix abweicht.

Dieser Test wird häufig vor der Verwendung einer Datenreduktionstechnik wie der Hauptkomponentenanalyse oder der Faktoranalyse durchgeführt, um zu überprüfen, ob eine Datenreduktionstechnik die Daten tatsächlich sinnvoll komprimieren kann.

Hinweis: Der Bartlett-Test auf Sphärizität ist nicht dasselbe wie der Bartlett-Test auf Varianzgleichheit . Dies ist eine häufige Verwechslung, da die beiden ähnliche Namen haben.

Korrelationsmatrix und Identitätsmatrix

Eine Korrelationsmatrix ist einfach eine Wertematrix, die die Korrelationskoeffizienten zwischen Variablen zeigt. Die folgende Korrelationsmatrix zeigt beispielsweise die Korrelationskoeffizienten zwischen verschiedenen Variablen für professionelle Basketballmannschaften.

Korrelationskoeffizienten können zwischen -1 und 1 variieren. Je weiter ein Wert von 0 entfernt ist, desto höher ist die Korrelation zwischen zwei Variablen.

Eine Identitätsmatrix ist eine Matrix, in der alle Werte auf der Diagonale 1 und alle anderen Werte 0 sind.

Wenn in diesem Fall die Zahlen in dieser Matrix Korrelationskoeffizienten darstellen, bedeutet dies, dass jede Variable vollkommen orthogonal (d. h. „unkorreliert“) zu allen anderen Variablen ist und daher eine Datenreduktionstechnik wie PCA oder Faktoranalyse nicht in der Lage wäre, „ „Komprimieren“ Sie die Daten sinnvoll.

Der Grund, warum wir den Bartlett-Test auf Sphärizität durchführen, besteht darin, sicherzustellen, dass die Korrelationsmatrix der Variablen in unserem Datensatz erheblich von der Identitätsmatrix abweicht, sodass wir wissen, dass die Verwendung einer Reduktionstechnik für die Daten geeignet ist.

Wenn der p-Wert von Bartletts Sphärizitätstest kleiner als das gewählte Signifikanzniveau ist (übliche Optionen sind 0,10, 0,05 und 0,01), dann ist unser Datensatz für eine Datenreduktionstechnik geeignet.

Wie man Bartletts Sphärizitätstest in R durchführt

Um Bartletts Sphärizitätstest in R durchzuführen, können wir die Funktion cortest.bartlett() aus der Psych- Bibliothek verwenden. Die allgemeine Syntax dieser Funktion lautet wie folgt:

cortest.bartlett(R, n)

  • R: eine Korrelationsmatrix des Datensatzes
  • n: Stichprobengröße des Datensatzes

Der folgende Code zeigt, wie dieser Test an einem von uns erstellten gefälschten Datensatz durchgeführt wird:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

Die Chi-Quadrat-Teststatistik beträgt 5,252329 und der entsprechende p-Wert beträgt 0,1542258, was nicht weniger als unser Signifikanzniveau ist (verwenden wir 0,05). Daher sind diese Daten wahrscheinlich nicht für eine PCA- oder Faktorenanalyse geeignet.

Vereinfacht ausgedrückt sind die drei Variablen in unserem Datensatz nicht ausreichend korreliert, sodass eine Datenreduktionstechnik wie PCA oder Faktoranalyse Schwierigkeiten haben würde, diese Variablen in lineare Kombinationen zu komprimieren, die die in den Daten vorhandene signifikante Varianz erfassen könnten.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert