Een gids voor bartlett's test van sfericiteit


Bartlett’s sfericiteitstest vergelijkt een waargenomen correlatiematrix met de identiteitsmatrix. In wezen wordt gecontroleerd of er enige redundantie bestaat tussen variabelen die kunnen worden samengevat met een aantal factoren.

De nulhypothese van de test is dat de variabelen orthogonaal zijn, dat wil zeggen niet gecorreleerd. De alternatieve hypothese is dat de variabelen niet orthogonaal zijn, dat wil zeggen dat ze voldoende gecorreleerd zijn tot het punt waarop de correlatiematrix significant afwijkt van de identiteitsmatrix.

Deze test wordt vaak uitgevoerd voordat een datareductietechniek wordt gebruikt, zoals hoofdcomponentenanalyse of factoranalyse, om te verifiëren dat een datareductietechniek de gegevens daadwerkelijk op zinvolle wijze kan comprimeren.

Opmerking: Bartlett’s test voor sfericiteit is niet hetzelfde als Bartlett’s test voor gelijkheid van varianties . Dit is een veel voorkomende verwarring omdat de twee vergelijkbare namen hebben.

Correlatiematrix en identiteitsmatrix

Een correlatiematrix is simpelweg een matrix van waarden die de correlatiecoëfficiënten tussen variabelen weergeeft. De volgende correlatiematrix toont bijvoorbeeld de correlatiecoëfficiënten tussen verschillende variabelen voor professionele basketbalteams.

Correlatiecoëfficiënten kunnen variëren van -1 tot 1. Hoe verder een waarde van 0 ligt, hoe hoger de correlatie tussen twee variabelen.

Een identiteitsmatrix is een matrix waarin alle waarden op de diagonaal 1 zijn en alle andere waarden 0.

In dit geval, als de getallen in deze matrix correlatiecoëfficiënten vertegenwoordigen, betekent dit dat elke variabele perfect orthogonaal is (dat wil zeggen „niet-gecorreleerd“) met alle andere variabelen en daarom zou een datareductietechniek zoals PCA of factoranalyse niet in staat zijn om “ de gegevens op een betekenisvolle manier comprimeren.

De reden dat we Bartlett’s sfericiteitstest uitvoeren, is dus om ervoor te zorgen dat de correlatiematrix van de variabelen in onze dataset aanzienlijk afwijkt van de identiteitsmatrix, zodat we weten dat een reductietechniek geschikt is om te gebruiken.

Als de p-waarde van Bartlett’s test van sfericiteit kleiner is dan het gekozen significantieniveau (veel voorkomende keuzes zijn 0,10, 0,05 en 0,01), dan is onze dataset geschikt voor een datareductietechniek.

Hoe Bartlett’s test van sfericiteit uit te voeren in R

Om Bartlett’s test van sfericiteit in R uit te voeren, kunnen we de functie cortest.bartlett() uit de psych- bibliotheek gebruiken. De algemene syntaxis van deze functie is als volgt:

cortest.bartlett(R, n)

  • R: een correlatiematrix van de dataset
  • n: steekproefomvang van de dataset

De volgende code laat zien hoe u deze test kunt uitvoeren op een nep-dataset die we hebben gemaakt:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

De Chi-kwadraattoetswaarde is 5,252329 en de overeenkomstige p-waarde is 0,1542258, wat niet minder is dan ons significantieniveau (laten we 0,05 gebruiken). Deze gegevens zijn dus waarschijnlijk niet geschikt voor PCA- of factoranalyse.

Om dit in eenvoudige termen te zeggen: de drie variabelen in onze dataset zijn niet voldoende gecorreleerd, dus een datareductietechniek zoals PCA of factoranalyse zou moeite hebben deze variabelen te comprimeren in lineaire combinaties die in staat zijn de significante variantie in de data vast te leggen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert