Una guida al test di sfericità di bartlett


Il test di sfericità di Bartlett confronta una matrice di correlazione osservata con la matrice di identità. In sostanza, controlla se esiste una certa ridondanza tra le variabili che possono essere riassunte con una serie di fattori.

L’ipotesi nulla del test è che le variabili siano ortogonali, cioè non correlate. L’ipotesi alternativa è che le variabili non siano ortogonali, cioè siano sufficientemente correlate al punto in cui la matrice di correlazione diverge significativamente dalla matrice identità.

Questo test viene spesso eseguito prima di utilizzare una tecnica di riduzione dei dati come l’analisi delle componenti principali o l’analisi fattoriale per verificare che una tecnica di riduzione dei dati possa effettivamente comprimere i dati in modo significativo.

Nota: il test di sfericità di Bartlett non è uguale al test di Bartlett per l’uguaglianza delle varianze . Questa è una confusione comune poiché i due hanno nomi simili.

Matrice di correlazione e matrice identità

Una matrice di correlazione è semplicemente una matrice di valori che mostra i coefficienti di correlazione tra le variabili. Ad esempio, la seguente matrice di correlazione mostra i coefficienti di correlazione tra diverse variabili per le squadre di basket professionistiche.

I coefficienti di correlazione possono variare da -1 a 1. Più un valore è lontano da 0, maggiore è la correlazione tra due variabili.

Una matrice identità è una matrice in cui tutti i valori sulla diagonale sono 1 e tutti gli altri valori sono 0.

In questo caso, se i numeri di questa matrice rappresentano coefficienti di correlazione, ciò significa che ciascuna variabile è perfettamente ortogonale (cioè “non correlata”) a tutte le altre variabili e quindi una tecnica di riduzione dei dati come la PCA o l’analisi fattoriale non sarebbe in grado di “ comprimere” i dati in modo significativo.

Quindi, il motivo per cui eseguiamo il test di sfericità di Bartlett è per garantire che la matrice di correlazione delle variabili nel nostro set di dati diverga in modo significativo dalla matrice di identità, in modo da sapere che è appropriato utilizzare una tecnica di riduzione dei dati.

Se il valore p del test di sfericità di Bartlett è inferiore al livello di significatività scelto (le scelte comuni sono 0,10, 0,05 e 0,01), allora il nostro set di dati è adatto per una tecnica di riduzione dei dati.

Come eseguire il test di sfericità di Bartlett in R

Per eseguire il test di sfericità di Bartlett in R, possiamo utilizzare la funzione cortest.bartlett() dalla libreria psych . La sintassi generale di questa funzione è la seguente:

cortest.bartlett(R, n)

  • R: una matrice di correlazione del set di dati
  • n: dimensione del campione del set di dati

Il codice seguente dimostra come eseguire questo test su un set di dati falso che abbiamo creato:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

La statistica del test Chi-quadrato è 5,252329 e il corrispondente valore p è 0,1542258, che non è inferiore al nostro livello di significatività (usiamo 0,05). Pertanto, questi dati probabilmente non sono adatti per la PCA o l’analisi fattoriale.

Per dirla in termini semplici, le tre variabili nel nostro set di dati non sono sufficientemente correlate, quindi una tecnica di riduzione dei dati come la PCA o l’analisi fattoriale avrebbe difficoltà a comprimere queste variabili in combinazioni lineari in grado di catturare la varianza significativa presente nei dati.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *