Un guide du test de sphéricité de Bartlett



Le test de sphéricité de Bartlett compare une matrice de corrélation observée à la matrice d’identité. Essentiellement, il vérifie s’il existe une certaine redondance entre les variables que l’on peut résumer avec un certain nombre de facteurs.

L’hypothèse nulle du test est que les variables sont orthogonales, c’est à dire non corrélées. L’hypothèse alternative est que les variables ne sont pas orthogonales, c’est-à-dire qu’elles sont suffisamment corrélées au point où la matrice de corrélation diverge significativement de la matrice d’identité.

Ce test est souvent effectué avant d’utiliser une technique de réduction de données telle que l’analyse en composantes principales ou l’analyse factorielle pour vérifier qu’une technique de réduction de données peut réellement compresser les données de manière significative.

Remarque : le test de sphéricité de Bartlett n’est pas le même que le test d’égalité des variances de Bartlett . Il s’agit d’une confusion courante puisque les deux portent des noms similaires.

Matrice de corrélation et matrice d’identité

Une matrice de corrélation est simplement une matrice de valeurs qui montre les coefficients de corrélation entre les variables. Par exemple, la matrice de corrélation suivante montre les coefficients de corrélation entre différentes variables pour les équipes professionnelles de basket-ball.

Les coefficients de corrélation peuvent varier de -1 à 1. Plus une valeur est éloignée de 0, plus la corrélation entre deux variables est élevée.

Une matrice d’identité est une matrice dans laquelle toutes les valeurs de la diagonale sont 1 et toutes les autres valeurs sont 0.

Dans ce cas, si les nombres dans cette matrice représentent des coefficients de corrélation, cela signifie que chaque variable est parfaitement orthogonale (c’est-à-dire « non corrélée ») à toutes les autres variables et donc une technique de réduction de données comme l’ACP ou l’analyse factorielle ne serait pas capable de « compresser » les données de manière significative.

Ainsi, la raison pour laquelle nous effectuons le test de sphéricité de Bartlett est de nous assurer que la matrice de corrélation des variables de notre ensemble de données diverge considérablement de la matrice d’identité, afin que nous sachions qu’une technique de réduction de données est appropriée à utiliser.

Si la valeur p du test de sphéricité de Bartlett est inférieure au niveau de signification choisi (les choix courants sont 0,10, 0,05 et 0,01), alors notre ensemble de données convient à une technique de réduction des données.

Comment effectuer le test de sphéricité de Bartlett dans R

Pour effectuer le test de sphéricité de Bartlett dans R, nous pouvons utiliser la fonction cortest.bartlett() de la bibliothèque psych . La syntaxe générale de cette fonction est la suivante :

cortest.bartlett(R, n)

  • R : une matrice de corrélation de l’ensemble de données
  • n : taille de l’échantillon de l’ensemble de données

Le code suivant illustre comment effectuer ce test sur un faux ensemble de données que nous avons créé :

#make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#           A          B           C
#1  6.0518171  4.5968242 11.25487348
#2 -0.3049334  0.7397837 -1.21421297
#3  6.3191971 17.6481878  0.07208074
#4  6.0897173 -1.7720347  5.37264242
#5  2.6585657  2.6707352 -4.04308622
#6 -5.1598002  4.5008479  9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#          A            B            C
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

La statistique du test du Chi carré est de 5,252329 et la valeur p correspondante est de 0,1542258, ce qui n’est pas inférieur à notre niveau de signification (utilisons 0,05). Ainsi, ces données ne conviennent probablement pas à l’ACP ou à l’analyse factorielle.

Pour dire cela en termes simples, les trois variables de notre ensemble de données ne sont pas assez corrélées, de sorte qu’une technique de réduction de données comme l’ACP ou l’analyse factorielle aurait du mal à compresser ces variables en combinaisons linéaires capables de capturer la variance significative présente dans les données.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *