Um guia para o teste de esfericidade de bartlett


O teste de esfericidade de Bartlett compara uma matriz de correlação observada com a matriz identidade. Essencialmente, verifica se existe alguma redundância entre variáveis que possam ser resumidas com uma série de fatores.

A hipótese nula do teste é que as variáveis são ortogonais, ou seja, não correlacionadas. A hipótese alternativa é que as variáveis não são ortogonais, ou seja, estão suficientemente correlacionadas a ponto de a matriz de correlação diverge significativamente da matriz identidade.

Este teste é frequentemente realizado antes de usar uma técnica de redução de dados, como análise de componentes principais ou análise fatorial, para verificar se uma técnica de redução de dados pode realmente compactar os dados de forma significativa.

Nota: O teste de esfericidade de Bartlett não é o mesmo que o teste de igualdade de variâncias de Bartlett . Esta é uma confusão comum, pois os dois têm nomes semelhantes.

Matriz de correlação e matriz identidade

Uma matriz de correlação é simplesmente uma matriz de valores que mostra os coeficientes de correlação entre variáveis. Por exemplo, a matriz de correlação a seguir mostra os coeficientes de correlação entre diferentes variáveis para times profissionais de basquete.

Os coeficientes de correlação podem variar de -1 a 1. Quanto mais longe um valor estiver de 0, maior será a correlação entre duas variáveis.

Uma matriz identidade é uma matriz em que todos os valores na diagonal são 1 e todos os outros valores são 0.

Neste caso, se os números nesta matriz representam coeficientes de correlação, isso significa que cada variável é perfeitamente ortogonal (ou seja, “não correlacionada”) a todas as outras variáveis e, portanto, uma técnica de redução de dados como PCA ou análise fatorial não seria capaz de “ comprimir” os dados de uma forma significativa.

Portanto, a razão pela qual realizamos o teste de esfericidade de Bartlett é garantir que a matriz de correlação das variáveis em nosso conjunto de dados diverge significativamente da matriz identidade, para que saibamos que uma técnica de redução de dados é apropriada para uso.

Se o valor p do teste de esfericidade de Bartlett for menor que o nível de significância escolhido (as escolhas comuns são 0,10, 0,05 e 0,01), então nosso conjunto de dados é adequado para uma técnica de redução de dados.

Como realizar o teste de esfericidade de Bartlett em R

Para realizar o teste de esfericidade de Bartlett em R, podemos usar a função cortest.bartlett() da biblioteca psych . A sintaxe geral desta função é a seguinte:

cortest.bartlett(R, n)

  • R: uma matriz de correlação do conjunto de dados
  • n: tamanho da amostra do conjunto de dados

O código a seguir demonstra como realizar esse teste em um conjunto de dados falso que criamos:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

A estatística do teste qui-quadrado é 5,252329 e o valor p correspondente é 0,1542258, que não é inferior ao nosso nível de significância (vamos usar 0,05). Assim, esses dados provavelmente não são adequados para PCA ou análise fatorial.

Para colocar isto em termos simples, as três variáveis no nosso conjunto de dados não estão suficientemente correlacionadas, pelo que uma técnica de redução de dados como PCA ou análise factorial teria dificuldade em comprimir estas variáveis em combinações lineares capazes de capturar a variância significativa presente nos dados.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *