Bartlett의 구형성 테스트 가이드


Bartlett의 구형성 테스트는 관찰된 상관 행렬을 단위 행렬과 비교합니다. 기본적으로 여러 요인으로 요약할 수 있는 변수 사이에 중복성이 있는지 확인합니다.

검정의 귀무 가설은 변수가 직교, 즉 상관 관계가 없다는 것입니다. 대립 가설은 변수가 직교하지 않는다는 것입니다. 즉, 상관 행렬이 단위 행렬에서 크게 달라지는 지점과 충분히 상관되어 있다는 것입니다.

이 테스트는 데이터 축소 기법이 실제로 데이터를 의미 있게 압축할 수 있는지 확인하기 위해 주성분 분석이나 요인 분석과 같은 데이터 축소 기법을 사용하기 전에 수행되는 경우가 많습니다.

참고: Bartlett의 구형성 검정은 Bartlett의 등분산 검정 과 동일하지 않습니다. 두 사람의 이름이 비슷하기 때문에 이는 일반적인 혼동입니다.

상관 행렬과 단위 행렬

상관 행렬은 단순히 변수 간의 상관 계수를 나타내는 값의 행렬입니다. 예를 들어, 다음 상관 행렬은 프로 농구 팀에 대한 다양한 변수 간의 상관 계수를 보여줍니다.

상관계수는 -1부터 1까지 다양합니다. 값이 0에서 멀수록 두 변수 사이의 상관관계가 높다는 것을 의미합니다.

단위 행렬 은 대각선의 모든 값이 1이고 다른 모든 값은 0인 행렬입니다.

이 경우, 이 행렬의 숫자가 상관 계수를 나타내는 경우 이는 각 변수가 다른 모든 변수와 완벽하게 직교(즉, “비상관”)되어 있으므로 PCA 또는 요인 분석과 같은 데이터 축소 기술이 “상관되지 않음”을 의미합니다. 의미 있는 방식으로 데이터를 압축합니다.

따라서 Bartlett의 구형성 테스트를 수행하는 이유는 데이터 세트에 있는 변수의 상관 행렬이 항등 행렬에서 크게 달라지도록 하여 축소 기술 데이터가 사용하기에 적합한지 확인하기 위한 것입니다.

Bartlett의 구형성 테스트의 p-값이 선택한 유의 수준(일반적으로 선택되는 값은 0.10, 0.05, 0.01)보다 작은 경우 데이터 세트는 데이터 축소 기술에 적합합니다.

R에서 Bartlett의 구형성 테스트를 수행하는 방법

R에서 Bartlett의 구형성 테스트를 수행하려면 psych 라이브러리의 cortest.bartlett() 함수를 사용할 수 있습니다. 이 함수의 일반적인 구문은 다음과 같습니다.

cortest.bartlett(R, n)

  • R: 데이터세트의 상관행렬
  • n: 데이터 세트의 샘플 크기

다음 코드는 우리가 만든 가짜 데이터 세트에서 이 테스트를 수행하는 방법을 보여줍니다.

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

카이제곱 검정 통계량은 5.252329이고 해당 p-값은 0.1542258이며 이는 유의 수준(0.05 사용) 이상입니다. 따라서 이러한 데이터는 PCA 또는 요인 분석에 적합하지 않을 수 있습니다.

간단히 말해서, 데이터 세트의 세 변수는 충분히 상호 연관되어 있지 않으므로 PCA 또는 요인 분석과 같은 데이터 축소 기술은 이러한 변수를 데이터에 존재하는 중요한 분산을 포착할 수 있는 선형 조합으로 압축하는 데 어려움을 겪습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다