Bartlett'in küresellik testi kılavuzu


Bartlett’in küresellik testi, gözlemlenen korelasyon matrisini özdeşlik matrisiyle karşılaştırır. Temel olarak değişkenler arasında bir dizi faktörle özetlenebilecek bir fazlalık olup olmadığını kontrol eder.

Testin sıfır hipotezi, değişkenlerin dik, yani ilişkisiz olduğu yönündedir. Alternatif hipotez, değişkenlerin dik olmadığı, yani korelasyon matrisinin birim matristen önemli ölçüde saptığı noktayla yeterince ilişkili olduğu yönündedir.

Bu test genellikle, bir veri azaltma tekniğinin verileri gerçekten anlamlı bir şekilde sıkıştırabildiğini doğrulamak için temel bileşen analizi veya faktör analizi gibi bir veri azaltma tekniği kullanılmadan önce gerçekleştirilir.

Not: Bartlett’in küresellik testi , Bartlett’in varyansların eşitliği testiyle aynı değildir. Bu, ikisinin benzer isimlere sahip olması nedeniyle yaygın bir karışıklıktır.

Korelasyon matrisi ve kimlik matrisi

Korelasyon matrisi, basitçe değişkenler arasındaki korelasyon katsayılarını gösteren bir değerler matrisidir. Örneğin aşağıdaki korelasyon matrisi, profesyonel basketbol takımları için farklı değişkenler arasındaki korelasyon katsayılarını göstermektedir.

Korelasyon katsayıları -1’den 1’e kadar değişebilir. Değer 0’dan ne kadar uzaksa iki değişken arasındaki korelasyon da o kadar yüksek olur.

Birim matris, köşegen üzerindeki tüm değerlerin 1 ve diğer tüm değerlerin 0 olduğu bir matristir.

Bu durumda, eğer bu matristeki sayılar korelasyon katsayılarını temsil ediyorsa, bu, her değişkenin diğer tüm değişkenlere tamamen dik (yani “ilişkisiz”) olduğu anlamına gelir ve bu nedenle PCA veya faktör analizi gibi bir veri azaltma tekniği ” verileri anlamlı bir şekilde sıkıştırın.

Dolayısıyla Bartlett küresellik testini uygulamamızın nedeni, veri setimizdeki değişkenlerin korelasyon matrisinin birim matristen önemli ölçüde sapmasını sağlamak, böylece bir indirgeme tekniği verilerinin kullanılmasının uygun olduğunu biliyoruz.

Bartlett’in küresellik testinin p değeri seçilen anlamlılık seviyesinden düşükse (ortak seçenekler 0,10, 0,05 ve 0,01’dir), bu durumda veri kümemiz veri azaltma tekniği için uygundur.

R’de Bartlett’in küresellik testi nasıl gerçekleştirilir?

R’de Bartlett’in küresellik testini gerçekleştirmek için psych kütüphanesindeki cortest.bartlett() fonksiyonunu kullanabiliriz. Bu fonksiyonun genel sözdizimi aşağıdaki gibidir:

cortest.bartlett(R, n)

  • R: veri kümesinin bir korelasyon matrisi
  • n: veri kümesinin örnek boyutu

Aşağıdaki kod, bu testin oluşturduğumuz sahte bir veri kümesi üzerinde nasıl gerçekleştirileceğini gösterir:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

Ki-kare testi istatistiği 5,252329’dur ve buna karşılık gelen p değeri 0,1542258’dir ve bu bizim anlamlılık seviyemizden daha az değildir (0,05 kullanalım). Dolayısıyla bu veriler muhtemelen PCA veya faktör analizi için uygun değildir.

Bunu basit bir ifadeyle ifade etmek gerekirse, veri setimizdeki üç değişken yeterince ilişkili değildir, bu nedenle PCA veya faktör analizi gibi bir veri azaltma tekniği, bu değişkenleri verilerde mevcut olan önemli varyansı yakalayabilen doğrusal kombinasyonlara sıkıştırmada zorluk çekecektir.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir