คู่มือการทดสอบความเป็นทรงกลมของบาร์ตเลตต์


การทดสอบความเป็นทรงกลมของบาร์ตเลตต์ จะเปรียบเทียบเมทริกซ์สหสัมพันธ์ที่สังเกตได้กับเมทริกซ์เอกลักษณ์ โดยพื้นฐานแล้ว จะตรวจสอบว่ามีความซ้ำซ้อนระหว่างตัวแปรที่สามารถสรุปได้ด้วยปัจจัยหลายประการหรือไม่

สมมติฐานว่างของการทดสอบคือตัวแปรต่างๆ ตั้งฉาก กล่าวคือ ไม่มีความสัมพันธ์กัน สมมติฐานทางเลือกคือ ตัวแปรไม่ได้ตั้งฉาก กล่าวคือ พวกมันมีความสัมพันธ์กันเพียงพอกับจุดที่เมทริกซ์สหสัมพันธ์แตกต่างไปจากเมทริกซ์เอกลักษณ์อย่างมีนัยสำคัญ

การทดสอบนี้มักดำเนินการก่อนใช้เทคนิคการลดข้อมูล เช่น การวิเคราะห์องค์ประกอบหลัก หรือการวิเคราะห์ปัจจัย เพื่อตรวจสอบว่าเทคนิคการลดข้อมูลสามารถบีบอัดข้อมูลได้อย่างมีความหมายจริง ๆ

หมายเหตุ: การทดสอบความเป็นทรงกลมของ Bartlett ไม่เหมือนกับ การทดสอบความเท่าเทียมกันของความแปรปรวนของ Bartlett นี่เป็นความสับสนทั่วไปเนื่องจากทั้งสองมีชื่อคล้ายกัน

เมทริกซ์สหสัมพันธ์และเมทริกซ์เอกลักษณ์

เมทริกซ์สหสัมพันธ์ เป็นเพียงเมทริกซ์ของค่าที่แสดงค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปร ตัวอย่างเช่น เมทริกซ์สหสัมพันธ์ต่อไปนี้แสดงค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรต่างๆ สำหรับทีมบาสเกตบอลมืออาชีพ

ค่าสัมประสิทธิ์สหสัมพันธ์ อาจแตกต่างกันได้ตั้งแต่ -1 ถึง 1 ยิ่งค่าเพิ่มเติมจาก 0 ความสัมพันธ์ระหว่างตัวแปรสองตัวก็จะยิ่งสูงขึ้น

เมทริกซ์เอกลักษณ์ คือเมทริกซ์ที่มีค่าทั้งหมดบนเส้นทแยงมุมเป็น 1 และค่าอื่นๆ ทั้งหมดเป็น 0

ในกรณีนี้ หากตัวเลขในเมทริกซ์นี้แสดงถึงค่าสัมประสิทธิ์สหสัมพันธ์ นั่นหมายความว่าตัวแปรแต่ละตัวตั้งฉากกันอย่างสมบูรณ์ (เช่น “ไม่สัมพันธ์กัน”) กับตัวแปรอื่นๆ ทั้งหมด ดังนั้นเทคนิคการลดข้อมูล เช่น PCA หรือการวิเคราะห์ปัจจัย จะไม่สามารถ ” บีบอัด” ข้อมูลอย่างมีความหมาย

ดังนั้น เหตุผลที่เราทำการทดสอบความเป็นทรงกลมของ Bartlett คือเพื่อให้แน่ใจว่าเมทริกซ์สหสัมพันธ์ของตัวแปรในชุดข้อมูลของเราแตกต่างจากเมทริกซ์เอกลักษณ์อย่างมีนัยสำคัญ เพื่อที่เราจะได้รู้ว่าข้อมูลเทคนิคการลดขนาดมีความเหมาะสมที่จะใช้

หากค่า p ของการทดสอบความเป็นทรงกลมของ Bartlett น้อยกว่าระดับนัยสำคัญที่เลือก (ตัวเลือกทั่วไปคือ 0.10, 0.05 และ 0.01) ชุดข้อมูลของเราจึงเหมาะสำหรับเทคนิคการลดข้อมูล

วิธีการทดสอบความเป็นทรงกลมของ Bartlett ใน R

เพื่อทำการทดสอบความเป็นทรงกลมของ Bartlett ใน R เราสามารถใช้ฟังก์ชัน cortest.bartlett() จากห้องสมุด จิตวิทยา ไวยากรณ์ทั่วไปของฟังก์ชันนี้มีดังนี้:

cortest.bartlett(R, n)

  • R: เมทริกซ์สหสัมพันธ์ของชุดข้อมูล
  • n: ขนาดตัวอย่างของชุดข้อมูล

รหัสต่อไปนี้สาธิตวิธีดำเนินการทดสอบนี้กับชุดข้อมูลปลอมที่เราสร้างขึ้น:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

สถิติการทดสอบไคสแควร์คือ 5.252329 และค่า p ที่สอดคล้องกันคือ 0.1542258 ซึ่งไม่ต่ำกว่าระดับนัยสำคัญของเรา (ลองใช้ 0.05 กัน) ดังนั้นข้อมูลเหล่านี้อาจไม่เหมาะสำหรับ PCA หรือการวิเคราะห์ปัจจัย

กล่าวง่ายๆ ก็คือ ตัวแปรทั้งสามในชุดข้อมูลของเราไม่มีความสัมพันธ์กันเพียงพอ ดังนั้นเทคนิคการลดข้อมูล เช่น PCA หรือการวิเคราะห์ปัจจัย อาจมีปัญหาในการบีบอัดตัวแปรเหล่านี้เป็นชุดค่าผสมเชิงเส้นซึ่งสามารถจับความแปรปรวนที่มีนัยสำคัญที่มีอยู่ในข้อมูลได้

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *