คู่มือการทดสอบความเป็นทรงกลมของบาร์ตเลตต์
การทดสอบความเป็นทรงกลมของบาร์ตเลตต์ จะเปรียบเทียบเมทริกซ์สหสัมพันธ์ที่สังเกตได้กับเมทริกซ์เอกลักษณ์ โดยพื้นฐานแล้ว จะตรวจสอบว่ามีความซ้ำซ้อนระหว่างตัวแปรที่สามารถสรุปได้ด้วยปัจจัยหลายประการหรือไม่
สมมติฐานว่างของการทดสอบคือตัวแปรต่างๆ ตั้งฉาก กล่าวคือ ไม่มีความสัมพันธ์กัน สมมติฐานทางเลือกคือ ตัวแปรไม่ได้ตั้งฉาก กล่าวคือ พวกมันมีความสัมพันธ์กันเพียงพอกับจุดที่เมทริกซ์สหสัมพันธ์แตกต่างไปจากเมทริกซ์เอกลักษณ์อย่างมีนัยสำคัญ
การทดสอบนี้มักดำเนินการก่อนใช้เทคนิคการลดข้อมูล เช่น การวิเคราะห์องค์ประกอบหลัก หรือการวิเคราะห์ปัจจัย เพื่อตรวจสอบว่าเทคนิคการลดข้อมูลสามารถบีบอัดข้อมูลได้อย่างมีความหมายจริง ๆ
หมายเหตุ: การทดสอบความเป็นทรงกลมของ Bartlett ไม่เหมือนกับ การทดสอบความเท่าเทียมกันของความแปรปรวนของ Bartlett นี่เป็นความสับสนทั่วไปเนื่องจากทั้งสองมีชื่อคล้ายกัน
เมทริกซ์สหสัมพันธ์และเมทริกซ์เอกลักษณ์
เมทริกซ์สหสัมพันธ์ เป็นเพียงเมทริกซ์ของค่าที่แสดงค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปร ตัวอย่างเช่น เมทริกซ์สหสัมพันธ์ต่อไปนี้แสดงค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรต่างๆ สำหรับทีมบาสเกตบอลมืออาชีพ
ค่าสัมประสิทธิ์สหสัมพันธ์ อาจแตกต่างกันได้ตั้งแต่ -1 ถึง 1 ยิ่งค่าเพิ่มเติมจาก 0 ความสัมพันธ์ระหว่างตัวแปรสองตัวก็จะยิ่งสูงขึ้น
เมทริกซ์เอกลักษณ์ คือเมทริกซ์ที่มีค่าทั้งหมดบนเส้นทแยงมุมเป็น 1 และค่าอื่นๆ ทั้งหมดเป็น 0
ในกรณีนี้ หากตัวเลขในเมทริกซ์นี้แสดงถึงค่าสัมประสิทธิ์สหสัมพันธ์ นั่นหมายความว่าตัวแปรแต่ละตัวตั้งฉากกันอย่างสมบูรณ์ (เช่น “ไม่สัมพันธ์กัน”) กับตัวแปรอื่นๆ ทั้งหมด ดังนั้นเทคนิคการลดข้อมูล เช่น PCA หรือการวิเคราะห์ปัจจัย จะไม่สามารถ ” บีบอัด” ข้อมูลอย่างมีความหมาย
ดังนั้น เหตุผลที่เราทำการทดสอบความเป็นทรงกลมของ Bartlett คือเพื่อให้แน่ใจว่าเมทริกซ์สหสัมพันธ์ของตัวแปรในชุดข้อมูลของเราแตกต่างจากเมทริกซ์เอกลักษณ์อย่างมีนัยสำคัญ เพื่อที่เราจะได้รู้ว่าข้อมูลเทคนิคการลดขนาดมีความเหมาะสมที่จะใช้
หากค่า p ของการทดสอบความเป็นทรงกลมของ Bartlett น้อยกว่าระดับนัยสำคัญที่เลือก (ตัวเลือกทั่วไปคือ 0.10, 0.05 และ 0.01) ชุดข้อมูลของเราจึงเหมาะสำหรับเทคนิคการลดข้อมูล
วิธีการทดสอบความเป็นทรงกลมของ Bartlett ใน R
เพื่อทำการทดสอบความเป็นทรงกลมของ Bartlett ใน R เราสามารถใช้ฟังก์ชัน cortest.bartlett() จากห้องสมุด จิตวิทยา ไวยากรณ์ทั่วไปของฟังก์ชันนี้มีดังนี้:
cortest.bartlett(R, n)
- R: เมทริกซ์สหสัมพันธ์ของชุดข้อมูล
- n: ขนาดตัวอย่างของชุดข้อมูล
รหัสต่อไปนี้สาธิตวิธีดำเนินการทดสอบนี้กับชุดข้อมูลปลอมที่เราสร้างขึ้น:
#make this example reproducible set.seed(0) #create fake data data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8)) #view first six rows of data head(data) #ABC #1 6.0518171 4.5968242 11.25487348 #2 -0.3049334 0.7397837 -1.21421297 #3 6.3191971 17.6481878 0.07208074 #4 6.0897173 -1.7720347 5.37264242 #5 2.6585657 2.6707352 -4.04308622 #6 -5.1598002 4.5008479 9.61375026 #find correlation matrix of data cor_matrix <- cor(data) #view correlation matrix cor_matrix #ABC #A 1.0000000 0.1600155667 0.2825308511 #B 0.1600156 1.0000000000 0.0005358384 #C 0.2825309 0.0005358384 1.0000000000 #load psych library library(psych) #perform Bartlett's Test of Sphericity cortest.bartlett(cor_matrix, n = nrow(data)) #$chisq #[1] 5.252329 # #$p.value #[1] 0.1542258 # #$df #[1] 3
สถิติการทดสอบไคสแควร์คือ 5.252329 และค่า p ที่สอดคล้องกันคือ 0.1542258 ซึ่งไม่ต่ำกว่าระดับนัยสำคัญของเรา (ลองใช้ 0.05 กัน) ดังนั้นข้อมูลเหล่านี้อาจไม่เหมาะสำหรับ PCA หรือการวิเคราะห์ปัจจัย
กล่าวง่ายๆ ก็คือ ตัวแปรทั้งสามในชุดข้อมูลของเราไม่มีความสัมพันธ์กันเพียงพอ ดังนั้นเทคนิคการลดข้อมูล เช่น PCA หรือการวิเคราะห์ปัจจัย อาจมีปัญหาในการบีบอัดตัวแปรเหล่านี้เป็นชุดค่าผสมเชิงเส้นซึ่งสามารถจับความแปรปรวนที่มีนัยสำคัญที่มีอยู่ในข้อมูลได้