دليل لاختبار بارتليت للكروية
يقارن اختبار بارتليت للكروية مصفوفة الارتباط المرصودة بمصفوفة الهوية. بشكل أساسي، يتحقق مما إذا كان هناك بعض التكرار بين المتغيرات التي يمكن تلخيصها بعدد من العوامل.
الفرضية الصفرية للاختبار هي أن المتغيرات متعامدة، أي غير مترابطة. الفرضية البديلة هي أن المتغيرات ليست متعامدة، أي أنها مرتبطة بشكل كافٍ بالنقطة التي تتباعد فيها مصفوفة الارتباط بشكل كبير عن مصفوفة الهوية.
يتم إجراء هذا الاختبار غالبًا قبل استخدام تقنية تقليل البيانات مثل تحليل المكون الرئيسي أو تحليل العوامل للتحقق من أن تقنية تقليل البيانات يمكنها بالفعل ضغط البيانات بشكل مفيد.
ملحوظة: اختبار بارتليت للكروية ليس هو نفسه اختبار بارتليت لمساواة التباينات . وهذا ارتباك شائع لأن الاثنين لهما أسماء متشابهة.
مصفوفة الارتباط ومصفوفة الهوية
مصفوفة الارتباط هي ببساطة مصفوفة من القيم التي توضح معاملات الارتباط بين المتغيرات. على سبيل المثال، توضح مصفوفة الارتباط التالية معاملات الارتباط بين المتغيرات المختلفة لفرق كرة السلة المحترفة.
يمكن أن تختلف معاملات الارتباط من -1 إلى 1. كلما ابتعدت القيمة عن 0، كلما زاد الارتباط بين متغيرين.
مصفوفة الهوية هي مصفوفة تكون فيها جميع القيم على القطر 1 وجميع القيم الأخرى 0.
في هذه الحالة، إذا كانت الأرقام الموجودة في هذه المصفوفة تمثل معاملات الارتباط، فهذا يعني أن كل متغير متعامد تمامًا (أي “غير مرتبط”) بجميع المتغيرات الأخرى وبالتالي فإن تقنية تقليل البيانات مثل PCA أو التحليل العاملي لن تكون قادرة على ” ضغط” البيانات بطريقة ذات معنى.
لذا، فإن سبب إجراء اختبار بارتليت للكروية هو التأكد من أن مصفوفة الارتباط للمتغيرات في مجموعة البيانات الخاصة بنا تتباعد بشكل كبير عن مصفوفة الهوية، حتى نعرف أن بيانات تقنية الاختزال مناسبة للاستخدام.
إذا كانت القيمة p لاختبار بارتليت للكروية أقل من مستوى الأهمية المختار (الخيارات الشائعة هي 0.10 و0.05 و0.01)، فإن مجموعة البيانات الخاصة بنا مناسبة لتقنية تقليل البيانات.
كيفية إجراء اختبار بارتليت للكروية في R
لإجراء اختبار بارتليت للكروية في لغة R، يمكننا استخدام الدالة cortest.bartlett() من المكتبة النفسية . بناء الجملة العام لهذه الوظيفة هو كما يلي:
cortest.bartlett(R, n)
- R: مصفوفة الارتباط لمجموعة البيانات
- n: حجم عينة مجموعة البيانات
يوضح التعليمة البرمجية التالية كيفية إجراء هذا الاختبار على مجموعة بيانات مزيفة قمنا بإنشائها:
#make this example reproducible set.seed(0) #create fake data data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8)) #view first six rows of data head(data) #ABC #1 6.0518171 4.5968242 11.25487348 #2 -0.3049334 0.7397837 -1.21421297 #3 6.3191971 17.6481878 0.07208074 #4 6.0897173 -1.7720347 5.37264242 #5 2.6585657 2.6707352 -4.04308622 #6 -5.1598002 4.5008479 9.61375026 #find correlation matrix of data cor_matrix <- cor(data) #view correlation matrix cor_matrix #ABC #A 1.0000000 0.1600155667 0.2825308511 #B 0.1600156 1.0000000000 0.0005358384 #C 0.2825309 0.0005358384 1.0000000000 #load psych library library(psych) #perform Bartlett's Test of Sphericity cortest.bartlett(cor_matrix, n = nrow(data)) #$chisq #[1] 5.252329 # #$p.value #[1] 0.1542258 # #$df #[1] 3
إحصائية اختبار مربع كاي هي 5.252329 والقيمة p المقابلة هي 0.1542258، وهو ما لا يقل عن مستوى الأهمية لدينا (دعنا نستخدم 0.05). وبالتالي، ربما لا تكون هذه البيانات مناسبة لتحليل PCA أو تحليل العوامل.
وبعبارة بسيطة، فإن المتغيرات الثلاثة في مجموعة البيانات لدينا ليست مرتبطة بما فيه الكفاية، وبالتالي فإن تقنية تقليل البيانات مثل PCA أو تحليل العوامل ستواجه صعوبة في ضغط هذه المتغيرات في مجموعات خطية قادرة على التقاط التباين الكبير الموجود في البيانات.