बार्टलेट की गोलाकारता परीक्षण के लिए एक मार्गदर्शिका
बार्टलेट का गोलाकार परीक्षण एक देखे गए सहसंबंध मैट्रिक्स की तुलना पहचान मैट्रिक्स से करता है। अनिवार्य रूप से, यह जांच करता है कि क्या चर के बीच कुछ अतिरेक है जिसे कई कारकों के साथ संक्षेपित किया जा सकता है।
परीक्षण की शून्य परिकल्पना यह है कि चर ऑर्थोगोनल हैं, अर्थात असंबद्ध हैं। वैकल्पिक परिकल्पना यह है कि चर ऑर्थोगोनल नहीं हैं, अर्थात, वे उस बिंदु से पर्याप्त रूप से सहसंबद्ध हैं जहां सहसंबंध मैट्रिक्स पहचान मैट्रिक्स से महत्वपूर्ण रूप से भिन्न होता है।
यह परीक्षण अक्सर डेटा कटौती तकनीक जैसे प्रमुख घटक विश्लेषण या कारक विश्लेषण का उपयोग करने से पहले किया जाता है ताकि यह सत्यापित किया जा सके कि डेटा कटौती तकनीक वास्तव में डेटा को सार्थक रूप से संपीड़ित कर सकती है।
ध्यान दें: बार्टलेट का गोलाकारता परीक्षण भिन्नताओं की समानता के लिए बार्टलेट के परीक्षण के समान नहीं है। यह एक आम भ्रम है क्योंकि दोनों के नाम एक जैसे हैं।
सहसंबंध मैट्रिक्स और पहचान मैट्रिक्स
सहसंबंध मैट्रिक्स केवल मानों का एक मैट्रिक्स है जो चर के बीच सहसंबंध गुणांक दिखाता है। उदाहरण के लिए, निम्नलिखित सहसंबंध मैट्रिक्स पेशेवर बास्केटबॉल टीमों के लिए विभिन्न चर के बीच सहसंबंध गुणांक दिखाता है।
सहसंबंध गुणांक -1 से 1 तक भिन्न हो सकते हैं। मान 0 से जितना अधिक होगा, दो चर के बीच सहसंबंध उतना ही अधिक होगा।
एक पहचान मैट्रिक्स एक मैट्रिक्स है जिसमें विकर्ण पर सभी मान 1 हैं और अन्य सभी मान 0 हैं।
इस मामले में, यदि इस मैट्रिक्स में संख्याएं सहसंबंध गुणांक का प्रतिनिधित्व करती हैं, तो इसका मतलब है कि प्रत्येक चर अन्य सभी चर के लिए पूरी तरह से ऑर्थोगोनल (यानी “असंबंधित”) है और इसलिए पीसीए या कारक विश्लेषण जैसी डेटा कटौती तकनीक सक्षम नहीं होगी। डेटा को सार्थक तरीके से संपीड़ित करें।
इसलिए, हम बार्टलेट की गोलाकारता का परीक्षण करने का कारण यह सुनिश्चित करना है कि हमारे डेटासेट में चर के सहसंबंध मैट्रिक्स पहचान मैट्रिक्स से महत्वपूर्ण रूप से भिन्न होते हैं, ताकि हम जान सकें कि कमी तकनीक डेटा का उपयोग करना उचित है।
यदि बार्टलेट के गोलाकार परीक्षण का पी-मान चुने गए महत्व स्तर से कम है (सामान्य विकल्प 0.10, 0.05 और 0.01 हैं), तो हमारा डेटासेट डेटा कटौती तकनीक के लिए उपयुक्त है।
आर में बार्टलेट की गोलाकारता का परीक्षण कैसे करें
आर में बार्टलेट की गोलाकारता का परीक्षण करने के लिए, हम साइक लाइब्रेरी से cortest.bartlett() फ़ंक्शन का उपयोग कर सकते हैं। इस फ़ंक्शन का सामान्य सिंटैक्स इस प्रकार है:
कॉर्टेस्ट.बार्टलेट(आर, एन)
- आर: डेटासेट का सहसंबंध मैट्रिक्स
- n: डेटासेट का नमूना आकार
निम्नलिखित कोड दर्शाता है कि हमारे द्वारा बनाए गए नकली डेटासेट पर यह परीक्षण कैसे किया जाए:
#make this example reproducible set.seed(0) #create fake data data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8)) #view first six rows of data head(data) #ABC #1 6.0518171 4.5968242 11.25487348 #2 -0.3049334 0.7397837 -1.21421297 #3 6.3191971 17.6481878 0.07208074 #4 6.0897173 -1.7720347 5.37264242 #5 2.6585657 2.6707352 -4.04308622 #6 -5.1598002 4.5008479 9.61375026 #find correlation matrix of data cor_matrix <- cor(data) #view correlation matrix cor_matrix #ABC #A 1.0000000 0.1600155667 0.2825308511 #B 0.1600156 1.0000000000 0.0005358384 #C 0.2825309 0.0005358384 1.0000000000 #load psych library library(psych) #perform Bartlett's Test of Sphericity cortest.bartlett(cor_matrix, n = nrow(data)) #$chisq #[1] 5.252329 # #$p.value #[1] 0.1542258 # #$df #[1] 3
ची-स्क्वायर परीक्षण आँकड़ा 5.252329 है और संबंधित पी-मान 0.1542258 है, जो हमारे महत्व स्तर से कम नहीं है (आइए 0.05 का उपयोग करें)। इस प्रकार, ये डेटा संभवतः पीसीए या कारक विश्लेषण के लिए उपयुक्त नहीं हैं।
इसे सरल शब्दों में कहें तो, हमारे डेटासेट में तीन चर पर्याप्त रूप से सहसंबद्ध नहीं हैं, इसलिए पीसीए या कारक विश्लेषण जैसी डेटा कटौती तकनीक में इन चर को डेटा में मौजूद महत्वपूर्ण भिन्नता को पकड़ने में सक्षम रैखिक संयोजनों में संपीड़ित करने में कठिनाई होगी।