आर में बहुसंरेखता का परीक्षण कैसे करें
प्रतिगमन विश्लेषण में, बहुसंरेखता तब होती है जब दो या दो से अधिक भविष्यवक्ता चर एक-दूसरे के साथ अत्यधिक सहसंबद्ध होते हैं, जैसे कि वे प्रतिगमन मॉडल में अद्वितीय या स्वतंत्र जानकारी प्रदान नहीं करते हैं।
यदि भविष्यवक्ता चर के बीच सहसंबंध की डिग्री काफी अधिक है, तो यह प्रतिगमन मॉडल को फिट करने और व्याख्या करने में समस्याएं पैदा कर सकता है।
एक प्रतिगमन मॉडल में बहुसंरेखता का पता लगाने का सबसे सरल तरीका एक मीट्रिक की गणना करना है जिसे विचरण मुद्रास्फीति कारक के रूप में जाना जाता है, जिसे अक्सर संक्षिप्त रूप से वीआईएफ कहा जाता है।
वीआईएफ एक मॉडल में भविष्यवक्ता चर के बीच सहसंबंध की ताकत को मापता है। यह 1 और सकारात्मक अनंत के बीच का मान लेता है।
हम VIF मानों की व्याख्या करने के लिए निम्नलिखित सामान्य नियमों का उपयोग करते हैं:
- वीआईएफ = 1: किसी दिए गए भविष्यवक्ता चर और मॉडल में किसी अन्य भविष्यवक्ता चर के बीच कोई संबंध नहीं है।
- 1 और 5 के बीच वीआईएफ: मॉडल में दिए गए भविष्यवक्ता चर और अन्य भविष्यवक्ता चर के बीच एक मध्यम सहसंबंध है।
- वीआईएफ > 5 : किसी दिए गए भविष्यवक्ता चर और मॉडल में अन्य भविष्यवक्ता चर के बीच एक मजबूत संबंध है।
निम्नलिखित उदाहरण दिखाता है कि मॉडल में प्रत्येक भविष्यवक्ता चर के लिए वीआईएफ मानों की गणना करके आर में एक प्रतिगमन मॉडल में बहुसंरेखता का पता कैसे लगाया जाए।
उदाहरण: आर में बहुसंरेखता के लिए परीक्षण
मान लीजिए कि हमारे पास निम्नलिखित डेटा फ़्रेम है जिसमें विभिन्न बास्केटबॉल खिलाड़ियों के बारे में जानकारी है:
#create data frame df = data. frame (rating = c(90, 85, 82, 88, 94, 90, 76, 75, 87, 86), points=c(25, 20, 14, 16, 27, 20, 12, 15, 14, 19), assists=c(5, 7, 7, 8, 5, 7, 6, 9, 9, 5), rebounds=c(11, 8, 10, 6, 6, 9, 6, 10, 10, 7)) #view data frame df rating points assists rebounds 1 90 25 5 11 2 85 20 7 8 3 82 14 7 10 4 88 16 8 6 5 94 27 5 6 6 90 20 7 9 7 76 12 6 6 8 75 15 9 10 9 87 14 9 10 10 86 19 5 7
मान लीजिए कि हम प्रतिक्रिया चर के रूप में स्कोरिंग और भविष्यवक्ता चर के रूप में अंक , सहायता और रिबाउंड का उपयोग करके एक एकाधिक रैखिक प्रतिगमन मॉडल फिट करना चाहते हैं।
मॉडल में प्रत्येक भविष्यवक्ता चर के लिए वीआईएफ की गणना करने के लिए, हम कार पैकेज से विवे() फ़ंक्शन का उपयोग कर सकते हैं:
library (car) #define multiple linear regression model model <- lm(rating ~ points + assists + rebounds, data=df) #calculate the VIF for each predictor variable in the model lively(model) points assists rebounds 1.763977 1.959104 1.175030
हम प्रत्येक भविष्यवक्ता चर के लिए VIF मान देख सकते हैं:
- अंक: 1.76
- सहायता: 1.96
- रिबाउंड: 1.18
चूँकि मॉडल में भविष्यवक्ता चर का प्रत्येक VIF मान 1 के करीब है, इसलिए मॉडल में बहुसंरेखता कोई समस्या नहीं है।
ध्यान दें : यदि आपके मॉडल में बहुसंरेखता एक समस्या बन जाती है, तो ज्यादातर मामलों में सबसे तेज़ समाधान एक या अधिक अत्यधिक सहसंबद्ध चर को हटाना है।
यह अक्सर एक स्वीकार्य समाधान होता है क्योंकि आपके द्वारा हटाए गए वेरिएबल वैसे भी अनावश्यक होते हैं और मॉडल में बहुत कम अनूठी या स्वतंत्र जानकारी जोड़ते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:
आर में मल्टीपल लीनियर रिग्रेशन कैसे करें
R में QQ प्लॉट कैसे बनाएं
आर में अवशिष्ट प्लॉट कैसे बनाएं