Multicollinearity
यह आलेख बताता है कि सांख्यिकी में बहुसंरेखता क्या है। तो, आपको पता चल जाएगा कि बहुसंरेखता कब मौजूद है, बहुसंरेखता के परिणाम क्या हैं, बहुसंरेखता की पहचान कैसे करें और अंत में, इस समस्या को कैसे हल करें।
बहुसंरेखता क्या है?
बहुसंरेखता एक ऐसी स्थिति है जो तब होती है जब एक प्रतिगमन मॉडल में दो या दो से अधिक व्याख्यात्मक चर में उच्च सहसंबंध होता है। दूसरे शब्दों में, एक प्रतिगमन मॉडल में, बहुसंरेखता तब मौजूद होती है जब मॉडल में दो या दो से अधिक चर के बीच संबंध बहुत मजबूत होता है।
उदाहरण के लिए, यदि हम एक प्रतिगमन मॉडल चलाते हैं जो किसी देश की जीवन प्रत्याशा को उसकी जनसंख्या के आकार और सकल घरेलू उत्पाद से जोड़ता है, तो जनसंख्या के आकार और सकल घरेलू उत्पाद के बीच निश्चित रूप से बहुसंरेखता होगी, क्योंकि ये दो चर आम तौर पर दृढ़ता से सहसंबंधित होते हैं। सहसंबद्ध. इसलिए जीवन प्रत्याशा पर प्रत्येक चर के प्रभाव का विश्लेषण करना कठिन होगा।
तार्किक रूप से, एक मॉडल में चर हमेशा एक दूसरे के साथ सहसंबद्ध होंगे; केवल एक सुखद प्रक्रिया में ही चरों के बीच गैर-सहसंबंध होता है। हालाँकि, हमारी रुचि इस बात में है कि चरों के बीच सहसंबंध कम है, अन्यथा हम प्रतिक्रिया चर पर प्रत्येक व्याख्यात्मक चर के प्रभाव को नहीं जान सकते।
बहुसंरेखता का मुख्य कारण आम तौर पर नमूने का छोटा आकार, व्याख्यात्मक चर के बीच एक कारण संबंध का अस्तित्व या अवलोकनों की कम परिवर्तनशीलता है।
बहुसंरेखता के प्रकार
बहुसंरेखता दो प्रकार की होती है:
- सटीक बहुसंरेखता : जब एक या अधिक चर अन्य चर का एक रैखिक संयोजन होते हैं। इस मामले में, बहुसंरेखीय चर के बीच सहसंबंध गुणांक 1 के बराबर है।
- अनुमानित बहुसंरेखता : चरों के बीच कोई रैखिक संयोजन नहीं होता है, लेकिन दो या दो से अधिक चरों के बीच निर्धारण का गुणांक 1 के बहुत करीब होता है और इसलिए वे अत्यधिक सहसंबद्ध होते हैं।
बहुसंरेखता के परिणाम
- जब सहसंबंधी चर जोड़े जाते हैं तो मॉडल के प्रतिगमन गुणांक का मान बदल जाता है, जिससे परिणामी प्रतिगमन मॉडल की व्याख्या करना मुश्किल हो जाता है।
- पैरामीटर अनुमान की सटीकता कम हो जाती है, इसलिए प्रतिगमन गुणांक की मानक त्रुटि बढ़ जाती है।
- बहुसंरेखता उत्पन्न करने वाले कुछ चर निश्चित रूप से अनावश्यक हैं और इसलिए उन्हें मॉडल में शामिल करने की कोई आवश्यकता नहीं है।
- यह संभव है कि आप ओवरफिटिंग स्थिति में पड़ जाएं, यानी मॉडल ओवरफिट हो गया है और इस कारण से, भविष्यवाणियां करने के लिए उपयोगी नहीं है।
- प्रतिगमन गुणांक के पी-मान कम विश्वसनीय हो जाते हैं। इसलिए, यह निर्धारित करना अधिक कठिन है कि प्रतिगमन मॉडल में कौन से चर शामिल किए जाएं और कौन से चर हटाए जाएं।
बहुसंरेखता का पता कैसे लगाएं
बहुसंरेखता की पहचान करने का एक तरीका सहसंबंध मैट्रिक्स की गणना करना है , क्योंकि इसमें सभी चर के बीच सहसंबंध गुणांक होता है और इसलिए, यह देखा जा सकता है कि चर की एक जोड़ी अत्यधिक सहसंबद्ध है।
हालाँकि, सहसंबंध मैट्रिक्स के साथ, आप केवल यह जान सकते हैं कि क्या दो चर एक-दूसरे से संबंधित हैं, लेकिन आप यह नहीं जान सकते कि चर के सेट के बीच कोई संयोजन है या नहीं। ऐसा करने के लिए, आमतौर पर विचरण मुद्रास्फीति कारक की गणना की जाती है।
विचरण मुद्रास्फीति कारक (वीआईएफ) , जिसे विचरण मुद्रास्फीति कारक (वीआईएफ) भी कहा जाता है, प्रत्येक व्याख्यात्मक चर के लिए गणना की गई एक सांख्यिकीय गुणांक है और किसी दिए गए व्याख्यात्मक चर के साथ अन्य चर के सहसंबंध को इंगित करता है। सीधे तौर पर इसका सूत्र इस प्रकार है:
![]()
सोना
![]()
चर iy के विचरण का मुद्रास्फीति कारक है
![]()
प्रतिगमन मॉडल के निर्धारण का गुणांक है जिसमें चर i आश्रित चर के रूप में और शेष चर स्वतंत्र चर के रूप में हैं।
इस प्रकार, प्राप्त विचरण मुद्रास्फीति कारकों के मूल्य के आधार पर, यह जानना संभव है कि बहुसंरेखता है या नहीं:
- वीआईएफ = 1 : जब विचरण मुद्रास्फीति कारक 1 के बराबर है, तो इसका मतलब है कि आश्रित चर और अन्य चर के बीच कोई संबंध नहीं है।
- 1 <आईवीएफ <5 : चरों के बीच एक संबंध है, लेकिन यह मध्यम है। सिद्धांत रूप में, बहुसंरेखता को ठीक करने के लिए कोई कार्रवाई लागू करना आवश्यक नहीं है।
- वीआईएफ > 5 : यदि विचरण मुद्रास्फीति कारक 1 से अधिक है, तो इसका मतलब है कि मॉडल की बहुसंरेखता अधिक है और इसलिए, इसे हल करने का प्रयास किया जाना चाहिए।
व्यवहार में, विचरण मुद्रास्फीति कारकों की गणना आमतौर पर कंप्यूटर सॉफ़्टवेयर का उपयोग करके की जाती है, क्योंकि प्रत्येक चर के लिए एक प्रतिगमन मॉडल बनाने और फिर मैन्युअल रूप से गुणांक मान खोजने में लंबा समय लगेगा।
सही बहुसंरेखता
प्रतिगमन मॉडल में बहुसंरेखता मुद्दों को हल करने में निम्नलिखित उपाय उपयोगी हो सकते हैं:
- यदि नमूना आकार छोटा है, तो डेटा की संख्या बढ़ाने से अनुमानित बहुसंरेखता कम हो सकती है।
- बहुसंरेखता उत्पन्न करने वाले सभी चर हटा दें। यदि चर अत्यधिक सहसंबद्ध हैं, तो मॉडल में बहुत कम जानकारी खो जाएगी और बहुसंरेखता कम हो जाएगी।
- आंशिक न्यूनतम वर्ग (पीएलएस) मानदंड लागू करके प्रतिगमन मॉडल बनाएं।
- कभी-कभी आप बहुसंरेखता के साथ प्रतिगमन मॉडल को वैसे ही छोड़ सकते हैं। उदाहरण के लिए, यदि हम केवल पूर्वानुमान लगाने के लिए एक मॉडल बनाना चाहते हैं और हमें इसकी व्याख्या करने की आवश्यकता नहीं है, तो हम एक नए अवलोकन के साथ आश्रित चर के मूल्य की भविष्यवाणी करने के लिए मॉडल समीकरण का उपयोग कर सकते हैं, यह मानते हुए कि बहुसंरेखता पैटर्न खुद को दोहराता है नये अवलोकनों में.