प्रतिगमन विश्लेषण में विषमलैंगिकता को समझना


प्रतिगमन विश्लेषण में, हेटेरोस्केडैस्टिसिटी (कभी-कभी हेटेरोस्केडैस्टिसिटी लिखा जाता है) अवशेषों या त्रुटि शब्दों के असमान फैलाव को संदर्भित करता है। अधिक सटीक रूप से, यह वह मामला है जहां मापा मूल्यों की सीमा पर अवशेषों के वितरण में एक व्यवस्थित परिवर्तन होता है।

विषमलैंगिकता एक समस्या है क्योंकि साधारण न्यूनतम वर्ग (ओएलएस) प्रतिगमन मानता है कि अवशेष एक ऐसी आबादी से आते हैं जिसमें समरूपता है, जिसका अर्थ निरंतर भिन्नता है।

जब प्रतिगमन विश्लेषण में विषमलैंगिकता मौजूद होती है, तो विश्लेषण के परिणामों पर विश्वास करना मुश्किल हो जाता है। विशेष रूप से, विषमलैंगिकता प्रतिगमन गुणांक अनुमानों के विचरण को बढ़ाती है, लेकिन प्रतिगमन मॉडल इसका हिसाब नहीं देता है।

इससे यह अधिक संभावना हो जाती है कि एक प्रतिगमन मॉडल यह दावा करेगा कि मॉडल में एक शब्द सांख्यिकीय रूप से महत्वपूर्ण है, जबकि वास्तव में ऐसा नहीं है।

यह ट्यूटोरियल बताता है कि विषमलैंगिकता का पता कैसे लगाया जाए , विषमलैंगिकता के कारण और विषमलैंगिकता समस्या को हल करने के संभावित तरीके।

विषमलैंगिकता का पता कैसे लगाएं

विषमलैंगिकता का पता लगाने का सबसे सरल तरीका एक फिटेड वैल्यू/अवशिष्ट प्लॉट का उपयोग करना है।

एक बार जब आप डेटा सेट में एक प्रतिगमन रेखा फिट कर लेते हैं, तो आप एक स्कैटरप्लॉट बना सकते हैं जो उन फिट किए गए मानों के अवशेषों के विरुद्ध मॉडल के फिट किए गए मान दिखाता है।

नीचे दिया गया स्कैटरप्लॉट फिट किए गए मान बनाम अवशिष्ट का एक विशिष्ट प्लॉट दिखाता है जिसमें विषमलैंगिकता मौजूद है।

ध्यान दें कि जैसे-जैसे फिट किए गए मान बढ़ते हैं, अवशेष कैसे अधिक से अधिक फैलते हैं। यह “शंकु” आकार विषमलैंगिकता का एक स्पष्ट संकेत है।

विषमलैंगिकता के कारण क्या हैं?

हेटेरोसेडास्टिसिटी स्वाभाविक रूप से डेटा सेट में होती है जहां देखे गए डेटा मानों की एक विस्तृत श्रृंखला होती है। उदाहरण के लिए:

  • संयुक्त राज्य अमेरिका में 100,000 लोगों की वार्षिक आय और व्यय सहित डेटा सेट पर विचार करें। कम आय वाले लोगों के लिए, संबंधित व्यय की परिवर्तनशीलता कम होगी, क्योंकि इन लोगों के पास संभवतः केवल आवश्यकताओं के लिए भुगतान करने के लिए पर्याप्त पैसा होगा। उच्च आय वाले व्यक्तियों के लिए, संबंधित व्यय में अधिक परिवर्तनशीलता होगी क्योंकि इन व्यक्तियों के पास यदि वे चाहें तो खर्च करने के लिए अधिक पैसा होगा। उच्च आय वाले कुछ लोग अपनी अधिकांश आय खर्च करना पसंद करेंगे, जबकि अन्य मितव्ययी होना पसंद करेंगे और केवल एक हिस्सा खर्च करेंगे। इसलिए, इन उच्च आय वाले व्यक्तियों के बीच व्यय परिवर्तनशीलता स्वाभाविक रूप से अधिक होगी।
  • एक डेटासेट पर विचार करें जिसमें संयुक्त राज्य अमेरिका के 1,000 विभिन्न शहरों में आबादी और फूल विक्रेताओं की संख्या शामिल है। कम आबादी वाले कस्बों में, केवल एक या दो फूल विक्रेताओं का मौजूद होना आम बात हो सकती है। लेकिन अधिक आबादी वाले शहरों में, फूल विक्रेताओं की संख्या बहुत अधिक परिवर्तनशील होगी। इन कस्बों में 10 से 100 स्टोर हो सकते हैं। इसका मतलब यह है कि जब हम एक प्रतिगमन विश्लेषण बनाते हैं और फूल विक्रेताओं की संख्या की भविष्यवाणी करने के लिए जनसंख्या का उपयोग करते हैं, तो अधिक आबादी वाले शहरों के लिए अवशेषों में स्वाभाविक रूप से अधिक परिवर्तनशीलता होगी।

कुछ डेटा सेट दूसरों की तुलना में विषमलैंगिकता के प्रति अधिक संवेदनशील होते हैं।

विषमलैंगिकता को कैसे ठीक करें

विषमलैंगिकता को ठीक करने के तीन सामान्य तरीके हैं:

1. आश्रित चर को रूपांतरित करें

विषमलैंगिकता को ठीक करने का एक तरीका आश्रित चर को किसी तरह से बदलना है। एक सामान्य परिवर्तन केवल आश्रित चर का लॉग लेना है।

उदाहरण के लिए, यदि हम किसी शहर में फूल विक्रेताओं की संख्या (आश्रित चर) की भविष्यवाणी करने के लिए जनसंख्या आकार (स्वतंत्र चर) का उपयोग करते हैं, तो हम इसके बजाय किसी शहर में फूल विक्रेताओं की संख्या के लघुगणक की भविष्यवाणी करने के लिए जनसंख्या आकार का उपयोग करने का प्रयास कर सकते हैं।

मूल आश्रित चर के बजाय आश्रित चर के लॉग का उपयोग करने से अक्सर विषमलैंगिकता गायब हो जाती है।

2. आश्रित चर को पुनः परिभाषित करें

विषमलैंगिकता को ठीक करने का दूसरा तरीका आश्रित चर को फिर से परिभाषित करना है। ऐसा करने का एक सामान्य तरीका कच्चे मूल्य के बजाय आश्रित चर के लिए दर का उपयोग करना है।

उदाहरण के लिए, किसी शहर में फूल विक्रेताओं की संख्या का अनुमान लगाने के लिए जनसंख्या आकार का उपयोग करने के बजाय, हम प्रति व्यक्ति फूल विक्रेताओं की संख्या का अनुमान लगाने के लिए जनसंख्या आकार का उपयोग कर सकते हैं।

ज्यादातर मामलों में, यह बड़ी आबादी के भीतर स्वाभाविक रूप से होने वाली परिवर्तनशीलता को कम कर देता है क्योंकि हम फूल विक्रेताओं की संख्या के बजाय प्रति व्यक्ति फूल विक्रेताओं की संख्या को माप रहे हैं।

3. भारित प्रतिगमन का प्रयोग करें

विषमलैंगिकता को ठीक करने का दूसरा तरीका भारित प्रतिगमन का उपयोग करना है। इस प्रकार का प्रतिगमन प्रत्येक डेटा बिंदु को उसके फिट किए गए मान के भिन्नता के आधार पर एक भार प्रदान करता है।

अनिवार्य रूप से, यह उन डेटा बिंदुओं को कम महत्व देता है जिनमें अधिक भिन्नताएं होती हैं, जिससे उनके अवशिष्ट वर्ग कम हो जाते हैं। जब उचित वजन का उपयोग किया जाता है, तो यह विषमलैंगिकता की समस्या को समाप्त कर सकता है।

निष्कर्ष

जब प्रतिगमन विश्लेषण की बात आती है तो विषमलैंगिकता एक काफी सामान्य समस्या है, क्योंकि कई डेटा सेट स्वाभाविक रूप से गैर-निरंतर भिन्नता के अधीन होते हैं।

हालाँकि, एक फिटेड वैल्यू प्लॉट बनाम एक अवशिष्ट प्लॉट का उपयोग करके, विषमलैंगिकता का पता लगाना काफी आसान हो सकता है।

और आश्रित चर को परिवर्तित करके, आश्रित चर को फिर से परिभाषित करके, या भारित प्रतिगमन का उपयोग करके, विषमलैंगिकता की समस्या को अक्सर समाप्त किया जा सकता है।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *