प्रतिगमन विश्लेषण में डमी चर का उपयोग कैसे करें
रैखिक प्रतिगमन एक ऐसी विधि है जिसका उपयोग हम एक या अधिक भविष्यवक्ता चर और एक प्रतिक्रिया चर के बीच संबंध को मापने के लिए कर सकते हैं।
हम आम तौर पर मात्रात्मक चर के साथ रैखिक प्रतिगमन का उपयोग करते हैं। कभी-कभी इन्हें “संख्यात्मक” चर कहा जाता है, ये वे चर होते हैं जो मापने योग्य मात्रा का प्रतिनिधित्व करते हैं। उदाहरणों में शामिल:
- एक घर में वर्ग फुट की संख्या
- किसी शहर की जनसंख्या का आकार
- किसी व्यक्ति की आयु
हालाँकि, कभी-कभी हम श्रेणीबद्ध चर को भविष्यवक्ता चर के रूप में उपयोग करना चाहते हैं। ये वेरिएबल हैं जो नाम या लेबल लेते हैं और श्रेणियों में आ सकते हैं। उदाहरणों में शामिल:
- आंखों का रंग (उदाहरण के लिए “नीला”, “हरा”, “भूरा”)
- लिंग (जैसे “पुरुष”, “महिला”)
- वैवाहिक स्थिति (जैसे “विवाहित”, “एकल”, “तलाकशुदा”)
श्रेणीबद्ध चर का उपयोग करते समय, केवल 1, 2, 3 जैसे मानों को “नीला”, “हरा” और “भूरा” जैसे मान निर्दिष्ट करने का कोई मतलब नहीं है, क्योंकि ऐसा कहने का कोई मतलब नहीं है वह हरा दोगुना है. नीला या भूरा जितना रंगीन, नीले से तीन गुना अधिक रंगीन है।
इसके बजाय, समाधान डमी वेरिएबल्स का उपयोग करना है। ये वे चर हैं जिन्हें हम विशेष रूप से प्रतिगमन विश्लेषण के लिए बनाते हैं और जो दो मानों में से एक लेते हैं: शून्य या एक।
डमी चर: श्रेणीबद्ध डेटा का प्रतिनिधित्व करने के लिए प्रतिगमन विश्लेषण में उपयोग किए जाने वाले संख्यात्मक चर जो केवल दो मानों में से एक ले सकते हैं: शून्य या एक।
हमें बनाने के लिए आवश्यक डमी वेरिएबल्स की संख्या k -1 के बराबर है जहां k श्रेणीगत वेरिएबल द्वारा लिए जा सकने वाले विभिन्न मानों की संख्या है।
निम्नलिखित उदाहरण बताते हैं कि विभिन्न डेटासेट के लिए डमी वेरिएबल कैसे बनाएं।
उदाहरण 1: केवल दो मानों वाला एक डमी वैरिएबल बनाएं
मान लीजिए कि हमारे पास निम्नलिखित डेटा सेट है और हम आय का अनुमान लगाने के लिए लिंग और उम्र का उपयोग करना चाहते हैं:
प्रतिगमन मॉडल में लिंग को एक भविष्यवक्ता चर के रूप में उपयोग करने के लिए, हमें इसे एक डमी चर में परिवर्तित करने की आवश्यकता है।
चूँकि यह वर्तमान में एक श्रेणीगत चर है जो दो अलग-अलग मान (“पुरुष” या “महिला”) ले सकता है, हम बस k -1 = 2-1 = 1 डमी चर बनाते हैं।
इस डमी वेरिएबल को बनाने के लिए, हम 0 का प्रतिनिधित्व करने के लिए एक मान (“पुरुष” या “महिला”) और दूसरा 1 का प्रतिनिधित्व करने के लिए चुन सकते हैं।
सामान्य तौर पर, हम आमतौर पर 0 के साथ सबसे अधिक बार आने वाले मान का प्रतिनिधित्व करते हैं, जो इस डेटासेट में “पुरुष” होगा।
तो, यहां लिंग को डमी वेरिएबल में बदलने का तरीका बताया गया है:
फिर हम प्रतिगमन मॉडल में आयु और लिंग_डमी को भविष्यवक्ता चर के रूप में उपयोग कर सकते हैं।
उदाहरण 2: एकाधिक मानों वाला एक डमी वैरिएबल बनाएं
मान लीजिए कि हमारे पास निम्नलिखित डेटा सेट है और हम आय की भविष्यवाणी करने के लिए वैवाहिक स्थिति और उम्र का उपयोग करना चाहते हैं:
प्रतिगमन मॉडल में वैवाहिक स्थिति को भविष्यवक्ता चर के रूप में उपयोग करने के लिए, हमें इसे एक डमी चर में परिवर्तित करने की आवश्यकता है।
चूँकि यह वर्तमान में एक श्रेणीबद्ध चर है जो तीन अलग-अलग मान (“एकल”, “विवाहित”, या “तलाकशुदा”) ले सकता है, हमें k -1 = 3-1 = 2 डमी चर बनाने की आवश्यकता है।
इस डमी वेरिएबल को बनाने के लिए, हम “सिंगल” को आधार मान के रूप में छोड़ सकते हैं क्योंकि यह सबसे अधिक बार दिखाई देता है। तो, यहां बताया गया है कि हम वैवाहिक स्थिति को डमी चर में कैसे परिवर्तित करेंगे:
फिर हम प्रतिगमन मॉडल में आयु , विवाहित और तलाकशुदा को भविष्यवक्ता चर के रूप में उपयोग कर सकते हैं।
डमी वेरिएबल्स के साथ रिग्रेशन आउटपुट की व्याख्या कैसे करें
मान लीजिए कि हम पिछले उदाहरण से डेटा सेट का उपयोग करके आयु , विवाहित और तलाकशुदा को पूर्वसूचक चर के रूप में और आय को प्रतिक्रिया चर के रूप में उपयोग करके एक बहु रेखीय प्रतिगमन मॉडल फिट करते हैं।
यहाँ प्रतिगमन का परिणाम है:
फिटेड रिग्रेशन लाइन को इस प्रकार परिभाषित किया गया है:
आय = 14,276.21 + 1,471.67*(आयु) + 2,479.75*(विवाहित) – 8,397.40*(तलाकशुदा)
हम इस समीकरण का उपयोग किसी व्यक्ति की उम्र और वैवाहिक स्थिति के आधार पर उसकी अनुमानित आय ज्ञात करने के लिए कर सकते हैं। उदाहरण के लिए, 35 वर्ष की आयु और विवाहित व्यक्ति की अनुमानित आय $68,264 होगी:
आय = 14,276.21 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264
यहां तालिका में प्रतिगमन गुणांक की व्याख्या करने का तरीका बताया गया है:
- अवरोधन: अवरोधन शून्य आयु वर्ग के एक व्यक्ति की औसत आय का प्रतिनिधित्व करता है। स्पष्ट रूप से आपके पास शून्य वर्ष नहीं हो सकते हैं, इसलिए इस विशेष प्रतिगमन मॉडल में स्वयं अवरोधन की व्याख्या करने का कोई मतलब नहीं है।
- आयु: प्रत्येक वर्ष आयु में वृद्धि आय में $1,471.67 की औसत वृद्धि के साथ जुड़ी हुई है। चूँकि पी-वैल्यू (0.00) 0.05 से कम है, आयु आय का सांख्यिकीय रूप से महत्वपूर्ण भविष्यवक्ता है।
- विवाहित: एक विवाहित व्यक्ति एक अकेले व्यक्ति की तुलना में औसतन $2,479.75 अधिक कमाता है। चूँकि पी-वैल्यू (0.80) 0.05 से कम नहीं है, यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है।
- तलाकशुदा: एक तलाकशुदा व्यक्ति एक व्यक्ति की तुलना में औसतन $8,397.40 कम कमाता है। चूँकि पी-मान (0.53) 0.05 से कम नहीं है, यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है।
चूंकि दोनों डमी चर सांख्यिकीय रूप से महत्वपूर्ण नहीं थे, इसलिए हम मॉडल से भविष्यवक्ता के रूप में वैवाहिक स्थिति को हटा सकते हैं, क्योंकि यह आय में पूर्वानुमानित मूल्य नहीं जोड़ता है।
अतिरिक्त संसाधन
गुणात्मक और मात्रात्मक चर
डमी वैरिएबल ट्रैप
प्रतिगमन तालिका को कैसे पढ़ें और व्याख्या करें
पी मूल्यों और सांख्यिकीय महत्व की व्याख्या