प्रमुख घटक प्रतिगमन का एक परिचय
मॉडल बनाते समय आपके सामने आने वाली सबसे आम समस्याओं में से एक बहुसंरेखता है। ऐसा तब होता है जब किसी डेटा सेट में दो या दो से अधिक भविष्यवक्ता चर अत्यधिक सहसंबद्ध होते हैं।
जब ऐसा होता है, तो एक दिया गया मॉडल एक प्रशिक्षण डेटा सेट को अच्छी तरह से फिट करने में सक्षम हो सकता है, लेकिन यह संभवतः एक नए डेटा सेट पर खराब प्रदर्शन करेगा जिसे उसने कभी नहीं देखा है क्योंकि यह प्रशिक्षण सेट से अधिक फिट बैठता है ।
ओवरफिटिंग से बचने का एक तरीका कुछ प्रकार की सबसेट चयन विधि का उपयोग करना है जैसे:
ये विधियाँ मॉडल से अप्रासंगिक भविष्यवक्ताओं को हटाने का प्रयास करती हैं ताकि प्रतिक्रिया चर में भिन्नता की भविष्यवाणी करने में सक्षम केवल सबसे महत्वपूर्ण भविष्यवक्ता ही अंतिम मॉडल में बचे रहें।
ओवरफिटिंग से बचने का दूसरा तरीका कुछ प्रकार की नियमितीकरण विधि का उपयोग करना है जैसे:
ये विधियाँ विचरण को कम करने के लिए मॉडल के गुणांकों को बाधित या नियमित करने का प्रयास करती हैं और इस प्रकार नए डेटा को अच्छी तरह से सामान्यीकृत करने में सक्षम मॉडल तैयार करती हैं।
बहुसंरेखता से निपटने के लिए एक पूरी तरह से अलग दृष्टिकोण को आयामी कमी के रूप में जाना जाता है।
आयाम में कमी की एक सामान्य विधि को प्रमुख घटक प्रतिगमन के रूप में जाना जाता है, जो निम्नानुसार काम करती है:
1. मान लें कि दिए गए डेटा सेट में पी भविष्यवक्ता शामिल हैं :
2. मूल पी भविष्यवक्ताओं के एम रैखिक संयोजन के रूप में जेड 1 , …, जेड एम की गणना करें।
- जेड एम = ΣΦ जेएम _
- Z 1 भविष्यवक्ताओं का रैखिक संयोजन है जो यथासंभव अधिक भिन्नता को पकड़ता है।
- Z 2 भविष्यवक्ताओं का अगला रैखिक संयोजन है जो Z 1 के लिए ऑर्थोगोनल (यानी असंबद्ध) होते हुए सबसे अधिक भिन्नता को पकड़ता है।
- Z 3 भविष्यवक्ताओं का अगला रैखिक संयोजन है जो Z 2 के लिए ऑर्थोगोनल होते हुए सबसे अधिक भिन्नता को पकड़ता है।
- और इसी तरह।
3. पहले एम प्रमुख घटकों जेड 1 , …, जेड एम को भविष्यवक्ताओं के रूप में उपयोग करके एक रैखिक प्रतिगमन मॉडल को फिट करने के लिए न्यूनतम वर्ग विधि का उपयोग करें।
शब्द आयाम में कमी इस तथ्य से आती है कि इस विधि को पी+1 गुणांक के बजाय केवल एम+1 गुणांक का अनुमान लगाना चाहिए, जहां एम <पी।
दूसरे शब्दों में, समस्या का आयाम p+1 से घटाकर M+1 कर दिया गया है।
कई मामलों में जहां डेटा सेट में मल्टीकोलिनेरिटी मौजूद होती है, प्रमुख घटक प्रतिगमन एक मॉडल का उत्पादन करने में सक्षम होता है जो पारंपरिक एकाधिक रैखिक प्रतिगमन की तुलना में नए डेटा को बेहतर ढंग से सामान्यीकृत कर सकता है।
प्रमुख घटक प्रतिगमन करने के चरण
व्यवहार में, प्रमुख घटकों का प्रतिगमन करने के लिए निम्नलिखित चरणों का उपयोग किया जाता है:
1. भविष्यवक्ताओं का मानकीकरण करें।
सबसे पहले, हम आम तौर पर डेटा को इस तरह मानकीकृत करते हैं कि प्रत्येक भविष्यवक्ता चर का औसत मान 0 और मानक विचलन 1 होता है। यह एक भविष्यवक्ता को बहुत अधिक प्रभाव डालने से रोकता है, खासकर अगर इसे विभिन्न इकाइयों में मापा जाता है (सी यानी, यदि 1 ) इंच में मापा जाता है)। और X 2 को गज में मापा जाता है)।
2. प्रमुख घटकों की गणना करें और प्रमुख घटकों को भविष्यवक्ताओं के रूप में उपयोग करते हुए एक रेखीय प्रतिगमन करें।
इसके बाद, हम प्रमुख घटकों की गणना करते हैं और पहले एम प्रमुख घटकों जेड 1 , …, जेड एम को भविष्यवक्ताओं के रूप में उपयोग करके एक रैखिक प्रतिगमन मॉडल को फिट करने के लिए कम से कम वर्ग विधि का उपयोग करते हैं।
3. तय करें कि कितने प्रमुख घटक रखने हैं.
इसके बाद, हम मॉडल में रखने के लिए प्रमुख घटकों की इष्टतम संख्या खोजने के लिए के-फोल्ड क्रॉस-वैलिडेशन का उपयोग करते हैं। रखने के लिए प्रमुख घटकों की “इष्टतम” संख्या आम तौर पर वह संख्या होती है जो परीक्षण की सबसे कम माध्य वर्ग त्रुटि (MSE) उत्पन्न करती है।
प्रमुख घटक प्रतिगमन के फायदे और नुकसान
प्रमुख घटक प्रतिगमन (पीसीआर) निम्नलिखित लाभ प्रदान करता है:
- पीसीआर तब अच्छा प्रदर्शन करता है जब पहले प्रमुख घटक भविष्यवक्ताओं में अधिकांश भिन्नताओं के साथ-साथ प्रतिक्रिया चर के साथ संबंध को पकड़ने में सक्षम होते हैं।
- पीसीआर तब भी अच्छा प्रदर्शन कर सकता है जब भविष्यवक्ता चर अत्यधिक सहसंबद्ध हों, क्योंकि यह प्रमुख घटकों का उत्पादन करता है जो एक दूसरे से ऑर्थोगोनल (यानी, असंबद्ध) होते हैं।
- पीसीआर को आपको यह चुनने की आवश्यकता नहीं है कि मॉडल से कौन से भविष्यवक्ता चर को हटाना है क्योंकि प्रत्येक प्रमुख घटक सभी भविष्यवक्ता चर के रैखिक संयोजन का उपयोग करता है।
- पीसीआर का उपयोग तब किया जा सकता है जब कई रैखिक प्रतिगमन के विपरीत, अवलोकनों की तुलना में अधिक भविष्यवक्ता चर होते हैं।
हालाँकि, पीसीआर में एक खामी है:
- कौन से प्रमुख घटकों को रखना है या हटाना है, यह तय करते समय पीसीआर प्रतिक्रिया चर को ध्यान में नहीं रखता है। इसके बजाय, यह केवल प्रमुख घटकों द्वारा कैप्चर किए गए भविष्यवक्ता चर के बीच भिन्नता के परिमाण पर विचार करता है। यह संभव है कि कुछ मामलों में सबसे बड़े अंतर वाले प्रमुख घटक प्रतिक्रिया चर की अच्छी तरह से भविष्यवाणी करने में सक्षम नहीं हो सकते हैं।
व्यवहार में, हम कई अलग-अलग प्रकार के मॉडल (पीसीआर, रिज, लासो, मल्टीपल लीनियर रिग्रेशन, आदि) फिट करते हैं और नए डेटा पर सबसे कम एमएसई परीक्षण उत्पन्न करने वाले मॉडल की पहचान करने के लिए के-फोल्ड क्रॉस-वैलिडेशन का उपयोग करते हैं।
ऐसे मामलों में जहां मूल डेटा सेट में बहुसंरेखता मौजूद है (जो अक्सर मामला होता है), पीसीआर सामान्य न्यूनतम वर्ग प्रतिगमन से बेहतर प्रदर्शन करता है। हालाँकि, कई अलग-अलग मॉडलों को फिट करना एक अच्छा विचार है ताकि आप पहचान सकें कि कौन सा अनदेखा डेटा को सबसे अच्छा सामान्यीकृत करता है।
आर एवं पायथन में प्रमुख घटक प्रतिगमन
निम्नलिखित ट्यूटोरियल दिखाते हैं कि आर और पायथन में प्रमुख घटकों का प्रतिगमन कैसे करें:
आर में प्रमुख घटक प्रतिगमन (चरण दर चरण)
पायथन में प्रमुख घटक प्रतिगमन (चरण दर चरण)