आंशिक न्यूनतम वर्गों का परिचय
मशीन लर्निंग में आपके सामने आने वाली सबसे आम समस्याओं में से एक बहुसंरेखता है। ऐसा तब होता है जब किसी डेटा सेट में दो या दो से अधिक भविष्यवक्ता चर अत्यधिक सहसंबद्ध होते हैं।
जब ऐसा होता है, तो एक मॉडल एक प्रशिक्षण डेटा सेट को अच्छी तरह से फिट करने में सक्षम हो सकता है, लेकिन यह एक नए डेटा सेट पर खराब प्रदर्शन कर सकता है जिसे उसने कभी नहीं देखा है क्योंकि यह प्रशिक्षण डेटा सेट से अधिक फिट बैठता है । प्रशिक्षण सेट।
बहुसंरेखता की समस्या से निजात पाने का एक तरीका प्रमुख घटक प्रतिगमन का उपयोग करना है, जो मूल पी भविष्यवक्ता चर के एम रैखिक संयोजनों (जिन्हें “प्रमुख घटक” कहा जाता है) की गणना करता है और फिर प्रिंसिपल का उपयोग करके रैखिक प्रतिगमन के एक मॉडल को फिट करने के लिए कम से कम वर्ग विधि का उपयोग करता है। भविष्यवक्ता के रूप में घटक।
प्रमुख घटक प्रतिगमन (पीसीआर) का नुकसान यह है कि यह प्रमुख घटकों की गणना करते समय प्रतिक्रिया चर को ध्यान में नहीं रखता है।
इसके बजाय, यह केवल प्रमुख घटकों द्वारा कैप्चर किए गए भविष्यवक्ता चर के बीच भिन्नता के परिमाण पर विचार करता है। इस कारण से, यह संभव है कि कुछ मामलों में सबसे बड़े विचलन वाले प्रमुख घटक प्रतिक्रिया चर की अच्छी तरह से भविष्यवाणी करने में सक्षम नहीं हो सकते हैं।
पीसीआर से संबंधित एक तकनीक को आंशिक न्यूनतम वर्ग के रूप में जाना जाता है। पीसीआर के समान, आंशिक न्यूनतम वर्ग मूल पी भविष्यवक्ता चर के एम रैखिक संयोजनों (जिन्हें “पीएलएस घटक” कहा जाता है) की गणना करता है और भविष्यवक्ता के रूप में पीएलएस घटकों का उपयोग करके एक रैखिक प्रतिगमन मॉडल को फिट करने के लिए कम से कम वर्ग विधि का उपयोग करता है।
लेकिन पीसीआर के विपरीत, आंशिक न्यूनतम वर्ग रैखिक संयोजनों को खोजने का प्रयास करता है जो प्रतिक्रिया चर और भविष्यवक्ता चर दोनों में भिन्नता की व्याख्या करता है।
आंशिक न्यूनतम वर्ग निष्पादित करने के चरण
व्यवहार में, आंशिक न्यूनतम वर्ग निष्पादित करने के लिए निम्नलिखित चरणों का उपयोग किया जाता है।
1. डेटा को इस तरह मानकीकृत करें कि सभी भविष्यवक्ता चर और प्रतिक्रिया चर का माध्य 0 और मानक विचलन 1 हो। यह सुनिश्चित करता है कि प्रत्येक चर को एक ही पैमाने पर मापा जाता है।
2. मूल पी भविष्यवक्ताओं के एम रैखिक संयोजन के रूप में जेड 1 , …, जेड एम की गणना करें।
- जेड एम = ΣΦ जेएम _
- Z 1 की गणना करने के लिए, X j पर Y के सरल रैखिक प्रतिगमन के गुणांक के बराबर Φ j1 सेट करें, यह भविष्यवक्ताओं का रैखिक संयोजन है जो जितना संभव हो उतना भिन्नता पकड़ता है।
- Z 2 की गणना करने के लिए, प्रत्येक चर को Z 1 पर पुनः प्राप्त करें और अवशिष्ट लें। फिर इस ऑर्थोगोनलाइज्ड डेटा का उपयोग करके Z 2 की गणना ठीक उसी तरह करें जैसे Z 1 की गणना की गई थी।
- एम पीएलएस घटक प्राप्त करने के लिए इस प्रक्रिया को एम बार दोहराएं।
3. भविष्यवक्ताओं के रूप में पीएलएस घटकों Z 1 , …, Z M का उपयोग करके एक रैखिक प्रतिगमन मॉडल को फिट करने के लिए न्यूनतम वर्ग विधि का उपयोग करें।
4. अंत में, मॉडल में रखने के लिए पीएलएस घटकों की इष्टतम संख्या खोजने के लिए के-फोल्ड क्रॉस-वैलिडेशन का उपयोग करें। रखने के लिए पीएलएस घटकों की “इष्टतम” संख्या आम तौर पर वह संख्या होती है जो सबसे कम परीक्षण माध्य वर्ग त्रुटि (एमएसई) उत्पन्न करती है।
निष्कर्ष
ऐसे मामलों में जहां डेटा सेट में बहुसंरेखता मौजूद है, आंशिक न्यूनतम वर्ग प्रतिगमन सामान्य न्यूनतम वर्ग प्रतिगमन से बेहतर प्रदर्शन करता है। हालाँकि, कई अलग-अलग मॉडलों को फिट करना एक अच्छा विचार है ताकि आप पहचान सकें कि कौन सा अनदेखा डेटा को सबसे अच्छा सामान्यीकृत करता है।
व्यवहार में, हम कई अलग-अलग प्रकार के मॉडल (पीएलएस, पीसीआर , रिज , लासो , मल्टीपल लीनियर रिग्रेशन , आदि) को एक डेटासेट में फिट करते हैं और एमएसई परीक्षण को सर्वोत्तम बनाने वाले मॉडल की पहचान करने के लिए के-फोल्ड क्रॉस-वैलिडेशन का उपयोग करते हैं। नए डेटा पर कम. .