बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन का परिचय


जब भविष्यवक्ता चर के एक सेट और एक प्रतिक्रिया चर के बीच संबंध रैखिक होता है, तो हम अक्सर रैखिक प्रतिगमन का उपयोग कर सकते हैं, जो मानता है कि किसी दिए गए भविष्यवक्ता चर और एक प्रतिक्रिया चर के बीच का संबंध रूप लेता है:

वाई = β 0 + β 1 एक्स + ε

लेकिन व्यवहार में, चर के बीच संबंध वास्तव में अरेखीय हो सकता है और रैखिक प्रतिगमन का उपयोग करने का प्रयास करने से खराब फिटिंग वाला मॉडल बन सकता है।

भविष्यवक्ता और प्रतिक्रिया चर के बीच एक गैर-रेखीय संबंध को ध्यान में रखने का एक तरीका बहुपद प्रतिगमन का उपयोग करना है, जो रूप लेता है:

वाई = β 0 + β 1 एक्स + β 2 एक्स 2 + … + β एच

इस समीकरण में, h को बहुपद की “डिग्री” कहा जाता है। जैसे-जैसे हम h का मान बढ़ाते हैं, मॉडल अधिक लचीला हो जाता है और गैर-रेखीय डेटा के अनुकूल होने में सक्षम हो जाता है।

हालाँकि, बहुपद प्रतिगमन में कुछ कमियाँ हैं:

1. यदि डिग्री , एच , बहुत बड़ी चुनी जाती है, तो बहुपद प्रतिगमन आसानी से डेटा सेट को ओवरफिट कर सकता है। व्यवहार में, h शायद ही कभी 3 या 4 से अधिक होता है क्योंकि उस बिंदु से परे यह केवल एक प्रशिक्षण सेट के शोर से मेल खाता है और अनदेखे डेटा के लिए अच्छी तरह से सामान्यीकृत नहीं होता है।

2. बहुपद प्रतिगमन संपूर्ण डेटा सेट पर एक वैश्विक फ़ंक्शन लागू करता है, जो हमेशा सटीक नहीं होता है।

बहुपद प्रतिगमन का एक विकल्प बहुभिन्नरूपी अनुकूली प्रतिगमन विभाजन है।

मूल विचार

बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिंस निम्नानुसार कार्य करते हैं:

1. डेटासेट को k टुकड़ों में विभाजित करें।

सबसे पहले, हम एक डेटासेट को k विभिन्न तत्वों में विभाजित करते हैं। वे बिंदु जहां हम डेटासेट को विभाजित करते हैं, नोड कहलाते हैं।

हम संभावित नोड के रूप में प्रत्येक भविष्यवक्ता के लिए प्रत्येक बिंदु का मूल्यांकन करके और उम्मीदवार सुविधाओं का उपयोग करके एक रैखिक प्रतिगमन मॉडल बनाकर नोड्स की पहचान करते हैं। मॉडल में अधिकांश त्रुटियों को कम करने में सक्षम बिंदु नोड है।

एक बार जब हम पहले नोड की पहचान कर लेते हैं, तो हम अतिरिक्त नोड्स खोजने के लिए प्रक्रिया दोहराते हैं। आप उतने नोड पा सकते हैं जितने आपको लगता है कि शुरुआत करना उचित है।

2. हिंज फ़ंक्शन बनाने के लिए प्रत्येक भाग में एक रिग्रेशन फ़ंक्शन फिट करें।

एक बार जब हम नोड्स चुनते हैं और डेटासेट में प्रत्येक तत्व के लिए एक प्रतिगमन मॉडल फिट करते हैं, तो हम एक हिंज फ़ंक्शन कहलाते हैं, जिसे h(xa) द्वारा दर्शाया जाता है, जहां a मान सीमा है।

उदाहरण के लिए, एक-नोड मॉडल के लिए हिंज फ़ंक्शन हो सकता है:

  • y = β 0 + β 1 (4.3 – x) यदि x <4.3
  • y = β 0 + β 1 (x – 4.3) यदि x > 4.3

इस मामले में, यह निर्धारित किया गया था कि 4.3 को थ्रेशोल्ड मान के रूप में चुनने से सभी संभावित थ्रेशोल्ड मानों के बीच अधिकतम त्रुटि में कमी आई। फिर हम 4.3 से नीचे के मान बनाम 4.3 से ऊपर के मानों के लिए एक अलग प्रतिगमन मॉडल फिट करते हैं।

दो नोड्स वाला एक काज फ़ंक्शन इस प्रकार हो सकता है:

  • y = β 0 + β 1 (4.3 – x) यदि x <4.3
  • y = β 0 + β 1 (x – 4.3) यदि x > 4.3 और x < 6.7
  • y = β 0 + β 1 (6.7 – x) यदि x > 6.7

इस मामले में, यह निर्धारित किया गया था कि 4.3 और 6.7 को थ्रेशोल्ड मान के रूप में चुनने से सभी संभावित थ्रेशोल्ड मानों के बीच अधिकतम त्रुटि में कमी आई। फिर हम एक प्रतिगमन मॉडल को 4.3 से नीचे के मानों के लिए फिट करते हैं, दूसरे प्रतिगमन मॉडल को 4.3 और 6.7 के बीच के मूल्यों के लिए, और एक अन्य प्रतिगमन मॉडल को 4.3 से ऊपर के मूल्यों के लिए फिट करते हैं।

3. k-फोल्ड क्रॉस-वैलिडेशन के आधार पर k चुनें।

अंत में, एक बार जब हम प्रत्येक मॉडल के लिए अलग-अलग संख्या में नोड्स का उपयोग करके कई अलग-अलग मॉडल फिट कर लेते हैं, तो हम उस मॉडल की पहचान करने के लिए के-फोल्ड क्रॉस-सत्यापन कर सकते हैं जो सबसे कम परीक्षण माध्य वर्ग त्रुटि (एमएसई) उत्पन्न करता है।

सबसे कम एमएसई परीक्षण वाले मॉडल को उस मॉडल के रूप में चुना जाता है जो नए डेटा का सबसे अच्छा सामान्यीकरण करता है।

फायदे और नुकसान

बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिन के निम्नलिखित फायदे और नुकसान हैं:

लाभ :

  • इसका उपयोग प्रतिगमन और वर्गीकरण दोनों समस्याओं के लिए किया जा सकता है।
  • यह बड़े डेटासेट पर अच्छा काम करता है।
  • यह तेज़ गणना प्रदान करता है।
  • इसके लिए आपको भविष्यवक्ता चर को मानकीकृत करने की आवश्यकता नहीं है।

नुकसान:

  • यह यादृच्छिक वनों और ग्रेडिएंट बूस्टिंग मशीनों जैसे गैर-रेखीय तरीकों के समान अच्छा प्रदर्शन नहीं करता है।

R एवं Python में MARS मॉडल को कैसे फ़िट करें

निम्नलिखित ट्यूटोरियल आर और पायथन में मल्टीवेरिएट एडेप्टिव रिग्रेशन स्प्लिन (एमएआरएस) को फिट करने के चरण-दर-चरण उदाहरण प्रदान करते हैं:

आर में बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिंस
पायथन में बहुभिन्नरूपी अनुकूली प्रतिगमन स्प्लिंस

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *