के-फोल्ड क्रॉस-वैलिडेशन के लिए एक सरल मार्गदर्शिका


डेटा सेट पर किसी मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हमें यह मापने की आवश्यकता है कि मॉडल द्वारा की गई भविष्यवाणियां देखे गए डेटा से कितनी अच्छी तरह मेल खाती हैं।

इसे मापने का सबसे आम तरीका माध्य वर्ग त्रुटि (MSE) का उपयोग करना है, जिसकी गणना निम्नानुसार की जाती है:

एमएसई = (1/एन)*Σ(वाई आई – एफ(एक्स आई )) 2

सोना:

  • n: अवलोकनों की कुल संख्या
  • y i : iवें अवलोकन का प्रतिक्रिया मूल्य
  • f(x i ): i वें अवलोकन का अनुमानित प्रतिक्रिया मूल्य

मॉडल की भविष्यवाणियाँ अवलोकनों के जितनी करीब होंगी, एमएसई उतना ही कम होगा।

व्यवहार में, हम किसी दिए गए मॉडल के एमएसई की गणना करने के लिए निम्नलिखित प्रक्रिया का उपयोग करते हैं:

1. डेटासेट को प्रशिक्षण सेट और परीक्षण सेट में विभाजित करें।

2. केवल प्रशिक्षण सेट से डेटा का उपयोग करके मॉडल बनाएं।

3. परीक्षण सेट के बारे में पूर्वानुमान लगाने और परीक्षण के एमएसई को मापने के लिए मॉडल का उपयोग करें।

एमएसई परीक्षण से हमें यह पता चलता है कि कोई मॉडल उस डेटा पर कितना अच्छा प्रदर्शन करता है जो उसने पहले नहीं देखा है। हालाँकि, एकल परीक्षण सेट का उपयोग करने का नुकसान यह है कि एमएसई परीक्षण प्रशिक्षण और परीक्षण सेट में उपयोग की गई टिप्पणियों के आधार पर काफी भिन्न हो सकता है।

इस समस्या से बचने का एक तरीका यह है कि हर बार एक अलग प्रशिक्षण और परीक्षण सेट का उपयोग करके एक मॉडल को कई बार फिट किया जाए, और फिर सभी परीक्षण एमएसई के औसत के रूप में परीक्षण एमएसई की गणना की जाए।

इस सामान्य विधि को क्रॉस-वैलिडेशन के रूप में जाना जाता है और इसके एक विशिष्ट रूप को के-फोल्ड क्रॉस-वैलिडेशन के रूप में जाना जाता है।

के-फोल्ड क्रॉस-वैलिडेशन

के-फ़ोल्ड क्रॉस-वैलिडेशन किसी मॉडल का मूल्यांकन करने के लिए निम्नलिखित दृष्टिकोण का उपयोग करता है:

चरण 1: किसी डेटा सेट को यादृच्छिक रूप से लगभग समान आकार के k समूहों, या “फ़ोल्ड्स” में विभाजित करें।

डेटासेट को k फोल्ड में विभाजित करें

चरण 2: अपने होल्डिंग सेट के रूप में किसी एक तह को चुनें। टेम्पलेट को शेष k-1 फ़ोल्ड में समायोजित करें। तनावग्रस्त प्लाई में अवलोकनों पर एमएसई परीक्षण की गणना करें।

के-फोल्ड क्रॉस-वैलिडेशन

चरण 3: इस प्रक्रिया को k बार दोहराएं, हर बार बहिष्करण सेट के रूप में एक अलग सेट का उपयोग करें।

के-फोल्ड क्रॉस-वैलिडेशन का उदाहरण

चरण 4: परीक्षण के k MSE के औसत के रूप में परीक्षण के समग्र MSE की गणना करें।

परीक्षण एमएसई = (1/के)*Σएमएसई i

सोना:

  • k: तहों की संख्या
  • एमएसई i : आईटीएच पुनरावृत्ति पर एमएसई का परीक्षण करें

K का चयन कैसे करें?

सामान्य तौर पर, के-फोल्ड क्रॉस-वैलिडेशन में हम जितने अधिक फोल्ड का उपयोग करते हैं, एमएसई परीक्षण पूर्वाग्रह उतना ही कम होता है लेकिन विचरण उतना अधिक होता है। इसके विपरीत, हम जितनी कम तहों का उपयोग करेंगे, पूर्वाग्रह उतना ही अधिक होगा लेकिन विचरण उतना ही कम होगा। यह मशीन लर्निंग में पूर्वाग्रह-विचरण ट्रेडऑफ़ का एक उत्कृष्ट उदाहरण है।

व्यवहार में, हम आम तौर पर 5 और 10 प्लाई के बीच उपयोग करना चुनते हैं। जैसा कि एन इंट्रोडक्शन टू स्टैटिस्टिकल लर्निंग में उल्लेख किया गया है, सिलवटों की यह संख्या पूर्वाग्रह और विचरण के बीच एक इष्टतम संतुलन प्रदान करने के लिए दिखाई गई है और इस प्रकार परीक्षण के एमएसई का विश्वसनीय अनुमान प्रदान करती है:

संक्षेप में कहें तो, के-फोल्ड क्रॉस-वैलिडेशन में के की पसंद के साथ एक पूर्वाग्रह-विचरण ट्रेडऑफ़ जुड़ा हुआ है।

आमतौर पर, इन विचारों को देखते हुए, कोई व्यक्ति k = 5 या k = 10 का उपयोग करके k-गुना क्रॉस-सत्यापन करता है, क्योंकि इन मानों को अनुभवजन्य रूप से परीक्षण त्रुटि दर अनुमान प्राप्त करने के लिए दिखाया गया है जो न तो अत्यधिक उच्च पूर्वाग्रह और न ही बहुत उच्च विचरण से ग्रस्त हैं।

-पेज 184, सांख्यिकीय शिक्षा का एक परिचय

के-फोल्ड क्रॉस-वैलिडेशन के लाभ

जब हम एक डेटासेट को एक एकल प्रशिक्षण सेट और एक एकल परीक्षण सेट में विभाजित करते हैं, तो परीक्षण सेट में टिप्पणियों पर गणना की गई परीक्षण एमएसई प्रशिक्षण और परीक्षण सेट में उपयोग की गई टिप्पणियों के आधार पर काफी भिन्न हो सकती है।

के-फोल्ड क्रॉस वैलिडेशन का उपयोग करके, हम प्रशिक्षण और परीक्षण सेटों के कई अलग-अलग रूपों का उपयोग करके एमएसई परीक्षण की गणना करने में सक्षम हैं। इससे हमें परीक्षण के एमएसई का निष्पक्ष अनुमान प्राप्त करने का बहुत अधिक मौका मिलता है।

के-फोल्ड क्रॉस-वैलिडेशन लीव-वन-आउट क्रॉस-वैलिडेशन (एलओओसीवी) पर एक कम्प्यूटेशनल लाभ भी प्रदान करता है क्योंकि इसमें एन बार के बजाय केवल मॉडल को के बार फिट करना होता है।

उन मॉडलों के लिए जिन्हें फिट होने में लंबा समय लगता है, के-फोल्ड क्रॉस-वैलिडेशन परीक्षण एमएसई की गणना एलओओसीवी की तुलना में बहुत तेजी से कर सकता है और कई मामलों में प्रत्येक दृष्टिकोण द्वारा गणना की गई परीक्षण एमएसई काफी समान होगी यदि आप पर्याप्त संख्या में फोल्ड का उपयोग करते हैं।

के-फोल्ड क्रॉस-वैलिडेशन एक्सटेंशन

के-फ़ोल्ड क्रॉस-वैलिडेशन के लिए कई एक्सटेंशन हैं, जिनमें शामिल हैं:

बार-बार के-फोल्ड क्रॉस-वैलिडेशन: यह वह जगह है जहां के-फोल्ड क्रॉस-वैलिडेशन को केवल n बार दोहराया जाता है। जब भी प्रशिक्षण और परीक्षण सेट मिश्रित होते हैं, तो यह परीक्षण एमएसई अनुमान में पूर्वाग्रह को और कम कर देता है, हालांकि इसे सामान्य के-फोल्ड क्रॉस-सत्यापन की तुलना में पूरा होने में अधिक समय लगता है।

लीव-वन-आउट क्रॉस-वैलिडेशन: यह के-फोल्ड क्रॉस-वैलिडेशन का एक विशेष मामला है जिसमें के = एन । आप इस विधि के बारे में यहां अधिक जान सकते हैं।

स्तरीकृत के-फोल्ड क्रॉस-वैलिडेशन: यह के-फोल्ड क्रॉस-वैलिडेशन का एक संस्करण है जिसमें डेटासेट को इस तरह से पुनर्व्यवस्थित किया जाता है कि प्रत्येक फोल्ड संपूर्ण का प्रतिनिधि होता है। जैसा कि कोहावी ने उल्लेख किया है, यह विधि सामान्य के-फोल्ड क्रॉस-सत्यापन की तुलना में पूर्वाग्रह और भिन्नता के बीच बेहतर व्यापार-बंद की पेशकश करती है।

नेस्टेड क्रॉस-वैलिडेशन: यह वह जगह है जहां प्रत्येक क्रॉस-वैलिडेशन फोल्ड में के-फोल्ड क्रॉस-वैलिडेशन किया जाता है। इसका उपयोग अक्सर मॉडल मूल्यांकन के दौरान हाइपरपैरामीटर ट्यूनिंग करने के लिए किया जाता है।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *