प्रतिगमन या वर्गीकरण: क्या अंतर है?
मशीन लर्निंग एल्गोरिदम को दो अलग-अलग प्रकारों में विभाजित किया जा सकता है: पर्यवेक्षित और अनसुपरवाइज्ड लर्निंग एल्गोरिदम ।
पर्यवेक्षित शिक्षण एल्गोरिदम को दो प्रकारों में वर्गीकृत किया जा सकता है:
1. प्रतिगमन: प्रतिक्रिया चर निरंतर है।
उदाहरण के लिए, प्रतिक्रिया चर हो सकता है:
- वज़न
- ऊंचाई
- कीमत
- समय
- कुल इकाइयाँ
प्रत्येक मामले में, एक प्रतिगमन मॉडल एक सतत मात्रा की भविष्यवाणी करना चाहता है।
प्रतिगमन उदाहरण:
मान लीजिए कि हमारे पास एक डेटा सेट है जिसमें 100 अलग-अलग घरों के लिए तीन चर हैं: वर्ग फुटेज, बाथरूम की संख्या और बिक्री मूल्य।
हम एक प्रतिगमन मॉडल फिट कर सकते हैं जो व्याख्यात्मक चर के रूप में वर्ग फुटेज और बाथरूम की संख्या और प्रतिक्रिया चर के रूप में बिक्री मूल्य का उपयोग करता है।
फिर हम इस मॉडल का उपयोग किसी घर के वर्ग फ़ुटेज और बाथरूमों की संख्या के आधार पर उसके बिक्री मूल्य का अनुमान लगाने के लिए कर सकते हैं।
यह प्रतिगमन मॉडल का एक उदाहरण है क्योंकि प्रतिक्रिया चर (बिक्री मूल्य) निरंतर है।
प्रतिगमन मॉडल की सटीकता को मापने का सबसे आम तरीका मूल माध्य वर्ग त्रुटि (आरएमएसई) की गणना करना है, एक मीट्रिक जो हमें बताती है कि हमारे अनुमानित मूल्य एक मॉडल में हमारे देखे गए मूल्यों से औसतन कितनी दूर हैं। इसकी गणना इस प्रकार की जाती है:
आरएमएसई = √ Σ(पी आई – ओ आई ) 2 / एन
सोना:
- Σ एक फैंसी प्रतीक है जिसका अर्थ है “योग”
- P i, ith अवलोकन के लिए अनुमानित मान है
- O i i वें अवलोकन के लिए प्रेक्षित मान है
- n नमूना आकार है
आरएमएसई जितना छोटा होगा, प्रतिगमन मॉडल उतना ही बेहतर डेटा को फिट करने में सक्षम होगा।
2. वर्गीकरण: प्रतिक्रिया चर श्रेणीबद्ध है।
उदाहरण के लिए, प्रतिक्रिया चर निम्नलिखित मान ले सकता है:
- पुरुष या महिला
- सफल या असफल
- निम्न, मध्यम या उच्च
प्रत्येक मामले में, एक वर्गीकरण मॉडल एक वर्ग लेबल की भविष्यवाणी करना चाहता है।
वर्गीकरण का उदाहरण:
मान लीजिए कि हमारे पास 100 अलग-अलग कॉलेज बास्केटबॉल खिलाड़ियों के लिए तीन चर वाला एक डेटा सेट है: प्रति गेम अंक, औसत, डिवीजन स्तर, और क्या उन्हें एनबीए में शामिल किया गया था या नहीं।
हम एक वर्गीकरण मॉडल को अनुकूलित कर सकते हैं जो प्रति गेम और प्रति डिवीजन स्तर पर औसत अंक को व्याख्यात्मक चर के रूप में और “मसौदा” को प्रतिक्रिया चर के रूप में उपयोग करता है।
फिर हम इस मॉडल का उपयोग यह अनुमान लगाने के लिए कर सकते हैं कि किसी खिलाड़ी को प्रति गेम औसत और डिवीजन स्तर पर उनके अंकों के आधार पर एनबीए में शामिल किया जाएगा या नहीं।
यह वर्गीकरण मॉडल का एक उदाहरण है क्योंकि प्रतिक्रिया चर (“लिखित”) श्रेणीबद्ध है। दूसरे शब्दों में, यह केवल दो अलग-अलग श्रेणियों में मान ले सकता है: “लिखित” या “अप्रशिक्षित”।
वर्गीकरण मॉडल की सटीकता को मापने का सबसे आम तरीका मॉडल द्वारा किए गए सही वर्गीकरण के प्रतिशत की गणना करना है:
सटीकता = सुधार वर्गीकरण / वर्गीकरण प्रयासों की कुल संख्या * 100%
उदाहरण के लिए, यदि कोई मॉडल संभावित 100 बार में से 88 बार सही ढंग से पहचानता है कि किसी खिलाड़ी को एनबीए में ड्राफ्ट किया जाएगा या नहीं, तो मॉडल की सटीकता है:
सटीकता = (88/100) * 100% = 88%
सटीकता जितनी अधिक होगी, वर्गीकरण मॉडल उतना ही बेहतर परिणामों की भविष्यवाणी करने में सक्षम होगा।
प्रतिगमन और वर्गीकरण के बीच समानताएँ
प्रतिगमन और वर्गीकरण एल्गोरिदम निम्नलिखित तरीकों से समान हैं:
- दोनों पर्यवेक्षित शिक्षण एल्गोरिदम हैं, यानी, वे दोनों एक प्रतिक्रिया चर शामिल करते हैं।
- प्रतिक्रिया की भविष्यवाणी करने के लिए मॉडल बनाने के लिए दोनों एक या अधिक व्याख्यात्मक चर का उपयोग करते हैं।
- दोनों का उपयोग यह समझने के लिए किया जा सकता है कि व्याख्यात्मक चर के मूल्यों में परिवर्तन प्रतिक्रिया चर के मूल्यों को कैसे प्रभावित करते हैं।
प्रतिगमन और वर्गीकरण के बीच अंतर
प्रतिगमन और वर्गीकरण एल्गोरिदम निम्नलिखित तरीकों से भिन्न हैं:
- प्रतिगमन एल्गोरिदम एक सतत मात्रा की भविष्यवाणी करना चाहते हैं और वर्गीकरण एल्गोरिदम एक वर्ग लेबल की भविष्यवाणी करना चाहते हैं।
- हम प्रतिगमन और वर्गीकरण मॉडल की सटीकता को कैसे मापते हैं, यह अलग-अलग है।
प्रतिगमन को वर्गीकरण में परिवर्तित करना
यह ध्यान दिया जाना चाहिए कि एक प्रतिगमन समस्या को केवल प्रतिक्रिया चर को डिब्बों में विभाजित करके वर्गीकरण समस्या में परिवर्तित किया जा सकता है।
उदाहरण के लिए, मान लें कि हमारे पास एक डेटा सेट है जिसमें तीन चर हैं: वर्ग फ़ुटेज, बाथरूम की संख्या और बिक्री मूल्य।
हम बिक्री मूल्यों की भविष्यवाणी करने के लिए वर्ग फुटेज और बाथरूमों की संख्या का उपयोग करके एक प्रतिगमन मॉडल बना सकते हैं।
हालाँकि, हम बिक्री मूल्य को तीन अलग-अलग वर्गों में विभाजित कर सकते हैं:
- $80,000 – $160,000: “कम बिक्री मूल्य”
- $161,000 – $240,000: “औसत बिक्री मूल्य”
- $241,000 – $320,000: “उच्च विक्रय मूल्य”
फिर हम वर्गाकार फ़ुटेज और बाथरूमों की संख्या का उपयोग व्याख्यात्मक चर के रूप में यह अनुमान लगाने के लिए कर सकते हैं कि किसी दिए गए घर का बिक्री मूल्य किस वर्ग (निम्न, मध्यम या उच्च) में आएगा।
यह एक वर्गीकरण मॉडल का एक उदाहरण होगा क्योंकि हम प्रत्येक घर को एक वर्ग में रखने की कोशिश कर रहे हैं।
सारांश
निम्नलिखित तालिका प्रतिगमन और वर्गीकरण एल्गोरिदम के बीच समानताएं और अंतर का सारांश प्रस्तुत करती है: