"अच्छा" क्या है? मशीन लर्निंग मॉडल के लिए सटीकता?


मशीन लर्निंग में वर्गीकरण मॉडल का उपयोग करते समय, मॉडल की गुणवत्ता का मूल्यांकन करने के लिए हम अक्सर एक मीट्रिक का उपयोग करते हैं वह सटीकता है।

परिशुद्धता केवल मॉडल द्वारा सही ढंग से वर्गीकृत सभी अवलोकनों का प्रतिशत है।

इसकी गणना इस प्रकार की जाती है:

सटीकता = (# सच्चे सकारात्मक + # सच्चे नकारात्मक) / (कुल नमूना आकार)

सटीकता के बारे में छात्र अक्सर एक प्रश्न पूछते हैं:

मशीन लर्निंग मॉडल की सटीकता के लिए “अच्छा” मान क्या माना जाता है?

हालाँकि किसी मॉडल की सटीकता 0% और 100% के बीच भिन्न हो सकती है, ऐसी कोई सार्वभौमिक सीमा नहीं है जिसका उपयोग हम यह निर्धारित करने के लिए करते हैं कि किसी मॉडल में “अच्छी” सटीकता है या नहीं।

इसके बजाय, हम आम तौर पर अपने मॉडल की सटीकता की तुलना संदर्भ मॉडल से करते हैं।

एक बेसलाइन मॉडल बस यह भविष्यवाणी करता है कि डेटा सेट में प्रत्येक अवलोकन सबसे सामान्य वर्ग से संबंधित है।

व्यवहार में, संदर्भ मॉडल की तुलना में अधिक सटीकता वाले किसी भी वर्गीकरण मॉडल को “उपयोगी” माना जा सकता है, लेकिन जाहिर तौर पर हमारे मॉडल और संदर्भ मॉडल के बीच सटीकता में अंतर जितना अधिक होगा, उतना बेहतर होगा।

निम्नलिखित उदाहरण दिखाता है कि मोटे तौर पर यह कैसे निर्धारित किया जाए कि वर्गीकरण मॉडल में “अच्छी” सटीकता है या नहीं।

उदाहरण: यह निर्धारित करना कि किसी मॉडल में “अच्छी” सटीकता है या नहीं

मान लीजिए कि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि 400 अलग-अलग कॉलेज बास्केटबॉल खिलाड़ियों को एनबीए में शामिल किया जाएगा या नहीं।

निम्नलिखित भ्रम मैट्रिक्स मॉडल द्वारा की गई भविष्यवाणियों का सारांश प्रस्तुत करता है:

इस मॉडल की सटीकता की गणना कैसे करें:

  • सटीकता = (# सच्चे सकारात्मक + # सच्चे नकारात्मक) / (कुल नमूना आकार)
  • सटीकता = (120 + 170) / (400)
  • सटीकता = 0.725

मॉडल ने 72.5% खिलाड़ियों के परिणाम की सही भविष्यवाणी की।

यह अंदाजा लगाने के लिए कि सटीकता “अच्छी” है या नहीं, हम बेसलाइन मॉडल की सटीकता की गणना कर सकते हैं।

इस उदाहरण में, खिलाड़ियों के लिए सबसे आम परिणाम अधूरा रह जाना था। विशेष रूप से, 400 में से 240 खिलाड़ी बिना ड्राफ्ट के रह गए।

एक बुनियादी मॉडल वह होगा जो केवल भविष्यवाणी करता है कि प्रत्येक खिलाड़ी बिना ड्राफ्ट के जाएगा।

इस मॉडल की सटीकता की गणना निम्नानुसार की जाएगी:

  • सटीकता = (# सच्चे सकारात्मक + # सच्चे नकारात्मक) / (कुल नमूना आकार)
  • सटीकता = (0 + 240) / (400)
  • सटीकता = 0.6

यह बुनियादी मॉडल 60% खिलाड़ियों के परिणाम की सही भविष्यवाणी करेगा।

इस परिदृश्य में, हमारा लॉजिस्टिक रिग्रेशन मॉडल बेसलाइन मॉडल की तुलना में सटीकता में उल्लेखनीय सुधार प्रदान करता है, इसलिए हम अपने मॉडल को कम से कम “उपयोगी” मानते हैं।

व्यवहार में, हम संभवतः कई अलग-अलग वर्गीकरण मॉडल फिट करेंगे और अंतिम मॉडल को उस मॉडल के रूप में चुनेंगे जो बेसलाइन मॉडल की तुलना में सटीकता में सबसे बड़ा लाभ प्रदान करता है।

मॉडल प्रदर्शन का मूल्यांकन करने के लिए सटीकता का उपयोग करने के लिए सावधानियां

परिशुद्धता आमतौर पर इस्तेमाल की जाने वाली मीट्रिक है क्योंकि इसकी व्याख्या करना आसान है।

उदाहरण के लिए, यदि हम कहते हैं कि एक मॉडल 90% सटीक है, तो हम जानते हैं कि इसने 90% अवलोकनों को सही ढंग से वर्गीकृत किया है।

हालाँकि, सटीकता इस बात पर ध्यान नहीं देती है कि डेटा कैसे वितरित किया जाता है।

उदाहरण के लिए, मान लें कि सभी खिलाड़ियों में से 90% को एनबीए में शामिल नहीं किया गया है। यदि हमारे पास एक ऐसा मॉडल होता जो केवल यह भविष्यवाणी करता कि प्रत्येक खिलाड़ी बिना ड्राफ्ट के जाएगा, तो वह मॉडल 90% खिलाड़ियों के लिए परिणाम की सही भविष्यवाणी करेगा।

यह मान अधिक लगता है, लेकिन मॉडल वास्तव में सही ढंग से भविष्यवाणी करने में असमर्थ है कि किन खिलाड़ियों को ड्राफ्ट किया जाएगा।

अक्सर उपयोग की जाने वाली वैकल्पिक मीट्रिक को F1 स्कोर कहा जाता है, जो इस बात को ध्यान में रखता है कि डेटा कैसे वितरित किया जाता है।

उदाहरण के लिए, यदि डेटा अत्यधिक असंतुलित है (उदाहरण के लिए सभी खिलाड़ियों में से 90% अप्रयुक्त हैं और 10% हैं), तो एफ1 स्कोर मॉडल के प्रदर्शन का बेहतर मूल्यांकन प्रदान करेगा।

सटीकता और F1 स्कोर के बीच अंतर के बारे में यहां और जानें।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल मशीन लर्निंग वर्गीकरण मॉडल में प्रयुक्त मेट्रिक्स के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

संतुलित सटीकता क्या है?
‘अच्छा’ F1 स्कोर क्या माना जाता है?

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *