F1 स्कोर बनाम सटीकता: आपको किसका उपयोग करना चाहिए?


मशीन लर्निंग में वर्गीकरण मॉडल का उपयोग करते समय, मॉडल की गुणवत्ता का मूल्यांकन करने के लिए हम अक्सर दो मीट्रिक का उपयोग करते हैं जो एफ 1 स्कोर और सटीकता हैं।

दोनों मेट्रिक्स के लिए, मूल्य जितना अधिक होगा, एक मॉडल टिप्पणियों को कक्षाओं में वर्गीकृत करने में उतना ही अधिक सक्षम होगा।

हालाँकि, प्रत्येक मीट्रिक की गणना एक अलग सूत्र का उपयोग करके की जाती है और इसका उपयोग करने के फायदे और नुकसान हैं।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में प्रत्येक मीट्रिक की गणना कैसे करें।

उदाहरण: F1 स्कोर और सटीकता की गणना

मान लीजिए कि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि 400 अलग-अलग कॉलेज बास्केटबॉल खिलाड़ियों को एनबीए में शामिल किया जाएगा या नहीं।

निम्नलिखित भ्रम मैट्रिक्स मॉडल द्वारा की गई भविष्यवाणियों का सारांश प्रस्तुत करता है:

यहां बताया गया है कि कन्फ्यूजन मैट्रिक्स के लिए विभिन्न मेट्रिक्स की गणना कैसे करें:

सटीकता: कुल सकारात्मक भविष्यवाणियों के सापेक्ष सही सकारात्मक भविष्यवाणियां

  • सटीकता = सच्चा सकारात्मक / (सच्चा सकारात्मक + गलत सकारात्मक)
  • सटीकता = 120 / (120 + 70)
  • सटीकता = 0.63

अनुस्मारक: कुल वास्तविक सकारात्मकताओं के विरुद्ध सकारात्मक भविष्यवाणियों को सही करें

  • स्मरण = सच्चा सकारात्मक / (सच्चा सकारात्मक + गलत नकारात्मक)
  • स्मरण = 120 / (120 + 40)
  • स्मरण = 0.75

सटीकता: सही ढंग से वर्गीकृत सभी अवलोकनों का प्रतिशत

  • सटीकता = (सच्चा सकारात्मक + सच्चा नकारात्मक) / (कुल नमूना आकार)
  • सटीकता = (120 + 170) / (400)
  • सटीकता = 0.725

F1 स्कोर: परिशुद्धता और रिकॉल का हार्मोनिक औसत

  • एफ1 स्कोर = 2 * (प्रिसिजन * रिकॉल) / (प्रिसिजन + रिकॉल)
  • एफ1 स्कोर = 2 * (0.63 * 0.75) / (0.63 + 0.75)
  • एफ1 स्कोर = 0.685

एफ1 स्कोर बनाम सटीकता का उपयोग कब करें

F1 स्कोर और सटीकता का उपयोग करने के अपने फायदे और नुकसान हैं।

सटीकता :

प्रो : व्याख्या करना आसान है। यदि हम कहते हैं कि कोई मॉडल 90% सटीक है, तो हम जानते हैं कि इसने 90% अवलोकनों को सही ढंग से वर्गीकृत किया है।

नुकसान : इस बात पर ध्यान नहीं दिया जाता कि डेटा कैसे वितरित किया जाता है। उदाहरण के लिए, मान लें कि सभी खिलाड़ियों में से 90% को एनबीए में शामिल नहीं किया गया है। यदि हमारे पास एक ऐसा मॉडल होता जो केवल यह भविष्यवाणी करता कि प्रत्येक खिलाड़ी बिना ड्राफ्ट के जाएगा, तो वह मॉडल 90% खिलाड़ियों के लिए परिणाम की सही भविष्यवाणी करेगा। यह मान अधिक लगता है, लेकिन मॉडल वास्तव में सही ढंग से भविष्यवाणी करने में असमर्थ है कि किन खिलाड़ियों को ड्राफ्ट किया जाएगा।

F1 परिणाम :

प्रो : विचार करें कि डेटा कैसे वितरित किया जाता है। उदाहरण के लिए, यदि डेटा अत्यधिक असंतुलित है (उदाहरण के लिए सभी खिलाड़ियों में से 90% अप्रयुक्त हैं और 10% हैं), तो एफ1 स्कोर मॉडल के प्रदर्शन का बेहतर मूल्यांकन प्रदान करेगा।

हानि : व्याख्या करना अधिक कठिन। F1 स्कोर सटीकता और मॉडल रिकॉल का मिश्रण है, जिससे इसकी व्याख्या करना थोड़ा अधिक कठिन हो जाता है।

आम तौर पर:

जब कक्षाएं संतुलित होती हैं तो हम अक्सर सटीकता का उपयोग करते हैं और झूठी नकारात्मक भविष्यवाणी करने में कोई बड़ा नुकसान नहीं होता है।

हम अक्सर F1 स्कोर का उपयोग करते हैं जब कक्षाएं असंतुलित होती हैं और झूठी नकारात्मक भविष्यवाणी करने में गंभीर नुकसान होता है।

उदाहरण के लिए, यदि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि किसी व्यक्ति को कैंसर है या नहीं, तो झूठी नकारात्मक बातें वास्तव में खराब होती हैं (उदाहरण के लिए यह भविष्यवाणी करना कि किसी व्यक्ति को कैंसर नहीं है जबकि वास्तव में ऐसा है) इसलिए एफ1 स्कोर उन मॉडलों को दंडित करेगा जिनके पास कैंसर है बहुत सारी झूठी नकारात्मक बातें। परिशुद्धता से अधिक.

अतिरिक्त संसाधन

प्रतिगमन बनाम वर्गीकरण: क्या अंतर है?
लॉजिस्टिक रिग्रेशन का परिचय
आर में लॉजिस्टिक रिग्रेशन कैसे करें
पायथन में लॉजिस्टिक रिग्रेशन कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *