F1 स्कोर बनाम सटीकता: आपको किसका उपयोग करना चाहिए?
मशीन लर्निंग में वर्गीकरण मॉडल का उपयोग करते समय, मॉडल की गुणवत्ता का मूल्यांकन करने के लिए हम अक्सर दो मीट्रिक का उपयोग करते हैं जो एफ 1 स्कोर और सटीकता हैं।
दोनों मेट्रिक्स के लिए, मूल्य जितना अधिक होगा, एक मॉडल टिप्पणियों को कक्षाओं में वर्गीकृत करने में उतना ही अधिक सक्षम होगा।
हालाँकि, प्रत्येक मीट्रिक की गणना एक अलग सूत्र का उपयोग करके की जाती है और इसका उपयोग करने के फायदे और नुकसान हैं।
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में प्रत्येक मीट्रिक की गणना कैसे करें।
उदाहरण: F1 स्कोर और सटीकता की गणना
मान लीजिए कि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि 400 अलग-अलग कॉलेज बास्केटबॉल खिलाड़ियों को एनबीए में शामिल किया जाएगा या नहीं।
निम्नलिखित भ्रम मैट्रिक्स मॉडल द्वारा की गई भविष्यवाणियों का सारांश प्रस्तुत करता है:
यहां बताया गया है कि कन्फ्यूजन मैट्रिक्स के लिए विभिन्न मेट्रिक्स की गणना कैसे करें:
सटीकता: कुल सकारात्मक भविष्यवाणियों के सापेक्ष सही सकारात्मक भविष्यवाणियां
- सटीकता = सच्चा सकारात्मक / (सच्चा सकारात्मक + गलत सकारात्मक)
- सटीकता = 120 / (120 + 70)
- सटीकता = 0.63
अनुस्मारक: कुल वास्तविक सकारात्मकताओं के विरुद्ध सकारात्मक भविष्यवाणियों को सही करें
- स्मरण = सच्चा सकारात्मक / (सच्चा सकारात्मक + गलत नकारात्मक)
- स्मरण = 120 / (120 + 40)
- स्मरण = 0.75
सटीकता: सही ढंग से वर्गीकृत सभी अवलोकनों का प्रतिशत
- सटीकता = (सच्चा सकारात्मक + सच्चा नकारात्मक) / (कुल नमूना आकार)
- सटीकता = (120 + 170) / (400)
- सटीकता = 0.725
F1 स्कोर: परिशुद्धता और रिकॉल का हार्मोनिक औसत
- एफ1 स्कोर = 2 * (प्रिसिजन * रिकॉल) / (प्रिसिजन + रिकॉल)
- एफ1 स्कोर = 2 * (0.63 * 0.75) / (0.63 + 0.75)
- एफ1 स्कोर = 0.685
एफ1 स्कोर बनाम सटीकता का उपयोग कब करें
F1 स्कोर और सटीकता का उपयोग करने के अपने फायदे और नुकसान हैं।
सटीकता :
प्रो : व्याख्या करना आसान है। यदि हम कहते हैं कि कोई मॉडल 90% सटीक है, तो हम जानते हैं कि इसने 90% अवलोकनों को सही ढंग से वर्गीकृत किया है।
नुकसान : इस बात पर ध्यान नहीं दिया जाता कि डेटा कैसे वितरित किया जाता है। उदाहरण के लिए, मान लें कि सभी खिलाड़ियों में से 90% को एनबीए में शामिल नहीं किया गया है। यदि हमारे पास एक ऐसा मॉडल होता जो केवल यह भविष्यवाणी करता कि प्रत्येक खिलाड़ी बिना ड्राफ्ट के जाएगा, तो वह मॉडल 90% खिलाड़ियों के लिए परिणाम की सही भविष्यवाणी करेगा। यह मान अधिक लगता है, लेकिन मॉडल वास्तव में सही ढंग से भविष्यवाणी करने में असमर्थ है कि किन खिलाड़ियों को ड्राफ्ट किया जाएगा।
F1 परिणाम :
प्रो : विचार करें कि डेटा कैसे वितरित किया जाता है। उदाहरण के लिए, यदि डेटा अत्यधिक असंतुलित है (उदाहरण के लिए सभी खिलाड़ियों में से 90% अप्रयुक्त हैं और 10% हैं), तो एफ1 स्कोर मॉडल के प्रदर्शन का बेहतर मूल्यांकन प्रदान करेगा।
हानि : व्याख्या करना अधिक कठिन। F1 स्कोर सटीकता और मॉडल रिकॉल का मिश्रण है, जिससे इसकी व्याख्या करना थोड़ा अधिक कठिन हो जाता है।
आम तौर पर:
जब कक्षाएं संतुलित होती हैं तो हम अक्सर सटीकता का उपयोग करते हैं और झूठी नकारात्मक भविष्यवाणी करने में कोई बड़ा नुकसान नहीं होता है।
हम अक्सर F1 स्कोर का उपयोग करते हैं जब कक्षाएं असंतुलित होती हैं और झूठी नकारात्मक भविष्यवाणी करने में गंभीर नुकसान होता है।
उदाहरण के लिए, यदि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि किसी व्यक्ति को कैंसर है या नहीं, तो झूठी नकारात्मक बातें वास्तव में खराब होती हैं (उदाहरण के लिए यह भविष्यवाणी करना कि किसी व्यक्ति को कैंसर नहीं है जबकि वास्तव में ऐसा है) इसलिए एफ1 स्कोर उन मॉडलों को दंडित करेगा जिनके पास कैंसर है बहुत सारी झूठी नकारात्मक बातें। परिशुद्धता से अधिक.
अतिरिक्त संसाधन
प्रतिगमन बनाम वर्गीकरण: क्या अंतर है?
लॉजिस्टिक रिग्रेशन का परिचय
आर में लॉजिस्टिक रिग्रेशन कैसे करें
पायथन में लॉजिस्टिक रिग्रेशन कैसे करें