मशीन लर्निंग में वर्गीकरण त्रुटि दर: परिभाषा और उदाहरण
मशीन लर्निंग में, गलत वर्गीकरण दर एक मीट्रिक है जो हमें उन टिप्पणियों का प्रतिशत बताती है जिनकी वर्गीकरण मॉडल द्वारा गलत भविष्यवाणी की गई थी।
इसकी गणना इस प्रकार की जाती है:
ग़लत वर्गीकरण दर = # ग़लत भविष्यवाणियाँ / # कुल भविष्यवाणियाँ
गलत वर्गीकरण दर का मान 0 से 1 तक भिन्न हो सकता है जहां:
- 0 एक ऐसे मॉडल का प्रतिनिधित्व करता है जिसकी कोई गलत भविष्यवाणी नहीं थी।
- 1 एक ऐसे मॉडल का प्रतिनिधित्व करता है जिसकी भविष्यवाणियाँ पूरी तरह से गलत थीं।
गलत वर्गीकरण दर का मूल्य जितना कम होगा, वर्गीकरण मॉडल उतना ही बेहतर प्रतिक्रिया चर के परिणामों की भविष्यवाणी करने में सक्षम होगा।
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में लॉजिस्टिक रिग्रेशन मॉडल के लिए वर्गीकरण त्रुटि दर की गणना कैसे करें।
उदाहरण: लॉजिस्टिक रिग्रेशन मॉडल के लिए वर्गीकरण त्रुटि दर की गणना
मान लीजिए कि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि 400 अलग-अलग कॉलेज बास्केटबॉल खिलाड़ियों को एनबीए में शामिल किया जाएगा या नहीं।
निम्नलिखित भ्रम मैट्रिक्स मॉडल द्वारा की गई भविष्यवाणियों का सारांश प्रस्तुत करता है:
मॉडल के लिए वर्गीकरण त्रुटि दर की गणना कैसे करें:
- ग़लत वर्गीकरण दर = # ग़लत भविष्यवाणियाँ / # कुल भविष्यवाणियाँ
- वर्गीकरण त्रुटि दर = (गलत सकारात्मक + गलत नकारात्मक) / (कुल भविष्यवाणियाँ)
- गलत वर्गीकरण दर = (70 + 40) / (400)
- ग़लत वर्गीकरण दर = 0.275
इस मॉडल के लिए वर्गीकरण त्रुटि दर 0.275 या 27.5% है।
इसका मतलब यह है कि मॉडल ने 27.5% खिलाड़ियों के परिणाम की गलत भविष्यवाणी की।
वर्गीकरण त्रुटि दर के विपरीत सटीकता होगी, जिसकी गणना निम्नानुसार की जाती है:
- सटीकता = 1 – वर्गीकरण त्रुटि दर
- सटीकता = 1 – 0.275
- सटीकता = 0.725
इसका मतलब यह है कि मॉडल ने 72.5% खिलाड़ियों के परिणाम की सही भविष्यवाणी की है।
गलत वर्गीकरण दर के फायदे और नुकसान
गलत वर्गीकरण दर निम्नलिखित लाभ प्रदान करती है:
- इसकी व्याख्या करना आसान है . 10% की वर्गीकरण त्रुटि दर का मतलब है कि एक मॉडल ने कुल टिप्पणियों के 10% के लिए गलत भविष्यवाणी की है।
- इसकी गणना करना आसान है . ग़लत वर्गीकरण दर की गणना गलत भविष्यवाणियों की कुल संख्या को पूर्वानुमानों की कुल संख्या से विभाजित करके की जाती है।
हालाँकि, वर्गीकरण त्रुटि दर के निम्नलिखित नुकसान हैं:
- इसमें इस बात पर ध्यान नहीं दिया जाता कि डेटा कैसे वितरित किया जाता है । उदाहरण के लिए, मान लें कि सभी खिलाड़ियों में से 90% को एनबीए में शामिल नहीं किया गया है। यदि हमारे पास एक मॉडल होता जो केवल यह भविष्यवाणी करता कि प्रत्येक खिलाड़ी बिना ड्राफ्ट के जाएगा, तो मॉडल में वर्गीकरण त्रुटि दर केवल 10% होगी। यह कम लगता है, लेकिन मॉडल वास्तव में उस खिलाड़ी का सही अनुमान लगाने में असमर्थ है जिसे ड्राफ्ट किया जाएगा।
व्यवहार में, हम अक्सर अन्य मैट्रिक्स के साथ एक मॉडल की वर्गीकरण त्रुटि दर की गणना करते हैं जैसे:
- संवेदनशीलता : “सच्ची सकारात्मक दर” – सकारात्मक परिणामों का प्रतिशत जो मॉडल पता लगाने में सक्षम है।
- विशिष्टता : “सच्ची नकारात्मक दर” – नकारात्मक परिणामों का प्रतिशत जो मॉडल पता लगाने में सक्षम है।
- एफ1 स्कोर : एक मीट्रिक जो हमें बताती है कि डेटा कैसे वितरित किया जाता है, उसके सापेक्ष मॉडल कितना सटीक है।
इनमें से प्रत्येक मेट्रिक्स के मूल्य की गणना करके, हम पूरी तरह से समझ सकते हैं कि मॉडल कितनी अच्छी तरह भविष्यवाणी करने में सक्षम है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल सामान्य मशीन लर्निंग अवधारणाओं पर अतिरिक्त जानकारी प्रदान करते हैं:
लॉजिस्टिक रिग्रेशन का परिचय
संतुलित सटीकता क्या है?
F1 स्कोर बनाम सटीकता: आपको किसका उपयोग करना चाहिए?