मशीन लर्निंग में वर्गीकरण त्रुटि दर: परिभाषा और उदाहरण

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 19, 2023 मार्गदर्शक शून्य टिप्पणियां

मशीन लर्निंग में, गलत वर्गीकरण दर एक मीट्रिक है जो हमें उन टिप्पणियों का प्रतिशत बताती है जिनकी वर्गीकरण मॉडल द्वारा गलत भविष्यवाणी की गई थी।

इसकी गणना इस प्रकार की जाती है:

ग़लत वर्गीकरण दर = # ग़लत भविष्यवाणियाँ / # कुल भविष्यवाणियाँ

गलत वर्गीकरण दर का मान 0 से 1 तक भिन्न हो सकता है जहां:

0 एक ऐसे मॉडल का प्रतिनिधित्व करता है जिसकी कोई गलत भविष्यवाणी नहीं थी।
1 एक ऐसे मॉडल का प्रतिनिधित्व करता है जिसकी भविष्यवाणियाँ पूरी तरह से गलत थीं।

गलत वर्गीकरण दर का मूल्य जितना कम होगा, वर्गीकरण मॉडल उतना ही बेहतर प्रतिक्रिया चर के परिणामों की भविष्यवाणी करने में सक्षम होगा।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में लॉजिस्टिक रिग्रेशन मॉडल के लिए वर्गीकरण त्रुटि दर की गणना कैसे करें।

उदाहरण: लॉजिस्टिक रिग्रेशन मॉडल के लिए वर्गीकरण त्रुटि दर की गणना

मान लीजिए कि हम यह अनुमान लगाने के लिए एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करते हैं कि 400 अलग-अलग कॉलेज बास्केटबॉल खिलाड़ियों को एनबीए में शामिल किया जाएगा या नहीं।

निम्नलिखित भ्रम मैट्रिक्स मॉडल द्वारा की गई भविष्यवाणियों का सारांश प्रस्तुत करता है:

लॉजिस्टिक रिग्रेशन मॉडल की गलत वर्गीकरण दर की गणना करें

मॉडल के लिए वर्गीकरण त्रुटि दर की गणना कैसे करें:

ग़लत वर्गीकरण दर = # ग़लत भविष्यवाणियाँ / # कुल भविष्यवाणियाँ
वर्गीकरण त्रुटि दर = (गलत सकारात्मक + गलत नकारात्मक) / (कुल भविष्यवाणियाँ)
गलत वर्गीकरण दर = (70 + 40) / (400)
ग़लत वर्गीकरण दर = 0.275

इस मॉडल के लिए वर्गीकरण त्रुटि दर 0.275 या 27.5% है।

इसका मतलब यह है कि मॉडल ने 27.5% खिलाड़ियों के परिणाम की गलत भविष्यवाणी की।

वर्गीकरण त्रुटि दर के विपरीत सटीकता होगी, जिसकी गणना निम्नानुसार की जाती है:

सटीकता = 1 – वर्गीकरण त्रुटि दर
सटीकता = 1 – 0.275
सटीकता = 0.725

इसका मतलब यह है कि मॉडल ने 72.5% खिलाड़ियों के परिणाम की सही भविष्यवाणी की है।

गलत वर्गीकरण दर के फायदे और नुकसान

गलत वर्गीकरण दर निम्नलिखित लाभ प्रदान करती है:

इसकी व्याख्या करना आसान है . 10% की वर्गीकरण त्रुटि दर का मतलब है कि एक मॉडल ने कुल टिप्पणियों के 10% के लिए गलत भविष्यवाणी की है।
इसकी गणना करना आसान है . ग़लत वर्गीकरण दर की गणना गलत भविष्यवाणियों की कुल संख्या को पूर्वानुमानों की कुल संख्या से विभाजित करके की जाती है।

हालाँकि, वर्गीकरण त्रुटि दर के निम्नलिखित नुकसान हैं:

इसमें इस बात पर ध्यान नहीं दिया जाता कि डेटा कैसे वितरित किया जाता है । उदाहरण के लिए, मान लें कि सभी खिलाड़ियों में से 90% को एनबीए में शामिल नहीं किया गया है। यदि हमारे पास एक मॉडल होता जो केवल यह भविष्यवाणी करता कि प्रत्येक खिलाड़ी बिना ड्राफ्ट के जाएगा, तो मॉडल में वर्गीकरण त्रुटि दर केवल 10% होगी। यह कम लगता है, लेकिन मॉडल वास्तव में उस खिलाड़ी का सही अनुमान लगाने में असमर्थ है जिसे ड्राफ्ट किया जाएगा।

व्यवहार में, हम अक्सर अन्य मैट्रिक्स के साथ एक मॉडल की वर्गीकरण त्रुटि दर की गणना करते हैं जैसे:

संवेदनशीलता : “सच्ची सकारात्मक दर” – सकारात्मक परिणामों का प्रतिशत जो मॉडल पता लगाने में सक्षम है।
विशिष्टता : “सच्ची नकारात्मक दर” – नकारात्मक परिणामों का प्रतिशत जो मॉडल पता लगाने में सक्षम है।
एफ1 स्कोर : एक मीट्रिक जो हमें बताती है कि डेटा कैसे वितरित किया जाता है, उसके सापेक्ष मॉडल कितना सटीक है।

इनमें से प्रत्येक मेट्रिक्स के मूल्य की गणना करके, हम पूरी तरह से समझ सकते हैं कि मॉडल कितनी अच्छी तरह भविष्यवाणी करने में सक्षम है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल सामान्य मशीन लर्निंग अवधारणाओं पर अतिरिक्त जानकारी प्रदान करते हैं:

लॉजिस्टिक रिग्रेशन का परिचय
संतुलित सटीकता क्या है?
F1 स्कोर बनाम सटीकता: आपको किसका उपयोग करना चाहिए?

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने

उदाहरण: लॉजिस्टिक रिग्रेशन मॉडल के लिए वर्गीकरण त्रुटि दर की गणना

गलत वर्गीकरण दर के फायदे और नुकसान

अतिरिक्त संसाधन

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

एक टिप्पणी जोड़ने