लॉजिस्टिक रिग्रेशन मॉडल के सी सांख्यिकी की व्याख्या कैसे करें
यह ट्यूटोरियल लॉजिस्टिक रिग्रेशन मॉडल के सी स्टेटिस्टिक की व्याख्या करने के तरीके पर एक सरल स्पष्टीकरण प्रदान करता है।
लॉजिस्टिक रिग्रेशन क्या है?
लॉजिस्टिक रिग्रेशन एक सांख्यिकीय पद्धति है जिसका उपयोग हम रिग्रेशन मॉडल को फिट करने के लिए करते हैं जब प्रतिक्रिया चर द्विआधारी होता है। यहां लॉजिस्टिक रिग्रेशन का उपयोग करने के कुछ उदाहरण दिए गए हैं:
- हम जानना चाहते हैं कि व्यायाम, आहार और वजन दिल का दौरा पड़ने की संभावना पर कैसे प्रभाव डालते हैं। प्रतिक्रिया चर दिल का दौरा है और इसके दो संभावित परिणाम हैं: दिल का दौरा पड़ता है या नहीं होता है।
- हम जानना चाहते हैं कि जीपीए, एसीटी स्कोर और एपी पाठ्यक्रमों की संख्या किसी विशेष विश्वविद्यालय में स्वीकार किए जाने की संभावना को कैसे प्रभावित करती है। प्रतिक्रिया चर स्वीकृति है और इसके दो संभावित परिणाम हैं: स्वीकृत या स्वीकृत नहीं।
- हम जानना चाहते हैं कि क्या शब्द गणना और ईमेल शीर्षक किसी ईमेल के स्पैम होने की संभावना को प्रभावित करते हैं। प्रतिक्रिया चर स्पैम है और इसके दो संभावित परिणाम हैं: स्पैम या स्पैम नहीं।
ध्यान दें कि भविष्यवक्ता चर संख्यात्मक या श्रेणीबद्ध हो सकते हैं; महत्वपूर्ण बात यह है कि प्रतिक्रिया चर द्विआधारी है। जब यह मामला होता है, तो भविष्यवक्ता चर और प्रतिक्रिया चर के बीच संबंध को समझाने के लिए लॉजिस्टिक रिग्रेशन एक उपयुक्त मॉडल है।
लॉजिस्टिक रिग्रेशन मॉडल की पर्याप्तता का आकलन कैसे करें
एक बार जब हम एक लॉजिस्टिक रिग्रेशन मॉडल को डेटा सेट में फिट करते हैं, तो हम अक्सर इस बात में रुचि रखते हैं कि मॉडल डेटा को कितनी अच्छी तरह फिट करता है। विशेष रूप से, हम सकारात्मक और नकारात्मक परिणामों की सटीक भविष्यवाणी करने की मॉडल की क्षमता में रुचि रखते हैं।
संवेदनशीलता इस संभावना को संदर्भित करती है कि मॉडल किसी अवलोकन के लिए सकारात्मक परिणाम की भविष्यवाणी करता है जब परिणाम वास्तव में सकारात्मक होता है।
विशिष्टता इस संभावना को संदर्भित करती है कि मॉडल किसी अवलोकन के लिए नकारात्मक परिणाम की भविष्यवाणी करता है जब परिणाम वास्तव में नकारात्मक होता है।
एक लॉजिस्टिक रिग्रेशन मॉडल अवलोकनों को वर्गीकृत करने के लिए एकदम सही है यदि इसमें 100% संवेदनशीलता और विशिष्टता है, लेकिन व्यवहार में ऐसा लगभग कभी नहीं होता है।
एक बार जब हम लॉजिस्टिक रिग्रेशन मॉडल फिट कर लेते हैं, तो इसका उपयोग इस संभावना की गणना करने के लिए किया जा सकता है कि किसी दिए गए अवलोकन का भविष्यवक्ता चर के मूल्यों के आधार पर सकारात्मक परिणाम होगा।
यह निर्धारित करने के लिए कि क्या किसी अवलोकन को सकारात्मक के रूप में वर्गीकृत किया जाना चाहिए, हम एक सीमा चुन सकते हैं जैसे कि सीमा के ऊपर समायोजित संभावना वाले अवलोकनों को सकारात्मक के रूप में वर्गीकृत किया जाता है और सीमा के नीचे समायोजित संभावना वाले सभी अवलोकनों को नकारात्मक के रूप में वर्गीकृत किया जाता है। .
उदाहरण के लिए, मान लीजिए कि हम 0.5 की सीमा चुनते हैं। इसका मतलब यह है कि 0.5 से अधिक समायोजित संभावना वाले किसी भी अवलोकन का सकारात्मक परिणाम होगा, जबकि 0.5 से कम या उसके बराबर समायोजित संभावना वाले किसी भी अवलोकन का नकारात्मक परिणाम होगा।
आरओसी वक्र प्लॉट करना
किसी मॉडल की संवेदनशीलता बनाम विशिष्टता की कल्पना करने के सबसे आम तरीकों में से एक रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक ( आरओसी ) वक्र को प्लॉट करना है, जो थ्रेशोल्ड के मूल्य के रूप में संवेदनशीलता मान बनाम विशिष्टता 1 का एक प्लॉट है। बिंदु 0 से 1 तक जाता है:
उच्च संवेदनशीलता और विशिष्टता वाले मॉडल में एक आरओसी वक्र होगा जो प्लॉट के ऊपरी बाएं कोने में फिट बैठता है। कम संवेदनशीलता और कम विशिष्टता वाले मॉडल में 45 डिग्री विकर्ण के करीब एक वक्र होगा।
एयूसी (वक्र के नीचे का क्षेत्र) हमें सकारात्मक और नकारात्मक परिणामों के बीच अंतर करने की मॉडल की क्षमता का अंदाजा देता है। AUC 0 से 1 तक हो सकता है। AUC जितना अधिक होगा, मॉडल परिणामों को सही ढंग से वर्गीकृत करने में उतना ही बेहतर होगा।
इसका मतलब यह है कि आरओसी वक्र वाला एक मॉडल जो प्लॉट के ऊपरी बाएं कोने को कवर करता है, उसके पास वक्र के नीचे एक उच्च क्षेत्र होगा और इसलिए यह एक ऐसा मॉडल होगा जो परिणामों को सही ढंग से वर्गीकृत करने का अच्छा काम करता है। इसके विपरीत, आरओसी वक्र वाला एक मॉडल जो 45 डिग्री विकर्ण को गले लगाता है, वक्र के नीचे एक कम क्षेत्र होगा और इसलिए यह एक ऐसा मॉडल होगा जो परिणामों को वर्गीकृत करने का अच्छा काम नहीं करता है।
सी सांख्यिकी को समझना
सी आँकड़ा , जिसे समवर्ती आँकड़ा भी कहा जाता है, एयूसी (वक्र के नीचे का क्षेत्र) के बराबर है और इसकी निम्नलिखित व्याख्याएँ हैं:
- 0.5 से कम मान खराब मॉडल को दर्शाता है।
- 0.5 का मान इंगित करता है कि मॉडल संयोग से परिणामों को वर्गीकृत करने में बेहतर नहीं है।
- मान 1 के जितना करीब होगा, मॉडल उतना ही अधिक परिणामों को सही ढंग से वर्गीकृत करने में सक्षम होगा।
- 1 के मान का मतलब है कि मॉडल परिणामों को वर्गीकृत करने के लिए एकदम सही है।
तो, एक सी आँकड़ा हमें यह अंदाज़ा देता है कि परिणामों को सही ढंग से वर्गीकृत करने में एक मॉडल कितना प्रभावी है।
एक नैदानिक सेटिंग में, व्यक्तियों के सभी संभावित जोड़े को लेकर सी सांख्यिकी की गणना करना संभव है, यानी एक व्यक्ति जिसने सकारात्मक परिणाम का अनुभव किया और एक व्यक्ति जिसने नकारात्मक परिणाम का अनुभव किया। फिर सी सांख्यिकी की गणना ऐसे जोड़ों के अनुपात के रूप में की जा सकती है जिसमें जिस व्यक्ति ने सकारात्मक परिणाम का अनुभव किया था, उस व्यक्ति की तुलना में परिणाम का अनुभव करने की अनुमानित संभावना अधिक थी जिसने सकारात्मक परिणाम का अनुभव नहीं किया था।
उदाहरण के लिए, मान लीजिए कि हम दिल के दौरे की संभावना का अनुमान लगाने के लिए उम्र और रक्तचाप जैसे भविष्यवक्ता चर का उपयोग करके एक लॉजिस्टिक रिग्रेशन मॉडल फिट करते हैं।
मॉडल के सी-स्टेटिस्टिक्स को खोजने के लिए, हम व्यक्तियों के सभी संभावित जोड़ों की पहचान करने में सक्षम थे, जिसमें एक व्यक्ति शामिल था जिसे दिल का दौरा पड़ा था और एक व्यक्ति जिसे दिल का दौरा नहीं पड़ा था। फिर सी सांख्यिकी की गणना इन जोड़ियों के अनुपात के रूप में की जा सकती है, जिसमें जिस व्यक्ति को दिल का दौरा पड़ा, उसे वास्तव में दिल का दौरा पड़ने की संभावना उस व्यक्ति की तुलना में अधिक थी, जिसे दिल का दौरा नहीं पड़ा था। दिल का दौरा।
निष्कर्ष
इस लेख में हमने निम्नलिखित सीखा:
- लॉजिस्टिक रिग्रेशन एक सांख्यिकीय पद्धति है जिसका उपयोग हम रिग्रेशन मॉडल को फिट करने के लिए करते हैं जब प्रतिक्रिया चर द्विआधारी होता है।
- लॉजिस्टिक रिग्रेशन मॉडल की फिट की अच्छाई का आकलन करने के लिए, हम संवेदनशीलता और विशिष्टता को देख सकते हैं, जो हमें बताती है कि मॉडल परिणामों को सही ढंग से वर्गीकृत करने में कितनी अच्छी तरह सक्षम है।
- संवेदनशीलता और विशिष्टता की कल्पना करने के लिए, हम एक आरओसी वक्र बना सकते हैं।
- एयूसी (वक्र के नीचे का क्षेत्र) इंगित करता है कि मॉडल परिणामों को सही ढंग से वर्गीकृत करने में कितना सक्षम है। जब एक आरओसी वक्र प्लॉट के ऊपरी बाएं कोने को छूता है, तो यह इंगित करता है कि मॉडल परिणामों को सफलतापूर्वक वर्गीकृत कर रहा है।
- सी आँकड़ा एयूसी (वक्र के नीचे का क्षेत्र) के बराबर है और इसकी गणना व्यक्तियों के सभी संभावित जोड़े को लेकर भी की जा सकती है, यानी एक व्यक्ति जिसने सकारात्मक परिणाम का अनुभव किया और एक व्यक्ति जिसने नकारात्मक परिणाम का अनुभव किया। फिर, सी आँकड़ा ऐसे जोड़ों का अनुपात है जिसमें जिस व्यक्ति ने सकारात्मक परिणाम का अनुभव किया था, उस व्यक्ति की तुलना में परिणाम का अनुभव करने की अनुमानित संभावना अधिक थी जिसने सकारात्मक परिणाम का अनुभव नहीं किया था।
- C आँकड़ा 1 के जितना करीब होता है, मॉडल उतना ही अधिक सही ढंग से परिणामों को वर्गीकृत करने में सक्षम होता है।