सांख्यिकीय मॉडल का उपयोग करके लॉजिस्टिक रिग्रेशन कैसे करें


पायथन का स्टैटमॉडल मॉड्यूल विभिन्न प्रकार के फ़ंक्शन और कक्षाएं प्रदान करता है जो आपको विभिन्न सांख्यिकीय मॉडल को अनुकूलित करने की अनुमति देता है।

निम्नलिखित चरण-दर-चरण उदाहरण दिखाता है कि स्टैटमॉडल फ़ंक्शंस का उपयोग करके लॉजिस्टिक रिग्रेशन कैसे करें।

चरण 1: डेटा बनाएं

सबसे पहले, आइए एक पांडा डेटाफ़्रेम बनाएं जिसमें तीन चर हों:

  • अध्ययन के घंटे (संपूर्ण मूल्य)
  • अध्ययन विधि (विधि ए या बी)
  • परीक्षा परिणाम (उत्तीर्ण या अनुत्तीर्ण)

हम अध्ययन किए गए घंटों और अध्ययन पद्धति का उपयोग करके एक लॉजिस्टिक रिग्रेशन मॉडल फिट करेंगे ताकि यह अनुमान लगाया जा सके कि कोई छात्र किसी दी गई परीक्षा में उत्तीर्ण होता है या नहीं।

निम्नलिखित कोड दिखाता है कि पांडा डेटाफ़्रेम कैसे बनाया जाए:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' result ': [0, 1, 0, 0, 0, 0, 0, 1, 1, 0,
                              0, 1, 1, 1, 0, 1, 1, 1, 1, 1],
                   ' hours ': [1, 2, 2, 2, 3, 2, 5, 4, 3, 6,
                            5, 8, 8, 7, 6, 7, 5, 4, 8, 9],
                   ' method ': ['A', 'A', 'A', 'B', 'B', 'B', 'B',
                             'B', 'B', 'A', 'B', 'A', 'B', 'B',
                             'A', 'A', 'B', 'A', 'B', 'A']})

#view first five rows of DataFrame
df. head ()

	result hours method
0 0 1 A
1 1 2 A
2 0 2 A
3 0 2 B
4 0 3 B

चरण 2: लॉजिस्टिक रिग्रेशन मॉडल को फिट करें

इसके बाद, हम logit() फ़ंक्शन का उपयोग करके लॉजिस्टिक रिग्रेशन मॉडल को फिट करेंगे:

 import statsmodels. formula . api as smf

#fit logistic regression model
model = smf. logit (' result~hours+method ', data=df). fit ()

#view model summary
print ( model.summary ())

Optimization completed successfully.
         Current function value: 0.557786
         Iterations 5
                           Logit Regression Results                           
==================================================== ============================
Dept. Variable: result No. Observations: 20
Model: Logit Df Residuals: 17
Method: MLE Df Model: 2
Date: Mon, 22 Aug 2022 Pseudo R-squ.: 0.1894
Time: 09:53:35 Log-Likelihood: -11.156
converged: True LL-Null: -13.763
Covariance Type: nonrobust LLR p-value: 0.07375
==================================================== ============================
                  coef std err z P>|z| [0.025 0.975]
-------------------------------------------------- -----------------------------
Intercept -2.1569 1.416 -1.523 0.128 -4.932 0.618
method[TB] 0.0875 1.051 0.083 0.934 -1.973 2.148
hours 0.4909 0.245 2.002 0.045 0.010 0.972
==================================================== ============================

आउटपुट के कॉफ़ कॉलम में मान हमें परीक्षा उत्तीर्ण करने की लॉग बाधाओं में औसत परिवर्तन बताते हैं।

उदाहरण के लिए:

  • अध्ययन विधि बी का उपयोग करने से अध्ययन विधि ए का उपयोग करने की तुलना में परीक्षा उत्तीर्ण करने की लॉग बाधाओं में 0.0875 की औसत वृद्धि हुई है।
  • अध्ययन किया गया प्रत्येक अतिरिक्त घंटा परीक्षा उत्तीर्ण करने की लॉग बाधाओं में 0.4909 की औसत वृद्धि से जुड़ा है।

P>|z| में मान कॉलम प्रत्येक गुणांक के लिए पी-मान का प्रतिनिधित्व करता है।

उदाहरण के लिए:

  • अध्ययन पद्धति का पी-वैल्यू 0.934 है। चूँकि यह मान 0.05 से कम नहीं है, इसका मतलब है कि अध्ययन किए गए घंटों और छात्र परीक्षा उत्तीर्ण करता है या नहीं, के बीच कोई सांख्यिकीय महत्वपूर्ण संबंध नहीं है।
  • अध्ययन किए गए घंटों का पी-मान 0.045 है। चूँकि यह मान 0.05 से कम है, इसका मतलब है कि अध्ययन किए गए घंटों और छात्र परीक्षा उत्तीर्ण करता है या नहीं, के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है।

चरण 3: मॉडल प्रदर्शन का मूल्यांकन करें

लॉजिस्टिक रिग्रेशन मॉडल की गुणवत्ता का आकलन करने के लिए, हम आउटपुट में दो मैट्रिक्स देख सकते हैं:

1. उपनाम आर-वर्ग

इस मान को रैखिक प्रतिगमन मॉडल के लिए आर-वर्ग मान का विकल्प माना जा सकता है।

इसकी गणना शून्य मॉडल से पूर्ण मॉडल तक अधिकतम लॉग-संभावना फ़ंक्शन के अनुपात के रूप में की जाती है।

यह मान 0 से 1 तक हो सकता है, उच्च मान बेहतर मॉडल फिट का संकेत देते हैं।

इस उदाहरण में, छद्म आर-वर्ग मान 0.1894 है, जो काफी कम है। यह हमें बताता है कि मॉडल के भविष्यवक्ता चर प्रतिक्रिया चर के मूल्य की भविष्यवाणी करने का बहुत अच्छा काम नहीं कर रहे हैं।

2. एलएलआर पी-वैल्यू

इस मान को एक रेखीय प्रतिगमन मॉडल के समग्र एफ-मूल्य के लिए पी-मूल्य का विकल्प माना जा सकता है।

यदि यह मान एक निश्चित सीमा से नीचे है (उदाहरण के लिए α = 0.05), तो हम यह निष्कर्ष निकाल सकते हैं कि मॉडल समग्र रूप से “उपयोगी” है और पूर्वानुमानित चर के बिना मॉडल की तुलना में प्रतिक्रिया चर के मूल्यों का बेहतर अनुमान लगा सकता है।

इस उदाहरण में, एलएलआर का पी-वैल्यू 0.07375 है। हमारे द्वारा चुने गए महत्व स्तर (जैसे 0.01, 0.05, 0.1) के आधार पर, हम यह निष्कर्ष निकाल सकते हैं या नहीं भी कि मॉडल समग्र रूप से उपयोगी है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि पायथन में अन्य सामान्य कार्य कैसे करें:

पायथन में लीनियर रिग्रेशन कैसे करें
पायथन में लॉगरिदमिक रिग्रेशन कैसे करें
पायथन में क्वांटाइल रिग्रेशन कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *