ए: लॉजिस्टिक रिग्रेशन मॉडल में अंतर अनुपात की गणना कैसे करें


लॉजिस्टिक रिग्रेशन एक ऐसी विधि है जिसका उपयोग हम रिग्रेशन मॉडल को फिट करने के लिए कर सकते हैं जब प्रतिक्रिया चर द्विआधारी होता है।

जब आप आर में एक लॉजिस्टिक रिग्रेशन मॉडल फिट करते हैं, तो मॉडल सारांश में गुणांक प्रत्येक भविष्यवक्ता चर में एक-इकाई वृद्धि के साथ जुड़े प्रतिक्रिया चर के लॉग बाधाओं में औसत परिवर्तन का प्रतिनिधित्व करते हैं।

हालाँकि, हम अक्सर इसके बजाय मॉडल में भविष्यवक्ता चर के लिए अंतर अनुपात की गणना करना चाहते हैं।

मॉडल में प्रत्येक भविष्यवक्ता चर के लिए अंतर अनुपात की त्वरित गणना करने के लिए, आप निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:

 exp(coef(model))

आप निम्नलिखित सिंटैक्स का उपयोग करके प्रत्येक विषम अनुपात के लिए 95% विश्वास अंतराल की गणना भी कर सकते हैं:

 exp(cbind(Odds_Ratio = coef(model), confint(model)))

निम्नलिखित उदाहरण दिखाता है कि आर में लॉजिस्टिक रिग्रेशन मॉडल के लिए अंतर अनुपात की गणना और व्याख्या करने के लिए इस सिंटैक्स का उपयोग कैसे करें।

उदाहरण: आर में लॉजिस्टिक रिग्रेशन मॉडल में विषम अनुपात की गणना

इस उदाहरण के लिए, हम आर में आईएसएलआर पैकेज से डिफ़ॉल्ट डेटासेट का उपयोग करेंगे।

हम डेटासेट का सारांश लोड करने और प्रदर्शित करने के लिए निम्नलिखित कोड का उपयोग कर सकते हैं:

 library (ISLR)

#view first five rows of Default dataset
head(Default)

  default student balance income
1 No No 729.5265 44361.625
2 No Yes 817.1804 12106.135
3 No No 1073.5492 31767.139
4 No No 529.2506 35704.494
5 No No 785.6559 38463.496
6 No Yes 919.5885 7491.559

इस डेटासेट में 10,000 व्यक्तियों के बारे में निम्नलिखित जानकारी शामिल है:

  • डिफ़ॉल्ट: इंगित करता है कि किसी व्यक्ति ने डिफ़ॉल्ट किया है या नहीं।
  • छात्र: इंगित करता है कि कोई व्यक्ति छात्र है या नहीं।
  • शेष: किसी व्यक्ति द्वारा रखा गया औसत शेष।
  • आय: व्यक्ति की आय.

हम एक लॉजिस्टिक रिग्रेशन मॉडल बनाने के लिए छात्र की स्थिति, बैंक बैलेंस और आय का उपयोग करेंगे जो इस संभावना की भविष्यवाणी करता है कि कोई व्यक्ति डिफ़ॉल्ट होगा।

हम जीएलएम फ़ंक्शन का उपयोग कर सकते हैं और परिवार = ‘द्विपद’ निर्दिष्ट कर सकते हैं ताकि आर डेटासेट में एक लॉजिस्टिक रिग्रेशन मॉडल फिट हो सके:

 #fit logistic regression model
model <- glm(default~student+balance+income, family=' binomial ', data=Default)

#disable scientific notation for model summary
options(scipen=999)

#view model summary
summary(model)

Call:
glm(formula = default ~ student + balance + income, family = "binomial", 
    data = train)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-2.5586 -0.1353 -0.0519 -0.0177 3.7973  

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept) -11.478101194 0.623409555 -18.412 <0.0000000000000002 ***
studentYes -0.493292438 0.285735949 -1.726 0.0843 .  
balance 0.005988059 0.000293765 20.384 <0.0000000000000002 ***
income 0.000007857 0.000009965 0.788 0.4304    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2021.1 on 6963 degrees of freedom
Residual deviance: 1065.4 on 6960 degrees of freedom
AIC: 1073.4

Number of Fisher Scoring iterations: 8

परिणाम में गुणांक डिफ़ॉल्ट की लॉग बाधाओं में औसत परिवर्तन दर्शाते हैं।

उदाहरण के लिए, शेष राशि में एक इकाई की वृद्धि डिफ़ॉल्ट की लॉग संभावना में 0.005988 की औसत वृद्धि से जुड़ी है।

इसके बजाय प्रत्येक भविष्यवक्ता चर के लिए अंतर अनुपात की गणना करने के लिए, हम निम्नलिखित वाक्यविन्यास का उपयोग कर सकते हैं:

 #calculate odds ratio for each predictor variable
exp(coef(model))

  (Intercept) studentYes balance income 
0.00001903854 0.52373166965 1.00575299051 1.00000303345 

हम प्रत्येक विषम अनुपात के साथ-साथ प्रत्येक विषम अनुपात के लिए 95% विश्वास अंतराल की भी गणना कर सकते हैं:

 #calculate odds ratio and 95% confidence interval for each predictor variable 
exp(cbind(Odds_Ratio = coef(model), confint(model)))

               Odds_Ratio 2.5% 97.5%
(Intercept) 0.00001903854 0.000007074481 0.0000487808
studentYes 0.52373166965 0.329882707270 0.8334223982
balance 1.00575299051 1.005308940686 1.0062238757
income 1.00000303345 0.999986952969 1.0000191246

प्रत्येक गुणांक के लिए अंतर अनुपात किसी व्यक्ति की डिफ़ॉल्ट संभावनाओं में औसत वृद्धि का प्रतिनिधित्व करता है, यह मानते हुए कि अन्य सभी भविष्यवक्ता चर स्थिर रहते हैं।

उदाहरण के लिए, भविष्यवक्ता चर के संतुलन का विषम अनुपात 1.0057 है।

इसका मतलब यह है कि किसी व्यक्ति के पास शेष राशि में प्रत्येक अतिरिक्त डॉलर के लिए, छात्र की स्थिति और आय को मानते हुए , व्यक्ति द्वारा अपने ऋण पर चूक करने की संभावना 1.0057 गुना बढ़ जाती है।

हम अन्य भविष्यवक्ता चरों के लिए विषम अनुपातों की उसी तरह व्याख्या कर सकते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

आर में लॉजिस्टिक रिग्रेशन मॉडल के साथ प्रेडिक्ट() का उपयोग कैसे करें
R में लॉजिस्टिक रिग्रेशन आउटपुट में Pr(>|z|) की व्याख्या कैसे करें
आर में लॉजिस्टिक रिग्रेशन वक्र कैसे प्लॉट करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *