ج: كيفية حساب نسب الأرجحية في نموذج الانحدار اللوجستي
الانحدار اللوجستي هو طريقة يمكننا استخدامها لتناسب نموذج الانحدار عندما يكون متغير الاستجابة ثنائيًا.
عندما تناسب نموذج الانحدار اللوجستي في R، تمثل المعاملات الموجودة في ملخص النموذج متوسط التغير في احتمالات السجل لمتغير الاستجابة المرتبط بزيادة وحدة واحدة في كل متغير متنبئ.
ومع ذلك، غالبًا ما نرغب في حساب نسبة الأرجحية لمتغيرات التوقع في النموذج بدلاً من ذلك.
لحساب نسب الأرجحية لكل متغير متوقع في النموذج بسرعة، يمكنك استخدام بناء الجملة التالي:
exp(coef(model))
يمكنك أيضًا حساب فاصل ثقة بنسبة 95% لكل نسبة احتمالات باستخدام الصيغة التالية:
exp(cbind(Odds_Ratio = coef(model), confint(model)))
يوضح المثال التالي كيفية استخدام بناء الجملة هذا لحساب وتفسير نسب الأرجحية لنموذج الانحدار اللوجستي في R.
مثال: حساب نسب الأرجحية في نموذج الانحدار اللوجستي في لغة R
في هذا المثال، سوف نستخدم مجموعة البيانات الافتراضية من حزمة ISLR في R.
يمكننا استخدام الكود التالي لتحميل وعرض ملخص لمجموعة البيانات:
library (ISLR) #view first five rows of Default dataset head(Default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559
تحتوي مجموعة البيانات هذه على المعلومات التالية عن 10000 فرد:
- الافتراضي: يشير إلى ما إذا كان الفرد قد تخلف أم لا.
- الطالب: يشير إلى ما إذا كان الفرد طالبًا أم لا.
- الرصيد: متوسط الرصيد الذي يحمله الفرد.
- الدخل: دخل الفرد.
سوف نستخدم حالة الطالب، والرصيد البنكي، والدخل لبناء نموذج الانحدار اللوجستي الذي يتنبأ باحتمالية تخلف فرد معين عن السداد.
يمكننا استخدام الدالة glm وتحديد Family=’binomial’ بحيث يناسب R نموذج الانحدار اللوجستي لمجموعة البيانات:
#fit logistic regression model model <- glm(default~student+balance+income, family=' binomial ', data=Default) #disable scientific notation for model summary options(scipen=999) #view model summary summary(model) Call: glm(formula = default ~ student + balance + income, family = "binomial", data = train) Deviance Residuals: Min 1Q Median 3Q Max -2.5586 -0.1353 -0.0519 -0.0177 3.7973 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -11.478101194 0.623409555 -18.412 <0.0000000000000002 *** studentYes -0.493292438 0.285735949 -1.726 0.0843 . balance 0.005988059 0.000293765 20.384 <0.0000000000000002 *** income 0.000007857 0.000009965 0.788 0.4304 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2021.1 on 6963 degrees of freedom Residual deviance: 1065.4 on 6960 degrees of freedom AIC: 1073.4 Number of Fisher Scoring iterations: 8
تشير المعاملات في النتيجة إلى متوسط التغير في سجل احتمالات التخلف عن السداد.
على سبيل المثال، ترتبط الزيادة بمقدار وحدة واحدة في الرصيد بمتوسط زيادة قدرها 0.005988 في سجل احتمالية التخلف عن السداد.
بدلا من ذلك لحساب نسبة الأرجحية لكل متغير توقع، يمكننا استخدام بناء الجملة التالي:
#calculate odds ratio for each predictor variable
exp(coef(model))
(Intercept) studentYes balance income
0.00001903854 0.52373166965 1.00575299051 1.00000303345
يمكننا أيضًا حساب كل نسبة احتمالات بالإضافة إلى فاصل ثقة 95% لكل نسبة احتمالات:
#calculate odds ratio and 95% confidence interval for each predictor variable
exp(cbind(Odds_Ratio = coef(model), confint(model)))
Odds_Ratio 2.5% 97.5%
(Intercept) 0.00001903854 0.000007074481 0.0000487808
studentYes 0.52373166965 0.329882707270 0.8334223982
balance 1.00575299051 1.005308940686 1.0062238757
income 1.00000303345 0.999986952969 1.0000191246
تمثل نسبة الأرجحية لكل معامل متوسط الزيادة في احتمالات التخلف عن السداد للفرد، على افتراض أن جميع المتغيرات المتوقعة الأخرى تظل ثابتة.
على سبيل المثال، رصيد المتغير المتنبئ له نسبة الأرجحية 1.0057 .
وهذا يعني أنه مقابل كل دولار إضافي في الرصيد الذي يحمله الفرد، فإن احتمالات تخلف الفرد عن سداد قرضه تزيد بعامل قدره 1.0057 ، بافتراض بقاء حالة الطالب والدخل ثابتين .
يمكننا تفسير نسب الأرجحية لمتغيرات التوقع الأخرى بنفس الطريقة.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في R:
كيفية استخدام Predict() مع نموذج الانحدار اللوجستي في R
كيفية تفسير Pr(>|z|) في مخرجات الانحدار اللوجستي في R
كيفية رسم منحنى الانحدار اللوجستي في R