فهم فرضية العدم للانحدار اللوجستي
الانحدار اللوجستي هو نوع من نماذج الانحدار التي يمكننا استخدامها لفهم العلاقة بين واحد أو أكثر من متغيرات التوقع ومتغير الاستجابة عندما يكون متغير الاستجابة ثنائيًا.
إذا كان لدينا متغير توقع واحد فقط ومتغير استجابة واحد، فيمكننا استخدام الانحدار اللوجستي البسيط ، والذي يستخدم الصيغة التالية لتقدير العلاقة بين المتغيرات:
سجل[p(X) / (1-p(X))] = β 0 + β 1
تتنبأ الصيغة الموجودة على الجانب الأيمن من المعادلة بلوغاريتم احتمالات أن يأخذ متغير الاستجابة القيمة 1.
يستخدم الانحدار اللوجستي البسيط الفرضيات الفارغة والبديلة التالية:
- ح 0 : β 1 = 0
- ح أ : β 1 ≠ 0
تنص الفرضية الصفرية على أن المعامل β 1 يساوي الصفر. بمعنى آخر، لا توجد علاقة ذات دلالة إحصائية بين المتغير المتنبئ x ومتغير الاستجابة y.
تنص الفرضية البديلة على أن β 1 لا يساوي الصفر. بمعنى آخر، هناك علاقة ذات دلالة إحصائية بين x و y.
إذا كان لدينا عدة متغيرات تنبؤية ومتغير استجابة، فيمكننا استخدام الانحدار اللوجستي المتعدد ، والذي يستخدم الصيغة التالية لتقدير العلاقة بين المتغيرات:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
يستخدم الانحدار اللوجستي المتعدد الفرضيات الفارغة والبديلة التالية:
- ح 0 : β 1 = β 2 = … = β k = 0
- ح أ : β 1 = β 2 = … = β ك ≠ 0
تنص الفرضية الصفرية على أن جميع المعاملات في النموذج تساوي الصفر. بمعنى آخر، لا يوجد لأي من متغيرات التوقع علاقة ذات دلالة إحصائية مع متغير الاستجابة y.
تنص الفرضية البديلة على أن المعاملات ليست كلها تساوي الصفر في وقت واحد.
توضح الأمثلة التالية كيفية تحديد ما إذا كان سيتم رفض الفرضية الصفرية أم لا في الانحدار اللوجستي البسيط ونماذج الانحدار اللوجستي المتعددة.
المثال 1: الانحدار اللوجستي البسيط
لنفترض أن الأستاذ يريد استخدام عدد الساعات المدروسة للتنبؤ بدرجة الامتحان التي سيحصل عليها الطلاب في فصله. يقوم بجمع بيانات من 20 طالبًا ويناسب نموذج الانحدار اللوجستي البسيط.
يمكننا استخدام الكود التالي في R ليناسب نموذج الانحدار اللوجستي البسيط:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
لتحديد ما إذا كانت هناك علاقة ذات دلالة إحصائية بين ساعات الدراسة ودرجة الامتحان، نحتاج إلى تحليل قيمة مربع كاي الإجمالية للنموذج والقيمة p المقابلة.
يمكننا استخدام الصيغة التالية لحساب القيمة الإجمالية لمربع كاي للنموذج:
X 2 = (انحراف صفر – انحراف متبقي) / (صفر Df – Df المتبقي)
وتبين أن القيمة p هي 0.2717286 .
وبما أن هذه القيمة p لا تقل عن 0.05، فإننا نفشل في رفض فرضية العدم. بمعنى آخر، لا توجد علاقة ذات دلالة إحصائية بين ساعات الدراسة ودرجات الامتحانات.
المثال 2: الانحدار اللوجستي المتعدد
لنفترض أن الأستاذ يريد استخدام عدد الساعات المدروسة وعدد الاختبارات الإعدادية التي تم إجراؤها للتنبؤ بالصف الذي سيحصل عليه الطلاب في فصله. يقوم بجمع بيانات من 20 طالبًا ويناسب نموذج الانحدار اللوجستي المتعدد.
يمكننا استخدام الكود التالي في R ليناسب نموذج الانحدار اللوجستي المتعدد:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
تبين أن القيمة p لإحصائيات مربع كاي الإجمالية للنموذج هي 0.01971255 .
وبما أن هذه القيمة p أقل من 0.05، فإننا نرفض فرضية العدم. بمعنى آخر، هناك علاقة ذات دلالة إحصائية بين مجموع ساعات الدراسة والاختبارات التحضيرية التي تم إجراؤها والدرجة النهائية التي تم الحصول عليها في الامتحان.
مصادر إضافية
توفر البرامج التعليمية التالية معلومات إضافية حول الانحدار اللوجستي:
مقدمة في الانحدار اللوجستي
كيفية الإبلاغ عن نتائج الانحدار اللوجستي
الانحدار اللوجستي مقابل الانحدار الخطي: الاختلافات الرئيسية