فهم فرضية العدم للانحدار اللوجستي

By دكتور بنيامين أندرسون قويروق‏دوغان 23, 2023 مرشد 0 Comments

الانحدار اللوجستي هو نوع من نماذج الانحدار التي يمكننا استخدامها لفهم العلاقة بين واحد أو أكثر من متغيرات التوقع ومتغير الاستجابة عندما يكون متغير الاستجابة ثنائيًا.

إذا كان لدينا متغير توقع واحد فقط ومتغير استجابة واحد، فيمكننا استخدام الانحدار اللوجستي البسيط ، والذي يستخدم الصيغة التالية لتقدير العلاقة بين المتغيرات:

سجل[p(X) / (1-p(X))] = β ₀ + β ₁

تتنبأ الصيغة الموجودة على الجانب الأيمن من المعادلة بلوغاريتم احتمالات أن يأخذ متغير الاستجابة القيمة 1.

يستخدم الانحدار اللوجستي البسيط الفرضيات الفارغة والبديلة التالية:

ح ₀ : β ₁ = 0
ح _أ : β ₁ ≠ 0

تنص الفرضية الصفرية على أن المعامل β ₁ يساوي الصفر. بمعنى آخر، لا توجد علاقة ذات دلالة إحصائية بين المتغير المتنبئ x ومتغير الاستجابة y.

تنص الفرضية البديلة على أن β ₁ لا يساوي الصفر. بمعنى آخر، هناك علاقة ذات دلالة إحصائية بين x و y.

إذا كان لدينا عدة متغيرات تنبؤية ومتغير استجابة، فيمكننا استخدام الانحدار اللوجستي المتعدد ، والذي يستخدم الصيغة التالية لتقدير العلاقة بين المتغيرات:

log[p(X) / (1-p(X))] = β ₀ + β ₁ x ₁ + β ₂ x ₂ + … + β _k x _k

يستخدم الانحدار اللوجستي المتعدد الفرضيات الفارغة والبديلة التالية:

ح ₀ : β ₁ = β ₂ = … = β _k = 0
ح _أ : β ₁ = β ₂ = … = β _ك ≠ 0

تنص الفرضية الصفرية على أن جميع المعاملات في النموذج تساوي الصفر. بمعنى آخر، لا يوجد لأي من متغيرات التوقع علاقة ذات دلالة إحصائية مع متغير الاستجابة y.

تنص الفرضية البديلة على أن المعاملات ليست كلها تساوي الصفر في وقت واحد.

توضح الأمثلة التالية كيفية تحديد ما إذا كان سيتم رفض الفرضية الصفرية أم لا في الانحدار اللوجستي البسيط ونماذج الانحدار اللوجستي المتعددة.

المثال 1: الانحدار اللوجستي البسيط

لنفترض أن الأستاذ يريد استخدام عدد الساعات المدروسة للتنبؤ بدرجة الامتحان التي سيحصل عليها الطلاب في فصله. يقوم بجمع بيانات من 20 طالبًا ويناسب نموذج الانحدار اللوجستي البسيط.

يمكننا استخدام الكود التالي في R ليناسب نموذج الانحدار اللوجستي البسيط:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

لتحديد ما إذا كانت هناك علاقة ذات دلالة إحصائية بين ساعات الدراسة ودرجة الامتحان، نحتاج إلى تحليل قيمة مربع كاي الإجمالية للنموذج والقيمة p المقابلة.

يمكننا استخدام الصيغة التالية لحساب القيمة الإجمالية لمربع كاي للنموذج:

X ² = (انحراف صفر – انحراف متبقي) / (صفر Df – Df المتبقي)

وتبين أن القيمة p هي 0.2717286 .

وبما أن هذه القيمة p لا تقل عن 0.05، فإننا نفشل في رفض فرضية العدم. بمعنى آخر، لا توجد علاقة ذات دلالة إحصائية بين ساعات الدراسة ودرجات الامتحانات.

المثال 2: الانحدار اللوجستي المتعدد

لنفترض أن الأستاذ يريد استخدام عدد الساعات المدروسة وعدد الاختبارات الإعدادية التي تم إجراؤها للتنبؤ بالصف الذي سيحصل عليه الطلاب في فصله. يقوم بجمع بيانات من 20 طالبًا ويناسب نموذج الانحدار اللوجستي المتعدد.

يمكننا استخدام الكود التالي في R ليناسب نموذج الانحدار اللوجستي المتعدد:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

تبين أن القيمة p لإحصائيات مربع كاي الإجمالية للنموذج هي 0.01971255 .

وبما أن هذه القيمة p أقل من 0.05، فإننا نرفض فرضية العدم. بمعنى آخر، هناك علاقة ذات دلالة إحصائية بين مجموع ساعات الدراسة والاختبارات التحضيرية التي تم إجراؤها والدرجة النهائية التي تم الحصول عليها في الامتحان.

مصادر إضافية

توفر البرامج التعليمية التالية معلومات إضافية حول الانحدار اللوجستي:

مقدمة في الانحدار اللوجستي
كيفية الإبلاغ عن نتائج الانحدار اللوجستي
الانحدار اللوجستي مقابل الانحدار الخطي: الاختلافات الرئيسية

About Author

دكتور بنيامين أندرسون

مرحبًا، أنا بنجامين، أستاذ الإحصاء المتقاعد الذي تحول إلى مدرس متخصص في Statorials. بفضل خبرتي الواسعة في مجال الإحصاء، فأنا حريص على مشاركة معرفتي لتمكين الطلاب من خلال Statorials. تعرف أكثر

المثال 1: الانحدار اللوجستي البسيط

المثال 2: الانحدار اللوجستي المتعدد

مصادر إضافية

About Author

دكتور بنيامين أندرسون

Add a Comment