كيفية تفسير إخراج glm في r (مع مثال)
يمكن استخدام الدالة glm() في R لتناسب النماذج الخطية المعممة.
تستخدم هذه الوظيفة بناء الجملة التالي:
glm(الصيغة، الأسرة=غاوسي، البيانات، …)
ذهب:
- الصيغة: صيغة النموذج الخطي (على سبيل المثال y ~ x1 + x2)
- العائلة: العائلة الإحصائية المستخدمة لملاءمة النموذج. الإعداد الافتراضي هو Gaussian، لكن الخيارات الأخرى تتضمن Binomial وGamma وPoisson وغيرها.
- البيانات: اسم كتلة البيانات التي تحتوي على البيانات
من الناحية العملية، تُستخدم هذه الوظيفة غالبًا لتناسب نماذج الانحدار اللوجستي من خلال تحديد عائلة “ذات الحدين”.
يوضح المثال التالي كيفية تفسير مخرجات glm في R لنموذج الانحدار اللوجستي.
مثال: كيفية تفسير إخراج glm في R
في هذا المثال، سوف نستخدم مجموعة بيانات mtcars المضمنة في R:
#view first six rows of mtcars dataset
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
سوف نستخدم المتغيرين disp و hp للتنبؤ باحتمال أن تأخذ سيارة معينة القيمة 1 للمتغير am .
يوضح التعليمة البرمجية التالية كيفية استخدام الدالة glm() لتناسب نموذج الانحدار اللوجستي هذا:
#fit logistic regression model model <- glm(am ~ disp + hp, data=mtcars, family=binomial) #view model summary summary(model) Call: glm(formula = am ~ disp + hp, family = binomial, data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -1.9665 -0.3090 -0.0017 0.3934 1.3682 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.40342 1.36757 1.026 0.3048 available -0.09518 0.04800 -1.983 0.0474 * hp 0.12170 0.06777 1.796 0.0725 . --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 43,230 on 31 degrees of freedom Residual deviance: 16,713 on 29 degrees of freedom AIC: 22,713 Number of Fisher Scoring iterations: 8
إليك كيفية تفسير كل عنصر من عناصر النتيجة:
المعاملات والقيم P
يشير تقدير المعامل في النتيجة إلى متوسط التغير في احتمالية السجل لمتغير الاستجابة المرتبط بزيادة وحدة واحدة في كل متغير متنبئ.
على سبيل المثال، ترتبط زيادة بمقدار وحدة واحدة في متغير التوقع disp بمتوسط تغيير قدره -0.09518 في احتمالية السجل أن يأخذ متغير الاستجابة am القيمة 1. وهذا يعني أن القيم الأعلى لـ disp ترتبط بقيمة أقل احتمالا. من المتغير أنا آخذ القيمة 1.
يعطينا الخطأ القياسي فكرة عن التباين المرتبط بتقدير المعامل. ثم نقسم تقدير المعامل على الخطأ المعياري للحصول على القيمة az.
على سبيل المثال، يتم حساب قيمة z لمتغير التوقع disp كـ -.09518 / .048 = -1.983.
تخبرنا القيمة p Pr(>|z|) بالاحتمال المرتبط بقيمة z معينة. يخبرنا هذا بشكل أساسي بمدى قدرة كل متغير متنبئ على التنبؤ بقيمة متغير الاستجابة في النموذج.
على سبيل المثال، القيمة p المقترنة بالقيمة z للمتغير disp هي 0.0474. وبما أن هذه القيمة أقل من 0.05، فإننا نقول أن disp هو متغير تنبؤي ذو دلالة إحصائية في النموذج.
اعتمادًا على تفضيلاتك، يمكنك أن تقرر استخدام مستوى أهمية 0.01 أو 0.05 أو 0.10 لتحديد ما إذا كان كل متغير متنبئ ذو دلالة إحصائية أم لا.
الصفر والانحراف المتبقي
يخبرنا الانحراف الصفري في المخرجات بمدى إمكانية التنبؤ بمتغير الاستجابة من خلال نموذج يحتوي على مصطلح أصلي فقط.
يخبرنا الانحراف المتبقي عن مدى إمكانية التنبؤ بمتغير الاستجابة من خلال النموذج المحدد الذي نلائمه مع متغيرات التوقع p . كلما انخفضت القيمة، كانت قدرة النموذج على التنبؤ بقيمة متغير الاستجابة أفضل.
لتحديد ما إذا كان النموذج “مفيدًا”، يمكننا حساب إحصائية مربع كاي كما يلي:
X 2 = انحراف صفر – انحراف متبقي
مع درجات الحرية.
يمكننا بعد ذلك إيجاد القيمة الاحتمالية المرتبطة بإحصائيات مربع كاي. كلما انخفضت القيمة الاحتمالية، كانت قدرة النموذج على ملاءمة مجموعة البيانات أفضل مقارنة بالنموذج الذي يحتوي على مصطلح أصلي فقط.
على سبيل المثال، في نموذج الانحدار الخاص بنا، يمكننا ملاحظة القيم التالية في مخرجات الصفر والانحراف المتبقي:
- الانحراف الصفري : 43.23 مع df = 31
- الانحراف المتبقي : 16.713 مع df = 29
يمكننا استخدام هذه القيم لحساب إحصائية X2 للنموذج:
- X 2 = انحراف صفر – انحراف متبقي
- X2 = 43.23 – 16.713
- X2 = 26,517
هناك p = 2 درجة حرية لمتغيرات التوقع.
يمكننا استخدام حاسبة Chi-square to P-value لإيجاد أن قيمة X 2 البالغة 26.517 مع درجتين من الحرية لها قيمة p تبلغ 0.000002.
وبما أن هذه القيمة p أقل بكثير من 0.05، فإننا نستنتج أن النموذج مفيد للغاية.
AIC
يعد معيار معلومات Akaike ( AIC ) مقياسًا يستخدم لمقارنة ملاءمة نماذج الانحدار المختلفة. كلما انخفضت القيمة، كانت قدرة نموذج الانحدار على ملاءمة البيانات أفضل.
يتم حسابه على النحو التالي:
AIC = 2K – 2 لتر (L)
ذهب:
- K: عدد معلمات النموذج.
- ln (L) : الاحتمالية اللوغاريتمية للنموذج. يخبرنا هذا بمدى احتمالية استناد النموذج إلى البيانات.
القيمة الفعلية لـ AIC لا معنى لها.
ومع ذلك، إذا قمت بملاءمة نماذج انحدار متعددة، فيمكنك مقارنة قيمة AIC لكل نموذج. النموذج ذو أدنى AIC يوفر أفضل ملاءمة.
ذات صلة: ما الذي يعتبر قيمة AIC جيدة؟
مصادر إضافية
توفر البرامج التعليمية التالية معلومات إضافية حول كيفية استخدام الدالة glm() في R:
الفرق بين glm وlm في R
كيفية استخدام وظيفة التنبؤ مع glm في R
تشرح البرامج التعليمية التالية كيفية التعامل مع الأخطاء الشائعة عند استخدام الدالة glm() :
كيفية التعامل مع تحذير R: glm.fit: الخوارزمية لم تتقارب
كيفية التعامل مع: glm.fit: حدثت الاحتمالات المعدلة عدديًا 0 أو 1