كيفية استخدام عبارة proc glmselect في sas


يمكنك استخدام عبارة PROC GLMSELECT في SAS لتحديد أفضل نموذج انحدار استنادًا إلى قائمة متغيرات التوقع المحتملة.

يوضح المثال التالي كيفية استخدام هذا البيان عمليًا.

مثال: كيفية استخدام PROC GLMSELECT في SAS لاختيار النموذج

لنفترض أننا نريد ملاءمة نموذج الانحدار الخطي المتعدد الذي يستخدم (1) عدد الساعات التي يقضيها في الدراسة، و(2) عدد الاختبارات الإعدادية التي تم إجراؤها، و (3) الجنس للتنبؤ باختبار الدرجة النهائية للطلاب.

أولاً، سنستخدم الكود التالي لإنشاء مجموعة بيانات تحتوي على هذه المعلومات لـ 20 طالبًا:

 /*create dataset*/
data exam_data;
    input hours prep_exams gender $score;
    datalines ;
1 1 0 76
2 3 1 78
2 3 0 85
4 5 0 88
2 2 0 72
1 2 1 69
5 1 1 94
4 1 0 94
2 0 1 88
4 3 0 92
4 4 1 90
3 3 1 75
6 2 1 96
5 4 0 90
3 4 0 82
4 4 1 85
6 5 1 99
2 1 0 83
1 0 1 62
2 1 0 76
;
run ;

/*view dataset*/
proc print data =exam_data;

بعد ذلك، سوف نستخدم عبارة PROC GLMSELECT لتحديد المجموعة الفرعية من متغيرات التوقع التي تنتج أفضل نموذج انحدار:

 /*perform model selection*/
proc glmselect data =exam_data;
    classgender ;
    model score = hours prep_exams gender;
run ;

ملاحظة : قمنا بتضمين الجنس في بيان الفصل لأنه متغير قاطع.

تعرض المجموعة الأولى من الجداول في المخرجات نظرة عامة على إجراء GLMSELECT:

يمكننا أن نرى أن المعيار المستخدم لإيقاف إضافة أو إزالة المتغيرات من النموذج هو SBC ، وهو معيار معلومات شوارتز ، ويسمى أحيانًا معيار المعلومات البايزي .

بشكل أساسي، تستمر عبارة PROC GLMSELECT في إضافة أو إزالة المتغيرات من النموذج حتى تجد النموذج ذو قيمة SBC الأدنى، والذي يعتبر النموذج “الأفضل”.

توضح مجموعة الجداول التالية كيفية انتهاء التحديد خطوة بخطوة:

يمكننا أن نرى أن النموذج الذي يحتوي على المصطلح الأصلي فقط له قيمة SBC تبلغ 93.4337 .

وبإضافة الساعات كمتغير متوقع في النموذج، انخفضت قيمة SBC إلى 70.4452 .

كانت أفضل طريقة لتحسين النموذج هي إضافة الجنس كمتغير متوقع، ولكن هذا أدى في الواقع إلى زيادة قيمة SBC إلى 71.7383.

وبالتالي فإن النموذج النهائي يتضمن فقط الحد الاعتراضي والأزمنة المدروسة.

يوضح الجزء الأخير من النتيجة ملخص نموذج الانحدار المناسب:

يمكننا استخدام القيم الموجودة في جدول تقديرات المعلمات لكتابة نموذج الانحدار المناسب:

درجة الامتحان = 67.161689 + 5.250257 (ساعات الدراسة)

يمكننا أيضًا رؤية مقاييس مختلفة تخبرنا بمدى ملاءمة هذا النموذج للبيانات:

تخبرنا قيمة R-Square بنسبة التباين في درجات الامتحانات التي يمكن تفسيرها بعدد ساعات الدراسة وعدد الاختبارات الإعدادية التي تم إجراؤها.

وفي هذه الحالة يمكن تفسير 72.73% من التباين في درجات الامتحان بعدد الساعات المدروسة وعدد الامتحانات التحضيرية التي تم إجراؤها.

من المفيد أيضًا معرفة قيمة Root MSE . ويمثل هذا متوسط المسافة بين القيم المرصودة وخط الانحدار.

في نموذج الانحدار هذا، تنحرف القيم المرصودة في المتوسط بمقدار 5.28052 وحدة عن خط الانحدار.

ملاحظة : راجع وثائق SAS للحصول على قائمة كاملة بالوسائط المحتملة التي يمكنك استخدامها مع PROC GLMSELECT .

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في SAS:

كيفية إجراء الانحدار الخطي البسيط في SAS
كيفية إجراء الانحدار الخطي المتعدد في SAS
كيفية إجراء الانحدار متعدد الحدود في SAS
كيفية إجراء الانحدار اللوجستي في SAS

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *