ما هو الاختيار الخلفي؟ (التعريف & #038؛ مثال)
في الإحصاء، التحديد التدريجي هو إجراء يمكننا استخدامه لبناء نموذج انحدار من مجموعة من المتغيرات المتوقعة عن طريق إدخال وإزالة المتنبئات بطريقة خطوة بخطوة في النموذج حتى لا يكون هناك سبب صالح إحصائيًا للدخول أو حذف المزيد.
الهدف من الاختيار التدريجي هو إنشاء نموذج انحدار يتضمن جميع متغيرات التوقع التي ترتبط بشكل كبير إحصائيًا بمتغير الاستجابة .
تُعرف إحدى طرق الاختيار خطوة بخطوة الأكثر استخدامًا بالاختيار العكسي ، والتي تعمل على النحو التالي:
الخطوة 1: ملائمة نموذج الانحدار باستخدام جميع متغيرات التوقع p . احسب قيمة AIC * للنموذج.
الخطوة 2: قم بإزالة متغير التوقع الذي يؤدي إلى أكبر انخفاض في AIC ويؤدي أيضًا إلى انخفاض ذو دلالة إحصائية في AIC مقارنة بالنموذج الذي يحتوي على جميع متغيرات التوقع p .
الخطوة 3: قم بإزالة متغير التوقع الذي يؤدي إلى أكبر انخفاض في AIC ويؤدي أيضًا إلى انخفاض ذو دلالة إحصائية في AIC مقارنة بالنموذج الذي يحتوي على متغيرات التوقع p-1 .
كرر العملية حتى لا تؤدي إزالة أي متغيرات متوقعة إلى انخفاض ملحوظ إحصائيًا في AIC.
* هناك العديد من المقاييس التي يمكنك استخدامها لحساب مدى ملاءمة نموذج الانحدار، بما في ذلك خطأ التنبؤ بالتحقق من الصحة، أو Cp، أو BIC، أو AIC، أو R2 المعدل. في المثال أدناه، نختار استخدام AIC.
يوضح المثال التالي كيفية إجراء تحديد للخلف في R.
مثال: التحديد العكسي في R
في هذا المثال، سوف نستخدم مجموعة بيانات mtcars المضمنة في R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
سنقوم بتركيب نموذج انحدار خطي متعدد باستخدام ميلا في الغالون (ميل لكل جالون) كمتغير الاستجابة والمتغيرات العشرة الأخرى في مجموعة البيانات كمتغيرات تنبؤية محتملة.
يوضح الكود التالي كيفية الرجوع للخلف:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
وإليك كيفية تفسير النتائج:
أولاً، نقوم بتركيب نموذج باستخدام المتغيرات العشرة المتوقعة ونحسب AIC للنموذج.
بعد ذلك، قمنا بإزالة المتغير ( cyl ) الذي أدى إلى أكبر انخفاض في AIC وحصلنا أيضًا على انخفاض ذي دلالة إحصائية في AIC مقارنة بنموذج متغير التوقع 10.
بعد ذلك، قمنا بإزالة المتغير ( vs ) الذي أدى إلى أكبر انخفاض في AIC وحصلنا أيضًا على انخفاض ذي دلالة إحصائية في AIC مقارنة بنموذج المتغير ذو الـ 9 المتنبئ.
بعد ذلك، قمنا بإزالة المتغير ( الكربوهيدرات ) الذي أدى إلى أكبر انخفاض في AIC وحصلنا أيضًا على انخفاض ذي دلالة إحصائية في AIC مقارنة بنموذج المتغير ذو 8 مؤشرات.
كررنا هذه العملية حتى إزالة أي متغير لم يعد يؤدي إلى انخفاض ذو دلالة إحصائية في AIC.
النموذج النهائي يصبح كما يلي:
ميل لكل جالون = 9.62 – 3.92*الوزن + 1.23*qsec + 2.94*صباحاً
ملاحظة حول استخدام AIC
في المثال السابق، اخترنا استخدام AIC كمقياس لتقييم مدى ملاءمة نماذج الانحدار المختلفة.
AIC يرمز إلى Akaike Information Criterion ويتم حسابه على النحو التالي:
AIC = 2K – 2 لتر (L)
ذهب:
- K: عدد معلمات النموذج.
- ln (L) : الاحتمالية اللوغاريتمية للنموذج. وهذا يخبرنا باحتمالية النموذج، في ضوء البيانات.
ومع ذلك، هناك مقاييس أخرى يمكنك اختيار استخدامها لتقييم مدى ملاءمة نماذج الانحدار، بما في ذلك خطأ التنبؤ بالتحقق من الصحة، أو Cp، أو BIC، أو AIC، أو R2 المعدل.
ولحسن الحظ، تسمح لك معظم البرامج الإحصائية بتحديد المقياس الذي تريد استخدامه عند الفحص بأثر رجعي.
مصادر إضافية
توفر البرامج التعليمية التالية معلومات إضافية حول نماذج الانحدار:
مقدمة في الاختيار المباشر
دليل للتعددية الخطية وVIF في الانحدار
ما الذي يعتبر قيمة AIC جيدة؟