ما هو الاختيار المباشر؟ (التعريف & #038؛ مثال)


في الإحصاء، التحديد التدريجي هو إجراء يمكننا استخدامه لبناء نموذج انحدار من مجموعة من المتغيرات المتوقعة عن طريق إدخال وإزالة المتنبئات بطريقة خطوة بخطوة في النموذج حتى لا يكون هناك سبب صالح إحصائيًا للدخول أو حذف المزيد.

الهدف من الاختيار التدريجي هو إنشاء نموذج انحدار يتضمن جميع متغيرات التوقع التي ترتبط بشكل كبير إحصائيًا بمتغير الاستجابة .

تُعرف إحدى طرق الاختيار التدريجي الأكثر استخدامًا بالاختيار المباشر ، والتي تعمل على النحو التالي:

الخطوة 1: ملاءمة نموذج انحدار للاعتراض فقط دون متغيرات التوقع. احسب قيمة AIC * للنموذج.

الخطوة 2: ملاءمة جميع نماذج الانحدار ذات المتنبئ الواحد الممكنة. حدد النموذج الذي أنتج أقل AIC والذي حقق أيضًا انخفاضًا ملحوظًا إحصائيًا في AIC مقارنة بنموذج الاعتراض فقط.

الخطوة 3: ملاءمة جميع نماذج الانحدار مع اثنين من المتنبئين المحتملين. حدد النموذج الذي أنتج أقل AIC والذي حقق أيضًا انخفاضًا ملحوظًا إحصائيًا في AIC مقارنة بنموذج المتنبئ الواحد.

كرر العملية حتى لا يؤدي تركيب نموذج الانحدار مع المزيد من المتغيرات المتوقعة إلى انخفاض ملحوظ إحصائيًا في AIC.

* هناك العديد من المقاييس التي يمكنك استخدامها لحساب مدى ملاءمة نموذج الانحدار، بما في ذلك خطأ التنبؤ بالتحقق من الصحة، أو Cp، أو BIC، أو AIC، أو R2 المعدل. في المثال أدناه، نختار استخدام AIC.

يوضح المثال التالي كيفية إجراء التحديد المباشر في R.

مثال: الاختيار المباشر في R

في هذا المثال، سوف نستخدم مجموعة بيانات mtcars المضمنة في R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

سنقوم بتركيب نموذج انحدار خطي متعدد باستخدام ميلا في الغالون (ميل لكل جالون) كمتغير الاستجابة والمتغيرات العشرة الأخرى في مجموعة البيانات كمتغيرات تنبؤية محتملة.

يوضح الكود التالي كيفية إجراء التحديد خطوة بخطوة:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

وإليك كيفية تفسير النتائج:

أولاً، نحن نلائم نموذج الاعتراض فقط. كان لهذا النموذج AIC بقيمة 115.94345 .

ثم نلائم جميع النماذج الممكنة مع المتنبئ. النموذج الذي أنتج أدنى AIC وكان له أيضًا انخفاض ذو دلالة إحصائية في AIC مقارنة بنموذج الاعتراض فقط استخدم متنبئ الوزن . كان لهذا النموذج AIC بقيمة 73.21736 .

بعد ذلك، نقوم بمطابقة جميع النماذج الممكنة مع اثنين من المتنبئين. النموذج الذي أنتج أدنى AIC وكان له أيضًا انخفاض ذو دلالة إحصائية في AIC مقارنة بنموذج المتنبئ الفردي أضاف متنبئ الأسطوانات . كان لهذا النموذج AIC بقيمة 63.19800 .

بعد ذلك، نلائم جميع النماذج الممكنة مع ثلاثة تنبؤات. النموذج الذي أنتج أقل AIC والذي كان لديه أيضًا انخفاض ذو دلالة إحصائية في AIC مقارنة بالنموذج ثنائي المتنبئ أضاف مؤشر hp . كان لهذا النموذج AIC قدره 62.66456 .

بعد ذلك، نلائم جميع النماذج الممكنة مع أربعة متنبئات. وتبين أن أياً من هذه النماذج لم ينتج عنه انخفاض كبير في AIC، لذلك أوقفنا الإجراء.

وبالتالي يصبح النموذج النهائي هو:

ميل لكل جالون = 38.75 – 3.17 * الوزن – 0.94 * سيل – 0.02 * هيب

لقد اتضح أن محاولة إضافة المزيد من المتغيرات المتوقعة إلى النموذج لا تؤدي إلى انخفاض ذي دلالة إحصائية في AIC.

وهكذا نستنتج أن النموذج الأفضل هو الذي يحتوي على ثلاثة متغيرات تنبؤية: الوزن، والأسطوانة، والحصان.

ملاحظة حول استخدام AIC

في المثال السابق، اخترنا استخدام AIC كمقياس لتقييم مدى ملاءمة نماذج الانحدار المختلفة.

AIC يرمز إلى Akaike Information Criterion ويتم حسابه على النحو التالي:

AIC = 2K – 2 لتر (L)

ذهب:

  • K: عدد معلمات النموذج.
  • ln (L) : الاحتمالية اللوغاريتمية للنموذج. يخبرنا هذا بمدى احتمالية استناد النموذج إلى البيانات.

ومع ذلك، هناك مقاييس أخرى يمكنك اختيار استخدامها لتقييم مدى ملاءمة نماذج الانحدار، بما في ذلك خطأ التنبؤ بالتحقق من الصحة، أو Cp، أو BIC، أو AIC، أو R2 المعدل.

ولحسن الحظ، تسمح لك معظم البرامج الإحصائية بتحديد المقياس الذي تريد استخدامه عند الاختيار مباشرة.

مصادر إضافية

توفر البرامج التعليمية التالية معلومات إضافية حول نماذج الانحدار:

دليل للتعددية الخطية وVIF في الانحدار
ما الذي يعتبر قيمة AIC جيدة؟

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *