كيفية اختبار التعددية الخطية في r
في تحليل الانحدار، تحدث العلاقة الخطية المتعددة عندما يرتبط متغيران أو أكثر من متغيرات التوقع ارتباطًا وثيقًا ببعضهما البعض، بحيث لا يوفران معلومات فريدة أو مستقلة في نموذج الانحدار.
إذا كانت درجة الارتباط عالية بما يكفي بين متغيرات التوقع، فقد يتسبب ذلك في حدوث مشكلات عند ملاءمة نموذج الانحدار وتفسيره.
إن أبسط طريقة لاكتشاف العلاقة الخطية المتعددة في نموذج الانحدار هي حساب مقياس يُعرف باسم عامل تضخم التباين، والذي غالبًا ما يتم اختصاره بـ VIF .
يقيس VIF قوة الارتباط بين متغيرات التوقع في النموذج. يأخذ قيمة بين 1 واللانهاية الإيجابية.
نستخدم القواعد الأساسية التالية لتفسير قيم VIF:
- VIF = 1: لا يوجد ارتباط بين متغير توقع معين وأي متغير توقع آخر في النموذج.
- VIF بين 1 و 5: هناك علاقة معتدلة بين متغير توقع معين ومتغيرات توقع أخرى في النموذج.
- VIF > 5 : هناك علاقة قوية بين متغير توقع معين ومتغيرات توقع أخرى في النموذج.
يوضح المثال التالي كيفية اكتشاف العلاقة الخطية المتعددة في نموذج الانحدار في R عن طريق حساب قيم VIF لكل متغير متنبئ في النموذج.
مثال: اختبار العلاقة الخطية المتعددة في R
لنفترض أن لدينا إطار البيانات التالي الذي يحتوي على معلومات حول لاعبي كرة السلة المختلفين:
#create data frame df = data. frame (rating = c(90, 85, 82, 88, 94, 90, 76, 75, 87, 86), points=c(25, 20, 14, 16, 27, 20, 12, 15, 14, 19), assists=c(5, 7, 7, 8, 5, 7, 6, 9, 9, 5), rebounds=c(11, 8, 10, 6, 6, 9, 6, 10, 10, 7)) #view data frame df rating points assists rebounds 1 90 25 5 11 2 85 20 7 8 3 82 14 7 10 4 88 16 8 6 5 94 27 5 6 6 90 20 7 9 7 76 12 6 6 8 75 15 9 10 9 87 14 9 10 10 86 19 5 7
لنفترض أننا نريد ملاءمة نموذج الانحدار الخطي المتعدد باستخدام التسجيل كمتغير الاستجابة والنقاط والمساعدات والارتدادات كمتغيرات متوقعة.
لحساب VIF لكل متغير متوقع في النموذج، يمكننا استخدام الدالة vive() من الحزمة car :
library (car) #define multiple linear regression model model <- lm(rating ~ points + assists + rebounds, data=df) #calculate the VIF for each predictor variable in the model lively(model) points assists rebounds 1.763977 1.959104 1.175030
يمكننا رؤية قيم VIF لكل من متغيرات التوقع:
- النقاط: 1.76
- التمريرات الحاسمة: 1.96
- المرتدات: 1.18
نظرًا لأن كل قيمة من قيم VIF للمتغيرات المتوقعة في النموذج قريبة من 1، فإن التعددية الخطية ليست مشكلة في النموذج.
ملاحظة : إذا تبين أن العلاقة الخطية المتعددة تمثل مشكلة في النموذج الخاص بك، فإن الحل الأسرع في معظم الحالات هو إزالة واحد أو أكثر من المتغيرات شديدة الارتباط.
غالبًا ما يكون هذا حلاً مقبولاً لأن المتغيرات التي تقوم بإزالتها تكون زائدة عن الحاجة على أي حال وتضيف القليل من المعلومات الفريدة أو المستقلة في النموذج.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في R:
كيفية إجراء الانحدار الخطي المتعدد في R
كيفية إنشاء مؤامرة QQ في R
كيفية إنشاء قطعة أرض متبقية في R