كيفية اختبار الخطية المتعددة في ستاتا


تحدث العلاقة الخطية المتعددة في تحليل الانحدار عندما يرتبط متغيران تفسيريان أو أكثر ارتباطًا وثيقًا ببعضهما البعض، بحيث لا يوفران معلومات فريدة أو مستقلة في نموذج الانحدار. إذا كانت درجة الارتباط عالية بما يكفي بين المتغيرات، فقد يتسبب ذلك في حدوث مشكلات عند ملاءمة نموذج الانحدار وتفسيره.

على سبيل المثال، لنفترض أنك قمت بتشغيل انحدار خطي متعدد بالمتغيرات التالية:

الاستجابة المتغيرة: أقصى قفزة عمودية

المتغيرات التوضيحية: مقاس الحذاء، الطول، الوقت المستغرق في التدريب

في هذه الحالة، من المحتمل أن تكون المتغيرات التوضيحية لحجم الحذاء والطول مرتبطة بقوة نظرًا لأن الأشخاص طوال القامة يميلون إلى الحصول على مقاسات أحذية أكبر. وهذا يعني أن التعددية الخطية من المحتمل أن تكون مشكلة في هذا الانحدار.

لحسن الحظ، من الممكن اكتشاف العلاقة الخطية المتعددة باستخدام مقياس يسمى عامل تضخم التباين (VIF) ، والذي يقيس الارتباط وقوة الارتباط بين المتغيرات التوضيحية في نموذج الانحدار.

يشرح هذا البرنامج التعليمي كيفية استخدام VIF للكشف عن العلاقة الخطية المتعددة في تحليل الانحدار في Stata.

مثال: العلاقة الخطية المتعددة في Stata

في هذا المثال، سوف نستخدم مجموعة البيانات المضمنة في Stata والتي تسمى auto . استخدم الأمر التالي لتحميل مجموعة البيانات:

استخدامه تلقائيا

سنستخدم أمر الانحدار لملاءمة نموذج الانحدار الخطي المتعدد باستخدام السعر كمتغير الاستجابة والوزن والطول والميل لكل جالون كمتغيرات توضيحية:

الانحدار سعر الوزن طول ميلا في الغالون

إخراج الانحدار الخطي المتعدد في Stata

بعد ذلك، سوف نستخدم الأمر vive لاختبار العلاقة الخطية المتعددة:

حية

VIF في ستاتا

وينتج عن ذلك قيمة VIF لكل من المتغيرات التوضيحية في النموذج. تبدأ قيمة VIF عند 1 وليس لها حد أعلى. القاعدة العامة لتفسير VIFs هي:

  • تشير القيمة 1 إلى عدم وجود ارتباط بين متغير توضيحي معين وأي متغير توضيحي آخر في النموذج.
  • تشير القيمة بين 1 و5 إلى وجود علاقة معتدلة بين متغير توضيحي معين والمتغيرات التوضيحية الأخرى في النموذج، ولكنها في كثير من الأحيان ليست شديدة بما يكفي لتتطلب اهتماما خاصا.
  • تشير القيمة الأكبر من 5 إلى وجود علاقة محتملة شديدة بين متغير توضيحي معين ومتغيرات توضيحية أخرى في النموذج. في هذه الحالة، من المحتمل أن تكون تقديرات المعامل والقيم الاحتمالية في نتائج الانحدار غير موثوقة.

يمكننا أن نرى أن قيم VIF للوزن والطول أكبر من 5، مما يشير إلى أن التعددية الخطية من المحتمل أن تكون مشكلة في نموذج الانحدار.

كيفية التعامل مع التعددية الخطية

غالبًا ما تكون أسهل طريقة للتعامل مع العلاقات الخطية المتعددة هي ببساطة إزالة أحد متغيرات المشكلة، لأن المتغير الذي تقوم بإزالته من المحتمل أن يكون زائدًا عن الحاجة على أي حال ويضيف القليل من المعلومات الفريدة أو المستقلة إلى النموذج.

لتحديد المتغير المراد إزالته، يمكننا استخدام الأمر corr لإنشاء مصفوفة ارتباط لعرض معاملات الارتباط بين كل متغير من المتغيرات في النموذج، مما يمكن أن يساعدنا في تحديد المتغيرات التي قد تكون مرتبطة بشكل كبير مع بعضها البعض ويمكن أن تسبب مشكلة التعددية الخطية:

سعر كورر الوزن الطول ميلا في الغالون

مصفوفة الارتباط في ستاتا

يمكننا أن نرى أن الطول يرتبط بشكل كبير بكل من الوزن والميل لكل جالون، وله أدنى علاقة مع السعر المتغير للاستجابة. وبالتالي، فإن إزالة طول النموذج يمكن أن يحل مشكلة العلاقة الخطية المتعددة دون تقليل الجودة الإجمالية لنموذج الانحدار.

لاختبار ذلك، يمكننا تشغيل تحليل الانحدار مرة أخرى باستخدام الوزن والميل لكل جالون فقط كمتغيرات توضيحية:

الانحدار سعر الوزن ميلا في الغالون

إخراج الانحدار الخطي المتعدد في Stata

يمكننا أن نرى أن مربع R المعدل لهذا النموذج هو 0.2735 مقارنة بـ 0.3298 في النموذج السابق. يشير هذا إلى أن الفائدة الإجمالية للنموذج قد انخفضت بشكل طفيف فقط. بعد ذلك يمكننا العثور على قيم VIF باستخدام أمر VIF :

حية

قيم VIF في Stata

كلتا قيمتي VIF أقل من 5، مما يشير إلى أن تعدد الخطية لم يعد يمثل مشكلة في النموذج.

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *