دليل للخطية المتعددة وvif في الانحدار
تحدث العلاقة الخطية المتعددة في تحليل الانحدار عندما يرتبط متغيران أو أكثر من متغيرات التوقع ارتباطًا وثيقًا ببعضهما البعض، بحيث لا يوفران معلومات فريدة أو مستقلة في نموذج الانحدار.
إذا كانت درجة الارتباط عالية بما يكفي بين المتغيرات، فقد يتسبب ذلك في حدوث مشكلات عند ملاءمة نموذج الانحدار وتفسيره.
على سبيل المثال، لنفترض أنك تقوم بتشغيل تحليل الانحدار باستخدام متغير استجابة القفز العمودي الأقصى ومتغيرات التوقع التالية:
- ارتفاع
- مقاس الحذاء
- الساعات التي يقضيها في ممارسة يوميا
في هذه الحالة، من المحتمل أن يكون الطول وحجم الحذاء مرتبطين بشكل كبير، حيث يميل الأشخاص الأطول إلى الحصول على أحجام أحذية أكبر. وهذا يعني أن التعددية الخطية من المحتمل أن تكون مشكلة في هذا الانحدار.
يشرح هذا البرنامج التعليمي سبب وجود مشكلة في العلاقة الخطية المتعددة، وكيفية اكتشافها، وكيفية إصلاحها.
لماذا تعد الخطية المتعددة مشكلة
أحد الأهداف الرئيسية لتحليل الانحدار هو عزل العلاقة بين كل متغير متنبئ ومتغير الاستجابة.
على وجه الخصوص، عندما نقوم بإجراء تحليل الانحدار، فإننا نفسر كل معامل انحدار على أنه متوسط التغير في متغير الاستجابة، على افتراض أن جميع المتغيرات المتوقعة الأخرى في النموذج تظل ثابتة.
هذا يعني أننا نفترض أننا قادرون على تغيير قيم متغير متنبئ معين دون تغيير قيم متغيرات متنبئة أخرى.
ومع ذلك، عندما يكون هناك ارتباط كبير بين متغيرين متنبئين أو أكثر، يصبح من الصعب تغيير متغير واحد دون تغيير متغير آخر.
وهذا يجعل من الصعب على نموذج الانحدار أن يقوم بتقدير العلاقة بين كل متغير متنبئ ومتغير الاستجابة بشكل مستقل، لأن المتغيرات المتوقعة تميل إلى التغيير في انسجام تام.
بشكل عام، تطرح العلاقة الخطية المتعددة نوعين من المشاكل:
- يمكن أن تتقلب تقديرات معاملات النموذج (وحتى علامات المعاملات) بشكل كبير اعتمادًا على متغيرات التوقع الأخرى المدرجة في النموذج.
- يتم تقليل دقة تقديرات المعامل، مما يجعل القيم الاحتمالية غير موثوقة. وهذا يجعل من الصعب تحديد المتغيرات المتوقعة التي لها دلالة إحصائية بالفعل.
كيفية الكشف عن التعددية الخطية
الطريقة الأكثر شيوعًا لاكتشاف العلاقة الخطية المتعددة هي استخدام عامل تضخم التباين (VIF) ، الذي يقيس الارتباط وقوة الارتباط بين متغيرات التوقع في نموذج الانحدار.
استخدام عامل التضخم التباين (VIF)
تتمتع معظم البرامج الإحصائية بالقدرة على حساب VIF لنموذج الانحدار. تبدأ قيمة VIF عند 1 وليس لها حد أعلى. القاعدة العامة لتفسير VIFs هي:
- تشير القيمة 1 إلى عدم وجود ارتباط بين متغير توقع معين وأي متغير توقع آخر في النموذج.
- تشير القيمة بين 1 و5 إلى وجود علاقة معتدلة بين متغير متنبئ معين ومتغيرات تنبؤية أخرى في النموذج، ولكنها في كثير من الأحيان ليست شديدة بما يكفي لتتطلب اهتمامًا خاصًا.
- تشير القيمة الأكبر من 5 إلى وجود علاقة جدية محتملة بين متغير توقع معين ومتغيرات توقع أخرى في النموذج. في هذه الحالة، من المحتمل أن تكون تقديرات المعامل والقيم الاحتمالية في نتائج الانحدار غير موثوقة.
على سبيل المثال، لنفترض أننا نقوم بإجراء تحليل الانحدار باستخدام متغيرات التوقع الارتفاع وحجم الحذاء والساعات التي يقضيها التدريب يوميًا للتنبؤ بالقفز الرأسي الأقصى للاعبي كرة السلة والحصول على النتيجة التالية:
في العمود الأخير، يمكننا أن نرى أن قيم VIF للطول وحجم الحذاء أكبر من 5. ويشير هذا إلى أنهم من المحتمل أن يعانون من تعدد الخطية وأن تقديرات معاملاتهم وقيمهم الاحتمالية من المحتمل أن تكون غير موثوقة.
إذا نظرنا إلى تقدير المعامل لحجم الحذاء، يخبرنا النموذج أنه لكل وحدة إضافية زيادة في حجم الحذاء، فإن متوسط الزيادة في الحد الأقصى للقفز العمودي هو -0.67498 بوصة، على افتراض أن الارتفاع وساعات التدريب تظل ثابتة.
لا يبدو هذا منطقيًا، نظرًا لأننا نتوقع أن يكون اللاعبون الذين يرتدون أحذية أكبر أطول، وبالتالي لديهم الحد الأقصى للقفز العمودي.
هذا مثال كلاسيكي على العلاقة الخطية المتعددة التي تجعل تقديرات المعامل تبدو بعيدة المنال وغير بديهية بعض الشيء.
كيفية حل التعددية الخطية
إذا اكتشفت وجود علاقة خطية متعددة، فإن الخطوة التالية هي تحديد ما إذا كنت بحاجة إلى حلها بطريقة أو بأخرى. اعتمادًا على هدف تحليل الانحدار، قد لا تحتاج إلى حل العلاقة الخطية المتعددة.
لمعرفة:
1. إذا كان هناك تعدد خطي معتدل فقط، فربما لن تحتاج إلى حله بأي شكل من الأشكال.
2. تؤثر العلاقة الخطية المتعددة فقط على المتغيرات المتوقعة المرتبطة ببعضها البعض. إذا كنت مهتمًا بمتغير توقع في النموذج الذي لا يعاني من تعدد الخطية، فإن التعدد الخطي ليس مشكلة.
3. تؤثر العلاقة الخطية المتعددة على تقديرات المعاملات والقيم الاحتمالية، ولكنها لا تؤثر على التنبؤات أو إحصائيات جودة المطابقة. هذا يعني أنه إذا كان هدفك الأساسي من الانحدار هو إجراء تنبؤات ولم تكن مهتمًا بفهم العلاقة الدقيقة بين متغيرات التوقع ومتغير الاستجابة، فلن يلزم حل العلاقة الخطية المتعددة.
إذا قررت أنك بحاجة إلى تصحيح العلاقة الخطية المتعددة، تتضمن بعض الحلول الشائعة ما يلي:
1. قم بإزالة واحد أو أكثر من المتغيرات شديدة الارتباط. يعد هذا هو الحل الأسرع في معظم الحالات وغالبًا ما يكون حلاً مقبولاً لأن المتغيرات التي تقوم بإزالتها تكون زائدة عن الحاجة على أي حال وتضيف القليل من المعلومات الفريدة أو المستقلة إلى النموذج.
2. يجمع المتغيرات المتنبئة بشكل خطي بطريقة ما، مثل إضافتها أو طرحها بطريقة ما. ومن خلال القيام بذلك، يمكنك إنشاء متغير جديد يشمل المعلومات من كلا المتغيرين ولن تعد لديك مشكلة تعدد الخطية.
3. إجراء تحليل مصمم لمراعاة المتغيرات شديدة الارتباط، مثل تحليل المكون الرئيسي أو انحدار المربعات الصغرى الجزئية (PLS) . تم تصميم هذه التقنيات خصيصًا للتعامل مع متغيرات التوقع شديدة الارتباط.