كيفية تفسير r-squared المعدل (مع أمثلة)
عندما نلائم نماذج الانحدار الخطي، فإننا غالبًا ما نحسب قيمة R-squared للنموذج.
قيمة R-squared هي نسبة التباين في متغير الاستجابة الذي يمكن تفسيره بواسطة المتغيرات المتوقعة في النموذج.
يمكن أن تختلف قيمة R التربيعية من 0 إلى 1 حيث:
- تشير القيمة 0 إلى أن متغير الاستجابة لا يمكن تفسيره بواسطة متغيرات التوقع على الإطلاق.
- تشير القيمة 1 إلى أنه يمكن تفسير متغير الاستجابة بشكل كامل من خلال متغيرات التوقع.
على الرغم من أن هذا المقياس يستخدم بشكل شائع لتقييم مدى ملاءمة نموذج الانحدار لمجموعة البيانات، إلا أنه يحتوي على عيب خطير:
عيوب R-squared:
سوف يزداد مربع R دائمًا عند إضافة متغير توقع جديد إلى نموذج الانحدار.
حتى لو لم يكن لمتغير توقع جديد أي علاقة تقريبًا بمتغير الاستجابة، فإن قيمة R-squared للنموذج ستزداد، حتى ولو بمقدار صغير.
لهذا السبب، من الممكن أن يكون لنموذج الانحدار الذي يحتوي على عدد كبير من المتغيرات المتوقعة قيمة R-squared عالية، حتى لو كان النموذج لا يناسب البيانات بشكل جيد.
لحسن الحظ، هناك بديل لـ R-squared يسمى R-squared المعدل .
إن R-squared المعدل هو نسخة معدلة من R-squared والتي يتم ضبطها حسب عدد المتنبئين في نموذج الانحدار.
يتم حسابه على النحو التالي:
تم تعديل R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
ذهب:
- R 2 : R 2 للنموذج
- n : عدد الملاحظات
- k : عدد المتغيرات المتوقعة
نظرًا لأن R-squared يزداد دائمًا عند إضافة تنبؤات إلى النموذج، فإن R-squared المعدل يمكن أن يخبرك بمدى فائدة النموذج، ويتم تعديله ليتناسب مع عدد المتنبئين في النموذج .
ميزة R-squared المعدلة:
يخبرنا مربع R المعدل بمدى قدرة مجموعة من المتغيرات المتوقعة على تفسير التباين في متغير الاستجابة، المعدل لعدد المتنبئين في النموذج .
نظرًا لطريقة حسابه، يمكن استخدام R-squared المعدل لمقارنة ملاءمة نماذج الانحدار مع أعداد مختلفة من متغيرات التوقع.
لفهم R-squared المعدل بشكل أفضل، راجع المثال التالي.
مثال: فهم R-squared المعدل في نماذج الانحدار
لنفترض أن الأستاذ يجمع بيانات عن الطلاب في فصله ويلائم نموذج الانحدار التالي لفهم كيفية تأثير الساعات التي يقضيها في الدراسة والدرجة الحالية في الفصل على الدرجة التي يحصل عليها الطالب في الاختبار النهائي.
درجة الامتحان = β 0 + β 1 (الساعات المستغرقة في الدراسة) + β 2 (الدرجة الحالية)
لنفترض أن نموذج الانحدار هذا يحتوي على المقاييس التالية:
- ص تربيع: 0.955
- مربع R المعدل: 0.946
لنفترض الآن أن المعلم قرر جمع بيانات عن متغير آخر لكل طالب: حجم الحذاء.
وعلى الرغم من أن هذا المتغير لا ينبغي أن يكون له أي علاقة بدرجة الامتحان النهائي، إلا أنه قرر تكييف نموذج الانحدار التالي:
درجة الامتحان = β 0 + β 1 (ساعات الدراسة) + β 2 (العام الحالي) + β 3 (حجم الحذاء)
لنفترض أن نموذج الانحدار هذا يحتوي على المقاييس التالية:
- ص تربيع: 0.965
- مربع R المعدل: 0.902
لو نظرنا فقط إلى قيم R-squared لكل من نموذجي الانحدار هذين، لاستنتجنا أن النموذج الثاني أفضل في الاستخدام لأنه يحتوي على قيمة R-squared أعلى!
ومع ذلك، إذا نظرنا إلى قيم R-squared المعدلة ، فسنصل إلى نتيجة مختلفة: من الأفضل استخدام النموذج الأول لأنه يحتوي على قيمة R-squared المعدلة أعلى.
يحتوي النموذج الثاني فقط على قيمة R-squared أعلى لأنه يحتوي على متغيرات تنبؤية أكثر من النموذج الأول.
ومع ذلك، كان متغير التوقع الذي أضفناه (حجم الحذاء) مؤشرًا سيئًا لدرجة الاختبار النهائي، لذا فإن قيمة R-squared المعدلة عاقبت النموذج لإضافة متغير التوقع هذا.
يوضح هذا المثال سبب كون R-squared المعدل مقياسًا أفضل للاستخدام عند مقارنة ملاءمة نماذج الانحدار بأعداد مختلفة من متغيرات التوقع.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية حساب قيم R-squared المعدلة باستخدام برامج إحصائية مختلفة:
كيفية حساب R-squared المعدل في R
كيفية حساب R-squared المعدل في Excel
كيفية حساب R-squared المعدل في بايثون