Rmse مقابل r-squared: ما هو المقياس الذي يجب عليك استخدامه؟


تُستخدم نماذج الانحدار لتحديد العلاقة بين واحد أو أكثر من متغيرات التوقع ومتغير الاستجابة.

عندما نلائم نموذج الانحدار، نريد أن نفهم مدى “ملاءمة” النموذج للبيانات. بمعنى آخر، ما مدى قدرة النموذج على استخدام قيم متغيرات التوقع للتنبؤ بقيمة متغير الاستجابة ؟

هناك مقياسان يستخدمهما الإحصائيون غالبًا لتحديد مدى ملاءمة النموذج لمجموعة بيانات هما جذر متوسط مربع الخطأ (RMSE) وR تربيع ( R2 )، والتي يتم حسابها على النحو التالي:

RMSE : مقياس يخبرنا بمدى اختلاف القيم المتوقعة عن القيم المرصودة في مجموعة البيانات في المتوسط. كلما انخفض RMSE، كلما كان النموذج مناسبًا لمجموعة البيانات بشكل أفضل.

يتم حسابه على النحو التالي:

RMSE = √ Σ(P i – O i ) 2 / n

ذهب:

  • Σ هو رمز يعني “المجموع”
  • P i هي القيمة المتوقعة للملاحظة رقم
  • O i هي القيمة المرصودة للملاحظة رقم
  • n هو حجم العينة

R 2 : مقياس يخبرنا بمدى التباين في متغير الاستجابة لنموذج الانحدار الذي يمكن تفسيره بواسطة المتغيرات المتوقعة. تتراوح هذه القيمة بين 0 و1. كلما ارتفعت قيمة R2 ، كان النموذج ملائمًا لمجموعة من البيانات بشكل أفضل.

يتم حسابه على النحو التالي:

R2 = 1 – (RSS/TSS)

ذهب:

  • يمثل RSS مجموع مربعات القيم المتبقية
  • يمثل TSS مجموع المربعات

RMSE vs R 2 : ما هو المقياس الذي يجب عليك استخدامه؟

عند تقييم ملاءمة النموذج لمجموعة بيانات، من المفيد حساب كل من قيمة RMSE وقيمة R 2 ، لأن كل مقياس يخبرنا بشيء مختلف.

من ناحية، يخبرنا RMSE بالمسافة النموذجية بين القيمة المتوقعة التي تم إجراؤها بواسطة نموذج الانحدار والقيمة الحقيقية.

ومن ناحية أخرى، يخبرنا R2 إلى أي مدى يمكن للمتغيرات المتوقعة تفسير التباين في متغير الاستجابة.

على سبيل المثال، لنفترض أن لدينا مجموعة البيانات التالية التي تعرض معلومات حول المنازل في مدينة معينة:

لنفترض الآن أننا نريد استخدام المساحة المربعة وعدد الحمامات وعدد غرف النوم للتنبؤ بسعر المنزل.

يمكننا تكييف نموذج الانحدار التالي:

السعر = β 0 + β 1 (بالقدم المربع) + β 2 (# الحمامات) + β 3 (# غرف النوم)

لنفترض الآن أننا نلائم هذا النموذج ثم نحسب المقاييس التالية لتقييم مدى ملاءمة النموذج:

  • آر إم إس إي : 14.342
  • ر2 : 0.856

تخبرنا قيمة RMSE أن متوسط الفرق بين سعر المنزل المتوقع في النموذج وسعر المنزل الفعلي هو 14,342 دولارًا.

تخبرنا قيمة R 2 أن المتغيرات المتوقعة للنموذج (القدم المربع، عدد الحمامات، وعدد غرف النوم) قادرة على تفسير 85.6% من التباين في أسعار المساكن.

ولتحديد ما إذا كانت هذه القيم “جيدة” أم لا، يمكننا مقارنة هذه القياسات بنماذج بديلة.

على سبيل المثال، لنفترض أننا نلائم نموذج انحدار آخر يستخدم مجموعة مختلفة من متغيرات التوقع ونقوم بحساب المقاييس التالية لذلك النموذج:

  • RMSE : 19.355
  • ر2 : 0.765

يمكننا أن نرى أن قيمة RMSE لهذا النموذج أعلى من قيمة النموذج السابق. ويمكن أيضًا ملاحظة أن قيمة R 2 لهذا النموذج أقل من قيمة النموذج السابق. وهذا يخبرنا أن هذا النموذج يناسب البيانات بشكل أقل من النموذج السابق.

ملخص

فيما يلي أهم النقاط التي أثيرت في هذا المقال:

  • يحدد كل من RMSE وR 2 مدى ملاءمة نموذج الانحدار لمجموعة البيانات.
  • يخبرنا RMSE مدى قدرة نموذج الانحدار على التنبؤ بقيمة متغير الاستجابة من حيث القيمة المطلقة، بينما يخبرنا R 2 مدى قدرة النموذج على التنبؤ بقيمة متغير الاستجابة من حيث النسبة المئوية.
  • من المفيد حساب كل من RMSE و R2 لنموذج معين لأن كل مقياس يعطينا معلومات مفيدة.

مصادر إضافية

مقدمة في الانحدار الخطي المتعدد
R مقابل R-Square: ما الفرق؟
ما هي قيمة R-squared الجيدة؟

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *