فهم الخطأ القياسي للانحدار


عندما نلائم نموذج الانحدار مع مجموعة بيانات، فإننا غالبًا ما نهتم بمدى ملاءمة نموذج الانحدار لمجموعة البيانات. هناك مقياسان شائعان الاستخدام لقياس جودة الملاءمة يتضمنان R تربيع ( R2 ) والخطأ المعياري للانحدار ، والذي يُشار إليه غالبًا بـ S.

يشرح هذا البرنامج التعليمي كيفية تفسير الخطأ القياسي للانحدار (S) وكذلك لماذا يمكن أن يوفر معلومات أكثر فائدة من R 2 .

الخطأ القياسي مقابل R-squared في الانحدار

لنفترض أن لدينا مجموعة بيانات بسيطة توضح عدد الساعات التي درسها 12 طالبًا يوميًا لمدة شهر قبل إجراء اختبار مهم، بالإضافة إلى درجة الاختبار:

إذا قمنا بتركيب نموذج انحدار خطي بسيط لمجموعة البيانات هذه في Excel، فسنحصل على النتيجة التالية:

R تربيع هو نسبة التباين في متغير الاستجابة الذي يمكن تفسيره بواسطة متغير التوقع. وفي هذه الحالة يمكن تفسير 65.76% من التباين في درجات الامتحان بعدد الساعات التي قضاها في الدراسة.

الخطأ القياسي للانحدار هو متوسط المسافة بين القيم المرصودة وخط الانحدار. في هذه الحالة، تنحرف القيم المرصودة في المتوسط بمقدار 4.89 وحدة عن خط الانحدار.

إذا قمنا برسم نقاط البيانات الفعلية مع خط الانحدار، يمكننا أن نرى ذلك بشكل أكثر وضوحا:

لاحظ أن بعض الملاحظات تقع قريبة جدًا من خط الانحدار، بينما البعض الآخر لا يفعل ذلك. ولكن في المتوسط، تنحرف القيم المرصودة بمقدار 4.19 وحدة عن خط الانحدار.

يعد الخطأ القياسي للانحدار مفيدًا بشكل خاص لأنه يمكن استخدامه لتقييم دقة التنبؤات. يجب أن يقع ما يقرب من 95% من الملاحظة ضمن +/- خطأين معياريين للانحدار، وهو تقريب سريع لفاصل تنبؤي بنسبة 95%.

إذا أردنا إجراء تنبؤات باستخدام نموذج الانحدار، فقد يكون الخطأ المعياري للانحدار مقياسًا أكثر فائدة في معرفته من R-squared، لأنه يمنحنا فكرة عن مدى دقة تنبؤاتنا من حيث الوحدات.

لتوضيح لماذا قد يكون الخطأ المعياري للانحدار مقياسًا أكثر فائدة لتقييم “ملاءمة” النموذج، دعنا نفكر في مثال آخر لمجموعة بيانات توضح عدد الساعات التي درسها 12 طالبًا يوميًا لمدة شهر واحد سابق لامتحان مهم بالإضافة إلى نتيجة امتحاناتهم:

لاحظ أن هذه هي نفس مجموعة البيانات تمامًا كما كانت من قبل، باستثناء أن جميع قيم s قد تم تخفيضها إلى النصف . وبالتالي، درس الطلاب في مجموعة البيانات هذه نصف الوقت تمامًا مثل الطلاب في مجموعة البيانات السابقة وحصلوا على نصف درجة الامتحان بالضبط.

إذا قمنا بتركيب نموذج انحدار خطي بسيط لمجموعة البيانات هذه في Excel، فسنحصل على النتيجة التالية:

لاحظ أن مربع R الذي يساوي 65.76% هو نفسه تمامًا كما في المثال السابق.

ومع ذلك، فإن الخطأ المعياري للانحدار هو 2.095 ، وهو بالضبط نصف الخطأ المعياري للانحدار في المثال السابق.

إذا قمنا برسم نقاط البيانات الفعلية مع خط الانحدار، يمكننا أن نرى ذلك بشكل أكثر وضوحا:

لاحظ كيف يتم تجميع الملاحظات بشكل أوثق حول خط الانحدار. في المتوسط، تقع القيم المرصودة على بعد 2095 وحدة من خط الانحدار.

لذا، على الرغم من أن كلا نموذجي الانحدار لهما R-squared بنسبة 65.76% ، فإننا نعلم أن النموذج الثاني سيوفر تنبؤات أكثر دقة لأنه يحتوي على خطأ معياري انحدار أقل.

فوائد استخدام الخطأ القياسي

غالبًا ما يكون الخطأ المعياري للانحدار (S) أكثر فائدة في معرفته من مربع R للنموذج لأنه يعطينا الوحدات الفعلية. إذا أردنا استخدام نموذج الانحدار لإنتاج تنبؤات، فيمكن لـ S أن يخبرنا بسهولة ما إذا كان النموذج دقيقًا بدرجة كافية لاستخدامه لأغراض التنبؤ.

على سبيل المثال، لنفترض أننا نريد إنتاج فترة تنبؤ بنسبة 95% يمكننا من خلالها التنبؤ بدرجات الاختبار في حدود 6 نقاط من النتيجة الفعلية.

يحتوي نموذجنا الأول على مربع R بنسبة 65.76%، لكن هذا لا يخبرنا بأي شيء عن دقة فترة التنبؤ لدينا. ولحسن الحظ، نعلم أيضًا أن النموذج الأول يحمل S بقيمة 4.19. وهذا يعني أن فترة التنبؤ بنسبة 95% ستكون تقريبًا 2*4.19 = +/- 8.38 وحدة عرضًا، وهي واسعة جدًا بالنسبة لفاصل التنبؤ الخاص بنا.

يحتوي نموذجنا الثاني أيضًا على مربع R بنسبة 65.76%، ولكن مرة أخرى، لا يخبرنا هذا شيئًا عن دقة فترة التنبؤ لدينا. ومع ذلك، فإننا نعلم أن النموذج الثاني له S بقيمة 2.095. وهذا يعني أن فترة التنبؤ بنسبة 95% ستكون تقريبًا 2*2.095 = +/- 4.19 وحدة عرضًا، وهي أقل من 6 وبالتالي فهي دقيقة بما يكفي لاستخدامها في إنتاج فترات التنبؤ.

قراءة متعمقة

مقدمة إلى الانحدار الخطي البسيط
ما هي قيمة R-squared الجيدة؟

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *