كيفية الإصلاح: قد يكون التنبؤ بتعديل الترتيب الضعيف أمرًا مضللاً

By دكتور بنيامين أندرسون قويروق‏دوغان 23, 2023 مرشد 0 Comments

التحذير الشائع الذي قد تواجهه في R هو:

 Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

يمكن أن يحدث هذا التحذير لسببين:

السبب 1 : هناك ارتباط تام بين متغيرين متنبئين.

السبب 2 : لديك معلمات نموذجية أكثر من الملاحظات في مجموعة البيانات.

توضح الأمثلة التالية كيف يمكن أن تنشأ كل مشكلة في الممارسة العملية.

السبب رقم 1: هناك ارتباط تام بين متغيرين متنبئين

لنفترض أننا قمنا بدمج نموذج الانحدار الخطي المتعدد التالي في R وحاولنا استخدامه لإجراء تنبؤات:

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(2, 4, 6, 8),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1+x2, data=df)

#use model to make predictions
predict(model, df)

   1 2 3 4 
 4.9 11.8 18.7 25.6 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

نتلقى رسالة تحذير لأن متغيرات التوقع x1 و x2 مرتبطة بشكل مثالي .

لاحظ أن قيم x2 تساوي ببساطة قيم x1 مضروبة في اثنين. وهذا مثال على التعددية الخطية المثالية .

وهذا يعني أن x1 وx2 لا يوفران معلومات فريدة أو مستقلة في نموذج الانحدار، مما يسبب مشاكل عند ملاءمة النموذج وتفسيره.

أسهل طريقة لحل هذه المشكلة هي ببساطة إزالة أحد متغيرات التوقع من النموذج، حيث أنه من الزائد وجود كلا المتغيرين التوقعيين في النموذج.

السبب رقم 2: هناك معلمات نموذجية أكثر من الملاحظات

لنفترض أننا قمنا بدمج نموذج الانحدار الخطي المتعدد التالي في R وحاولنا استخدامه لإجراء تنبؤات:

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(3, 3, 8, 12),
                 x3=c(4, 6, 3, 11),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1*x2*x3, data=df)

#use model to make predictions
predict(model, df)

 1 2 3 4 
 6 10 19 26 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

نتلقى رسالة تحذير لأننا حاولنا ملاءمة نموذج الانحدار مع سبعة معاملات نموذجية إجمالية:

×1
×2
×3
×1*x2
×1*3
×2*x3
×1*x2*x3

ومع ذلك، لدينا أربع ملاحظات فقط في مجموعة البيانات.

نظرًا لأن عدد معلمات النموذج أكبر من عدد الملاحظات في مجموعة البيانات، فإننا نسمي هذه البيانات عالية الأبعاد .

مع البيانات عالية الأبعاد، يصبح من المستحيل العثور على نموذج يمكنه وصف العلاقة بين متغيرات التوقع ومتغير الاستجابة لأنه ليس لدينا ملاحظات كافية لتدريب النموذج عليها.

إن أبسط طريقة لحل هذه المشكلة هي جمع المزيد من الملاحظات لمجموعة البيانات الخاصة بنا أو استخدام نموذج أبسط مع معاملات أقل لتقديرها.

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية التعامل مع الأخطاء الشائعة الأخرى في R:

كيفية التعامل مع: glm.fit: الخوارزمية لم تتقارب
كيفية التعامل مع: glm.fit: حدثت الاحتمالات المعدلة عدديًا 0 أو 1

About Author

دكتور بنيامين أندرسون

مرحبًا، أنا بنجامين، أستاذ الإحصاء المتقاعد الذي تحول إلى مدرس متخصص في Statorials. بفضل خبرتي الواسعة في مجال الإحصاء، فأنا حريص على مشاركة معرفتي لتمكين الطلاب من خلال Statorials. تعرف أكثر

السبب رقم 1: هناك ارتباط تام بين متغيرين متنبئين

السبب رقم 2: هناك معلمات نموذجية أكثر من الملاحظات

مصادر إضافية

About Author

دكتور بنيامين أندرسون

Add a Comment