كيفية الإصلاح: قد يكون التنبؤ بتعديل الترتيب الضعيف أمرًا مضللاً


التحذير الشائع الذي قد تواجهه في R هو:

 Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

يمكن أن يحدث هذا التحذير لسببين:

السبب 1 : هناك ارتباط تام بين متغيرين متنبئين.

السبب 2 : لديك معلمات نموذجية أكثر من الملاحظات في مجموعة البيانات.

توضح الأمثلة التالية كيف يمكن أن تنشأ كل مشكلة في الممارسة العملية.

السبب رقم 1: هناك ارتباط تام بين متغيرين متنبئين

لنفترض أننا قمنا بدمج نموذج الانحدار الخطي المتعدد التالي في R وحاولنا استخدامه لإجراء تنبؤات:

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(2, 4, 6, 8),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1+x2, data=df)

#use model to make predictions
predict(model, df)

   1 2 3 4 
 4.9 11.8 18.7 25.6 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

نتلقى رسالة تحذير لأن متغيرات التوقع x1 و x2 مرتبطة بشكل مثالي .

لاحظ أن قيم x2 تساوي ببساطة قيم x1 مضروبة في اثنين. وهذا مثال على التعددية الخطية المثالية .

وهذا يعني أن x1 وx2 لا يوفران معلومات فريدة أو مستقلة في نموذج الانحدار، مما يسبب مشاكل عند ملاءمة النموذج وتفسيره.

أسهل طريقة لحل هذه المشكلة هي ببساطة إزالة أحد متغيرات التوقع من النموذج، حيث أنه من الزائد وجود كلا المتغيرين التوقعيين في النموذج.

السبب رقم 2: هناك معلمات نموذجية أكثر من الملاحظات

لنفترض أننا قمنا بدمج نموذج الانحدار الخطي المتعدد التالي في R وحاولنا استخدامه لإجراء تنبؤات:

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(3, 3, 8, 12),
                 x3=c(4, 6, 3, 11),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1*x2*x3, data=df)

#use model to make predictions
predict(model, df)

 1 2 3 4 
 6 10 19 26 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

نتلقى رسالة تحذير لأننا حاولنا ملاءمة نموذج الانحدار مع سبعة معاملات نموذجية إجمالية:

  • ×1
  • ×2
  • ×3
  • ×1*x2
  • ×1*3
  • ×2*x3
  • ×1*x2*x3

ومع ذلك، لدينا أربع ملاحظات فقط في مجموعة البيانات.

نظرًا لأن عدد معلمات النموذج أكبر من عدد الملاحظات في مجموعة البيانات، فإننا نسمي هذه البيانات عالية الأبعاد .

مع البيانات عالية الأبعاد، يصبح من المستحيل العثور على نموذج يمكنه وصف العلاقة بين متغيرات التوقع ومتغير الاستجابة لأنه ليس لدينا ملاحظات كافية لتدريب النموذج عليها.

إن أبسط طريقة لحل هذه المشكلة هي جمع المزيد من الملاحظات لمجموعة البيانات الخاصة بنا أو استخدام نموذج أبسط مع معاملات أقل لتقديرها.

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية التعامل مع الأخطاء الشائعة الأخرى في R:

كيفية التعامل مع: glm.fit: الخوارزمية لم تتقارب
كيفية التعامل مع: glm.fit: حدثت الاحتمالات المعدلة عدديًا 0 أو 1

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *