ပြုပြင်နည်း- ညံ့ဖျင်းသော အဆင့်ချိန်ညှိမှုကို ခန့်မှန်းခြင်းသည် အထင်မှားစေနိုင်သည်။


R တွင် သင်ကြုံတွေ့ရနိုင်သည့် ဘုံသတိပေးချက်မှာ-

 Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

ဤသတိပေးချက်သည် အကြောင်းရင်းနှစ်ခုကြောင့် ဖြစ်နိုင်သည်-

အကြောင်းပြချက် 1- ကြိုတင်ခန့်မှန်းကိန်းရှင်နှစ်ခုသည် လုံးဝဆက်စပ်နေသည်။

အကြောင်းပြချက် 2- သင့်တွင် ဒေတာအတွဲရှိ စောင့်ကြည့်မှုများထက် မော်ဒယ်ဘောင်ဘောင်များ ပိုများသည်။

ပြဿနာတစ်ခုစီသည် လက်တွေ့တွင် မည်သို့ဖြစ်ပေါ်လာနိုင်သည်ကို အောက်ပါဥပမာများက ပြသသည်။

အကြောင်းပြချက် # 1- ကြိုတင်ခန့်မှန်းကိန်းရှင်နှစ်ခုသည် လုံးဝဆက်စပ်နေသည်။

ကျွန်ုပ်တို့သည် အောက်ပါ multiple linear regression model ကို R တွင် အံဝင်ခွင်ကျဖြစ်ပြီး ခန့်မှန်းမှုများပြုလုပ်ရန် ၎င်းကိုအသုံးပြုရန် ကြိုးစားသည်ဆိုပါစို့။

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(2, 4, 6, 8),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1+x2, data=df)

#use model to make predictions
predict(model, df)

   1 2 3 4 
 4.9 11.8 18.7 25.6 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

ကြိုတင်ခန့်မှန်းကိန်းရှင် x1 နှင့် x2 တို့သည် လုံးဝဆက်စပ်နေသော ကြောင့် ကျွန်ုပ်တို့သည် သတိပေးစာတစ်စောင် လက်ခံရရှိပါသည်။

x2 တန်ဖိုးများသည် ရိုးရိုး x1 တန်ဖိုးများကို နှစ်ခုဖြင့် မြှောက်ထားခြင်းနှင့် တူညီကြောင်း သတိပြုပါ။ ဤသည်မှာ ပြီးပြည့်စုံသော multicollinearity ၏ ဥပမာတစ်ခုဖြစ်သည်။

ဆိုလိုသည်မှာ x1 နှင့် x2 သည် regression model တွင် ထူးခြားသော သို့မဟုတ် အမှီအခိုကင်းသော အချက်အလက်များကို မပေးဆောင်ဘဲ၊ ၎င်းသည် မော်ဒယ်ကို အံဝင်ခွင်ကျဖြစ်ပြီး ဘာသာပြန်ဆိုရာတွင် ပြဿနာများဖြစ်စေသည်။

ဤပြဿနာကိုဖြေရှင်းရန် အလွယ်ကူဆုံးနည်းလမ်းမှာ မော်ဒယ်တွင် ခန့်မှန်းသူကိန်းရှင်နှစ်ခုစလုံးရှိရန် မလိုအပ်သောကြောင့် မော်ဒယ်မှ ခန့်မှန်းကိန်းရှင်များထဲမှ တစ်ခုကို ဖယ်ရှားရန်ဖြစ်သည်။

အကြောင်းရင်း # 2- လေ့လာတွေ့ရှိချက်များထက် မော်ဒယ်ဘောင်ဘောင်များ ပိုများသည်။

ကျွန်ုပ်တို့သည် အောက်ပါ multiple linear regression model ကို R တွင် အံဝင်ခွင်ကျဖြစ်ပြီး ခန့်မှန်းမှုများပြုလုပ်ရန် ၎င်းကိုအသုံးပြုရန် ကြိုးစားသည်ဆိုပါစို့။

 #create data frame
df <- data. frame (x1=c(1, 2, 3, 4),
                 x2=c(3, 3, 8, 12),
                 x3=c(4, 6, 3, 11),
                 y=c(6, 10, 19, 26))

#fit multiple linear regression model
model <- lm(y~x1*x2*x3, data=df)

#use model to make predictions
predict(model, df)

 1 2 3 4 
 6 10 19 26 
Warning message:
In predict.lm(model, df):
  prediction from a rank-deficient fit may be misleading

စုစုပေါင်း model coefficients ခုနစ်ခုပါသော ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်အောင် ကြိုးပမ်းခဲ့သောကြောင့် သတိပေးစာတစ်စောင် လက်ခံရရှိပါသည်-

  • x1
  • x၂
  • x3
  • x1*x2
  • x1*3
  • x2*x3
  • x1*x2*x3

သို့သော်၊ ဒေတာအတွဲတွင် စုစုပေါင်း စောင့်ကြည့်မှုလေးခုသာရှိသည်။

မော်ဒယ် ကန့်သတ်ချက်များ အရေအတွက်သည် ဒေတာအတွဲတွင် ကြည့်ရှုမှုအရေအတွက်ထက် ပိုများနေသောကြောင့်၊ ကျွန်ုပ်တို့သည် ဤ မြင့်မားသော ဒေတာကို ခေါ်သည်။

အဘက်ဘက်မှ မြင့်မားသောဒေတာဖြင့်၊ ခန့်မှန်းသူကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ဆက်နွယ်မှုကို ဖော်ပြနိုင်သည့် မော်ဒယ်ကို ရှာတွေ့ရန် မဖြစ်နိုင်တော့ဘဲ မော်ဒယ်ကို လေ့ကျင့်ရန် ကျွန်ုပ်တို့တွင် လုံလောက်သော စူးစမ်းလေ့လာမှုများ မရှိသောကြောင့် ဖြစ်သည်။

ဤပြဿနာကို ဖြေရှင်းရန် အရိုးရှင်းဆုံးနည်းလမ်းမှာ ကျွန်ုပ်တို့၏ဒေတာအတွဲအတွက် စူးစမ်းလေ့လာမှုများကို ပိုမိုစုဆောင်းရန် သို့မဟုတ် ခန့်မှန်းရန် ကိန်းဂဏန်းအနည်းငယ်ပါသော ရိုးရှင်းသောပုံစံကို အသုံးပြုခြင်းဖြစ်သည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် အခြားသော ဘုံအမှားများကို ကိုင်တွယ်နည်းကို ရှင်းပြသည် ။

ကိုင်တွယ်နည်း- glm.fit- အယ်လဂိုရီသမ်သည် အသွင်မဆောင်ခဲ့ပါ။
ကိုင်တွယ်နည်း- glm.fit- ကိန်းဂဏန်းအလိုက် ချိန်ညှိထားသော ဖြစ်နိုင်ခြေ 0 သို့မဟုတ် 1 ဖြစ်သွားသည်။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်