R တွင် အလေးချိန် အနည်းဆုံး စတုရန်း ဆုတ်ယုတ်မှုကို မည်သို့လုပ်ဆောင်ရမည်နည်း


linear regression ၏ အဓိက ယူဆချက် တစ်ခုမှာ အကြွင်းအကျန်များကို ကြိုတင်ခန့်မှန်းကိန်းရှင် အဆင့်တစ်ခုစီတွင် တူညီသောကွဲလွဲမှုဖြင့် ဖြန့်ဝေပေးခြင်းဖြစ်သည်။ ဤယူဆချက်ကို homoscedasticity ဟုခေါ်သည်။

ဤယူဆချက်ကို မလေးစားပါက အကြွင်းအ ကျန်များတွင် ရှိနေသည်ဟု ဆိုပါသည်။ ထိုသို့ဖြစ်လာသောအခါ၊ ဆုတ်ယုတ်မှုရလဒ်များသည် ယုံကြည်စိတ်ချရခြင်းမရှိပေ။

ဤပြဿနာကိုဖြေရှင်းရန်နည်းလမ်းတစ်ခုမှာ အမှားကွဲလွဲမှုနည်းသော လေ့လာသုံးသပ်ချက်များ အတွက် အလေးများသတ်မှတ်ပေးသည့် အလေးချိန်အနည်းဆုံးစတုရန်းဆုတ်ယုတ်မှု ကိုအသုံးပြုခြင်းဖြစ်ပြီး အမှားကွဲလွဲမှုနည်းပါးသူများသည် အလေးချိန်ပိုမိုရရှိသောကြောင့် ၎င်းတို့တွင်အချက်အလက်များပိုမိုပါဝင်သောကြောင့် ၎င်းတို့တွင် အမှားအယွင်းကွဲလွဲမှုပိုများသောလေ့လာသုံးသပ်မှုများနှင့်နှိုင်းယှဉ်ပါ။

ဤသင်ခန်းစာသည် R တွင် အလေးချိန်အနည်းဆုံးစတုရန်းဆုတ်ယုတ်မှုလုပ်ဆောင်ပုံအဆင့်ဆင့်ကို ဥပမာပေးထားသည်။

အဆင့် 1: ဒေတာကိုဖန်တီးပါ။

အောက်ပါကုဒ်သည် သင်ကြားခဲ့သည့် နာရီအရေအတွက်နှင့် ကျောင်းသား 16 ဦးအတွက် သက်ဆိုင်ရာ စာမေးပွဲရမှတ်များပါရှိသော ဒေတာဘောင်တစ်ခုကို ဖန်တီးသည်-

 df <- data.frame(hours=c(1, 1, 2, 2, 2, 3, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8),
                 score=c(48, 78, 72, 70, 66, 92, 93, 75, 75, 80, 95, 97, 90, 96, 99, 99))

အဆင့် 2- Linear Regression လုပ်ဆောင်ပါ။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် ခန့်မှန်းကိန်းရှင်ကိန်းရှင်အဖြစ် နာရီကိုအသုံးပြုကာ တုံ့ပြန်မှုကိန်းရှင် အဖြစ် ရမှတ်ကိုအသုံးပြုသည့် ရိုးရှင်းသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံ နှင့်ကိုက်ညီရန် lm() လုပ်ဆောင်ချက်ကို အသုံးပြုပါမည်။

 #fit simple linear regression model
model <- lm(score ~ hours, data = df)

#view summary of model
summary(model)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
    Min 1Q Median 3Q Max 
-17,967 -5,970 -0.719 7,531 15,032 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 60,467 5,128 11,791 1.17e-08 ***
hours 5,500 1,127 4,879 0.000244 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.224 on 14 degrees of freedom
Multiple R-squared: 0.6296, Adjusted R-squared: 0.6032 
F-statistic: 23.8 on 1 and 14 DF, p-value: 0.0002438

အဆင့် 3- မျိုးရိုးလိုက်ခြင်းအတွက် စမ်းသပ်ပါ။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် မျိုးရိုးလိုက်ခြင်းအတွက် အမြင်အာရုံဖြင့် စစ်ဆေးရန် ကျန်ရှိသော အကွက်များနှင့် တပ်ဆင်ထားသော တန်ဖိုးများကို ဖန်တီးပါမည်။

 #create residual vs. fitted plot
plot( fitted (model), resid (model), xlab=' Fitted Values ', ylab=' Residuals ')

#add a horizontal line at 0 
abline(0,0) 

အကြွင်းအကျန်များသည် “ ပုံးပုံ” ပုံသဏ္ဍာန်ရှိသည်ကို ဂရပ်ဖ်မှမြင်နိုင်သည်- ၎င်းတို့သည် ဂရပ်တစ်လျှောက်လုံးတူညီသောကွဲလွဲမှုဖြင့် မဖြန့်ဝေပါ။

မျိုးကွဲကွဲပြားမှုအတွက်တရားဝင်စမ်းသပ်ရန်၊ ကျွန်ုပ်တို့သည် Breusch-Pagan စမ်းသပ်မှုကိုလုပ်ဆောင်နိုင်သည်-

 #load lmtest package
library (lmtest)

#perform Breusch-Pagan test
bptest(model)

	studentized Breusch-Pagan test

data: model
BP = 3.9597, df = 1, p-value = 0.0466

Breusch-Pagan စမ်းသပ်မှုတွင် အောက်ပါ null နှင့် အခြားအခြားသော အယူအဆများကို အသုံးပြုသည် ။

  • Null hypothesis (H 0 ) : homoscedasticity ရှိနေသည် (ကျန်အကြွင်းများကို တူညီသောကွဲလွဲမှုဖြင့် ဖြန့်ဝေသည်)
  • အစားထိုး အယူအဆ ( HA ) : heteroscedasticity ရှိနေသည် (ကျန်အကြွင်းများကို တူညီသောကွဲလွဲမှုဖြင့် မဖြန့်ဝေပါ)

စစ်ဆေးမှု၏ p-value သည် 0.0466 ဖြစ်သောကြောင့်၊ ကျွန်ုပ်တို့သည် null hypothesis ကို ပယ်ချပြီး heteroscedasticity သည် ဤပုံစံတွင် ပြဿနာတစ်ခုဖြစ်ကြောင်း ကောက်ချက်ချပါမည်။

အဆင့် 4- အလေးချိန်အနည်းဆုံးစတုရန်းဆုတ်ယုတ်မှုကိုလုပ်ဆောင်ပါ။

heteroscedasticity ရှိနေပြီဖြစ်သောကြောင့်၊ အောက်ပိုင်းကွဲလွဲမှုဖြင့် လေ့လာတွေ့ရှိချက်များသည် အလေးချိန်ပိုမိုရရှိစေသည့် အလေးချိန်များကို သတ်မှတ်ခြင်းဖြင့် အနည်းဆုံး လေးထောင့်အလေးချိန်များကို လုပ်ဆောင်ပါမည်။

 #define weights to use
wt <- 1 / lm( abs (model$residuals) ~ model$fitted. values )$fitted. values ^2

#perform weighted least squares regression
wls_model <- lm(score ~ hours, data = df, weights=wt)

#view summary of model
summary(wls_model)

Call:
lm(formula = score ~ hours, data = df, weights = wt)

Weighted Residuals:
    Min 1Q Median 3Q Max 
-2.0167 -0.9263 -0.2589 0.9873 1.6977 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 63.9689 5.1587 12.400 6.13e-09 ***
hours 4.7091 0.8709 5.407 9.24e-05 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.199 on 14 degrees of freedom
Multiple R-squared: 0.6762, Adjusted R-squared: 0.6531 
F-statistic: 29.24 on 1 and 14 DF, p-value: 9.236e-05

ရလဒ်များမှ၊ နာရီ ခန့်မှန်းပေးသူ variable အတွက် ကိန်းဂဏန်း ခန့်မှန်းချက်သည် အနည်းငယ် ပြောင်းလဲသွားပြီး အလုံးစုံ မော်ဒယ်နှင့် အံဝင်ခွင်ကျ တိုးတက်လာသည်ကို တွေ့နိုင်ပါသည်။

အလေးချိန်အနည်းဆုံးစတုရန်းမော်ဒယ်သည် မူလရိုးရှင်းသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံတွင် 9.224 နှင့် နှိုင်းယှဉ်ပါက ကျန်ရှိသောစံနှုန်းအမှား 1.199 ရှိသည်။

အလေးချိန်အနည်းဆုံးစတုရန်းမော်ဒယ်မှထုတ်လုပ်သော ခန့်မှန်းတန်ဖိုးများသည် ရိုးရှင်းသော linear regression model မှထုတ်လုပ်သော ခန့်မှန်းတန်ဖိုးများနှင့် နှိုင်းယှဉ်ပါက အမှန်တကယ်လေ့လာတွေ့ရှိချက်များနှင့် များစွာနီးစပ်ကြောင်း ညွှန်ပြပါသည်။

အလေးချိန်အနည်းဆုံးစတုရန်းပုံစံတွင် မူလရိုးရှင်းသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံရှိ 0.6296 နှင့် နှိုင်းယှဉ်ပါက R-squared 0.6762 ရှိသည်။

၎င်းသည် အလေးချိန်အနည်းဆုံးစတုရန်းပုံစံသည် ရိုးရှင်းသောမျဉ်းဖြောင့်ဆုတ်ယုတ်မှုပုံစံထက် စာမေးပွဲရမှတ်များတွင် ကွဲလွဲမှုကို ပိုမိုရှင်းပြနိုင်သည်ကို ဖော်ပြသည်။

ဤတိုင်းတာချက်များအရ အလေးချိန်အနည်းဆုံးစတုရန်းပုံစံသည် ရိုးရှင်းသော linear regression model နှင့် နှိုင်းယှဉ်ပါက data နှင့် ပိုမိုကိုက်ညီမှုရှိသည်ကို ဖော်ပြသည်။

ထပ်လောင်းအရင်းအမြစ်များ

R တွင် ရိုးရှင်းသော linear regression လုပ်နည်း
R တွင် linear regression အများအပြားလုပ်ဆောင်နည်း
R တွင် Quantile Regression ကို မည်သို့လုပ်ဆောင်ရမည်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်