Sas တွင် ရိုးရှင်းသော linear regression လုပ်ဆောင်နည်း


Simple linear regression သည် ကြိုတင်ခန့်မှန်းကိန်းရှင်နှင့် တုံ့ပြန်မှုကိန်းရှင် ကြား ဆက်နွယ်မှုကို နားလည်ရန် ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည့် နည်းလမ်းတစ်ခုဖြစ်သည်။

ဤနည်းပညာသည် ဒေတာကို အကောင်းဆုံး “ အံဝင်ခွင်ကျ” သော မျဉ်းတစ်ကြောင်းကို ရှာဖွေပြီး အောက်ပါပုံစံကို ရယူသည်-

ŷ = b 0 + b 1 x

ရွှေ-

  • ŷ : ခန့်မှန်းတုံ့ပြန်မှုတန်ဖိုး
  • b 0 : ဆုတ်ယုတ်မှုမျဉ်း၏ မူလအစ
  • b 1 : ဆုတ်ယုတ်မှုမျဉ်း၏ လျှောစောက်

ဤညီမျှခြင်းသည် ခန့်မှန်းသူကိန်းရှင်နှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ဆက်နွယ်မှုကို နားလည်ရန် ကူညီပေးသည်။

အောက်ဖော်ပြပါ အဆင့်ဆင့် ဥပမာသည် SAS တွင် ရိုးရှင်းသော မျဉ်းကြောင်းပြန်ဆုတ်ခြင်းကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြသထားသည်။

အဆင့် 1: ဒေတာကိုဖန်တီးပါ။

ဤဥပမာအတွက်၊ ကျွန်ုပ်တို့သည် ကျောင်းသား 15 ဦး၏ နောက်ဆုံးစာမေးပွဲဖြေဆိုချိန်နှင့် နောက်ဆုံးစာမေးပွဲအဆင့် ပါဝင်သော ဒေတာအတွဲတစ်ခုကို ဖန်တီးပါမည်။

ကြိုတင်ခန့်မှန်းကိန်းရှင်ကိန်းရှင်နှင့် တုံ့ပြန်မှုကိန်းရှင်အဖြစ် ရမှတ် အဖြစ် နာရီများကို အသုံးပြု၍ ရိုးရှင်းသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံကို ကျွန်ုပ်တို့ ဖြည့်ဆည်းပေးပါမည်။

အောက်ပါကုဒ်သည် ဤဒေတာအတွဲကို SAS တွင် မည်သို့ဖန်တီးရမည်ကို ပြသသည်-

 /*create dataset*/
data exam_data;
    input hours score;
    datalines ;
1 64
2 66
4 76
5 73
5 74
6 81
6 83
7 82
8 80
10 88
11 84
11 82
12 91
12 93
14 89
;
run ;

/*view dataset*/
proc print data =exam_data;

အဆင့် 2- ရိုးရှင်းသော linear regression model ကို ကိုက်ညီပါ။

ထို့နောက်၊ ရိုးရှင်းသော linear regression model နှင့်ကိုက်ညီရန် proc reg ကို အသုံးပြုပါမည်။

 /*fit simple linear regression model*/
proc reg data =exam_data;
   model score = hours;
run ; 

SAS တွင် ရိုးရှင်းသော linear regression output ကို

ရလဒ်တွင် ဇယားတစ်ခုစီမှ အရေးကြီးဆုံးတန်ဖိုးများကို အဓိပ္ပာယ်ဖွင့်ဆိုပုံမှာ အောက်ပါအတိုင်းဖြစ်သည်။

ကွာဟချက် ခွဲခြမ်းစိတ်ဖြာ ဇယား-

ဆုတ်ယုတ်မှုမော်ဒယ်၏ အလုံးစုံ F-တန်ဖိုး သည် 63.91 ဖြစ်ပြီး သက်ဆိုင်ရာ p-တန်ဖိုးမှာ <0.0001 ဖြစ်သည်။

ဤ p-value သည် 0.05 ထက်နည်းသောကြောင့်၊ regression model တစ်ခုလုံးသည် စာရင်းအင်းအရ သိသာထင်ရှားသည်ဟု ကျွန်ုပ်တို့ကောက်ချက်ချပါသည်။ တစ်နည်းအားဖြင့်ဆိုရသော် နာရီများသည် စာမေးပွဲရလဒ်များကို ခန့်မှန်းရန်အတွက် အသုံးဝင်သောပြောင်းလဲမှုတစ်ခုဖြစ်သည်။

မော်ဒယ်အံစာစားပွဲ

R-Square တန်ဖိုးသည် လေ့လာသည့် နာရီအရေအတွက်ဖြင့် ရှင်းပြနိုင်သည့် စာမေးပွဲရမှတ်များတွင် ကွဲလွဲမှုရာခိုင်နှုန်းကို ပြောပြသည်။

ယေဘူယျအားဖြင့်၊ regression model တစ်ခု၏ R-squared တန်ဖိုး ပိုကြီးလေ၊ ခန့်မှန်းသူ variable များသည် တုံ့ပြန်မှု variable ၏ တန်ဖိုးကို ခန့်မှန်းရာတွင် ပိုကောင်းလေဖြစ်သည်။

ဤကိစ္စတွင်၊ စာမေးပွဲရမှတ်များ ကွဲလွဲမှု၏ 83.1% ကို လေ့လာသည့် နာရီအရေအတွက်ဖြင့် ရှင်းပြနိုင်သည်။ ဤတန်ဖိုးသည် အလွန်မြင့်မားပြီး စာမေးပွဲရလဒ်များကို ခန့်မှန်းရာတွင် အလွန်အသုံးဝင်သော ကိန်းရှင်ဖြစ်ကြောင်း ညွှန်ပြပါသည်။

ကန့်သတ်ချက် ခန့်မှန်းချက်ဇယား-

ဤဇယားမှ တပ်ဆင်ထားသော ဆုတ်ယုတ်မှုညီမျှခြင်းကို ကျွန်ုပ်တို့ မြင်တွေ့နိုင်သည်-

ရမှတ် = 65.33 + 1.98*(နာရီ)

ထပ်လောင်းလေ့လာထားသောနာရီတိုင်းသည် စာမေးပွဲရမှတ်တွင် ပျမ်းမျှ 1.98 မှတ် တိုးလာခြင်းနှင့် ဆက်စပ်နေသည်ဟု ဆိုလိုခြင်းဖြစ်သည်ဟု ကျွန်ုပ်တို့ ဆိုလိုပါသည်။

မူရင်းတန်ဖိုးက သုညနာရီစာလေ့လာနေတဲ့ ကျောင်းသားတစ်ယောက်အတွက် ပျမ်းမျှစာမေးပွဲရမှတ်က 65.33 ဖြစ်တယ်လို့ ပြောထားပါတယ်။

ကျောင်းသားတစ်ဦး၏လေ့လာမှုနာရီအရေအတွက်အပေါ်အခြေခံ၍မျှော်လင့်ထားသောစာမေးပွဲရမှတ်ကိုရှာဖွေရန်ဤညီမျှခြင်းကိုလည်းအသုံးပြုနိုင်သည်။

ဥပမာအားဖြင့်၊ 10 နာရီကြာလေ့လာသော ကျောင်းသားသည် စာမေးပွဲရမှတ် 85.13 ရရှိသင့်သည် ။

ရမှတ် = 65.33 + 1.98*(10) = 85.13

နာရီ များအတွက် p-value (<0.0001) သည် ဤဇယားတွင် 0.05 ထက်နည်းသောကြောင့်၊ ၎င်းသည် ကိန်းဂဏန်းဆိုင်ရာ သိသာထင်ရှားသော ခန့်မှန်းပေးသူကိန်းရှင်ဖြစ်ကြောင်း ကျွန်ုပ်တို့ ကောက်ချက်ချပါသည်။

အဆင့် 3- ကျန်ရှိသောမြေကွက်များကို ပိုင်းခြားစိတ်ဖြာပါ။

ရိုးရှင်းသော linear regression သည် model အကြွင်းအကျန်များ နှင့် ပတ်သက်၍ အရေးကြီးသော ယူဆချက် နှစ်ခုကို ဖြစ်စေသည် ။

  • အကြွင်းအကျန်များကို ပုံမှန်အတိုင်း ဖြန့်ဝေသည်။
  • အကြွင်းအကျန်များသည် ကြိုတင်ခန့်မှန်းကိန်းရှင်၏ အဆင့်တစ်ခုစီတွင် တူညီသောကွဲလွဲမှု (“ homoscedasticity ”) ရှိသည်။

ဤယူဆချက်များနှင့် မကိုက်ညီပါက၊ ကျွန်ုပ်တို့၏ ဆုတ်ယုတ်မှုပုံစံ၏ ရလဒ်များသည် ယုံကြည်စိတ်ချနိုင်မည်မဟုတ်ပေ။

ဤယူဆချက်များနှင့် ကိုက်ညီကြောင်း အတည်ပြုရန်အတွက် SAS အထွက်တွင် အလိုအလျောက်ပြသသည့် ကျန်နေသောကွက်များကို ပိုင်းခြားစိတ်ဖြာနိုင်ပါသည်-

အကြွင်းအကျန်များကို ပုံမှန်ဖြန့်ဝေ ကြောင်း အတည်ပြုရန်၊ y-ဝင်ရိုးတစ်လျှောက် “ Quantile” ဖြင့် အလယ်မျဉ်း၏ ဘယ်ဘက်တွင် ကွက်ကွက်ကို ပိုင်းခြားစိတ်ဖြာနိုင်ပါသည်။

ဤကွက်ကွက်ကို QQ plot ဟုခေါ်သည်၊ “ quantile-quantile” ၏ အတိုကောက်ဖြစ်ပြီး ဒေတာကို ပုံမှန်ဖြန့်ဝေခြင်း ရှိ၊ မရှိ ဆုံးဖြတ်ရန် အသုံးပြုသည်။ ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေပါက၊ QQ ကွက်ကွက်ရှိ အမှတ်များသည် ဖြောင့်သောထောင့်ဖြတ်မျဉ်းပေါ်တွင် ရှိနေမည်ဖြစ်သည်။

ဂရပ်မှ အမှတ်များသည် ဖြောင့်ထောင့်ဖြတ်မျဉ်းတစ်လျှောက် အကြမ်းဖျင်း တည်ရှိနေသည်ကို တွေ့နိုင်သောကြောင့် ကျန်အကြွင်းများကို ပုံမှန်အတိုင်း ဖြန့်ဝေသည်ဟု ကျွန်ုပ်တို့ ယူဆနိုင်ပါသည်။

ဆက်လက်၍ ကျန်ရှိသောအရာများသည် homoscedastic ဖြစ်ကြောင်းစစ်ဆေးရန်၊ y-ဝင်ရိုးတစ်လျှောက် “ Predicted value” ဖြင့် ပထမတန်း၏ဘယ်ဘက်အနေအထားတွင် ကွက်ကွက်ကို ကြည့်ရှုနိုင်ပါသည်။

ကွက်ကွက်အမှတ်များသည် ရှင်းရှင်းလင်းလင်းမရှိသော ပုံစံမရှိဘဲ သုညတွင် ကျပန်းကျပန်း ပြန့်ကျဲနေပါက အကြွင်းအကျန်များသည် homoskeastic ဖြစ်သည်ဟု ကျွန်ုပ်တို့ ယူဆနိုင်ပါသည်။

ကွက်ကွက်မှ အမှတ်များကို သုညတွင် ကျပန်းကျပန်း ဖြန့်ကျက်ထားသည်ကို ကွက်ကွက်တစ်လျှောက် အဆင့်တစ်ခုစီတွင် အနီးစပ်ဆုံး တူညီသောကွဲလွဲမှုဖြင့် သုညတွင် ပြန့်ကျဲနေသည်ကို တွေ့နိုင်သည်၊ ထို့ကြောင့် ကျန်သည့်အရာများသည် တစ်သားတည်းဖြစ်နေကြောင်း ကျွန်ုပ်တို့ ယူဆနိုင်သည်။

ယူဆချက်နှစ်ခုလုံးကို လိုက်လျောညီထွေဖြစ်စေသောကြောင့်၊ ရိုးရှင်းသော linear regression model ၏ရလဒ်များသည် ယုံကြည်စိတ်ချရသည်ဟု ကျွန်ုပ်တို့ ယူဆနိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် SAS တွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-

SAS တွင် one-way ANOVA လုပ်ဆောင်နည်း
SAS တွင် နှစ်လမ်းသွား ANOVA လုပ်ဆောင်နည်း
SAS တွင် ဆက်စပ်မှုကို တွက်ချက်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်