Multiple linear regression အကြောင်း နိဒါန်း


ကြိုတင်ခန့်မှန်းကိန်းရှင်တစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင်တစ်ခုကြားရှိ ဆက်နွယ်မှုကို ကျွန်ုပ်တို့နားလည်လိုသောအခါ၊ ကျွန်ုပ်တို့သည် ရိုးရှင်းသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုကို မကြာခဏအသုံးပြုသည်။

သို့သော်၊ ကြိုတင်ခန့်မှန်းကိန်းရှင် များစွာ နှင့် တုံ့ပြန်မှုကိန်းရှင်ကြားရှိ ဆက်နွယ်မှုကို ကျွန်ုပ်တို့နားလည်လိုပါက၊ မျဉ်းပြောင်းဆုတ်ယုတ်မှုများစွာကို အသုံးပြုနိုင်သည်။

ကျွန်ုပ်တို့တွင် p ကြိုတင်ခန့်မှန်းကိန်းရှင်များရှိပါက၊ များစွာသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံသည် ပုံစံဖြစ်လာသည်-

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

ရွှေ-

  • Y : တုံ့ပြန်မှု ကိန်းရှင်
  • X j : j th ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်
  • β j : X j တွင် တစ်ယူနစ်တိုးလာမှု၏ Y ပေါ်ရှိ ပျမ်းမျှအကျိုးသက်ရောက်မှုသည် အခြားကြိုတင်ခန့်မှန်းသူအားလုံးကို ပုံသေသတ်မှတ်ထားသည်
  • ε : အမှားအယွင်း ကိန်း

β 0 , β 1 , B 2 , …, β p ၏ တန်ဖိုးများကို အကြွင်းအကျန်များ (RSS) ၏ နှစ်ထပ်ကိန်းများကို အနည်းဆုံးဖြစ်စေသည့် အနည်းဆုံး စတုရန်းပုံနည်းလမ်းကို အသုံးပြု၍ ရွေးချယ်ထားသည်။

RSS = Σ(y i – ŷ i )

ရွှေ-

  • : ပေါင်းလဒ် ဟု အဓိပ္ပာယ်ရသော ဂရိသင်္ကေတ
  • y i : အိုင်တီ လေ့လာခြင်းအတွက် အမှန်တကယ် တုံ့ပြန်မှုတန်ဖိုး
  • ŷ i : Multiple linear regression model ကို အခြေခံ၍ ခန့်မှန်းထားသော တုံ့ပြန်မှုတန်ဖိုး

matrix အက္ခရာသင်္ချာနှင့် ချိတ်ဆက်ထားသော ဤကိန်းဂဏန်း ခန့်မှန်းချက်များကို ရှာဖွေရန် အသုံးပြုသည့်နည်းလမ်းမှာ ဤနေရာတွင် အသေးစိတ်အချက်အလက်များသို့ မသွားပါ။ ကံကောင်းစွာဖြင့်၊ မည်သည့် ကိန်းဂဏန်းဆော့ဖ်ဝဲလ်မဆိုသည် ဤကိန်းဂဏန်းများကို သင့်အတွက် တွက်ချက်နိုင်ပါသည်။

Multiple linear regression output ကို ဘယ်လိုအဓိပ္ပာယ်ဖွင့်မလဲ။

ကြိုတင်တွက်ဆထားသော ကိန်းရှင်များ ၊ လေ့လာမှု နာရီများ နှင့် ကြိုတင်ပြင်ဆင်သည့် စာမေးပွဲများ အပြင် အဖြေပြောင်းနိုင်သော စာမေးပွဲရမှတ် ကို အသုံးပြု၍ များစွာသော linear regression model တစ်ခုကို ကျွန်ုပ်တို့ အံဝင်ခွင်ကျ ဆိုပါစို့။

အောက်ဖော်ပြပါ ဖန်သားပြင်ဓာတ်ပုံသည် ဤပုံစံအတွက် များစွာသောမျဉ်းကြောင်းပြန်ဆုတ်ခြင်းရလဒ် မည်သို့ရှိနိုင်သည်ကို ပြသသည်-

မှတ်ချက်- အောက်ဖော်ပြပါ ဖန်သားပြင်ဓာတ်ပုံသည် Excel အတွက် မျဉ်းကြောင်းအတိုင်း ဆုတ်ယုတ်မှု အထွက်အထွက်ကို ပြသသည်၊ သို့သော် အထွက်တွင် ပြသထားသော နံပါတ်များသည် ကိန်းဂဏန်းဆိုင်ရာ ဆော့ဖ်ဝဲလ်တစ်ခုခုကို အသုံးပြု၍ တွေ့ရမည့် ဆုတ်ယုတ်မှုအထွက်၏ ပုံမှန်ဖြစ်သည်။

Multiple Linear Regression ရလဒ်များကို ဘာသာပြန်ခြင်း။

မော်ဒယ်ရလဒ်များမှ၊ coefficients များသည် ကျွန်ုပ်တို့အား ခန့်မှန်းခြေ multiple linear regression model အဖြစ် ဖန်တီးနိုင်သည်-

စာမေးပွဲရမှတ် = 67.67 + 5.56*(နာရီ) – 0.60*(အကြိုစာမေးပွဲများ)

Coefficients ကို အဓိပ္ပာယ်ဖွင့်ဆိုရန် နည်းလမ်းမှာ အောက်ပါအတိုင်းဖြစ်သည်။

  • သင်ကြားသည့်နာရီများတွင် ထပ်လောင်းတစ်ယူနစ်တိုးလာမှုတစ်ခုစီသည် အလေ့အကျင့်စာမေးပွဲများသည် စဉ်ဆက်မပြတ်ရှိနေသည်ဟု ယူဆကာ စာမေးပွဲရမှတ်တွင် ပျမ်းမျှ 5.56 မှတ် တိုးလာခြင်းနှင့် ဆက်စပ်နေသည်။
  • ဖြေဆိုထားသော ကြိုတင်ပြင်ဆင်မှု စာမေးပွဲများတွင် နောက်ထပ် တစ်ယူနစ် တိုးလာခြင်းသည် စာမေးပွဲရမှတ်တွင် ပျမ်းမျှ 0.60 မှတ် ကျဆင်းခြင်းနှင့် ဆက်စပ်နေသည်၊ လေ့လာသည့် နာရီအရေအတွက်သည် စဉ်ဆက်မပြတ် ရှိနေသည်ဟု ယူဆပါသည်။

ကျောင်းသားတစ်ဦး ရရှိမည့် မျှော်မှန်းထားသော စာမေးပွဲအဆင့်ကို ဆုံးဖြတ်ရန် ဤပုံစံကို အသုံးပြု၍ လေ့လာခဲ့သည့် စုစုပေါင်း နာရီအရေအတွက်နှင့် ကြိုတင်ပြင်ဆင်သည့် စာမေးပွဲများပေါ် မူတည်၍ ကျွန်ုပ်တို့လည်း အသုံးပြုနိုင်ပါသည်။ ဥပမာအားဖြင့်၊ 4 နာရီစာလေ့လာပြီး 1 preparatory exam ဖြေဆိုသော ကျောင်းသားသည် စာမေးပွဲရမှတ် 89.31 ရရှိသင့်သည် ။

စာမေးပွဲရမှတ် = 67.67 + 5.56*(4) -0.60*(1) = 89.31

ကျန်မော်ဒယ်ရလဒ်များကို အဓိပ္ပာယ်ဖွင့်ဆိုပုံမှာ အောက်ပါအတိုင်းဖြစ်သည်။

  • R-Square- ဒါကို coefficient of determination လို့ခေါ်တယ်။ ၎င်းသည် explanatory variable များဖြင့် ရှင်းပြနိုင်သော တုံ့ပြန်မှု variable ၏ ကွဲလွဲမှုအချိုးအစားဖြစ်သည်။ ဤဥပမာတွင်၊ စာမေးပွဲရမှတ်များ ကွဲလွဲမှု၏ 73.4% ကို လေ့လာသည့် နာရီအရေအတွက်နှင့် ကြိုတင်ပြင်ဆင်ထားသော စာမေးပွဲအရေအတွက်ဖြင့် ရှင်းပြထားသည်။
  • စံအမှား- ဤသည်မှာ သတိပြုမိသော တန်ဖိုးများနှင့် ဆုတ်ယုတ်မှုမျဉ်းကြားရှိ ပျမ်းမျှအကွာအဝေးဖြစ်သည်။ ဤဥပမာတွင်၊ လေ့လာထားသောတန်ဖိုးများသည် ဆုတ်ယုတ်မှုမျဉ်းမှ ပျမ်းမျှယူနစ် 5,366 ဖြင့် သွေဖည်သွားပါသည်။
  • F- ဤသည်မှာ Regression MS/Residual MS အဖြစ်တွက်ချက်ထားသော ဆုတ်ယုတ်မှုပုံစံအတွက် အလုံးစုံ F ကိန်းဂဏန်းဖြစ်သည်။
  • F အဓိပ္ပာယ်- ၎င်းသည် F ကိန်းဂဏန်းတစ်ခုလုံးနှင့်ဆက်စပ်နေသည့် p-တန်ဖိုးဖြစ်သည်။ ၎င်းသည် ဆုတ်ယုတ်မှုပုံစံတစ်ခုလုံးအား ကိန်းဂဏန်းအချက်အလတ်အရ သိသာထင်ရှားမှုရှိ၊ မရှိ ကျွန်ုပ်တို့အား ပြောပြသည်။ တစ်နည်းအားဖြင့်၊ ရှင်းပြချက်နှစ်ခုပေါင်းစပ်ထားသော ကိန်းရှင်နှစ်ခုသည် တုံ့ပြန်မှုကိန်းရှင်နှင့် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်စပ်မှုရှိမရှိကို ပြောပြသည်။ ဤကိစ္စတွင်၊ p-value သည် 0.05 ထက်နည်းသောကြောင့်၊ ရှင်းပြထားသောကိန်းရှင်များ၊ လေ့လာထားသောနာရီများနှင့် ကြိုတင်ပြင်ဆင်ထားသောစာမေးပွဲများသည် စာမေးပွဲရလဒ်နှင့် စာရင်းအင်းအရသိသာထင်ရှားသောဆက်စပ်မှုရှိကြောင်းဖော်ပြသည်။
  • P တန်ဘိုးများသည် coefficient များဖြစ်သည်။ တစ်ဦးချင်း p-တန်ဖိုးများသည် ရှင်းပြချက်တစ်ခုစီတိုင်းသည် ကိန်းဂဏာန်းအရ သိသာမှုရှိမရှိ ကျွန်ုပ်တို့ကို ပြောပြသည်။ ကြိုတင်ပြင်ဆင်စာမေးပွဲများ (p = 0.52) သည် α = 0.05 တွင် စာရင်းအင်းအရ သိသာထင်ရှားခြင်းမရှိသော်လည်း လေ့လာမှုနာရီများသည် ကိန်းဂဏန်းအရ သိသာထင်ရှားသည် (p = 0.00) ဖြစ်သည်ကို ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။ ယခင်ကြိုတင်ပြင်ဆင်မှုစာမေးပွဲများသည် စာရင်းအင်းအရ သိသာထင်ရှားခြင်းမရှိသောကြောင့်၊ ၎င်းတို့ကို မော်ဒယ်မှဖယ်ရှားရန် ဆုံးဖြတ်လိုက်ခြင်းဖြစ်နိုင်သည်။

Multiple linear regression model ၏ အံဝင်ခွင်ကျ အကဲဖြတ်နည်း

Multiple linear regression model သည် data set နှင့် မည်မျှ ကိုက်ညီကြောင်း အကဲဖြတ်ရန် ဂဏန်းနှစ်လုံးကို အသုံးများသည်-

1. R-squared- ဤသည်မှာ ကြိုတင်ခန့်မှန်းကိန်းရှင်များဖြင့် ရှင်းပြနိုင်သော တုံ့ပြန်မှုကိန်း ရှင်ရှိ ကွဲလွဲမှု၏အချိုးအစားဖြစ်သည်။

R-squared တန်ဖိုးသည် 0 မှ 1 အထိ ကွာဟနိုင်သည်။ 0 တန်ဖိုးသည် ခန့်မှန်းသူကိန်းရှင်က လုံးဝရှင်းပြမရနိုင်သော တုံ့ပြန်မှုကိန်းရှင်ကို ညွှန်ပြသည်။ 1 ၏တန်ဖိုးသည် တုံ့ပြန်မှုကိန်းရှင်အား ကြိုတင်ခန့်မှန်းကိန်းရှင်မှ အမှားအယွင်းမရှိဘဲ စုံလင်စွာရှင်းပြနိုင်သည်ကို ညွှန်ပြသည်။

မော်ဒယ်တစ်ခု၏ R စတုရန်းမြင့်လေ၊ မော်ဒယ်သည် ဒေတာနှင့် ကိုက်ညီလေလေ ဖြစ်သည်။

2. စံလွဲချော်မှု- ဤသည်မှာ သတိပြုမိသော တန်ဖိုးများနှင့် ဆုတ်ယုတ်မှုမျဉ်းကြားရှိ ပျမ်းမျှအကွာအဝေးဖြစ်သည်။ စံ error သေးငယ်လေ၊ မော်ဒယ်တစ်ခုသည် ဒေတာနှင့် ကိုက်ညီလေလေ ဖြစ်သည်။

ဆုတ်ယုတ်မှုပုံစံကို အသုံးပြု၍ ခန့်မှန်းမှုများ ပြုလုပ်လိုပါက၊ ဆုတ်ယုတ်မှု၏ စံအမှားသည် R-squared ထက် သိရန် ပိုမိုအသုံးဝင်သော မက်ထရစ်တစ်ခုဖြစ်နိုင်ပါသည်။

မော်ဒယ်အံကိုက်အကဲဖြတ်ရန် R-squared နှင့် standard error ကိုအသုံးပြုခြင်း၏ ကောင်းကျိုး ဆိုးကျိုးများ အပြည့်အစုံကို ရှင်းလင်းချက်အတွက် အောက်ပါဆောင်းပါးများကို ကြည့်ပါ။

Multiple Linear Regression ယူဆချက်

မျဉ်းကြောင်းကြောင်း ဆုတ်ယုတ်မှု အများအပြားသည် ဒေတာနှင့်ပတ်သက်၍ အဓိက ယူဆချက်လေးခုကို ဖြစ်စေသည်-

1. Linear ဆက်ဆံရေး- လွတ်လပ်သော variable, x နှင့် dependent variable, y တို့ကြားတွင် linear ဆက်နွယ်မှုရှိပါသည်။

2. လွတ်လပ်ရေး- အကြွင်းအကျန်များသည် သီးခြားဖြစ်သည်။ အထူးသဖြင့်၊ အချိန်စီးရီးဒေတာတွင် တစ်ဆက်တည်းကျန်နေသည့်အရာများကြား ဆက်စပ်မှုမရှိပါ။

3. Homoscedasticity- ကျန်အကြွင်းများသည် x အဆင့်တစ်ခုစီတွင် အဆက်မပြတ်ကွဲလွဲမှုရှိသည်။

4. Normality- မော်ဒယ်အကြွင်းအကျန်များကို ပုံမှန်အတိုင်း ဖြန့်ဝေပါသည်။

ဤယူဆချက်များကို စမ်းသပ်နည်း၏ ရှင်းလင်းချက်အပြည့်အစုံကို ဤဆောင်းပါးတွင် ကြည့်ပါ။

ဆော့ဖ်ဝဲလ်ကို အသုံးပြု၍ မျဉ်းကြောင်း ဆုတ်ယုတ်မှု အများအပြား

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် မတူညီသော ကိန်းဂဏန်းဆိုင်ရာဆော့ဖ်ဝဲလ်ကို အသုံးပြု၍ မျဉ်းကြောင်းပြန်ဆုတ်ခြင်းကို အဆင့်ဆင့်လုပ်ဆောင်ပုံ ဥပမာများကို ဖော်ပြပေးသည်-

R တွင် linear regression အများအပြားလုပ်ဆောင်နည်း
Python တွင် မျဉ်းကြောင်း ဆုတ်ယုတ်မှု အများအပြား လုပ်ဆောင်နည်း
Excel တွင် linear regression အများအပြားလုပ်ဆောင်နည်း
SPSS တွင် မျဉ်းကြောင်း ဆုတ်ယုတ်မှု အများအပြားကို မည်သို့လုပ်ဆောင်ရမည်နည်း။
Stata တွင် မျဉ်းကြောင်းကြောင်း ဆုတ်ယုတ်မှု အများအပြားကို လုပ်ဆောင်နည်း
Google Sheets တွင် linear regression လုပ်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်