ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုတွင် အကြွင်းအကျန်များကို တွက်ချက်နည်း
ရိုးရှင်းသော linear regression သည် variable နှစ်ခုဖြစ်သော x နှင့် y အကြား ဆက်နွယ်မှုကို နားလည်ရန် သင်အသုံးပြုနိုင်သော ကိန်းဂဏန်းဆိုင်ရာ နည်းလမ်းတစ်ခုဖြစ်သည်။
variable၊ x ကို ခန့်မှန်းသူ variable ဟုခေါ်သည်။ အခြားကိန်းရှင် y ကို တုံ့ပြန်မှု ကိန်းရှင် ဟု ခေါ်သည်။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် လူခုနစ်ဦး၏ အလေးချိန်နှင့် အရပ်အမြင့်ပါ အောက်ပါဒေတာအစုံရှိသည်ဆိုပါစို့။
အလေးချိန်ကို ခန့်မှန်းကိန်းကိန်းအဖြစ် သတ်မှတ်ပြီး အမြင့်သည် တုံ့ပြန်မှုကိန်းရှင်ဖြစ်ပါစေ။
scatterplot ကိုအသုံးပြု၍ ဤကိန်းရှင်နှစ်ခုကို ဇယားကွက်တွင် x-axis နှင့် y-axis ပေါ်ရှိ အမြင့်နှင့် အလေးချိန်ဖြင့် တွက်ချက်ပါက၊ ၎င်းသည် ပုံသဏ္ဌာန်ဖြစ်သည်။
အလေးချိန်တိုးလာသည်နှင့်အမျှ အရပ်လည်းတိုးတတ်သည်ကို ရှင်းရှင်းလင်းလင်းသိမြင်နိုင်သော်လည်း အမှန်တကယ်အားဖြင့် အလေးချိန်နှင့် အရပ်ကြားရှိ ဤဆက်စပ်မှုကို တွက်ချက်ရန်အတွက် linear regression ကိုအသုံးပြုရန် လိုအပ်ပါသည်။
linear regression ကိုသုံးပြီး၊ ကျွန်ုပ်တို့၏ဒေတာကို “ ကိုက်ညီ” အသင့်တော်ဆုံးမျဉ်းကို ရှာတွေ့နိုင်သည်-
ဤစာကြောင်းအတွက် အကောင်းဆုံး ဖော်မြူလာကို ရေးသားထားသည်။
ŷ = b 0 + b 1 x
ŷ သည် တုံ့ပြန်မှုကိန်းရှင်၏ ခန့်မှန်းတန်ဖိုးဖြစ်ပြီး၊ b 0 သည် ကြားဖြတ်ဖြစ်ပြီး b 1 သည် ဆုတ်ယုတ်ကိန်းနှင့် x သည် ခန့်မှန်းသူကိန်းရှင်၏တန်ဖိုးဖြစ်သည်။
ဤဥပမာတွင်၊ အသင့်တော်ဆုံးလိုင်းမှာ-
အရွယ်အစား = 32.783 + 0.2001*(အလေးချိန်)
အကြွင်းအကျန်များကို တွက်ချက်နည်း
ကျွန်ုပ်တို့၏ scatterplot ရှိ ဒေတာအချက်များသည် အသင့်လျော်ဆုံးလိုင်းနှင့် အမြဲတမ်း အတိအကျ မသက်ဆိုင်ကြောင်း သတိပြုပါ။
ဒေတာအမှတ်နှင့် မျဉ်းကြား ခြားနားချက်ကို အကြွင်းအကျန် ဟု ခေါ်သည်။ ဒေတာအမှတ်တစ်ခုစီအတွက်၊ အကောင်းဆုံးကိုက်ညီမှုမျဉ်းမှ ၎င်း၏တန်ဖိုးအမှန်နှင့် ခန့်မှန်းတန်ဖိုးကြားခြားနားချက်ကို ယူခြင်းဖြင့် ထိုအမှတ်၏ကျန်ရှိသောကို တွက်ချက်နိုင်သည်။
ဥပမာ 1- ကျန်ရှိသော တွက်ချက်မှု
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့၏ဒေတာအတွဲရှိ လူခုနစ်ဦး၏ ကိုယ်အလေးချိန်နှင့် အရပ်အမြင့်ကို ပြန်သတိရပါ-
ပထမလူသည် ပေါင် ၁၄၀ အလေးချိန်ရှိသည်။ အမြင့် လက်မ 60 ရှိသည်။
ဤတစ်ဦးချင်းစီ၏ မျှော်မှန်းထားသော အရပ်အမြင့်ကို သိရှိရန်၊ ကျွန်ုပ်တို့သည် ၎င်းတို့၏ အလေးချိန်ကို အကောင်းဆုံး ညီမျှခြင်းမျဉ်းတွင် ထည့်သွင်းနိုင်သည်-
အရွယ်အစား = 32.783 + 0.2001*(အလေးချိန်)
ထို့ကြောင့် ဤပုဂ္ဂိုလ်၏ ခန့်မှန်းအရွယ်အစားမှာ-
အရပ် = 32.783 + 0.2001*(140)
အမြင့် = 60.797 လက်မ
ထို့ကြောင့် ဤဒေတာပွိုင့်အတွက် အကြွင်းသည် 60 – 60.797 = -0.797 ဖြစ်သည်။
ဥပမာ 2- ကျန်ရှိသော တွက်ချက်မှု
ဒေတာအမှတ်တစ်ခုစီအတွက် ကျန်နေသေးတဲ့ ဒေတာတွေကို တွက်ချက်ဖို့အတွက် အထက်မှာသုံးထားတဲ့ တူညီတဲ့လုပ်ငန်းစဉ်ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါတယ်။ ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့၏ဒေတာအတွဲတွင် ဒုတိယတစ်ဦးစီအတွက် ကျန်ရှိသောပမာဏကို တွက်ချက်ကြည့်ကြပါစို့။
ဒုတိယတစ်ဦးသည် ကိုယ်အလေးချိန် ၁၅၅ ပေါင်ရှိသည်။ အရပ် ၆၂ လက်မ မြင့်သည်။
ဤတစ်ဦးချင်းစီ၏ မျှော်မှန်းထားသော အရပ်အမြင့်ကို သိရှိရန်၊ ကျွန်ုပ်တို့သည် ၎င်းတို့၏ အလေးချိန်ကို အကောင်းဆုံး ညီမျှခြင်းမျဉ်းတွင် ထည့်သွင်းနိုင်သည်-
အရွယ်အစား = 32.783 + 0.2001*(အလေးချိန်)
ထို့ကြောင့် ဤပုဂ္ဂိုလ်၏ ခန့်မှန်းအရွယ်အစားမှာ-
အရပ် = 32.783 + 0.2001*(155)
အရပ် = 63.7985 လက်မ
ဒါကြောင့် ဒီဒေတာပွိုင့်အတွက် ကျန်နေတဲ့ 62 – 63.7985 = -1.7985 ဖြစ်ပါတယ်။
အကြွင်းအကျန်အားလုံးကို တွက်ချက်ပါ။
ယခင်နမူနာနှစ်ခုကဲ့သို့ တူညီသောနည်းလမ်းကို အသုံးပြု၍ ဒေတာအမှတ်တစ်ခုစီအတွက် ကျန်ရှိသည့်အရာများကို တွက်ချက်နိုင်သည်-
အကြွင်းအကျန်အချို့သည် အပြုသဘောဖြစ်ပြီး အချို့မှာ အနုတ်လက္ခဏာဖြစ်ကြောင်း သတိပြုပါ။ အကြွင်းအကျန်အားလုံးကို ပေါင်းလိုက်လျှင် ၎င်းတို့၏ စုစုပေါင်းသည် သုညဖြစ်လိမ့်မည်။
အဘယ်ကြောင့်ဆိုသော် linear regression သည် အကြွင်းအကျန်များ၏ စုစုပေါင်းစတုရန်းကို လျော့ချပေးသည့်မျဉ်းကို ရှာတွေ့သောကြောင့်၊ မျဉ်းကြောင်းသည် မျဉ်းအထက်တွင်ရှိပြီး အချို့သောဒေတာအချက်များသည် မျဉ်းအောက်ရှိ ဒေတာကို စုံလင်စွာဖြတ်သန်းသွားသောကြောင့်ဖြစ်သည်။
အကြွင်းအကျန်များကိုကြည့်ပါ။
ကျန်ရှိသော တစ်ခုသည် ဒေတာ၏ အမှန်တကယ်တန်ဖိုးနှင့် အကောင်းဆုံးကိုက်ညီသော ဆုတ်ယုတ်မှုမျဉ်းမှ ခန့်မှန်းထားသော တန်ဖိုးကြားအကွာအဝေးကို သတိရပါ။ ဤအကွာအဝေးများသည် point cloud ပေါ်တွင် အမြင်အာရုံနှင့်တူသည်-
အချို့အကြွင်းအကျန်များသည် အခြားအရာများထက် ပိုကြီးသည်ကို သတိပြုပါ။ ထို့အပြင်၊ အချို့သော အကြွင်းအကျန်များသည် အပြုသဘောဆောင်ပြီး အချို့မှာ အနုတ်လက္ခဏာဖြစ်သည်၊
ကျန်နေတဲ့လမ်းကြောင်းကို ဖန်တီးပါ။
အကြွင်းအကျန်များကို တွက်ချက်ခြင်း၏အချက်မှာ ဆုတ်ယုတ်မှုမျဉ်းသည် ဒေတာနှင့် မည်မျှ ကိုက်ညီကြောင်း ကြည့်ရန်ဖြစ်သည်။
ပိုကြီးသော အကြွင်းအကျန်များသည် ဆုတ်ယုတ်မှုမျဉ်းသည် ဒေတာနှင့် ကောင်းစွာ မကိုက်ညီကြောင်း ညွှန်ပြသည်၊ ဆိုလိုသည်မှာ အမှန်တကယ် ဒေတာအချက်များသည် ဆုတ်ယုတ်မှုမျဉ်းကို အနီးစပ်ဆုံး မဖော်ပြပါ။
သေးငယ်သော အကြွင်းအကျန်များသည် ဆုတ်ယုတ်မှုမျဉ်းသည် ဒေတာနှင့် ပိုကိုက်ညီကြောင်း ညွှန်ပြသည်၊ ဆိုလိုသည်မှာ အမှန်တကယ် ဒေတာအချက်များသည် ဆုတ်ယုတ်မှုမျဉ်းနှင့် ပိုနီးစပ်ကြောင်း ဖော်ပြသည်။
အကြွင်းအကျန်အားလုံးကို တစ်ပြိုင်နက် မြင်ယောင်ရန် အသုံးဝင်သော ကွက်ကွက်အမျိုးအစားသည် ကျန်နေသော ကွက်ကွက်တစ်ခုဖြစ်သည်။ ကျန်ရှိသောကွက်ကွက် သည် ဆုတ်ယုတ်မှုပုံစံအတွက် ခန့်မှန်းတန်ဖိုးများနှင့် အကြွင်းအကျန်များကို ပြသသည့် ကွက်ကွက်အမျိုးအစားတစ်ခုဖြစ်သည်။
ဤကွက်ကွက်အမျိုးအစားသည် ပေးထားသောဒေတာအစုံအတွက် သင့်လျော်မှုရှိမရှိ အကဲဖြတ်ရန်နှင့် ကျန်အကြွင်းအကျန် များ၏ heteroskedasticity ကိုစစ်ဆေးရန် မကြာခဏအသုံးပြုသည်။
Excel ရှိ ရိုးရှင်းသော linear regression model အတွက် ကျန်နေသော ကွက်ကွက်တစ်ခု ဖန်တီးနည်းကို လေ့လာရန် ဤသင်ခန်းစာကို ကြည့်ပါ။