ကောင်းသော r-squared တန်ဖိုးဆိုသည်မှာ အဘယ်နည်း။
R-squared သည် linear regression model သည် data set တစ်ခုအား မည်မျှ ကောင်းစွာ တိုင်းတာသည် ။ အများအားဖြင့် ဆုံးဖြတ်ခြင်း၏ coefficient ဟုလည်းခေါ်သည်၊ R-squared သည် ခန့်မှန်းသူကိန်းရှင်ဖြင့် ရှင်းပြနိုင်သော တုံ့ပြန်မှုကိန်းရှင်ရှိ ကွဲလွဲမှု၏အချိုးအစားဖြစ်သည်။
R-squared တန်ဖိုးသည် 0 မှ 1 အထိ ကွာဟနိုင်သည်။ 0 တန်ဖိုးသည် ခန့်မှန်းသူကိန်းရှင်က လုံးဝရှင်းပြမရနိုင်သော တုံ့ပြန်မှုကိန်းရှင်ကို ညွှန်ပြသည်။ 1 ၏တန်ဖိုးသည် တုံ့ပြန်မှုကိန်းရှင်အား ကြိုတင်ခန့်မှန်းကိန်းရှင်မှ အမှားအယွင်းမရှိဘဲ စုံလင်စွာရှင်းပြနိုင်သည်ကို ညွှန်ပြသည်။
လက်တွေ့တွင်၊ R-squared အတွက် 0 သို့မဟုတ် 1 တန်ဖိုးကို သင်ဘယ်တော့မှ မမြင်နိုင်ပေ။ ယင်းအစား 0 နှင့် 1 ကြားတန်ဖိုးကို သင်ကြုံတွေ့ရနိုင်ဖွယ်ရှိသည်။
ဥပမာအားဖြင့်၊ သင့်တွင် မတူညီသောမြို့ 30 တွင် လူဦးရေအရွယ်အစားနှင့် ပန်းဆရာအရေအတွက်ပါရှိသော ဒေတာအတွဲတစ်ခုရှိသည်ဆိုပါစို့။ ခန့်မှန်းသူကိန်းရှင်အဖြစ် လူဦးရေအရွယ်အစားနှင့် ပန်းတောင်တန်းများကို တုံ့ပြန်မှုကိန်းရှင်အဖြစ် အသုံးပြု၍ ရိုးရှင်းသော မျဉ်းဖြောင့်ဆုတ်ယုတ်မှုပုံစံကို ဒေတာအစုံနှင့် ကိုက်ညီပါသည်။ ဆုတ်ယုတ်မှုရလဒ်ရလဒ်တွင် R 2 = 0.2 ကိုတွေ့မြင်ရသည်။ ဤအချက်က ပန်းဆရာအရေအတွက် ကွဲပြားမှု၏ 20% ကို လူဦးရေ အရွယ်အစားဖြင့် ရှင်းပြနိုင်သည်။
၎င်းသည် ကျွန်ုပ်တို့အား အရေးကြီးသောမေးခွန်းတစ်ခုဆီသို့ ဆောင်ယူလာပါသည်- ၎င်းသည် R-squared အတွက် “ ကောင်းသော” တန်ဖိုးဖြစ်ပါသလား။
ဤမေးခွန်းအတွက် အဖြေသည် ဆုတ်ယုတ်မှုပုံစံအတွက် သင့်ပန်းတိုင်ပေါ်တွင် မူတည်ပါသည်။ သိရန်-
1. ကြိုတင်ခန့်မှန်းသူ(များ) နှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ဆက်စပ်မှုကို ရှင်းပြလိုပါသလား။
ရွှေ
2. တုံ့ပြန်မှုကိန်းရှင်ကို ခန့်မှန်းလိုပါသလား။
ရည်ရွယ်ချက်ပေါ်မူတည်၍ “ R နှစ်ထပ်ကိန်းအတွက် ကောင်းသောတန်ဖိုးက ဘာလဲ” ဆိုတဲ့ မေးခွန်းရဲ့အဖြေ။ “ ကွဲပြားလိမ့်မယ်။
ကြိုတင်ခန့်မှန်းသူ(များ) နှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ဆက်စပ်မှုကို ရှင်းပြပါ။
သင့်ဆုတ်ယုတ်မှုပုံစံအတွက် သင်၏အဓိကပန်းတိုင်မှာ ကြိုတင်ခန့်မှန်းသူ(များ) နှင့် တုံ့ပြန်မှုကိန်းရှင်ကြားရှိ ဆက်နွယ်မှုကို ရှင်းပြရန်ဖြစ်ပါက R-squared သည် လုံးဝနီးပါးမသက်ဆိုင်ပါ။
ဥပမာအားဖြင့်၊ အထက်ဖော်ပြပါ ဆုတ်ယုတ်မှုဥပမာတွင် ခန့်မှန်း လူဦးရေပမာဏ ၏ ကိန်းဂဏန်းသည် 0.005 ဖြစ်ပြီး ၎င်းသည် ကိန်းဂဏန်းအရ သိသာထင်ရှားသည်ဟု ဆိုကြပါစို့။ ဆိုလိုသည်မှာ လူဦးရေတစ်ဦးတိုးလာခြင်းသည် ပေးထားသောမြို့တစ်မြို့ရှိ ရွှေတောင်သူအရေအတွက် ပျမ်းမျှ 0.005 တိုးလာခြင်းနှင့် ဆက်စပ်နေသည်။ ထို့အပြင် လူဦးရေပမာဏသည် မြို့တစ်မြို့၌ ပန်းရောင်းသူအရေအတွက်၏ ကိန်းဂဏန်းအချက်အလတ်တစ်ခုဖြစ်သည်။
ဤဆုတ်ယုတ်မှုပုံစံ၏ R-squared တန်ဖိုးသည် 0.2 သို့မဟုတ် 0.9 ရှိမရှိ ဤအဓိပ္ပာယ်ဖွင့်ဆိုချက်ကို မပြောင်းလဲပါ။ လူဦးရေ အရွယ်အစားနှင့် ရွှေတောင်သူ အရေအတွက်ကြား ဆက်ဆံရေးကို သင် ရိုးရိုးရှင်းရှင်း စိတ်ဝင်စားသောကြောင့်၊ မော်ဒယ်၏ R-squared တန်ဖိုးအတွက် သင် အလွန်အကျွံ ပူပန်နေရန် မလိုအပ်ပါ။
တုံ့ပြန်မှု ကိန်းရှင်ကို ခန့်မှန်းပါ။
အကယ်၍ သင်၏မူလရည်မှန်းချက်မှာ ကြိုတင်ခန့်မှန်းကိန်းရှင်ကို အသုံးပြု၍ တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို တိကျစွာခန့်မှန်းရန်ဖြစ်ပါက R-squared သည် အရေးကြီးပါသည်။
ယေဘူယျအားဖြင့်၊ R-squared တန်ဖိုးပိုကြီးလေ၊ ခန့်မှန်းသူကိန်းရှင်များသည် တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ပိုမိုတိကျစွာ ခန့်မှန်းနိုင်လေဖြစ်သည်။
R-squared တန်ဖိုးအတွက် လိုအပ်သောတန်ဖိုးသည် သင်လိုအပ်သော တိကျမှုအပေါ် မူတည်ပါသည်။ ဥပမာအားဖြင့်၊ သိပ္ပံနည်းကျလေ့လာမှုများတွင် ယုံကြည်စိတ်ချရသော regression model တစ်ခုအတွက် R-squared သည် 0.95 ထက်ကြီးရန် လိုအပ်နိုင်သည်။ အခြားနေရာများတွင်၊ ဒေတာအတွဲတွင် လွန်ကဲကွဲပြားမှုရှိပါက 0.3 သာရှိသော R စတုရန်းသည် လုံလောက်နိုင်ပါသည်။
R-squared တန်ဖိုးကို “ ကောင်းသော” ဟု သတ်မှတ်သည်ကို သိရန်၊ သင်၏ လေ့လာမှုနယ်ပယ်တွင် R-squared တန်ဖိုးများကို ယေဘုယျအားဖြင့် လက်ခံထားသည်ကို လေ့လာရန် လိုအပ်မည်ဖြစ်သည်။ အကယ်၍ သင်သည် ဖောက်သည် သို့မဟုတ် ကုမ္ပဏီအတွက် ဆုတ်ယုတ်မှုခွဲခြမ်းစိတ်ဖြာမှုကို လုပ်ဆောင်နေပါက၊ လက်ခံနိုင်သော R-squared တန်ဖိုးကို ၎င်းတို့အား မေးမြန်းနိုင်သည်။
ခန့်မှန်းကာလများ
ခန့်မှန်းမှုကြားကာလသည် ကြိုတင်ခန့်မှန်းသူကိန်းရှင်များ၏ တန်ဖိုးများအပေါ်အခြေခံ၍ လေ့လာမှုအသစ်တစ်ခုကျဆင်းနိုင်သည့်အကွာအဝေးကိုသတ်မှတ်သည်။ ပိုမိုကျဉ်းမြောင်းသော ခန့်မှန်းမှုကြားကာလများသည် ခန့်မှန်းသူကိန်းရှင်များသည် တုံ့ပြန်မှုကိန်းရှင်ကို ပိုမိုတိကျစွာ ခန့်မှန်းနိုင်သည်ကို ဖော်ပြသည်။
မကြာခဏဆိုသလို ခန့်မှန်းချက်ကြားကာလတစ်ခုသည် R-squared တန်ဖိုးထက် ပိုမိုအသုံးဝင်နိုင်သည်၊ အကြောင်းမှာ ၎င်းသည် သင့်အား လေ့လာမှုအသစ်တစ်ခုကျဆင်းနိုင်သည့်အတွင်း တန်ဖိုးများအတိအကျကိုပေးဆောင်သောကြောင့်ဖြစ်သည်။ ဆုတ်ယုတ်မှု၏ အဓိကပန်းတိုင်သည် တုံ့ပြန်မှုကိန်းရှင်၏ တန်ဖိုးအသစ်များကို ခန့်မှန်းရန်ဆိုလျှင် ၎င်းသည် အထူးအသုံးဝင်သည်။
ဥပမာအားဖြင့်၊ လူဦးရေ 40,000 သည် သီးခြားမြို့တစ်ခုတွင် ပန်းသမား 30 မှ 35 ယောက်အထိ ခန့်မှန်းချက်ကြားကာလတစ်ခုကို ထုတ်ပေးသည်ဟု ယူဆပါ။ ဆုတ်ယုတ်မှုပုံစံ၏အသုံးပြုမှုအပေါ်မူတည်၍ ၎င်းကို လက်ခံနိုင်သောတန်ဖိုးအကွာအဝေးတစ်ခုဟု ယူဆနိုင်သည် သို့မဟုတ် မယူဆနိုင်ပေ။
နိဂုံး
ယေဘူယျအားဖြင့်၊ R-squared တန်ဖိုးပိုကြီးလေ၊ ခန့်မှန်းသူကိန်းရှင်များသည် တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ပိုမိုတိကျစွာ ခန့်မှန်းနိုင်လေဖြစ်သည်။
R-squared တန်ဖိုးသည် ဒိုမိန်းပေါ်မူတည်၍ “ ကောင်း” မည်မျှကောင်းသည်ဟု ယူဆရမည်နည်း။ အချို့နယ်ပယ်များသည် အခြားနယ်ပယ်များထက် ပိုမိုတိကျမှုလိုအပ်သည်။
R-squared တန်ဖိုးကို “ ကောင်းသည်” ဟု သတ်မှတ်သည်ကို သိရှိရန်၊ သင်အလုပ်လုပ်သည့်နယ်ပယ်တွင် ယေဘုယျအားဖြင့် လက်ခံထားသည်ကို စဉ်းစားပါ၊ နယ်ပယ်တစ်ခုတွင် တိကျသောအသိပညာရှိသူကို မေးမြန်းပါ သို့မဟုတ် သုံးစွဲသူ/ဖောက်သည်အား မေးမြန်းပါ။ ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုကို သင်လုပ်ဆောင်နေသည့် ကုမ္ပဏီ။ လက်ခံနိုင်လောက်သည်ဟု ယူဆကြသည်။
ကြိုတင်ခန့်မှန်းသူနှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ဆက်နွယ်မှုကို ရှင်းပြလိုပါက R-squared သည် ဆုတ်ယုတ်မှုပုံစံ၏ အဓိပ္ပာယ်ဖွင့်ဆိုချက်အပေါ် သက်ရောက်မှုမရှိသောကြောင့် ကြီးမားစွာမသက်ဆိုင်ပါ။
တုံ့ပြန်မှုကိန်းရှင်ကို ခန့်မှန်းလိုပါက၊ ခန့်မှန်းမှုကြားကာလများသည် R-squared တန်ဖိုးများထက် ယေဘုယျအားဖြင့် ပိုအသုံးဝင်ပါသည်။
နောက်ထပ်ဖတ်ရန်:
Pearson Correlation Coefficient
Simple Linear Regression နိဒါန်း