R တွင် standardized regression coefficients တွက်ချက်နည်း


ပုံမှန်အားဖြင့်၊ ကျွန်ုပ်တို့သည် linear regression အများအပြားကို လုပ်ဆောင်သောအခါ၊ model output တွင် ထွက်ပေါ်လာသော regression coefficients များသည် standardized မဟုတ်ပါ ၊ ဆိုလိုသည်မှာ ၎င်းတို့သည် အကောင်းဆုံး-အံဝင်ခွင်ကျမျဉ်းကို ရှာဖွေရန် ဒေတာကုန်ကြမ်းကို အသုံးပြုပါသည်။

 model <- lm(price ~ age + sqfeet, data=df)

သို့သော်လည်း ခန့်မှန်းသူကိန်းရှင်တစ်ခုစီနှင့် တုံ့ပြန်မှုကိန်းရှင်ကို စံသတ်မှတ်ရန် ဖြစ်နိုင်သည် (ကိန်းရှင်တစ်ခုစီ၏ ပျမ်းမျှတန်ဖိုးကို မူရင်းတန်ဖိုးများမှ နုတ်ပြီး ကိန်းရှင်များ၏ စံသွေဖည်မှုဖြင့် ပိုင်းခြားခြင်း) ပြီးနောက် ဖြစ်ပေါ်လာသည့် ဆုတ်ယုတ်မှုတစ်ခုကို လုပ်ဆောင်ရန်၊ စံသတ်မှတ်ထားသော ဆုတ်ယုတ်မှုကိန်းဂဏန်းများ

R ရှိ စံသတ်မှတ်ထားသော ဆုတ်ယုတ်မှုကိန်းများကို တွက်ချက်ရန် အရိုးရှင်းဆုံးနည်းလမ်းမှာ မော်ဒယ်ရှိ ကိန်းရှင်တစ်ခုစီကို စံသတ်မှတ်ရန် scale() လုပ်ဆောင်ချက်ကို အသုံးပြုခြင်းဖြစ်သည်-

 model <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)

အောက်ဖော်ပြပါ ဥပမာသည် လက်တွေ့တွင် စံသတ်မှတ်ထားသော ဆုတ်ယုတ်မှုကိန်းများကို တွက်ချက်နည်းကို ပြသထားသည်။

ဥပမာ- R တွင် စံသတ်မှတ်ထားသော ဆုတ်ယုတ်မှုကိန်းများကို တွက်ချက်နည်း

ကျွန်ုပ်တို့တွင် အိမ် 12 လုံး၏ အသက်၊ စတုရန်းပုံနှင့် အရောင်းစျေးနှုန်းဆိုင်ရာ အချက်အလက်များပါရှိသော အောက်ပါဒေတာအတွဲကို ဆိုပါစို့။

 #create data frame
df <- data. frame (age=c(4, 7, 10, 15, 16, 18, 24, 28, 30, 35, 40, 44),
                 sqfeet=c(2600, 2800, 1700, 1300, 1500, 1800,
                          1200, 2200, 1800, 1900, 2100, 1300),
                 price=c(280000, 340000, 195000, 180000, 150000, 200000,
                         180000, 240000, 200000, 180000, 260000, 140000))

#view data frame
df

   age square feet price
1 4 2600 280000
2 7 2800 340000
3 10 1700 195000
4 15 1300 180000
5 16 1500 150000
6 18 1800 200000
7 24 1200 180000
8 28 2200 240000
9 30 1800 200000
10 35 1900 180000
11 40 2100 260000
12 44 1300 140000

ထို့နောက် ကျွန်ုပ်တို့သည် တုံ့ပြန်မှုကိန်းရှင်အဖြစ် ခန့်မှန်းကိန်းရှင်များနှင့် စျေးနှုန်း အဖြစ် အသက် နှင့် စတုရန်းပုံတို့ကို အသုံးပြု၍ မျဉ်းကြောင်းအတိုင်း ဆုတ်ယုတ်မှုတစ်ခုကို လုပ်ဆောင်သည်ဆိုပါစို့။

 #fit regression model
model <- lm(price ~ age + sqfeet, data=df)

#view model summary
summary(model)

Call:
lm(formula = price ~ age + sqfeet, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-32038 -10526 -6139 21641 34060 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34736.54 37184.32 0.934 0.374599    
age -409.83 612.46 -0.669 0.520187    
sqfeet 100.87 15.75 6.405 0.000125 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 24690 on 9 degrees of freedom
Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 
F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916

မော်ဒယ်ရလဒ်များမှ၊ ကျွန်ုပ်တို့သည် ပုံမှန်မဟုတ်သော ဆုတ်ယုတ်မှုကိန်းဂဏန်းများကို မြင်နိုင်သည်-

  • ကြားဖြတ်- 34736.54
  • အသက် -၄၀၉.၈၃
  • စတုရန်းပေ : 100.87

ပထမတစ်ချက်တွင်၊ ဆုတ်ယုတ်မှုဇယားတွင် ၎င်း၏ဖော်ကိန်းသည် -409.833 ဖြစ်သောကြောင့် စတုရန်းပုံခန့်မှန်းသူကိန်းရှင်အတွက် 100.866 နှင့်သာ နှိုင်းယှဉ်ပါက အသက်အရွယ်သည် အိမ်ခြံမြေစျေးနှုန်းအပေါ် များစွာအကျိုးသက်ရောက်မှုရှိသည်ကို မြင်တွေ့ရသည်။

သို့သော်၊ စံအမှားသည် စတုရန်းပုံအတွက်ထက် အသက်အရွယ်အတွက် ပိုကြီးသည်၊ ထို့ကြောင့် သက်ဆိုင်ရာ p-value သည် အသက် (p = 0.520) နှင့် စတုရန်းပုံစတုရန်းပုံများအတွက် သေးငယ်သည် (p = 0.000)။

regression coefficients တွင် လွန်ကဲသော ခြားနားချက်များအတွက် အကြောင်းရင်းမှာ variable နှစ်ခုအတွက် စကေးများအတွင်း လွန်ကဲစွာ ကွာခြားချက်များကြောင့်ဖြစ်သည်။

  • အသက် အပိုင်းအခြား 4 မှ 44 နှစ်များအတွက်တန်ဖိုးများ။
  • စတုရန်းရုပ်ပုံ တန်ဖိုးများသည် 1,200 မှ 2,800 အထိရှိသည်။

ကျွန်ုပ်တို့သည် ဒေတာအကြမ်းကို ပုံမှန်ပြုလုပ်ပြီး ဆုတ်ယုတ်မှုပုံစံအသစ်နှင့် အံဝင်ခွင်ကျဖြစ်မည်ဆိုပါစို့။

 #standardize each variable and fit regression model
model_std <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)

#turn off scientific notation
options(scipen= 999 )

#view model summary
summary(model_std)

Call:
lm(formula = scale(price) ~ scale(age) + scale(sqfeet), data = df)

Residuals:
    Min 1Q Median 3Q Max 
-0.5541 -0.1820 -0.1062 0.3743 0.5891 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0000000000000002253 0.1232881457926768426 0.000 1.000000
scale(age) -0.0924421263946849786 0.1381464029075653854 -0.669 0.520187
scale(sqfeet) 0.8848591938302141635 0.1381464029075653577 6.405 0.000125
                 
(Intercept)      
scale(age)       
scale(sqfeet)***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4271 on 9 degrees of freedom
Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 
F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916

ဤဇယားရှိ regression coefficients များကို စံသတ်မှတ်ထားပြီး ၊ ဆိုလိုသည်မှာ ၎င်းတို့သည် ဤဆုတ်ယုတ်မှုပုံစံနှင့် ကိုက်ညီရန် စံပြုဒေတာကို အသုံးပြုခဲ့သည်။

ဇယားရှိ coefficients ကိုအနက်ပြန်ဆိုရန်နည်းလမ်းမှာ အောက်ပါအတိုင်းဖြစ်သည်။

  • စံသွေဖည်သော အသက်အရွယ် တစ်ခုတိုးခြင်းသည် အိမ်စျေးနှုန်း၏ 0.092 စံသွေဖည်မှု ကျဆင်းခြင်းနှင့် ဆက်စပ်နေသည်၊ စတုရန်းပုံတစ်ပုံသည် စဉ်ဆက်မပြတ်ရှိနေသည်ဟု ယူဆပါသည်။
  • စတုရန်းပုံတွင် စံသွေဖည်မှုတစ်ခု တိုးခြင်းသည် အိမ်စျေးနှုန်းတွင် 0.885 စံသွေဖည်မှု တိုးလာခြင်းနှင့် ဆက်စပ်နေပါသည်။

စတုရန်းပုံများသည် အသက်အရွယ်ထက် အိမ်စျေးနှုန်းများပေါ်တွင် များစွာအကျိုးသက်ရောက်မှုရှိသည်ကို ယခုကျွန်ုပ်တို့တွေ့မြင်နိုင်ပြီဖြစ်သည်။

မှတ်ချက် – ခန့်မှန်းသူ variable တစ်ခုစီအတွက် p-တန်ဖိုးများသည် ယခင် regression model ရှိနှင့် အတိအကျတူညီပါသည်။

မည်သည့်နောက်ဆုံးမော်ဒယ်ကို အသုံးပြုရမည်ကို ဆုံးဖြတ်သည့်အခါ၊ အိမ်တစ်အိမ်၏စျေးနှုန်းကို ခန့်မှန်းရာတွင် စတုရန်းပုံ သည် ၎င်း၏အသက်ထက် များစွာအရေးကြီးကြောင်း ယခု ကျွန်ုပ်တို့သိပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ဆုတ်ယုတ်မှုပုံစံများအကြောင်း နောက်ထပ်အချက်အလက်များကို ပေးဆောင်သည်-

ဆုတ်ယုတ်မှုဇယားကို ဖတ်ရှုပြီး အဓိပ္ပာယ်ဖွင့်နည်း
regression coefficient ကို ဘယ်လိုအဓိပ္ပာယ်ဖွင့်မလဲ။
linear regression တွင် P တန်ဖိုးများကို အဓိပ္ပာယ်ဖွင့်ဆိုပုံ

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်