ပြီးပြည့်စုံသော multicollinearity ဆိုသည်မှာ အဘယ်နည်း။ (အဓိပ္ပါယ်နှင့် ဥပမာများ)


စာရင်းဇယားများတွင်၊ ကိန်းဂဏန်းနှစ်ခု သို့မဟုတ် နှစ်ခုထက်ပိုသော ခန့်မှန်းနိုင်သောကိန်းရှင်များသည် တစ်ခုနှင့်တစ်ခု အလွန်ဆက်စပ်နေသောအခါ၊ ၎င်းတို့သည် ဆုတ်ယုတ်မှုပုံစံတွင် ထူးခြားသော သို့မဟုတ် အမှီအခိုကင်းသော အချက်အလက်များကို ပေးစွမ်းနိုင်ခြင်း မရှိသည့်အခါတွင် ကိန်းဂဏန်းများ ပေါင်းစပ် ဖြစ်ပေါ်မှု ဖြစ်ပေါ်သည်။

ကိန်းရှင်များကြားတွင် ဆက်စပ်ဆက်စပ်မှုဒီဂရီသည် လုံလောက်စွာမြင့်မားပါက၊ ၎င်းသည် ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်စေပြီး အနက်ပြန်ဆိုရာတွင် ပြဿနာများဖြစ်စေနိုင်သည်။

Multicollinearity ၏ အဆိုးရွားဆုံးဖြစ်ရပ်ကို perfect multicollinearity ဟုခေါ်သည်။ ကြိုတင်ခန့်မှန်းကိန်းရှင် နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းရှင်များသည် တစ်ခုနှင့်တစ်ခု တိကျသော linear ဆက်နွယ်မှုရှိသောအခါ ၎င်းသည် ဖြစ်ပေါ်သည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိသည်ဆိုပါစို့။

ခန့်မှန်းသူ variable x 2 ၏တန်ဖိုးများသည် ရိုးရိုး x 1 ၏တန်ဖိုးများကို 2 ဖြင့်မြှောက်ကြောင်းသတိပြုပါ။

ပြီးပြည့်စုံသော multicollinearity ၏ဥပမာ

ဤသည်မှာ ပြီးပြည့်စုံသော multicollinearity ၏ ဥပမာတစ်ခုဖြစ်သည်။

ပြီးပြည့်စုံသော multicollinearity ပြဿနာ

ဒေတာအတွဲတစ်ခုတွင် ပြီးပြည့်စုံသော multicollinearity ရှိနေသောအခါ၊ သာမန် အနည်းဆုံးစတုရန်းများသည် ဆုတ်ယုတ်မှုကိန်းဂဏန်းများ၏ ခန့်မှန်းချက်များကို မထုတ်ပေးနိုင်ပါ။

အမှန်မှာ၊ x 2 သည် x 1 ရွေ့လျားသည့်အခါ အမြဲအတိအကျ ရွေ့လျားနေချိန်တွင် တုံ့ပြန်မှုကိန်းရှင် (y) ပေါ်ရှိ ကြိုတင်ခန့်မှန်းကိန်းရှင် (x 1 ) ၏ မဖြစ်စလောက်အကျိုးသက်ရောက်မှုကို ခန့်မှန်းရန် မဖြစ်နိုင်ပေ။

အတိုချုပ်အားဖြင့်၊ ပြီးပြည့်စုံသော multicollinearity သည် regression model တစ်ခုစီရှိ coefficient တစ်ခုစီအတွက် တန်ဖိုးကို ခန့်မှန်းရန် မဖြစ်နိုင်ပေ။

ပြီးပြည့်စုံသော multicollinearity ကိုမည်သို့ကိုင်တွယ်မည်နည်း။

ပြီးပြည့်စုံသော multicollinearity ကိုကိုင်တွယ်ရန် အရိုးရှင်းဆုံးနည်းလမ်းမှာ အခြားကိန်းရှင်နှင့် အတိအကျ linear ဆက်နွယ်မှုရှိသော variable များကို ဖယ်ရှားရန်ဖြစ်သည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့၏ယခင်ဒေတာအတွဲတွင်၊ ကျွန်ုပ်တို့သည် x 2 ကို ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်အဖြစ် ရိုးရှင်းစွာဖယ်ရှားနိုင်သည်။

ထို့နောက် ကျွန်ုပ်တို့သည် x 1 ကို ခန့်မှန်းသည့်ကိန်းရှင်အဖြစ်နှင့် တုံ့ပြန်မှုကိန်းရှင်အဖြစ် y ကိုအသုံးပြု၍ ဆုတ်ယုတ်မှုပုံစံတစ်ခုကို ဖြည့်သွင်းမည်ဖြစ်သည်။

ပြီးပြည့်စုံသော multicollinearity နမူနာများ

အောက်ဖော်ပြပါ ဥပမာများသည် လက်တွေ့တွင် ပြီးပြည့်စုံသော multicollinearity ၏ အဖြစ်အများဆုံး မြင်ကွင်းသုံးခုကို ပြသထားသည်။

1. ကြိုတင်ခန့်မှန်းကိန်းရှင်သည် အခြားတစ်ခု၏ ဆတိုးကိန်းတစ်ခုဖြစ်သည်။

အချို့သော လင်းပိုင်မျိုးစိတ်များ၏ အလေးချိန်ကို ခန့်မှန်းရန် “ အမြင့် စင်တီမီတာ” နှင့် “ အမြင့် မီတာ” ကို အသုံးပြုလိုသည် ဆိုကြပါစို့။

ဤအရာသည် ကျွန်ုပ်တို့၏ဒေတာအတွဲကဲ့သို့ ဖြစ်ကောင်းဖြစ်နိုင်သည်-

“ အမြင့် စင်တီမီတာ” ၏ တန်ဖိုးသည် 100 ဖြင့် မြှောက်ထားသော “ အမြင့် မီတာ” နှင့် ညီမျှကြောင်း သတိပြုပါ။ ၎င်းသည် ပြီးပြည့်စုံသော multicollinearity တစ်ခုဖြစ်သည်။

ဤဒေတာအတွဲကိုအသုံးပြု၍ R တွင် မျဉ်းဖြောင့်ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်အောင် ကျွန်ုပ်တို့ကြိုးစားပါက၊ ခန့်မှန်းသူကိန်းရှင် “ မီတာ” အတွက် ကိန်းဂဏန်းခန့်မှန်းချက်ကို ထုတ်ပြန်နိုင်မည် မဟုတ်ပါ။

 #define data
df <- data. frame (weight=c(400, 460, 470, 475, 490, 440, 430, 490, 500, 540),
                 m=c(1.3, .7, .6, 1.3, 1.2, 1.5, 1.2, 1.6, 1.1, 1.4),
                 cm=c(130, 70, 60, 130, 120, 150, 120, 160, 110, 140))

#fit multiple linear regression model
model <- lm(weight~m+cm, data=df)

#view summary of model
summary(model)

Call:
lm(formula = weight ~ m + cm, data = df)

Residuals:
    Min 1Q Median 3Q Max 
-70,501 -25,501 5,183 19,499 68,590 

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 458,676 53,403 8,589 2.61e-05 ***
m 9.096 43.473 0.209 0.839    
cm NA NA NA NA    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 41.9 on 8 degrees of freedom
Multiple R-squared: 0.005442, Adjusted R-squared: -0.1189 
F-statistic: 0.04378 on 1 and 8 DF, p-value: 0.8395

2. ကြိုတင်ခန့်မှန်းကိန်းရှင်သည် အခြားတစ်ခု၏ အသွင်ပြောင်းဗားရှင်းဖြစ်သည်။

ဘတ်စကတ်ဘောကစားသမားများ၏ အဆင့်သတ်မှတ်ချက်ကို ခန့်မှန်းရန် “ အမှတ်များ” နှင့် “ စကေးရမှတ်များ” ကို အသုံးပြုလိုသည်ဆိုပါစို့။

မပြောင်းလဲနိုင်သော “စကေးရမှတ်များ” ကို အောက်ပါအတိုင်း တွက်ချက်သည်ဆိုပါစို့။

အတိုင်းအတာမှတ်များ = (အမှတ် – µ အမှတ်များ ) / σ မှတ်များ

ဤအရာသည် ကျွန်ုပ်တို့၏ဒေတာအတွဲကဲ့သို့ ဖြစ်ကောင်းဖြစ်နိုင်သည်-

“ စကေးချထားသော အမှတ်များ” တန်ဖိုးတစ်ခုစီသည် ရိုးရိုး “ အမှတ်များ” ၏ စံဗားရှင်းတစ်ခုဖြစ်ကြောင်း သတိပြုပါ။ ဤသည်မှာ ပြီးပြည့်စုံသော multicollinearity ဖြစ်သည်။

ဤဒေတာအတွဲကိုအသုံးပြု၍ R တွင် မျဉ်းဖြောင့်ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်အောင် ကြိုးစားပါက၊ “ စကေးချထားသော အမှတ်များ” ကိန်းရှင်ကိန်းရှင်အတွက် ကိန်းဂဏန်းခန့်မှန်းချက်ကို ထုတ်လုပ်နိုင်မည်မဟုတ်ပါ-

 #define data
df <- data. frame (rating=c(88, 83, 90, 94, 96, 78, 79, 91, 90, 82),
                 pts=c(17, 19, 24, 29, 33, 15, 14, 29, 25, 22))

df$scaled_pts <- (df$pts - mean(df$pts)) / sd(df$pts)

#fit multiple linear regression model
model <- lm(rating~pts+scaled_pts, data=df)

#view summary of model
summary(model)

Call:
lm(formula = rating ~ pts + scaled_pts, data = df)

Residuals:
    Min 1Q Median 3Q Max 
-4.4932 -1.3941 -0.2935 1.3055 5.8412 

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 67.4218 3.5896 18.783 6.67e-08 ***
pts 0.8669 0.1527 5.678 0.000466 ***
scaled_pts NA NA NA NA    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.953 on 8 degrees of freedom
Multiple R-squared: 0.8012, Adjusted R-squared: 0.7763 
F-statistic: 32.23 on 1 and 8 DF, p-value: 0.0004663

3. dummy ပြောင်းလဲနိုင်သော ထောင်ချောက်

ပြီးပြည့်စုံသော multicollinearity ဖြစ်ပေါ်နိုင်သည့်နောက်ထပ် ဇာတ်လမ်းကို dummy variable trap ဟုခေါ်သည်။ ဆုတ်ယုတ်မှုပုံစံတစ်ခုတွင် categorical variable တစ်ခုကိုယူ၍ 0၊ 1၊ 2 စသည်ဖြင့် တန်ဖိုးများကို ယူဆောင်သည့် “ dummy variable” သို့ ပြောင်းလိုသောအခါ၊

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် ၀င်ငွေကိုခန့်မှန်းရန် ခန့်မှန်းနိုင်သောကိန်းရှင် “ အသက်” နှင့် “ အိမ်ထောင်ရေးအခြေအနေ” ကိုအသုံးပြုလိုသည်ဆိုကြပါစို့။

“ အိမ်ထောင်ရေးအခြေအနေ” ကို ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်အဖြစ် အသုံးပြုရန်၊ ၎င်းကို အရုပ်ပြောင်းကိန်းအဖြစ် ဦးစွာပြောင်းလဲရပါမည်။

ထိုသို့လုပ်ဆောင်ရန်၊ ကျွန်ုပ်တို့သည် “ Single” ကို အခြေခံတန်ဖိုးအဖြစ် ထားခဲ့နိုင်ပြီး၊ 0 သို့မဟုတ် 1 တန်ဖိုးများကို အောက်ပါအတိုင်း “ အိမ်ထောင်သည်” နှင့် “ ကွာရှင်းခြင်း” သို့ သတ်မှတ်ပေးသောကြောင့်၊

အမှားတစ်ခုသည် အောက်ပါအတိုင်း dummy variable သုံးခုကို ဖန်တီးရန် မှားယွင်းနေလိမ့်မည် ။

ဤကိစ္စတွင်၊ “ Single” variable သည် “ အိမ်ထောင်သည်” နှင့် “ ကွာရှင်းပြတ်စဲခြင်း” variable များ၏ ပြီးပြည့်စုံသော linear ပေါင်းစပ်မှုတစ်ခုဖြစ်သည်။ ဤသည်မှာ ပြီးပြည့်စုံသော multicollinearity ၏ ဥပမာတစ်ခုဖြစ်သည်။

ဤဒေတာအတွဲကို အသုံးပြု၍ R တွင် မျဉ်းကြောင်းပြန်ဆုတ်မှုပုံစံ အများအပြားကို အံဝင်ခွင်ကျဖြစ်အောင် ကျွန်ုပ်တို့ကြိုးစားပါက၊ ခန့်မှန်းသူကိန်းရှင်တစ်ခုစီအတွက် ကိန်းဂဏန်းခန့်မှန်းချက်ကို ကျွန်ုပ်တို့ ထုတ်လုပ်နိုင်မည်မဟုတ်ပါ-

 #define data
df <- data. frame (income=c(45, 48, 54, 57, 65, 69, 78, 83, 98, 104, 107),
                 age=c(23, 25, 24, 29, 38, 36, 40, 59, 56, 64, 53),
                 single=c(1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0),
                 married=c(0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1),
                 divorced=c(0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0))

#fit multiple linear regression model
model <- lm(income~age+single+married+divorced, data=df)

#view summary of model
summary(model)

Call:
lm(formula = income ~ age + single + married + divorced, data = df)

Residuals:
    Min 1Q Median 3Q Max 
-9.7075 -5.0338 0.0453 3.3904 12.2454 

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 16.7559 17.7811 0.942 0.37739   
age 1.4717 0.3544 4.152 0.00428 **
single -2.4797 9.4313 -0.263 0.80018   
married NA NA NA NA   
divorced -8.3974 12.7714 -0.658 0.53187   
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 8.391 on 7 degrees of freedom
Multiple R-squared: 0.9008, Adjusted R-squared: 0.8584 
F-statistic: 21.2 on 3 and 7 DF, p-value: 0.0006865

ထပ်လောင်းအရင်းအမြစ်များ

Regression ရှိ Multicollinearity နှင့် VIF အတွက်လမ်းညွှန်
R ဖြင့် VIF တွက်နည်း
Python တွင် VIF တွက်နည်း
Excel တွင် VIF တွက်ချက်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်