R တွင် glm output ကိုမည်သို့အဓိပ္ပာယ်ဖွင့်ရမည် (ဥပမာနှင့်အတူ)
R ရှိ glm() လုပ်ဆောင်ချက်ကို ယေဘူယျအားဖြင့် မျဉ်းသားထားသော မော်ဒယ်များနှင့် ကိုက်ညီရန် အသုံးပြုနိုင်သည်။
ဤလုပ်ဆောင်ချက်သည် အောက်ပါ syntax ကိုအသုံးပြုသည်-
glm(ဖော်မြူလာ၊ မိသားစု= Gaussian၊ ဒေတာ၊ …)
ရွှေ-
- ဖော်မြူလာ- linear model ဖော်မြူလာ (ဥပမာ y ~ x1 + x2)
- မိသားစု- မော်ဒယ်နှင့်ကိုက်ညီရန် အသုံးပြုရန် ကိန်းဂဏန်းမိသားစု။ မူရင်းမှာ Gaussian ဖြစ်သည်၊ သို့သော် အခြားရွေးချယ်စရာများမှာ Binomial၊ Gamma နှင့် Poisson တို့ဖြစ်သည်။
- ဒေတာ- ဒေတာပါရှိသော ဒေတာဘလောက်၏ အမည်
လက်တွေ့တွင်၊ ဤလုပ်ဆောင်ချက်သည် “binomial” မိသားစုကို သတ်မှတ်ခြင်းဖြင့် ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံများ နှင့် ကိုက်ညီရန် မကြာခဏအသုံးပြုသည်။
အောက်ဖော်ပြပါ ဥပမာသည် logistic regression model အတွက် R တွင် glm output ကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုသည်ကို ပြသထားသည်။
ဥပမာ- R တွင် glm output ကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုမည်နည်း။
ဤဥပမာအတွက်၊ R တွင်တည်ဆောက်ထားသော mtcars dataset ကိုအသုံးပြုပါမည်။
#view first six rows of mtcars dataset
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
ပေးထားသောကားသည် variable am အတွက် တန်ဖိုး 1 ကို ယူသည့်ဖြစ်နိုင်ခြေကို ခန့်မှန်းရန် variable disp နှင့် hp ကို အသုံးပြုပါမည်။
အောက်ဖော်ပြပါ ကုဒ်သည် ဤ logistic regression model ကို အံဝင်ခွင်ကျဖြစ်စေရန်အတွက် glm() လုပ်ဆောင်ချက်ကို မည်သို့အသုံးပြုရမည်ကို ပြသသည်-
#fit logistic regression model model <- glm(am ~ disp + hp, data=mtcars, family=binomial) #view model summary summary(model) Call: glm(formula = am ~ disp + hp, family = binomial, data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -1.9665 -0.3090 -0.0017 0.3934 1.3682 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.40342 1.36757 1.026 0.3048 available -0.09518 0.04800 -1.983 0.0474 * hp 0.12170 0.06777 1.796 0.0725 . --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 43,230 on 31 degrees of freedom Residual deviance: 16,713 on 29 degrees of freedom AIC: 22,713 Number of Fisher Scoring iterations: 8
ဤသည်မှာ ရလဒ်တစ်ခုစီ၏ အစိတ်အပိုင်းတစ်ခုစီကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုရမည်နည်း။
Coefficients နှင့် P-တန်ဖိုးများ
ရလဒ်ရှိ ကိန်းဂဏန်းခန့်မှန်းချက်သည် ခန့်မှန်းသူကိန်းရှင်တစ်ခုစီတွင် တစ်ယူနစ်တိုးလာခြင်းနှင့် ဆက်စပ်နေသော တုံ့ပြန်မှုကိန်းရှင်၏ မှတ်တမ်းဖြစ်နိုင်ခြေကို ညွှန်ပြသည်။
ဥပမာအားဖြင့်၊ ခန့်မှန်းသူ variable disp တွင် တစ်ယူနစ်တိုးခြင်းသည် တုံ့ပြန်မှုကိန်းရှင်တန်ဖိုး 1 ကိုယူသည့်မှတ်တမ်းဖြစ်နိုင်ခြေတွင် -0.09518 ၏ပျမ်းမျှပြောင်းလဲမှုနှင့် ဆက်စပ်နေသည်။ ဆိုလိုသည်မှာ disp ၏ပိုမိုမြင့်မားသောတန်ဖိုးများသည် ဖြစ်နိုင်ခြေနည်းပါးခြင်းနှင့်ဆက်စပ်နေပါသည်။ . variable ၏ တန်ဖိုး 1 ကို ယူပါသည်။
စံအမှားသည် ကျွန်ုပ်တို့အား ကိန်းဂဏန်းခန့်မှန်းချက်နှင့် ဆက်စပ်သော ပြောင်းလဲနိုင်မှုကို အကြံဥာဏ်တစ်ခုပေးသည်။ ထို့နောက် ကျွန်ုပ်တို့သည် az တန်ဖိုးကိုရရှိရန် စံအမှားဖြင့် ကိန်းဂဏန်းခန့်မှန်းချက်ကို ပိုင်းခြားပါသည်။
ဥပမာအားဖြင့်၊ ခန့်မှန်းသူ variable disp အတွက် z တန်ဖိုးကို -.09518 / .048 = -1.983 အဖြစ် တွက်ချက်သည်။
p-value Pr(>|z|) သည် z-value တစ်ခုနှင့်ဆက်စပ်သော ဖြစ်နိုင်ခြေကို ပြောပြသည်။ ၎င်းသည် မော်ဒယ်ရှိ တုံ့ပြန်မှုကိန်းရှင်၏ တန်ဖိုးကို ခန့်မှန်းနိုင်သည့်ကိန်းရှင်တစ်ခုစီအား မည်မျှကောင်းစွာ ခန့်မှန်းနိုင်သည်ကို အခြေခံအားဖြင့် ကျွန်ုပ်တို့ကို ပြောပြသည်။
ဥပမာအားဖြင့်၊ variable disp အတွက် z-value နှင့်ဆက်စပ်နေသည့် p-value သည် 0.0474 ဖြစ်သည်။ ဤတန်ဖိုးသည် 0.05 ထက်နည်းသောကြောင့်၊ disp သည် မော်ဒယ်ရှိ စာရင်းအင်းဆိုင်ရာ သိသာထင်ရှားသော ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်တစ်ခုဖြစ်သည်ဟု ကျွန်ုပ်တို့ပြောနိုင်သည်။
သင့်စိတ်ကြိုက်ရွေးချယ်မှုများပေါ်မူတည်၍ ခန့်မှန်းသူကိန်းရှင်တစ်ခုစီသည် ကိန်းဂဏာန်းအရသိသာမှုရှိမရှိ ဆုံးဖြတ်ရန် 0.01၊ 0.05 သို့မဟုတ် 0.10 တို့၏ အရေးပါမှုအဆင့်ကို အသုံးပြုရန် ဆုံးဖြတ်နိုင်ပါသည်။
သုညနှင့် ကျန်ရှိသော သွေဖည်မှု
အထွက်တွင် သုညသွေဖည်မှုမှာ မူရင်းအခေါ်အဝေါ်သာရှိသော မော်ဒယ်တစ်ခုမှ တုံ့ပြန်မှုကိန်းရှင်ကို မည်မျှကောင်းစွာ ခန့်မှန်းနိုင်သည်ကို ပြောပြသည်။
ကျန်ရှိသောသွေဖည်မှုသည် ကျွန်ုပ်တို့ p ခန့်မှန်းသူကိန်းရှင်များနှင့်လိုက်ဖက်သောတိကျသောပုံစံဖြင့် ကျွန်ုပ်တို့အား တုံ့ပြန်မှုကိန်းရှင်အား မည်မျှကောင်းစွာခန့်မှန်းနိုင်သည်ကိုပြောပြသည်။ တန်ဖိုးနိမ့်လေ၊ မော်ဒယ်သည် တုံ့ပြန်မှုကိန်းရှင်၏ တန်ဖိုးကို ခန့်မှန်းနိုင်လေဖြစ်သည်။
မော်ဒယ်တစ်ခုသည် “ အသုံးဝင်သည်” ရှိမရှိ ဆုံးဖြတ်ရန် Chi-square ကိန်းဂဏန်းကို အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။
X 2 = Zero deviance – ကျန်ရှိသော deviance
p ၏လွတ်လပ်မှုဒီဂရီနှင့်အတူ။
ထို့နောက် ဤ Chi-square ကိန်းဂဏန်းနှင့် ဆက်စပ်နေသည့် p-value ကို ရှာတွေ့နိုင်ပါသည်။ p-value နိမ့်လေ၊ မော်ဒယ်သည် မူရင်းအခေါ်အဝေါ်မျှသာရှိသော မော်ဒယ်တစ်ခုနှင့် နှိုင်းယှဉ်ပါက dataset ကို ပိုမိုကောင်းမွန်စွာ ဖြည့်ဆည်းနိုင်လေဖြစ်သည်။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့၏ ဆုတ်ယုတ်မှုပုံစံတွင်၊ သုညနှင့် ကျန်ရှိသောသွေဖည်မှုအတွက် အထွက်တွင် အောက်ပါတန်ဖိုးများကို သတိပြုနိုင်သည်-
- Zero deviance : 43.23 ဖြင့် df = 31
- ကျန်ရှိသော deviance : 16.713 ဖြင့် df = 29
မော်ဒယ်၏ X 2 စာရင်းအင်းကို တွက်ချက်ရန် ဤတန်ဖိုးများကို ကျွန်ုပ်တို့အသုံးပြုနိုင်သည်-
- X 2 = Zero deviance – ကျန်ရှိသော deviance
- X2 = 43.23 – 16.713
- X2 = 26,517
p = 2 degree of freedom of predictor variables ရှိပါသည်။
လွတ်လပ်မှု 2 ဒီဂရီပါသော X 2 တန်ဖိုး 26.517 တွင် p-value 0.000002 ရှိသည်ကို ရှာရန် Chi-square မှ P-value ဂဏန်းတွက်စက်ကို အသုံးပြုနိုင်သည်။
ဤ p-value သည် 0.05 ထက် များစွာနိမ့်သောကြောင့်၊ မော်ဒယ်သည် အလွန်အသုံးဝင်သည်ဟု ကျွန်ုပ်တို့ ကောက်ချက်ချနိုင်သည်။
AIC
Akaike Information Criterion ( AIC ) သည် မတူညီသော ဆုတ်ယုတ်မှုပုံစံများ၏ အံအားသင့်မှုကို နှိုင်းယှဉ်ရန် အသုံးပြုသည့် အတိုင်းအတာတစ်ခုဖြစ်သည်။ တန်ဖိုးနိမ့်လေ၊ ဆုတ်ယုတ်မှုပုံစံသည် ဒေတာနှင့် ကိုက်ညီလေလေဖြစ်သည်။
အောက်ပါအတိုင်း တွက်ချက်သည်။
AIC = 2K – 2 ln (L)
ရွှေ-
- K- မော်ဒယ် ကန့်သတ်ချက်များ အရေအတွက်။
- ln (L) : မော်ဒယ်၏ မှတ်တမ်းဖြစ်နိုင်ခြေ။ ၎င်းသည် ဒေတာအပေါ်အခြေခံ၍ မော်ဒယ်ဖြစ်နိုင်ချေ မည်မျှရှိသည်ကို ပြောပြသည်။
AIC ၏ အမှန်တကယ်တန်ဖိုးသည် အဓိပ္ပါယ်မရှိပေ။
သို့သော်၊ သင်သည် များစွာသော ဆုတ်ယုတ်မှုပုံစံများနှင့် ကိုက်ညီပါက၊ မော်ဒယ်တစ်ခုစီ၏ AIC တန်ဖိုးကို နှိုင်းယှဉ်နိုင်သည်။ အနိမ့်ဆုံး AIC ရှိသော မော်ဒယ်သည် အကောင်းဆုံး အံဝင်ခွင်ကျ ဖြစ်စေသည်။
ဆက်စပ်မှု- ကောင်းသော AIC တန်ဖိုးကို အဘယ်အရာဟု ယူဆသနည်း။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် glm() လုပ်ဆောင်ချက်ကို အသုံးပြုပုံနှင့်ပတ်သက်သည့် နောက်ထပ်အချက်အလက်များကို ပေးဆောင်သည်-
R တွင် glm နှင့် lm ကွာခြားချက်
R တွင် glm ဖြင့် ခန့်မှန်းသည့်လုပ်ဆောင်ချက်ကို မည်သို့အသုံးပြုရမည်နည်း။
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် glm() လုပ်ဆောင်ချက်ကို အသုံးပြုသည့်အခါ ဘုံအမှားများကို မည်ကဲ့သို့ ကိုင်တွယ်ရမည်ကို ရှင်းပြထားသည်။
R သတိပေးချက်ကို ကိုင်တွယ်ပုံ- glm.fit: အယ်လဂိုရီသမ် အသွင်မဆောင်ပါ။
ကိုင်တွယ်နည်း- glm.fit- ကိန်းဂဏန်းအလိုက် ချိန်ညှိထားသော ဖြစ်နိုင်ခြေ 0 သို့မဟုတ် 1 ဖြစ်သွားသည်။