Logistic regression အတွက် null hypothesis ကို နားလည်ခြင်း။
Logistic regression သည် တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော ခန့်မှန်းပေးသူ variable များနှင့် တုံ့ပြန်မှု variable binary ဖြစ်သောအခါ တုံ့ပြန်မှု variable နှစ်ခုကြားဆက်စပ်မှုကို နားလည်ရန် ကျွန်ုပ်တို့အသုံးပြုနိုင်သော ဆုတ်ယုတ်မှုပုံစံတစ်မျိုးဖြစ်သည်။
အကယ်၍ ကျွန်ုပ်တို့တွင် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်တစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင်တစ်ခုသာရှိလျှင်၊ ကိန်းရှင်များကြားရှိဆက်စပ်မှုကို ခန့်မှန်းရန် အောက်ပါဖော်မြူလာကိုအသုံးပြုသည့် ရိုးရှင်းသော ပို့ဆောင်ရေးဆုတ်ယုတ်မှုကို ကျွန်ုပ်တို့အသုံးပြုနိုင်သည်-
log[p(X) / (1-p(X))] = β 0 + β 1
ညီမျှခြင်း၏ညာဘက်ရှိ ဖော်မြူလာသည် တုံ့ပြန်မှုကိန်းရှင်သည် တန်ဖိုး 1 ကိုယူသည့် အလေးသာများ၏ လော့ဂရစ်သမ်ကို ခန့်မှန်းပေးသည်။
ရိုးရှင်းသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုသည် အောက်ပါ null နှင့် အခြားအခြားသော အယူအဆများကို အသုံးပြုသည်-
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
null hypothesis တွင် coefficient β 1 သည် သုညနှင့် ညီသည်ဟု ဖော်ပြထားသည်။ တစ်နည်းဆိုရသော် ခန့်မှန်းသူကိန်းရှင် x နှင့် တုံ့ပြန်မှုကိန်းရှင် y တို့ကြားတွင် ကိန်းဂဏန်းဆိုင်ရာ သိသာထင်ရှားသော ဆက်နွယ်မှု မရှိပါ။
အစားထိုးယူဆချက်က β 1 သည် သုညနှင့် မညီမျှ ကြောင်း ဖော်ပြထားသည်။ တစ်နည်းဆိုရသော် x နှင့် y အကြား ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်နွယ်မှု ရှိသည် ။
ကျွန်ုပ်တို့တွင် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များစွာနှင့် တုံ့ပြန်မှုကိန်းရှင်တစ်ခုရှိလျှင်၊ ကိန်းရှင်များကြားရှိဆက်စပ်မှုကို ခန့်မှန်းရန် အောက်ပါဖော်မြူလာကိုအသုံးပြုသည့် များပြားလှသော logistic regression ကို အသုံးပြုနိုင်ပါသည်။
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Multiple logistic regression သည် အောက်ပါ null နှင့် အစားထိုး hypotheses ကို အသုံးပြုသည် ။
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
null hypothesis တွင် model ရှိ coefficient အားလုံးသည် သုညနှင့် ညီသည်ဟု ဖော်ပြထားသည်။ တစ်နည်းဆိုရသော်၊ ကြိုတင်ခန့်မှန်းကိန်းရှင်များသည် တုံ့ပြန်မှုကိန်းရှင် y နှင့် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်နွယ်မှု မရှိပေ။
အခြားယူဆချက်တစ်ခုက ဖော်ကိန်းအားလုံးသည် သုညနှင့် တပြိုင်နက်တည်းမဟုတ်ဟု ဖော်ပြသည်။
အောက်ဖော်ပြပါနမူနာများသည် ရိုးရှင်းသော logistic regression နှင့် multiple logistic regression model များတွင် null hypothesis ကို ငြင်းပယ်ရန်၊
ဥပမာ 1- ရိုးရှင်းသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှု
ပါမောက္ခတစ်ယောက်က သူ့အတန်းထဲက ကျောင်းသားတွေ အောင်မြင်မယ့် စာမေးပွဲအဆင့်ကို ခန့်မှန်းဖို့ လေ့လာထားတဲ့ နာရီအရေအတွက်ကို အသုံးပြုလိုတယ်ဆိုပါစို့။ ၎င်းသည် ကျောင်းသား 20 ထံမှ အချက်အလက်များကို စုဆောင်းပြီး ရိုးရှင်းသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံနှင့် ကိုက်ညီပါသည်။
ရိုးရှင်းသော logistic regression model နှင့်ကိုက်ညီရန် R တွင်အောက်ပါကုဒ်ကိုသုံးနိုင်သည်။
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
လေ့လာသည့်နာရီနှင့် စာမေးပွဲရမှတ်အကြား ကိန်းဂဏန်းအချက်အလတ်အရ သိသာထင်ရှားသော ဆက်စပ်မှုရှိမရှိကို ဆုံးဖြတ်ရန်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်၏ chi-square တန်ဖိုးနှင့် သက်ဆိုင်သော p-value ကို ပိုင်းခြားစိတ်ဖြာရန် လိုအပ်ပါသည်။
မော်ဒယ်၏ စုစုပေါင်း Chi-square တန်ဖိုးကို တွက်ချက်ရန် အောက်ပါဖော်မြူလာကို အသုံးပြုနိုင်ပါသည်။
X 2 = (သုညသွေဖည်မှု – ကျန်ရှိသောသွေဖည်မှု) / (သုည Df – ကျန်ရှိသော Df)
p-value သည် 0.2717286 ဖြစ်သွားသည်။
ဤ p-value သည် 0.05 ထက်မနည်းသောကြောင့်၊ null hypothesis ကို ငြင်းပယ်ရန် ပျက်ကွက်ပါသည်။ တစ်နည်းဆိုရသော်၊ လေ့လာသည့် နာရီနှင့် စာမေးပွဲရမှတ်များကြားတွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်စပ်မှု မရှိပါ။
ဥပမာ 2- များစွာသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှု
ပရော်ဖက်ဆာတစ်ဦးသည် အတန်းထဲတွင် အတန်းကျောင်းသားများ ဝင်ငွေရရှိမည်ဟု ခန့်မှန်းရန်အတွက် ပါမောက္ခတစ်ဦးသည် လေ့လာသည့် နာရီအရေအတွက်နှင့် ကြိုတင်ပြင်ဆင်သည့် စာမေးပွဲအရေအတွက်ကို အသုံးပြုလိုသည်ဆိုပါစို့။ ၎င်းသည် ကျောင်းသား 20 ထံမှ အချက်အလက်များကို စုဆောင်းပြီး မျိုးစုံသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံနှင့် ကိုက်ညီပါသည်။
များစွာသော logistic regression model နှင့်ကိုက်ညီရန် R တွင်အောက်ပါကုဒ်ကိုသုံးနိုင်သည်။
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
မော်ဒယ်၏ စုစုပေါင်း Chi-square ကိန်းဂဏန်းအတွက် p-တန်ဖိုးသည် 0.01971255 ဖြစ်သည် ။
ဤ p-value သည် 0.05 ထက်နည်းသောကြောင့်၊ null hypothesis ကို ငြင်းပယ်ပါသည်။ တစ်နည်းဆိုရသော်၊ ဖြေဆိုခဲ့သော နာရီများနှင့် ကြိုတင်ပြင်ဆင်မှုစာမေးပွဲများနှင့် စာမေးပွဲတွင်ရရှိသော နောက်ဆုံးအဆင့်ကြားတွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်ဆံရေးရှိသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုဆိုင်ရာ နောက်ထပ်အချက်အလက်များကို ပေးဆောင်သည်-
Logistic Regression နိဒါန်း
ထောက်ပံ့ပို့ဆောင်ရေးဆုတ်ယုတ်မှုရလဒ်များကို မည်သို့အစီရင်ခံမည်နည်း။
Logistic regression vs linear regression- အဓိကကွာခြားချက်များ