Logistic regression အတွက် null hypothesis ကို နားလည်ခြင်း။


Logistic regression သည် တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော ခန့်မှန်းပေးသူ variable များနှင့် တုံ့ပြန်မှု variable binary ဖြစ်သောအခါ တုံ့ပြန်မှု variable နှစ်ခုကြားဆက်စပ်မှုကို နားလည်ရန် ကျွန်ုပ်တို့အသုံးပြုနိုင်သော ဆုတ်ယုတ်မှုပုံစံတစ်မျိုးဖြစ်သည်။

အကယ်၍ ကျွန်ုပ်တို့တွင် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်တစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင်တစ်ခုသာရှိလျှင်၊ ကိန်းရှင်များကြားရှိဆက်စပ်မှုကို ခန့်မှန်းရန် အောက်ပါဖော်မြူလာကိုအသုံးပြုသည့် ရိုးရှင်းသော ပို့ဆောင်ရေးဆုတ်ယုတ်မှုကို ကျွန်ုပ်တို့အသုံးပြုနိုင်သည်-

log[p(X) / (1-p(X))] = β 0 + β 1

ညီမျှခြင်း၏ညာဘက်ရှိ ဖော်မြူလာသည် တုံ့ပြန်မှုကိန်းရှင်သည် တန်ဖိုး 1 ကိုယူသည့် အလေးသာများ၏ လော့ဂရစ်သမ်ကို ခန့်မှန်းပေးသည်။

ရိုးရှင်းသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုသည် အောက်ပါ null နှင့် အခြားအခြားသော အယူအဆများကို အသုံးပြုသည်-

  • H 0 : β 1 = 0
  • H A : β 1 ≠ 0

null hypothesis တွင် coefficient β 1 သည် သုညနှင့် ညီသည်ဟု ဖော်ပြထားသည်။ တစ်နည်းဆိုရသော် ခန့်မှန်းသူကိန်းရှင် x နှင့် တုံ့ပြန်မှုကိန်းရှင် y တို့ကြားတွင် ကိန်းဂဏန်းဆိုင်ရာ သိသာထင်ရှားသော ဆက်နွယ်မှု မရှိပါ။

အစားထိုးယူဆချက်က β 1 သည် သုညနှင့် မညီမျှ ကြောင်း ဖော်ပြထားသည်။ တစ်နည်းဆိုရသော် x နှင့် y အကြား ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်နွယ်မှု ရှိသည်

ကျွန်ုပ်တို့တွင် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များစွာနှင့် တုံ့ပြန်မှုကိန်းရှင်တစ်ခုရှိလျှင်၊ ကိန်းရှင်များကြားရှိဆက်စပ်မှုကို ခန့်မှန်းရန် အောက်ပါဖော်မြူလာကိုအသုံးပြုသည့် များပြားလှသော logistic regression ကို အသုံးပြုနိုင်ပါသည်။

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Multiple logistic regression သည် အောက်ပါ null နှင့် အစားထိုး hypotheses ကို အသုံးပြုသည် ။

  • H 0 : β 1 = β 2 = … = β k = 0
  • H A : β 1 = β 2 = … = β k ≠ 0

null hypothesis တွင် model ရှိ coefficient အားလုံးသည် သုညနှင့် ညီသည်ဟု ဖော်ပြထားသည်။ တစ်နည်းဆိုရသော်၊ ကြိုတင်ခန့်မှန်းကိန်းရှင်များသည် တုံ့ပြန်မှုကိန်းရှင် y နှင့် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်နွယ်မှု မရှိပေ။

အခြားယူဆချက်တစ်ခုက ဖော်ကိန်းအားလုံးသည် သုညနှင့် တပြိုင်နက်တည်းမဟုတ်ဟု ဖော်ပြသည်။

အောက်ဖော်ပြပါနမူနာများသည် ရိုးရှင်းသော logistic regression နှင့် multiple logistic regression model များတွင် null hypothesis ကို ငြင်းပယ်ရန်၊

ဥပမာ 1- ရိုးရှင်းသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှု

ပါမောက္ခတစ်ယောက်က သူ့အတန်းထဲက ကျောင်းသားတွေ အောင်မြင်မယ့် စာမေးပွဲအဆင့်ကို ခန့်မှန်းဖို့ လေ့လာထားတဲ့ နာရီအရေအတွက်ကို အသုံးပြုလိုတယ်ဆိုပါစို့။ ၎င်းသည် ကျောင်းသား 20 ထံမှ အချက်အလက်များကို စုဆောင်းပြီး ရိုးရှင်းသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံနှင့် ကိုက်ညီပါသည်။

ရိုးရှင်းသော logistic regression model နှင့်ကိုက်ညီရန် R တွင်အောက်ပါကုဒ်ကိုသုံးနိုင်သည်။

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

လေ့လာသည့်နာရီနှင့် စာမေးပွဲရမှတ်အကြား ကိန်းဂဏန်းအချက်အလတ်အရ သိသာထင်ရှားသော ဆက်စပ်မှုရှိမရှိကို ဆုံးဖြတ်ရန်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်၏ chi-square တန်ဖိုးနှင့် သက်ဆိုင်သော p-value ကို ပိုင်းခြားစိတ်ဖြာရန် လိုအပ်ပါသည်။

မော်ဒယ်၏ စုစုပေါင်း Chi-square တန်ဖိုးကို တွက်ချက်ရန် အောက်ပါဖော်မြူလာကို အသုံးပြုနိုင်ပါသည်။

X 2 = (သုညသွေဖည်မှု – ကျန်ရှိသောသွေဖည်မှု) / (သုည Df – ကျန်ရှိသော Df)

p-value သည် 0.2717286 ဖြစ်သွားသည်။

ဤ p-value သည် 0.05 ထက်မနည်းသောကြောင့်၊ null hypothesis ကို ငြင်းပယ်ရန် ပျက်ကွက်ပါသည်။ တစ်နည်းဆိုရသော်၊ လေ့လာသည့် နာရီနှင့် စာမေးပွဲရမှတ်များကြားတွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်စပ်မှု မရှိပါ။

ဥပမာ 2- များစွာသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှု

ပရော်ဖက်ဆာတစ်ဦးသည် အတန်းထဲတွင် အတန်းကျောင်းသားများ ဝင်ငွေရရှိမည်ဟု ခန့်မှန်းရန်အတွက် ပါမောက္ခတစ်ဦးသည် လေ့လာသည့် နာရီအရေအတွက်နှင့် ကြိုတင်ပြင်ဆင်သည့် စာမေးပွဲအရေအတွက်ကို အသုံးပြုလိုသည်ဆိုပါစို့။ ၎င်းသည် ကျောင်းသား 20 ထံမှ အချက်အလက်များကို စုဆောင်းပြီး မျိုးစုံသော ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံနှင့် ကိုက်ညီပါသည်။

များစွာသော logistic regression model နှင့်ကိုက်ညီရန် R တွင်အောက်ပါကုဒ်ကိုသုံးနိုင်သည်။

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

မော်ဒယ်၏ စုစုပေါင်း Chi-square ကိန်းဂဏန်းအတွက် p-တန်ဖိုးသည် 0.01971255 ဖြစ်သည် ။

ဤ p-value သည် 0.05 ထက်နည်းသောကြောင့်၊ null hypothesis ကို ငြင်းပယ်ပါသည်။ တစ်နည်းဆိုရသော်၊ ဖြေဆိုခဲ့သော နာရီများနှင့် ကြိုတင်ပြင်ဆင်မှုစာမေးပွဲများနှင့် စာမေးပွဲတွင်ရရှိသော နောက်ဆုံးအဆင့်ကြားတွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ဆက်ဆံရေးရှိသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုဆိုင်ရာ နောက်ထပ်အချက်အလက်များကို ပေးဆောင်သည်-

Logistic Regression နိဒါန်း
ထောက်ပံ့ပို့ဆောင်ရေးဆုတ်ယုတ်မှုရလဒ်များကို မည်သို့အစီရင်ခံမည်နည်း။
Logistic regression vs linear regression- အဓိကကွာခြားချက်များ

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်