Logistic regression model ၏ c ကိန်းဂဏန်းကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုမည်နည်း။


ဤကျူတိုရီရယ်တွင် ထောက်ပံ့ပို့ဆောင်မှု ဆုတ်ယုတ်မှုပုံစံ၏ C ကိန်းဂဏန်းကို မည်သို့အဓိပ္ပာယ်ပြန်ဆိုရမည်ကို ရိုးရှင်းသော ရှင်းလင်းချက်တစ်ခု ပေးသည်။

Logistic regression ဆိုတာ ဘာလဲ။

Logistic regression သည် response variable binary ဖြစ်သောအခါ regression model တစ်ခုနှင့် ကိုက်ညီရန် ကျွန်ုပ်တို့အသုံးပြုသည့် ကိန်းဂဏန်းဆိုင်ရာ နည်းလမ်းတစ်ခုဖြစ်သည်။ ဤသည်မှာ logistic regression ကိုအသုံးပြုခြင်း၏ဥပမာအချို့ဖြစ်သည်။

  • လေ့ကျင့်ခန်း၊ အစားအသောက်နဲ့ ကိုယ်အလေးချိန်က နှလုံးရောဂါဖြစ်နိုင်ခြေကို ဘယ်လိုသက်ရောက်မှုရှိလဲ သိချင်ပါတယ်။ တုံ့ပြန်မှုပုံစံသည် နှလုံးဖောက်ပြန်ခြင်း ဖြစ်ပြီး ၎င်းတွင် ဖြစ်နိုင်ချေရလဒ် နှစ်ခုရှိသည်။
  • GPA၊ ACT ရမှတ်နှင့် AP သင်တန်းများ အများအပြားသည် တက္ကသိုလ်တစ်ခုသို့ လက်ခံခြင်းဖြစ်နိုင်ခြေကို မည်သို့အကျိုးသက်ရောက်သည်ကို ကျွန်ုပ်တို့ သိရှိလိုပါသည်။ တုံ့ပြန်မှု ကိန်းရှင်သည် လက်ခံခြင်းဖြစ်ပြီး ၎င်းတွင် ဖြစ်နိုင်ချေရှိသော ရလဒ်နှစ်ခု ရှိသည်- လက်ခံသည် သို့မဟုတ် လက်မခံပါ။
  • စကားလုံးအရေအတွက်နှင့် အီးမေးလ်ခေါင်းစဉ်သည် အီးမေးလ်တစ်ခုစပမ်းဖြစ်နိုင်ချေကို သက်ရောက်မှုရှိမရှိ သိလိုပါသည်။ တုံ့ပြန်မှုပုံစံသည် စပမ်း ဖြစ်ပြီး ၎င်းတွင် ဖြစ်နိုင်ချေရှိသော ရလဒ်နှစ်ခုရှိသည်- spam သို့မဟုတ် spam မဟုတ်ပေ။

ကြိုတင်ခန့်မှန်းကိန်းရှင်များသည် ဂဏန်း သို့မဟုတ် အမျိုးအစားအလိုက် ဖြစ်နိုင်ကြောင်း သတိပြုပါ။ အရေးကြီးတာက တုံ့ပြန်မှု variable က binary ဖြစ်ပါတယ်။ ဤသို့ဖြစ်သည့်အခါ၊ ပို့ဆောင်မှုဆုတ်ယုတ်မှုသည် ကြိုတင်ခန့်မှန်းကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ဆက်နွယ်မှုကို ရှင်းပြရန် အသုံးပြုရန် သင့်လျော်သောပုံစံတစ်ခုဖြစ်သည်။

Logistic regression model ၏ လုံလောက်မှုကို အကဲဖြတ်နည်း

ကျွန်ုပ်တို့သည် ဒေတာအစုတစ်ခုတွင် ထောက်ပံ့ပို့ဆောင်ရေးဆိုင်ရာ ဆုတ်ယုတ်မှုပုံစံကို ဖြည့်သွင်းသည်နှင့်တစ်ပြိုင်နက်၊ ကျွန်ုပ်တို့သည် ဒေတာပုံစံနှင့် မည်မျှ ကိုက်ညီမှုရှိသည်ကို မကြာခဏ စိတ်ဝင်စားကြသည်။ အတိအကျအားဖြင့်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်၏ အပြုသဘောနှင့် အနုတ်ရလဒ်များကို တိကျစွာ ခန့်မှန်းနိုင်စွမ်းကို စိတ်ဝင်စားပါသည်။

အာရုံခံစားနိုင်မှုသည် ရလဒ်အမှန်တကယ်အပြုသဘောဖြစ်သောအခါ စောင့်ကြည့်မှုတစ်ခုအတွက် အပြုသဘောဆောင်သောရလဒ်ကို ခန့်မှန်းသည့်ပုံစံဖြစ်နိုင်ခြေကို ရည်ညွှန်းသည်။

Specificity သည် ရလဒ်အမှန်တကယ် အနုတ်လက္ခဏာဖြစ်သောအခါ စောင့်ကြည့်မှုတစ်ခုအတွက် အနုတ်လက္ခဏာရလဒ်ကို ခန့်မှန်းပေးသည့် ဖြစ်နိုင်ခြေကို ရည်ညွှန်းသည်။

ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံသည် 100% sensitivity နှင့် တိကျမှုရှိပါက စူးစမ်းလေ့လာမှုများကို အမျိုးအစားခွဲရန် ပြီးပြည့်စုံသော်လည်း လက်တွေ့တွင် ယင်းသည် မည်သည့်အခါမျှ မဖြစ်ပေ။

ထောက်ပံ့ပို့ဆောင်ရေး ဆုတ်ယုတ်မှုပုံစံကို ကျွန်ုပ်တို့ တပ်ဆင်ပြီးသည်နှင့်၊ ကြိုတင်ခန့်မှန်းကိန်းရှင်များ၏ တန်ဖိုးများအပေါ် အခြေခံ၍ ပေးထားသော စူးစမ်းလေ့လာမှုတစ်ခုသည် အပြုသဘောဆောင်သော ရလဒ်ဖြစ်နိုင်ခြေကို တွက်ချက်ရန် ၎င်းကို အသုံးပြုနိုင်သည်။

မှတ်သားမှုတစ်ခုအား အပြုသဘောဟု ခွဲခြားသတ်မှတ်သင့်သည်ဆိုသည်ကို ဆုံးဖြတ်ရန်အတွက် သတ်မှတ်စံနှုန်းအထက်တွင် ချိန်ညှိထားသော ဖြစ်နိုင်ခြေရှိသော ရှုမြင်သုံးသပ်ချက်များကို အပြုသဘောအဖြစ် ခွဲခြားထားပြီး သတ်မှတ်ချက်အောက်ရှိ ချိန်ညှိထားသော ဖြစ်နိုင်ခြေရှိသည့် ရှုမြင်သုံးသပ်ချက်အားလုံးကို အနုတ်အဖြစ် ခွဲခြားထားသည်။ .

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် 0.5 အဆင့်ကို ရွေးသည်ဆိုပါစို့။ ဆိုလိုသည်မှာ 0.5 ထက်ကြီးသော ချိန်ညှိထားသော ဖြစ်နိုင်ခြေရှိသော ရှုမြင်မှုတိုင်းသည် အပြုသဘောဆောင်သော ရလဒ်ကို ရရှိမည်ဖြစ်ပြီး 0.5 ထက်နည်းသော သို့မဟုတ် ညီမျှသော ချိန်ညှိထားသော ဖြစ်နိုင်ခြေရှိသော ရှုမြင်မှုတိုင်းသည် အနုတ်ရလဒ်ကို ရရှိမည်ဖြစ်သည်။

ROC မျဉ်းကွေးကိုဆွဲခြင်း။

မော်ဒယ်တစ်ခု၏ sensitivity နှင့် specificity ကို မြင်သာစေရန် အသုံးအများဆုံးနည်းလမ်းတစ်ခုမှာ လက်ခံသူ၏လည်ပတ်မှုပုံစံ ( ROC ) မျဉ်းကွေး ဖြစ်ပြီး၊ အတိုင်းအတာတစ်ခု၏တန်ဖိုးအဖြစ် sensitivity values နှင့် specificity 1 ၏အပိုင်းအစတစ်ခုဖြစ်သည့် လက်ခံသူ၏လည်ပတ်မှုပုံစံ (ROC) မျဉ်းကွေးကို ရေးဆွဲရန်ဖြစ်သည်။ အမှတ်သည် 0 မှ 1 အထိဖြစ်သည်

အာရုံခံနိုင်စွမ်းနှင့် တိကျမှုမြင့်မားသော မော်ဒယ်တွင် ကွက်ကွက်၏ ဘယ်ဘက်အပေါ်ထောင့်နှင့် ကိုက်ညီသော ROC မျဉ်းကွေးတစ်ခု ရှိပါမည်။ အာရုံခံနိုင်စွမ်းနည်းပြီး တိကျမှုနည်းသော မော်ဒယ်သည် 45 ဒီဂရီ ထောင့်ဖြတ်အနီးကပ် မျဉ်းကွေးတစ်ခု ရှိပါမည်။

AUC (မျဉ်းကွေးအောက်ဧရိယာ) သည် ကျွန်ုပ်တို့အား မော်ဒယ်၏ အပြုသဘောနှင့် အနုတ်ရလဒ်များအကြား ပိုင်းခြားနိုင်သည့် စွမ်းရည်ကို ပေးသည်။ AUC သည် 0 မှ 1 အထိ ကွာဟနိုင်သည်။ AUC မြင့်မားလေ၊ မော်ဒယ်သည် ရလဒ်များကို မှန်ကန်စွာ ခွဲခြားနိုင်လေလေဖြစ်သည်။

ဆိုလိုသည်မှာ ကွက်ကွက်၏ ဘယ်ဘက်အပေါ်ထောင့်ကို ဖက်ထားသည့် ROC မျဉ်းကွေးပါသော မော်ဒယ်သည် မျဉ်းကွေးအောက်တွင် မြင့်မားသော ဧရိယာရှိမည်ဖြစ်ပြီး ထို့ကြောင့် ရလဒ်များကို မှန်ကန်စွာ အမျိုးအစားခွဲခြင်းအတွက် ကောင်းမွန်သော မော်ဒယ်တစ်ခု ဖြစ်လာမည်ဟု ဆိုလိုပါသည်။ အပြန်အလှန်အားဖြင့်၊ 45 ဒီဂရီ ထောင့်ဖြတ်ကို ဖက်ထားသည့် ROC မျဉ်းကွေးပါသော မော်ဒယ်သည် မျဉ်းကွေးအောက်တွင် နိမ့်သော ဧရိယာ ရှိမည်ဖြစ်ပြီး ထို့ကြောင့် ရလဒ်များကို အမျိုးအစားခွဲရာတွင် ကောင်းမွန်သော အလုပ်မဖြစ်သော မော်ဒယ်တစ်ခု ဖြစ်လာမည်ဖြစ်သည်။

C ကိန်းဂဏန်းကိုနားလည်ခြင်း။

c statistic သည် concordance statistic ဟုခေါ်သော AUC (မျဉ်းကွေးအောက်ဧရိယာ) နှင့် တူညီပြီး အောက်ပါအတိုင်း အဓိပ္ပာယ်ဖွင့်ဆိုချက်များ ရှိသည်။

  • 0.5 ထက်နည်းသော တန်ဖိုးသည် ညံ့ဖျင်းသော မော်ဒယ်ကို ညွှန်ပြသည်။
  • 0.5 ၏တန်ဖိုးသည် မော်ဒယ်သည် အခွင့်အလမ်းထက် ရလဒ်များကို ခွဲခြားရာတွင် ပိုမိုကောင်းမွန်ခြင်းမရှိကြောင်း ညွှန်ပြသည်။
  • တန်ဖိုးက 1 နဲ့ ပိုနီးစပ်လေ၊ မော်ဒယ်က ရလဒ်တွေကို မှန်ကန်စွာ ခွဲခြားနိုင်လေလေ ဖြစ်ပါတယ်။
  • 1 တန်ဖိုးသည် ရလဒ်များကို အမျိုးအစားခွဲရန်အတွက် မော်ဒယ်သည် ပြီးပြည့်စုံသည်ဟု ဆိုလိုသည်။

ထို့ကြောင့်၊ C ကိန်းဂဏန်းသည် ရလဒ်များကို မှန်ကန်စွာ ခွဲခြားသတ်မှတ်ရာတွင် မော်ဒယ်တစ်ခု၏ မည်မျှထိရောက်မှုရှိကြောင်း အကြံဥာဏ်ပေးသည်။

ဆေးခန်းတစ်ခုတွင်၊ အပြုသဘောဆောင်သောရလဒ်ကိုတွေ့ကြုံခံစားခဲ့ရသူတစ်ဦးနှင့်အနုတ်လက္ခဏာရလဒ်ကိုတွေ့ကြုံခံစားခဲ့ရသူတစ်ဉီးတည်းဖြစ်သောဖြစ်နိုင်ချေရှိသောအတွဲများကိုယူခြင်းဖြင့် C ကိန်းဂဏန်းကိုတွက်ချက်နိုင်သည်။ ထို့နောက် အပြုသဘောဆောင်သော ရလဒ်ကို တွေ့ကြုံခံစားရသူ တစ်ဦးချင်းစီသည် အပြုသဘောဆောင်သော ရလဒ်ကို မတွေ့ကြုံဖူးသူထက် ရလဒ်ကို တွေ့ကြုံရနိုင်ခြေ ပိုများသော အတွဲများ၏ ကိန်းဂဏန်းအဖြစ် တွက်ချက်နိုင်သည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် နှလုံးဖောက်ပြန်နိုင်ခြေကို ခန့်မှန်းရန် အသက် နှင့် သွေးပေါင်ချိန် ကဲ့သို့သော ကြိုတင်ခန့်မှန်းကိန်းရှင်များကို အသုံးပြု၍ ထောက်ပံ့ပို့ဆောင်ရေးဆိုင်ရာ ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်စေသည်ဆိုပါစို့။

မော်ဒယ်၏ c-statistic ကိုရှာဖွေရန်၊ နှလုံးဖောက်ဖူးသူတစ်ဦးနှင့် နှလုံးဖောက်ပြန်ခြင်းမရှိသော ပုဂ္ဂိုလ်များပါ၀င်သော ဖြစ်နိုင်ခြေရှိသော အတွဲအားလုံးကို ခွဲခြားသတ်မှတ်နိုင်ခဲ့သည်။ ထို့နောက် နှလုံးရောဂါခံစားရသူ တစ်ဦးချင်းစီသည် နှလုံးဖောက်ပြန်မှုဖြစ်နိုင်ခြေ မြင့်မားသည်ဟု ခန့်မှန်းထားသည့် အဆိုပါအတွဲများ၏ အချိုးအစားအဖြစ် တွက်ချက်နိုင်သည်။ နှလုံးရုတ်တရက်ဖောက်ပြန်မှု။

နိဂုံး

ဤဆောင်းပါးတွင် အောက်ပါတို့ကို လေ့လာခဲ့သည်။

  • Logistic regression သည် response variable binary ဖြစ်သောအခါ regression model တစ်ခုနှင့် ကိုက်ညီရန် ကျွန်ုပ်တို့အသုံးပြုသည့် ကိန်းဂဏန်းဆိုင်ရာ နည်းလမ်းတစ်ခုဖြစ်သည်။
  • Logistic regression model ၏ အံဝင်ခွင်ကျဖြစ်မှုကို အကဲဖြတ်ရန်၊ ရလဒ်များကို မှန်ကန်စွာ ခွဲခြားနိုင်ပုံကို ကျွန်ုပ်တို့အား ပြောပြသည့် sensitivity နှင့် specificity ကို ကြည့်ရှုနိုင်ပါသည်။
  • အာရုံခံနိုင်စွမ်းနှင့် တိကျမှုကို မြင်သာစေရန်၊ ကျွန်ုပ်တို့သည် ROC မျဉ်းကွေးကို ဖန်တီးနိုင်သည်။
  • AUC (မျဉ်းကွေးအောက်တွင် ဧရိယာ) သည် မော်ဒယ်သည် ရလဒ်များကို မှန်ကန်စွာ အမျိုးအစားခွဲနိုင်ပုံကို ညွှန်ပြသည်။ ROC မျဉ်းကွေးတစ်ခုသည် ကွက်ကွက်၏ဘယ်ဘက်အပေါ်ထောင့်ကို ပွေ့ဖက်လိုက်သောအခါ၊ မော်ဒယ်သည် ရလဒ်များကို အောင်မြင်စွာ ခွဲခြားသတ်မှတ်ထားကြောင်း ညွှန်ပြသည်။
  • c ကိန်းဂဏန်း သည် AUC (မျဉ်းကွေးအောက်တွင် ဧရိယာ) နှင့် ညီမျှပြီး အပြုသဘောဆောင်သော ရလဒ်ကို ခံစားရသူ တစ်ဦးနှင့် အနုတ်လက္ခဏာ ရလဒ်ကို ခံစားခဲ့ရသူ တစ်ဦးချင်း ဖြစ်နိုင်သည့် အတွဲများကို ကောက်ယူခြင်းဖြင့်လည်း တွက်ချက်နိုင်သည်။ ထို့နောက် c statistic သည် အပြုသဘောဆောင်သောရလဒ်ကိုခံစားဖူးသူသည် အပြုသဘောဆောင်သောရလဒ်ကိုမခံစားဖူးသူထက် ရလဒ်ကိုကြိုတင်ခန့်မှန်းနိုင်ခြေပိုများသောထိုကဲ့သို့သောအတွဲများ၏အချိုးအစားဖြစ်သည်။
  • C ကိန်းဂဏန်း သည် 1 နှင့် ပိုနီးစပ်လေ၊ မော်ဒယ်တစ်ခုသည် ရလဒ်များကို ခွဲခြားနိုင်လေလေဖြစ်သည်။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်