Category: လမ်းညွှန်
ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုတွင် Multicollinearity သည် ဆုတ်ယုတ်မှုပုံစံတွင် ထူးခြားသော သို့မဟုတ် အမှီအခိုကင်းသော အချက်အလက်များကို ပေးစွမ်းနိုင်ခြင်း မရှိသည့် ကိန်းရှင်နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းရှင်များသည် တစ်ခုနှင့်တစ်ခု အလွန်ဆက်စပ်နေသောအခါတွင် ဖြစ်ပေါ်သည်။ ကိန်းရှင်များကြားတွင် ဆက်စပ်ဆက်စပ်မှုဒီဂရီသည် လုံလောက်စွာမြင့်မားပါက၊ ၎င်းသည် ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်စေပြီး ဘာသာပြန်ဆို ရာတွင် ပြဿနာများဖြစ်စေနိုင်သည်။ Multicollinearity ကိုသိရှိရန် အသုံးအများဆုံးနည်းလမ်းမှာ ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ ခန့်မှန်းသူကိန်းရှင်များကြားရှိ ဆက်နွယ်မှု နှင့် ခိုင်ခံ့မှုကို တိုင်းတာသည့် varianance inflation factor (VIF) ကို...
ဤသင်ခန်းစာတွင် ပါဝင်သော အကောင်းဆုံး ggplot2 အပြင်အဆင်များအတွက် လမ်းညွှန်ချက်အပြည့်အစုံကို ပေးဆောင်သည်- Built-in ggplot2 အပြင်အဆင်များကို အသုံးပြု၍ မြေကွက်များ၏အသွင်အပြင်ကို မည်သို့ပြောင်းလဲမည်နည်း။ ggthemes ဒစ် ဂျစ်တိုက်မှ ကြိုတင်သတ်မှတ်ထားသည့် အပြင်အဆင်များကို အသုံးပြု၍ ကွက်ကွက်များ၏ အသွင်အပြင်ကို မည်သို့ပြောင်းလဲမည်နည်း။ လမ်းကြောင်းဘောင် နောက်ခံနှင့် ဂရစ်လိုင်းများ အပါအဝင် အပြင်အဆင်၏ သီးခြားအစိတ်အပိုင်းများကို တည်းဖြတ်နည်း။ Built-in ggplot2 အပြင်အဆင်များကို အသုံးပြု၍ ကွက်ကွက်အသွင်အပြင်ကို မည်သို့ပြောင်းလဲမည်နည်း။ အောက်ဖော်ပြပါ ဥပမာတစ်ခုစီအတွက်၊ ထည့်သွင်းထားသော R ဒေတာအတွဲမှ မျက်ဝန်းကို...
ဤလမ်းညွှန်ချက်တွင် R တွင် မျဉ်းကြောင်းပြန်ဆုတ်ခြင်းကို မည်သို့လုပ်ဆောင်ရမည်ကို ဥပမာတစ်ခုပြသည်၊၊ မော်ဒယ်နှင့်မကိုက်ညီမီ အချက်အလက်ကို စစ်ဆေးပါ။ မော်ဒယ်တွေများတော့ မော်ဒယ်ယူဆချက်များကို စစ်ဆေးခြင်း။ မော်ဒယ်အထွက်ကို စကားပြန် မော်ဒယ်၏ ကြံ့ခိုင်မှုကို အကဲဖြတ်ခြင်း။ ခန့်မှန်းချက်များကို ပြုလုပ်ရန် မော်ဒယ်ကို အသုံးပြုပါ။ သွားကြရအောင်! ဂေဟာ ဤဥပမာအတွက်၊ ကျွန်ုပ်တို့သည် မတူညီသောကား ၃၂ စီး၏ အမျိုးမျိုးသော attribute များဆိုင်ရာ အချက်အလက်များပါရှိသော built-in R dataset mtcars ကို အသုံးပြုပါမည်- #view first six...
Cook ၏ အကွာအဝေးကို D i ဟု ရည်ညွှန်းလေ့ရှိပြီး ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုတွင် သင်၏ ဆုတ်ယုတ်မှုပုံစံကို ထိခိုက်စေနိုင်သည့် သြဇာကြီးမားသော ဒေတာအချက်များကို ခွဲခြားသတ်မှတ်ရန် အသုံးပြုပါသည်။ Cook ၏ အကွာအဝေးအတွက် ဖော်မြူလာမှာ- d i = (r i 2 / p*MSE) * (h ii / (1-h ii ) 2 ) ရွှေ- r i သည်...
two-way frequency table သည် categorical variable နှစ်ခုအတွက် frequencies (သို့မဟုတ် “ counts” ) ကိုပြသသည့်ဇယားတစ်ခုဖြစ်သည်။ ဥပမာအားဖြင့်၊ အောက်ဖော်ပြပါ နှစ်လမ်းသွားဇယားသည် ၎င်းတို့နှစ်သက်သည့် အားကစားနည်း- ဘေ့စ်ဘော၊ ဘတ်စကတ်ဘော သို့မဟုတ် ဘောလုံးကို လူပေါင်း 100 ကို မေးမြန်းခဲ့သော စစ်တမ်းတစ်ခု၏ ရလဒ်ကို ပြသသည်။ အတန်းများသည် ဖြေဆိုသူ၏ လိင်ကိုပြသပြီး ကော်လံများသည် ၎င်းတို့ရွေးချယ်သည့် အားကစားကို ညွှန်ပြသည်- ဤသည်မှာ နှစ်လမ်းသွား ဇယားဖြစ်သည်၊ အကြောင်းမှာ ကျွန်ုပ်တို့တွင်...
ကိန်းဂဏန်းစစ်ဆေးမှုများစွာ (ဥပမာ- တစ်လမ်းသွား ANOVA သို့မဟုတ် နှစ်လမ်းသွား ANOVA ကဲ့သို့) အုပ်စုများစွာကြားကွဲလွဲမှုသည် ညီမျှသည်ဟု ယူဆသည်။ ဤယူဆချက်အား တရားဝင်စမ်းသပ်ရန် နည်းလမ်းတစ်ခုမှာ အုပ်စုနှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော အုပ်စုများကြားတွင် ကွဲလွဲမှု တူညီမှုရှိမရှိ စမ်းသပ်သည့် Levene test ကို အသုံးပြုခြင်းဖြစ်သည်။ ဤစစ်ဆေးမှုသည် အောက်ပါယူဆချက်များကို အခြေခံပါသည်။ Null hypothesis (H 0 ) : အုပ်စုများကြား ကွဲလွဲမှုမှာ တန်းတူဖြစ်သည်။ Alternative hypothesis ( HA...
QQ ကွက်ကွက် ၊ “ quantile-quantile” ၏ အတိုကောက်သည် ဒေတာအစုံသည် သီအိုရီအရ ဖြန့်ဝေမှုမှ ဖြစ်နိုင်ချေရှိမရှိ ဆုံးဖြတ်ရန် ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည့် ကွက်အမျိုးအစားတစ်ခုဖြစ်သည်။ ကိန်းဂဏန်းစမ်းသပ်မှုများစွာသည် ဒေတာအစုံသည် ပုံမှန်ဖြန့်ဝေမှုနောက်ဆက်တွဲဖြစ်သည်ဟု ယူဆကြပြီး၊ ဤယူဆချက်နှင့်ကိုက်ညီမှုရှိမရှိ အကဲဖြတ်ရန် QQ ကွက်ကွက်ကို မကြာခဏအသုံးပြုသည်။ QQ ကြံစည်မှုတစ်ခုသည် တရားဝင်စာရင်းအင်းစမ်းသပ်မှုမဟုတ်သော်လည်း၊ ဒေတာအစုံသည် ပုံမှန်ဖြန့်ဝေမှုနောက်သို့လိုက်ခြင်းရှိမရှိ အမြင်အာရုံစစ်ဆေးရန် ရိုးရှင်းသောနည်းလမ်းတစ်ခုဖြစ်ပြီး၊ အကယ်၍ ဤယူဆချက်အား မည်ကဲ့သို့ချိုးဖောက်ထားကြောင်းနှင့် ဤချိုးဖောက်မှု၏မူလအစတွင် မည်သည့်ဒေတာအချက်များ ဖြစ်နိုင်ချေရှိသနည်း။ တစ်ခုနှင့်တစ်ခု ပမာဏနှစ်ခုကို ကြံစည်ခြင်းဖြင့် QQ...
ဤကျူတိုရီရယ်တွင် ထောက်ပံ့ပို့ဆောင်မှု ဆုတ်ယုတ်မှုပုံစံ၏ C ကိန်းဂဏန်းကို မည်သို့အဓိပ္ပာယ်ပြန်ဆိုရမည်ကို ရိုးရှင်းသော ရှင်းလင်းချက်တစ်ခု ပေးသည်။ Logistic regression ဆိုတာ ဘာလဲ။ Logistic regression သည် response variable binary ဖြစ်သောအခါ regression model တစ်ခုနှင့် ကိုက်ညီရန် ကျွန်ုပ်တို့အသုံးပြုသည့် ကိန်းဂဏန်းဆိုင်ရာ နည်းလမ်းတစ်ခုဖြစ်သည်။ ဤသည်မှာ logistic regression ကိုအသုံးပြုခြင်း၏ဥပမာအချို့ဖြစ်သည်။ လေ့ကျင့်ခန်း၊ အစားအသောက်နဲ့ ကိုယ်အလေးချိန်က နှလုံးရောဂါဖြစ်နိုင်ခြေကို ဘယ်လိုသက်ရောက်မှုရှိလဲ သိချင်ပါတယ်။ တုံ့ပြန်မှုပုံစံသည် နှလုံးဖောက်ပြန်ခြင်း ဖြစ်ပြီး ၎င်းတွင်...
ဒေတာအစုတစ်ခု၏ နံပါတ်တစ် ရာခိုင်နှုန်းသည် တန်ဖိုးအားလုံးကို အသေးဆုံးမှ အကြီးဆုံးသို့ စီခွဲသောအခါ ဒေတာတန်ဖိုးများ၏ ပထမ n ရာခိုင်နှုန်းကို ဖြတ်တောက်သည့်တန်ဖိုးဖြစ်သည်။ ဥပမာအားဖြင့်၊ ဒေတာအတွဲတစ်ခု၏ 90th ရာခိုင်နှုန်းသည် ဒေတာတန်ဖိုးများ၏ 90% အောက်ခြေကို ဒေတာတန်ဖိုးများ၏ 10% နှင့် ပိုင်းခြားထားသည့် တန်ဖိုးဖြစ်သည်။ အသုံးအများဆုံး ရာခိုင်နှုန်းတစ်ခုသည် ဒေတာအစုတစ်ခု၏ အလယ်အလတ်တန်ဖိုးကို ကိုယ်စားပြုသည့် 50th percentile ဖြစ်သည်- ၎င်းသည် ဒေတာတန်ဖိုးအားလုံး၏ 50% အောက်တွင် ကျရောက်သည့် တန်ဖိုးဖြစ်သည်။ Percentiles ကဲ့သို့သော မေးခွန်းများကို...
တွဲထားသောနမူနာ t-test သည် နမူနာတစ်ခုမှ စူးစမ်းမှုတစ်ခုစီမှ အခြားနမူနာတစ်ခုမှ စူးစမ်းမှု တစ်ခုနှင့် ကိုက်ညီသောအခါတွင် နမူနာနှစ်ခု၏နည်းလမ်းကို နှိုင်းယှဉ်သည့် ကိန်းဂဏန်းစမ်းသပ်မှုတစ်ခုဖြစ်သည်။ ဥပမာအားဖြင့်၊ အချို့သော သင်ရိုးညွှန်းတမ်းသည် စာမေးပွဲတစ်ခုတွင် ကျောင်းသားများ၏ စွမ်းဆောင်ရည်အပေါ် သိသာထင်ရှားစွာ သက်ရောက်မှုရှိမရှိ သိချင်သည်ဆိုကြပါစို့။ ဒါကို စမ်းသပ်ဖို့အတွက် အတန်းတစ်ခန်းမှာ ကျောင်းသား အယောက် ၂၀ ကို အကြိုစာမေးပွဲ ဖြေခိုင်းပါတယ်။ ထို့နောက် ကျောင်းသားတစ်ဦးစီသည် သီတင်းနှစ်ပတ်ကြာ လေ့လာမှုအစီအစဉ်တွင် နေ့စဉ်ပါဝင်ပါသည်။ ထို့နောက် ကျောင်းသားများသည် အလားတူအခက် အခဲများကို ဖြေဆိုကြရသည်။ ပထမစာမေးပွဲတွင်...