Category: လမ်းညွှန်

Pandas ရှိ index column ကို မည်ကဲ့သို့ ဖယ်ရှားနည်း (ဥပမာများဖြင့်)

တစ်ခါတစ်ရံ သင်သည် Python ရှိ ပန်ဒါ DataFrame မှ အညွှန်းကော်လံကို ဖယ်ရှားလိုနိုင်သည်။ pandas DataFrames နှင့် Series များတွင် အညွှန်းတစ်ခု အမြဲရှိနေသောကြောင့်၊ သင်သည် အညွှန်းကို အမှန်တကယ် မ ချ နိုင်သော်လည်း အောက်ပါကုဒ်အပိုင်းကို အသုံးပြု၍ ၎င်းကို ပြန်လည်သတ်မှတ်နိုင်ပါသည်။ df. reset_index (drop= True , place= True ) ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် အက္ခရာအညွှန်းတစ်ခုပါရှိသော အောက်ပါပန်ဒါ DataFrame ရှိသည်ဆိုပါစို့။ import...

R in xgboost- အဆင့်ဆင့် ဥပမာ

Boosting သည် ကြိုတင်ခန့်မှန်းတိကျမှုမြင့်မားသော မော်ဒယ်များကို ထုတ်လုပ်ရန် ပြသထားသော စက်သင်ယူမှုနည်းပညာတစ်ခုဖြစ်သည်။ လက်တွေ့တွင် မြှင့်တင်ခြင်းကို အကောင်အထည်ဖော်ရန် အသုံးအများဆုံးနည်းလမ်းတစ်ခုမှာ “ extreme gradient boosting” ၏အတိုကောက်ဖြစ်သော XGBoost ကို အသုံးပြုခြင်းဖြစ်သည်။ ဤသင်ခန်းစာသည် R တွင် အဆင့်မြှင့်ထားသော မော်ဒယ်လ်တစ်ခုနှင့် အံဝင်ခွင်ကျဖြစ်ရန် XGBoost ကို အသုံးပြုနည်း အဆင့်ဆင့် ဥပမာကို ပေးပါသည်။ အဆင့် 1- လိုအပ်သော ပက်ကေ့ခ်ျများကို တင်ပါ။ ပထမဦးစွာ လိုအပ်သော စာကြည့်တိုက်များကို တင်ပါမည်။ library...

နမူနာဆိုလိုသည်နှင့် လူဦးရေဆိုလိုသည်- ကွာခြားချက်က ဘာလဲ။

မကြာခဏဆိုသလို စာရင်းဇယားများတွင် ကျွန်ုပ်တို့သည် အောက်ပါကဲ့သို့သော မေးခွန်းများကို ဖြေလိုပါသည်။ မြို့တစ်မြို့ရှိ ပျမ်းမျှအိမ်ထောင်စုဝင်ငွေက ဘယ်လောက်လဲ။ လိပ်မျိုးစိတ်အချို့၏ ပျမ်းမျှအလေးချိန်မှာ အဘယ်နည်း။ ကောလိပ်ဘောလုံးပွဲများအတွက် ပျမ်းမျှတက်ရောက်သူ ဘယ်လောက်လဲ။ အခြေအနေတစ်ခုစီတွင်၊ ကျွန်ုပ်တို့တိုင်းတာလိုသော ဖြစ်နိုင်ချေရှိသော တစ်သီးပုဂ္ဂလဒြပ်စင်အားလုံးကို ကိုယ်စားပြုသည့် လူဦးရေ နှင့်ပတ်သက်သော မေးခွန်းတစ်ခုကို ကျွန်ုပ်တို့ဖြေကြားလိုပါသည်။ သို့သော်လည်း လူဦးရေတစ်ခုစီရှိ လူတစ်ဦးချင်းစီ၏ အချက်အလက်ကို စုဆောင်းမည့်အစား၊ စုစုပေါင်းလူဦးရေ၏ တစ်စိတ်တစ်ပိုင်းကို ကိုယ်စားပြုသည့် လူဦးရေနမူနာတစ်ခုအပေါ် ကျွန်ုပ်တို့က ဒေတာကို စုဆောင်းမည်ဖြစ်သည်။ ဥပမာအားဖြင့်၊ စုစုပေါင်းလူဦးရေ ၈၀၀ ရှိသည့် လိပ်မျိုးစိတ်တစ်ခု၏...

Pearson correlation coefficient ကို ကိုယ်တိုင် တွက်ချက်နည်း

Pearson ဆက်စပ်ဆက်စပ်ကိန်းသည် ကိန်းရှင်နှစ်ခုကြားရှိ မျဉ်းကြောင်းဆက်စပ်မှုကို တိုင်းတာသည်။ ၎င်းသည် အမြဲတမ်း -1 နှင့် 1 အကြား တန်ဖိုးတစ်ခုကို ယူသည်- -1 သည် ကိန်းရှင်နှစ်ခုကြားတွင် လုံးဝအပျက်သဘောဆောင်သော ဆက်စပ်ဆက်နွယ်မှုကို ညွှန်ပြသည်။ 0 သည် variable နှစ်ခုကြားတွင် linear ဆက်စပ်မှုမရှိဟု ညွှန်ပြသည်။ 1 သည် ကိန်းရှင်နှစ်ခုကြားတွင် လုံးဝအပြုသဘောဆောင်သောမျဉ်းကြောင်းဆက်စပ်မှုကို ညွှန်ပြသည်။ Pearson correlation coefficient ကို တွက်ချက်ရန် ဖော်မြူလာ r ကို ရည်ညွှန်းသည် ၊...

0 နှင့် 100 ကြား ဒေတာကို ပုံမှန်ဖြစ်အောင် လုပ်နည်း

0 နှင့် 100 အကြား ဒေတာအတွဲတစ်ခုရှိ တန်ဖိုးများကို ပုံမှန်ဖြစ်အောင်၊ သင်သည် အောက်ပါဖော်မြူလာကို အသုံးပြုနိုင်သည်။ z i = (x i – min(x)) / (max(x) – min(x)) * 100 ရွှေ- z i : ဒေတာအတွဲရှိ ith ပုံမှန်တန်ဖိုး x i : dataset ၏ ith တန်ဖိုး min(x) : ဒေတာအတွဲရှိ အနိမ့်ဆုံးတန်ဖိုး...

စာရင်းအင်းများတွင် စောင့်ကြည့်လေ့လာခြင်းဆိုသည်မှာ အဘယ်နည်း။

ကိန်းဂဏန်းစာရင်းဇယားများတွင် ရှုမြင်မှုသည် သင်တိုင်းတာသောအရာတစ်ခု၏ ဖြစ်ပျက်မှုတစ်ခုဖြစ်သည်။ ဥပမာအားဖြင့်၊ သင်သည် လိပ်မျိုးစိတ်တစ်ခု၏ အလေးချိန်ကို တိုင်းတာနေသည်ဆိုပါစို့။ ကိုယ်အလေးချိန် စုဆောင်းတဲ့ လိပ်တစ်ကောင်ချင်းစီကို ရှုမြင်မှုတစ်ခုအဖြစ် ရေတွက်ပါတယ်။ အောက်ဖော်ပြပါဒေတာအတွဲတွင် မတူညီသောလိပ် ၁၅ ကောင်၏အလေးချိန်ပါဝင်သောကြောင့် စုစုပေါင်းလေ့လာတွေ့ရှိချက် ၁၅ ခု ရှိသည်။ Excel ၊ R ၊ Python ၊ Stata ကဲ့သို့သော စာရင်းအင်းဆော့ဖ်ဝဲလ်တွင် ဒေတာအတွဲကို ကြည့်ရှုသည့်အခါ၊ ဒေတာအတွဲရှိ အတန်းအရေအတွက်သည် လေ့လာတွေ့ရှိချက်အရေအတွက်နှင့် ညီမျှသည်။ ဥပမာအားဖြင့်၊ အတန်း 100 ၏...

R- တစ်ဆင့်ပြီးတစ်ဆင့် နမူနာတွင် အဓိကအစိတ်အပိုင်း ခွဲခြမ်းစိတ်ဖြာခြင်း။

Principal components analysis, မကြာခဏအတိုကောက် PCA, သည် ကြီးကြပ်မှုမရှိသော စက်သင်ယူမှုနည်းပညာတစ်ခုဖြစ်ပြီး ဒေတာအစုတစ်ခုအတွင်း ကွဲလွဲမှုအများအပြားကို ရှင်းပြသည့် အဓိကအစိတ်အပိုင်းများ—မူရင်းကြိုတင်ခန့်မှန်းသူများ၏မျဉ်းကြောင်းပေါင်းစပ်မှုများကိုရှာဖွေရန်ရှာဖွေသည့်- ဒေတာအစုအဝေးတစ်ခုဖြစ်သည်။ PCA ၏ပန်းတိုင်သည် မူလဒေတာသတ်မှတ်မှုထက် ကိန်းရှင်များထက်နည်းသော ကိန်းရှင်များပါသည့် ဒေတာအတွဲတစ်ခုတွင် ကွဲပြားမှုအများစုကို ရှင်းပြရန်ဖြစ်သည်။ p variables များပါသည့် ဒေတာအတွဲအတွက်၊ ကိန်းရှင်များ အတွဲလိုက် ပေါင်းစပ်မှုတစ်ခုစီ၏ ကွဲလွဲချက်များကို ကျွန်ုပ်တို့ ဆန်းစစ်နိုင်သော်လည်း ကွဲလွဲမှုအရေအတွက်သည် အလွန်လျင်မြန်စွာ ကြီးမားနိုင်ပါသည်။ p ခန့်မှန်းသူများအတွက်၊ p(p-1)/2 point cloud များရှိပါသည်။ ထို့ကြောင့်...

R တွင် bonferroni အမှားပြင်ဆင်နည်း

တစ်လမ်းသွား ANOVA ကို သုံးသော သို့မဟုတ် ထို့ထက်ပိုသော လွတ်လပ်သော အုပ်စုများကြားတွင် စာရင်းအင်းဆိုင်ရာ သိသာထင်ရှားသော ခြားနားမှု ရှိ၊ မရှိ ဆုံးဖြတ်ရန် အသုံးပြုသည်။ ANOVA ဇယား၏ စုစုပေါင်း p-value သည် အချို့သော အရေးပါမှုအဆင့်အောက်တွင် ရှိနေပါက၊ အနည်းဆုံး အုပ်စု၏ ဆိုလိုရင်းမှာ အခြားနည်းများနှင့် ကွဲပြားသည်ဟု ဆိုရန် လုံလောက်သော အထောက်အထားရှိသည်။ သို့သော် မည်သည့် အဖွဲ့များ အချင်းချင်း ကွဲပြားသည်ကို ဤအရာက ကျွန်ုပ်တို့အား မပြောပါ။ ၎င်းသည် ကျွန်ုပ်တို့အား...

R တွင် scheffe စာမေးပွဲကိုမည်သို့လုပ်ဆောင်ရမည်နည်း။

တစ်လမ်းသွား ANOVA ကို သုံးသော သို့မဟုတ် ထို့ထက်ပိုသော လွတ်လပ်သော အုပ်စုများကြားတွင် စာရင်းအင်းဆိုင်ရာ သိသာထင်ရှားသော ခြားနားမှု ရှိ၊ မရှိ ဆုံးဖြတ်ရန် အသုံးပြုသည်။ ANOVA ဇယား၏ စုစုပေါင်း p-value သည် အချို့သော အရေးပါမှုအဆင့်အောက်တွင် ရှိနေပါက၊ အနည်းဆုံး အုပ်စု၏ ဆိုလိုရင်းမှာ အခြားနည်းများနှင့် ကွဲပြားသည်ဟု ဆိုရန် လုံလောက်သော အထောက်အထားရှိသည်။ သို့သော် မည်သည့် အဖွဲ့များ အချင်းချင်း ကွဲပြားသည်ကို ဤအရာက ကျွန်ုပ်တို့အား မပြောပါ။ ၎င်းသည် ကျွန်ုပ်တို့အား...

Pandas dataframe တွင် numpy array ကိုမည်သို့ထည့်မည်နည်း။

တစ်ခါတစ်ရံတွင် သင်သည် Pandas DataFrame သို့ ကော်လံအသစ်တစ်ခုအဖြစ် NumPy အခင်းအကျင်းကို ထည့်လိုပေမည်။ ကံကောင်းထောက်မစွာ၊ သင်သည် အောက်ပါ syntax ကို အသုံးပြု၍ ၎င်းကို အလွယ်တကူ ပြုလုပ်နိုင်သည်။ df[' new_column '] = array_name. tolist () ဤသင်ခန်းစာတွင် ဤ syntax ကိုလက်တွေ့အသုံးပြုခြင်း၏နမူနာအချို့ကိုပြသထားသည်။ ဥပမာ 1- DataFrame တွင် ကော်လံအသစ်အဖြစ် NumPy အခင်းအကျင်းတစ်ခုကို ထည့်ပါ။ အောက်ဖော်ပြပါကုဒ်သည် ဘတ်စကက်ဘောကစားသမားစာရင်းအင်းအချို့ကို ထိန်းထားရန်နှင့် “...