Category: လမ်းညွှန်
“ Detrending” time series data ဆိုသည်မှာ ဒေတာရှိ နောက်ခံလမ်းကြောင်းကို ဖယ်ရှားခြင်း ဖြစ်သည်။ ဤအရာကို ကျွန်ုပ်တို့ပြုလုပ်လိုရခြင်း၏ အဓိကအကြောင်းရင်းမှာ ရာသီအလိုက် သို့မဟုတ် စက်ဝန်းဖြစ်သော ဒေတာများတွင် အရင်းခံလမ်းကြောင်းများကို ပိုမိုလွယ်ကူစွာ မြင်ယောင်နိုင်ရန်ဖြစ်သည်။ ဥပမာအားဖြင့်၊ ကုမ္ပဏီတစ်ခု၏ စုစုပေါင်းရောင်းအားကို ကိုယ်စားပြုသည့် အောက်ပါ အချိန်စီးရီးဒေတာကို ထည့်သွင်းစဉ်းစားပါ 20 ကာလဆက်တိုက် ထင်ရှားသည်မှာ အချိန်နှင့်အမျှ အရောင်းများ တိုးလာသော်လည်း အချိန်ကြာလာသည်နှင့်အမျှ သေးငယ်သော “ တောင်တန်းများ” မှ သက်သေပြထားသည့်အတိုင်း ဒေတာထဲတွင် စက်ဝိုင်း...
R visualization package ggplot2 ကိုအသုံးပြု၍ အုပ်စုဆုတ်ယုတ်မှုမျဉ်းကိုဆွဲရန် အောက်ပါအထားအသိုကိုသုံးနိုင်သည်။ ggplot(df, aes (x = x_variable, y = y_variable, color = group_variable)) + geom_point() + geom_smooth(method = " lm ", fill = NA ) ဤသင်ခန်းစာတွင် ဤလုပ်ဆောင်ချက်ကို လက်တွေ့တွင်အသုံးပြုနည်း၏ အတိုကောက် ဥပမာကို ပေးပါသည်။ ဥပမာ- ggplot2 ဖြင့် အုပ်စုအလိုက် ဆုတ်ယုတ်မှုမျဥ်းများကို...
linear regression ၏ အဓိက ယူဆချက် တစ်ခုမှာ တစ်ဆက်တည်း အကြွင်းအကျန်များကြား ဆက်စပ်မှု မရှိခြင်းပင်ဖြစ်သည်။ တစ်နည်းဆိုရသော် အကြွင်းအကျန်များသည် သီးခြားဖြစ်သည်ဟု ကျွန်ုပ်တို့ယူဆသည်။ ဤယူဆချက်ကို ချိုးဖောက်သောအခါ၊ ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ ဖော်ကိန်းများ၏ စံအမှားများကို လျှော့တွက်နိုင်ဖွယ်ရှိသည်၊ ဆိုလိုသည်မှာ ခန့်မှန်းသူကိန်းရှင်များသည် ၎င်းတို့မဟုတ်သည့်အခါတွင် ကိန်းဂဏန်းအရ သိသာထင်ရှား သည်ဟု ယူဆနိုင်ဖွယ်ရှိသည်။ လက်တွေ့မှာ မဟုတ်ဘူး။ ဤယူဆချက်နှင့် ကိုက်ညီခြင်း ရှိ၊ မရှိ ဆုံးဖြတ်ရန် နည်းလမ်းတစ်ခုမှာ ဆုတ်ယုတ်မှု၏ အကြွင်းအကျန်များတွင် autocorrelation ရှိနေခြင်းကို သိရှိရန် အသုံးပြုသည့်...
စာရင်းဇယားများတွင်၊ အစုအဝေးကွဲလွဲမှုသည် ပျမ်းမျှအားဖြင့် နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော အစုကွဲကွဲပြားမှုများကို ရည်ညွှန်းသည်။ အုပ်စုများအကြား ဘုံကွဲလွဲမှုများအတွက် နံပါတ်တစ်ခုတည်းကိုရရှိရန် ကျွန်ုပ်တို့သည် အုပ်စုကွဲကွဲပြားမှုများကို နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသောအုပ်စုကွဲကွဲပြားမှုများကို “ ပေါင်းစည်းနေသည်” ကိုဖော်ပြရန် “ စုပေါင်း” ဟူသောစကားလုံးကို ကျွန်ုပ်တို့အသုံးပြုပါသည်။ လက်တွေ့တွင်၊ လူဦးရေနှစ်ခု၏ တူညီခြင်းရှိ၊ မရှိကို ဆုံးဖြတ်ရန် အသုံးပြုသည့် နမူနာနှစ်ခု t-test တွင် အများစုသည် စုပေါင်းကွဲလွဲမှုကို မကြာခဏအသုံးပြုသည်။ နမူနာနှစ်ခုကြားတွင် စုပေါင်းကွဲလွဲမှုကို ယေဘူယျအားဖြင့် sp 2 ကို...
Winsorizing data ဆိုသည်မှာ ဒေတာ၏ သတ်မှတ်ထားသော ရာခိုင်နှုန်းတစ်ခုနှင့် ညီမျှသော လွန်ကဲသော အစွန်းအထင်းများကို သတ်မှတ်ခြင်း ဖြစ်သည်။ ဥပမာအားဖြင့်၊ 90% winsorization သည် 95th percentile ၏အထက်တွင် မှတ်သားမှုများ အားလုံးကို 95th percentile မှတန်ဖိုးနှင့် ညီမျှပြီး 5th percentile အောက်ရှိ မှတ်သားမှုများအားလုံးကို 5th percentile မှ တန်ဖိုးနှင့်ညီမျှသည်။ အမှန်မှာ၊ winsorizing data ဆိုသည်မှာ data set တစ်ခု၏ လွန်ကဲသောတန်ဖိုးများကို လွန်ကဲသောတန်ဖိုးများအဖြစ်သို့...
Winsorizing data ဆိုသည်မှာ ဒေတာ၏ သတ်မှတ်ထားသော ရာခိုင်နှုန်းတစ်ခုနှင့် ညီမျှသော လွန်ကဲသော အစွန်းအထင်းများကို သတ်မှတ်ခြင်း ဖြစ်သည်။ ဥပမာအားဖြင့်၊ 90% winsorization သည် 95th percentile ၏အထက်တွင် မှတ်သားမှုများ အားလုံးကို 95th percentile မှတန်ဖိုးနှင့် ညီမျှပြီး 5th percentile အောက်ရှိ မှတ်သားမှုများအားလုံးကို 5th percentile မှ တန်ဖိုးနှင့်ညီမျှသည်။ ဤသင်ခန်းစာသည် Excel တွင် ဒေတာအတွဲတစ်ခုကို winsorize လုပ်နည်း အဆင့်ဆင့် ဥပမာကို ပေးပါသည်။...
stacked dot plot သည် အစက်များကို အသုံးပြု၍ ကြိမ်နှုန်းများကိုပြသသည့် ကွက်ကွက်အမျိုးအစားတစ်ခုဖြစ်သည်။ R တွင် stacked point plot ကိုဖန်တီးရန် သင်သုံးနိုင်သော နည်းလမ်းနှစ်ခုရှိသည်။ နည်းလမ်း 1- အခြေခံ R ရှိ stripchart() လုပ်ဆောင်မှု။ နည်းလမ်း 2- ggplot2 ရှိ geom_dotplot() လုပ်ဆောင်ချက်။ ဤသင်ခန်းစာသည် stacked point plot တစ်ခုထုတ်လုပ်ရန် ဤနည်းလမ်းတစ်ခုစီကိုအသုံးပြုပုံအကျဉ်းကို ဥပမာပေးထားသည်။ ဥပမာ 1- အခြေခံ R တွင်...
ဒေတာအစုံကို ဗဟိုပြုခြင်း ဆိုသည်မှာ ဒေတာအစုအတွင်း တစ်ဦးချင်းစီ ကြည့်ရှုမှုတစ်ခုစီ၏ ပျမ်းမျှတန်ဖိုးကို နုတ်ယူခြင်းဖြစ်သည်။ ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိသည်ဆိုပါစို့။ ပျမ်းမျှတန်ဖိုးသည် 14 ဖြစ်ကြောင်း တွေ့ရှိရပါသည်။ ထို့ကြောင့်၊ ဤဒေတာအတွဲကို ဗဟိုပြုရန်၊ တစ်ဦးချင်းစီ ရှုမြင်ချက်တစ်ခုစီမှ 14 ကို နုတ်ယူပါမည်- ဗဟိုပြုဒေတာအတွဲ၏ ပျမ်းမျှတန်ဖိုးသည် သုညဖြစ်ကြောင်း သတိပြုပါ။ ဤကျူတိုရီရယ်တွင် R တွင်ဒေတာကိုဗဟိုပြုပုံဥပမာများစွာကိုပေးသည်။ ဥပမာ 1: vector တစ်ခု၏ တန်ဖိုးများကို ဗဟိုပြုပါ။ အောက်ဖော်ပြပါ ကုဒ်သည် vector တစ်ခုရှိ တန်ဖိုးများကို...
R တွင် ဒေတာဘောင်တစ်ခု၏ သီးခြားအတန်းများထည့်ရန် အောက်ပါ syntax ကို အသုံးပြုနိုင်သည်။ with (df, sum (column_1[column_2 == ' some value '])) ဤ syntax သည် data frame ကို df ဟုခေါ်သော ကော်လံ 2 တွင် တန်ဖိုးတစ်ခုနှင့် ညီမျှသည့် ကော်လံ 1 ၏ အတန်းပေါင်းလဒ်ကို ရှာဖွေသည်။ ဤသင်ခန်းစာသည် အောက်ပါဒေတာဘောင်ဖြင့် ဤလုပ်ဆောင်ချက်ကို လက်တွေ့ကျကျအသုံးပြုနည်း ဥပမာများစွာကို ပေးသည်-...
Base R ရှိ ifelse() လုပ်ဆောင်ချက်ကို လျင်မြန်သော if-else ဖော်ပြချက်များအား ရေးသားရန် အသုံးပြုနိုင်သည်။ ဤလုပ်ဆောင်ချက်သည် အောက်ပါ syntax ကိုအသုံးပြုသည်- ifelse (စမ်းသပ်၊ ဟုတ်၊ မဟုတ်) ရွှေ- စမ်းသပ်မှု- ယုတ္တိဗေဒစမ်းသပ်မှု ဟုတ်သည်- လော့ဂျစ်စမ်းသပ်မှု မှန်ပါက ပြန်ပေးရမည့်တန်ဖိုး နံပါတ်- လော့ဂျစ်စမ်းသပ်မှု မှားပါက ပြန်ပေးရမည့်တန်ဖိုး အောက်ဖော်ပြပါဒေတာဘောင်ကို အသုံးပြု၍ if else statement များအပြင် R ရှိ if else statements များရေးရန်...