R ဖြင့် data cleansing လုပ်နည်း (ဥပမာဖြင့်)
ဒေတာရှင်းလင်းခြင်း ဆိုသည်မှာ ခွဲခြမ်းစိတ်ဖြာခြင်း သို့မဟုတ် မော်ဒယ်တည်ဆောက်ခြင်းအတွက် သင့်လျော်သော ဒေတာအဖြစ်သို့ ဒေတာအကြမ်း အဖြစ် ပြောင်းလဲခြင်းလုပ်ငန်းစဉ်ကို ရည်ညွှန်းသည်။
ကိစ္စအများစုတွင်၊ ဒေတာအတွဲတစ်ခုအား “ သန့်ရှင်းရေး” တွင် ပျောက်ဆုံးနေသောတန်ဖိုးများနှင့် ဒေတာပွားခြင်းကို ကိုင်တွယ်ဖြေရှင်းရန် ပါဝင်သည်။
ဤသည်မှာ R ရှိ ဒေတာအတွဲတစ်ခုကို “ သန့်ရှင်းရေး” အတွက် အသုံးအများဆုံးနည်းလမ်းများဖြစ်သည်။
နည်းလမ်း 1- ပျောက်ဆုံးနေသောတန်ဖိုးများရှိသော အတန်းများကို ဖယ်ရှားပါ။
library (dplyr) #remove rows with any missing values df %>% na. omit ()
နည်းလမ်း 2- ပျောက်ဆုံးနေသောတန်ဖိုးများကို အခြားတန်ဖိုးများဖြင့် အစားထိုးပါ။
library (dplyr) library (tidyr) #replace missing values in each numeric column with median value of column df %>% mutate(across(where(is. numeric ), ~replace_na(., median(., na. rm = TRUE ))))
နည်းလမ်း 3- ပွားနေသောအတန်းများကို ဖယ်ရှားပါ။
library (dplyr) df %>% distinct(. keep_all = TRUE )
အောက်ဖော်ပြပါနမူနာများသည် ဘတ်စကတ်ဘောကစားသမားများအကြောင်း အချက်အလက်များစွာပါရှိသော R ရှိ အောက်ပါဒေတာဘောင်ဖြင့် ဤနည်းလမ်းတစ်ခုစီကို လက်တွေ့အသုံးပြုနည်းကို ပြသသည်-
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'), points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8), rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11), assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14)) #view data frame df team points rebound assists 1 to 4 9 2 2 to 4 9 2 3 B NA 7 NA 4 C 8 6 7 5 D 6 8 6 6 E 12 NA 6 7 F 14 9 9 8 G 86 14 10 9:13:12 NA 10 I 8 11 14
ဥပမာ 1- ပျောက်ဆုံးနေသောတန်ဖိုးများရှိသော အတန်းများကို ဖျက်ပါ။
မည်သည့်ကော်လံရှိ ပျောက်ဆုံးနေသောတန်ဖိုးများပါရှိသော အတန်းများကို ဖယ်ရှားရန် အောက်ပါ syntax ကို အသုံးပြုနိုင်ပါသည်။
library (dplyr) #remove rows with missing values new_df <- df %>% na. omit () #view new data frame new_df team points rebound assists 1 to 4 9 2 2 to 4 9 2 4 C 8 6 7 5 D 6 8 6 7 F 14 9 9 8 G 86 14 10 10 I 8 11 14
ဒေတာဘောင်အသစ်တွင် ပျောက်ဆုံးနေသောတန်ဖိုးများ အတန်းများမပါဝင်ကြောင်း သတိပြုပါ။
ဥပမာ 2- ပျောက်ဆုံးနေသောတန်ဖိုးများကို အခြားတန်ဖိုးများဖြင့် အစားထိုးပါ။
ကော်လံတစ်ခုစီ၏ အလယ်တန်းတန်ဖိုးဖြင့် ပျောက်ဆုံးနေသောတန်ဖိုးများကို အစားထိုးရန်အတွက် အောက်ပါ syntax ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။
library (dplyr) library (tidyr) #replace missing values in each numeric column with median value of column new_df <-df %>% mutate(across(where(is. numeric ),~replace_na(.,median(.,na. rm = TRUE )))) #view new data frame new_df team points rebound assists 1 to 4 9 2.0 2 to 4 9 2.0 3 B 8 7 6.5 4 C 8 6 7.0 5 D 6 8 6.0 6 E 12 9 6.0 7 F 14 9 9.0 8 G 86 14 10.0 9:13 12 6.5 10 I 8 11 14.0
ဂဏန်းကော်လံတစ်ခုစီရှိ ပျောက်ဆုံးတန်ဖိုးများကို ကော်လံ၏ ပျမ်းမျှတန်ဖိုးဖြင့် အစားထိုးထားသည်ကို သတိပြုပါ။
ကော်လံတစ်ခုစီ၏ ပျမ်းမျှတန်ဖိုးများနှင့် ပျောက်ဆုံးနေသောတန်ဖိုးများကို အစားထိုးရန်အတွက် ဖော်မြူလာရှိ ပျမ်းမျှအား ပျမ်းမျှ တန်ဖိုးများနှင့်လည်း အစားထိုးနိုင်သည်ကို သတိပြုပါ။
မှတ်ချက် – drop_na() လုပ်ဆောင်ချက်သည် ထိုပက်ကေ့မှလာသောကြောင့် ကျွန်ုပ်တို့သည် ဤဥပမာတွင် Tidyr ပက်ကေ့ခ်ျကို တင်ရန် လိုအပ်ပါသည်။
ဥပမာ 3- ပွားနေသောအတန်းများကို ဖယ်ရှားပါ။
ကော်လံတစ်ခုစီ၏ အလယ်တန်းတန်ဖိုးဖြင့် ပျောက်ဆုံးနေသောတန်ဖိုးများကို အစားထိုးရန်အတွက် အောက်ပါ syntax ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။
library (dplyr) #remove duplicate rows new_df <- df %>% distinct(. keep_all = TRUE ) #view new data frame new_df team points rebound assists 1 to 4 9 2 2 B NA 7 NA 3 C 8 6 7 4 D 6 8 6 5 E 12 NA 6 6 F 14 9 9 7 G 86 14 10 8:13:12 NA 9 I 8 11 14
ဒုတိယအတန်းရှိ တန်ဖိုးတစ်ခုစီသည် ပထမအတန်းရှိ တန်ဖိုးများ၏ ထပ်နေသောကြောင့် ဒုတိယအတန်းအား ဒေတာဘောင်မှ ဖယ်ရှားခဲ့ကြောင်း သတိပြုပါ။
မှတ်ချက် – dplyr distinct() လုပ်ဆောင်ချက်အတွက် စာရွက်စာတမ်းအပြည့်အစုံကို ဤနေရာတွင် ရှာဖွေနိုင်ပါသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-
R ဖြင့် ဒေတာများကို အုပ်စုဖွဲ့ပြီး အကျဉ်းချနည်း
R တွင် အနှစ်ချုပ်ဇယားများ ဖန်တီးနည်း
R တွင်ပျောက်ဆုံးနေသောတန်ဖိုးများပါသောအတန်းများကိုဖျက်နည်း