R ဖြင့် data cleansing လုပ်နည်း (ဥပမာဖြင့်)


ဒေတာရှင်းလင်းခြင်း ဆိုသည်မှာ ခွဲခြမ်းစိတ်ဖြာခြင်း သို့မဟုတ် မော်ဒယ်တည်ဆောက်ခြင်းအတွက် သင့်လျော်သော ဒေတာအဖြစ်သို့ ဒေတာအကြမ်း အဖြစ် ပြောင်းလဲခြင်းလုပ်ငန်းစဉ်ကို ရည်ညွှန်းသည်။

ကိစ္စအများစုတွင်၊ ဒေတာအတွဲတစ်ခုအား “ သန့်ရှင်းရေး” တွင် ပျောက်ဆုံးနေသောတန်ဖိုးများနှင့် ဒေတာပွားခြင်းကို ကိုင်တွယ်ဖြေရှင်းရန် ပါဝင်သည်။

ဤသည်မှာ R ရှိ ဒေတာအတွဲတစ်ခုကို “ သန့်ရှင်းရေး” အတွက် အသုံးအများဆုံးနည်းလမ်းများဖြစ်သည်။

နည်းလမ်း 1- ပျောက်ဆုံးနေသောတန်ဖိုးများရှိသော အတန်းများကို ဖယ်ရှားပါ။

 library (dplyr)

#remove rows with any missing values
df %>% na. omit ()

နည်းလမ်း 2- ပျောက်ဆုံးနေသောတန်ဖိုးများကို အခြားတန်ဖိုးများဖြင့် အစားထိုးပါ။

 library (dplyr)
library (tidyr)

#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is. numeric ), ~replace_na(., median(., na. rm = TRUE ))))

နည်းလမ်း 3- ပွားနေသောအတန်းများကို ဖယ်ရှားပါ။

 library (dplyr)

df %>% distinct(. keep_all = TRUE )

အောက်ဖော်ပြပါနမူနာများသည် ဘတ်စကတ်ဘောကစားသမားများအကြောင်း အချက်အလက်များစွာပါရှိသော R ရှိ အောက်ပါဒေတာဘောင်ဖြင့် ဤနည်းလမ်းတစ်ခုစီကို လက်တွေ့အသုံးပြုနည်းကို ပြသသည်-

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'),
                 points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8),
                 rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11),
                 assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14))

#view data frame
df

   team points rebound assists
1 to 4 9 2
2 to 4 9 2
3 B NA 7 NA
4 C 8 6 7
5 D 6 8 6
6 E 12 NA 6
7 F 14 9 9
8 G 86 14 10
9:13:12 NA
10 I 8 11 14

ဥပမာ 1- ပျောက်ဆုံးနေသောတန်ဖိုးများရှိသော အတန်းများကို ဖျက်ပါ။

မည်သည့်ကော်လံရှိ ပျောက်ဆုံးနေသောတန်ဖိုးများပါရှိသော အတန်းများကို ဖယ်ရှားရန် အောက်ပါ syntax ကို အသုံးပြုနိုင်ပါသည်။

 library (dplyr)

#remove rows with missing values
new_df <- df %>% na. omit ()

#view new data frame
new_df

   team points rebound assists
1 to 4 9 2
2 to 4 9 2
4 C 8 6 7
5 D 6 8 6
7 F 14 9 9
8 G 86 14 10
10 I 8 11 14

ဒေတာဘောင်အသစ်တွင် ပျောက်ဆုံးနေသောတန်ဖိုးများ အတန်းများမပါဝင်ကြောင်း သတိပြုပါ။

ဥပမာ 2- ပျောက်ဆုံးနေသောတန်ဖိုးများကို အခြားတန်ဖိုးများဖြင့် အစားထိုးပါ။

ကော်လံတစ်ခုစီ၏ အလယ်တန်းတန်ဖိုးဖြင့် ပျောက်ဆုံးနေသောတန်ဖိုးများကို အစားထိုးရန်အတွက် အောက်ပါ syntax ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။

 library (dplyr)
library (tidyr)

#replace missing values in each numeric column with median value of column
new_df <-df %>% mutate(across(where(is. numeric ),~replace_na(.,median(.,na. rm = TRUE )))) 

#view new data frame
new_df

   team points rebound assists
1 to 4 9 2.0
2 to 4 9 2.0
3 B 8 7 6.5
4 C 8 6 7.0
5 D 6 8 6.0
6 E 12 9 6.0
7 F 14 9 9.0
8 G 86 14 10.0
9:13 12 6.5
10 I 8 11 14.0

ဂဏန်းကော်လံတစ်ခုစီရှိ ပျောက်ဆုံးတန်ဖိုးများကို ကော်လံ၏ ပျမ်းမျှတန်ဖိုးဖြင့် အစားထိုးထားသည်ကို သတိပြုပါ။

ကော်လံတစ်ခုစီ၏ ပျမ်းမျှတန်ဖိုးများနှင့် ပျောက်ဆုံးနေသောတန်ဖိုးများကို အစားထိုးရန်အတွက် ဖော်မြူလာရှိ ပျမ်းမျှအား ပျမ်းမျှ တန်ဖိုးများနှင့်လည်း အစားထိုးနိုင်သည်ကို သတိပြုပါ။

မှတ်ချက်drop_na() လုပ်ဆောင်ချက်သည် ထိုပက်ကေ့မှလာသောကြောင့် ကျွန်ုပ်တို့သည် ဤဥပမာတွင် Tidyr ပက်ကေ့ခ်ျကို တင်ရန် လိုအပ်ပါသည်။

ဥပမာ 3- ပွားနေသောအတန်းများကို ဖယ်ရှားပါ။

ကော်လံတစ်ခုစီ၏ အလယ်တန်းတန်ဖိုးဖြင့် ပျောက်ဆုံးနေသောတန်ဖိုးများကို အစားထိုးရန်အတွက် အောက်ပါ syntax ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။

 library (dplyr)

#remove duplicate rows
new_df <- df %>% distinct(. keep_all = TRUE )

#view new data frame
new_df

  team points rebound assists
1 to 4 9 2
2 B NA 7 NA
3 C 8 6 7
4 D 6 8 6
5 E 12 NA 6
6 F 14 9 9
7 G 86 14 10
8:13:12 NA
9 I 8 11 14

ဒုတိယအတန်းရှိ တန်ဖိုးတစ်ခုစီသည် ပထမအတန်းရှိ တန်ဖိုးများ၏ ထပ်နေသောကြောင့် ဒုတိယအတန်းအား ဒေတာဘောင်မှ ဖယ်ရှားခဲ့ကြောင်း သတိပြုပါ။

မှတ်ချက် – dplyr distinct() လုပ်ဆောင်ချက်အတွက် စာရွက်စာတမ်းအပြည့်အစုံကို ဤနေရာတွင် ရှာဖွေနိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-

R ဖြင့် ဒေတာများကို အုပ်စုဖွဲ့ပြီး အကျဉ်းချနည်း
R တွင် အနှစ်ချုပ်ဇယားများ ဖန်တီးနည်း
R တွင်ပျောက်ဆုံးနေသောတန်ဖိုးများပါသောအတန်းများကိုဖျက်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်