R တွင် createdatapartition() လုပ်ဆောင်ချက်ကို အသုံးပြုနည်း


မော်ဒယ်တည်ဆောက်မှုအတွက် ဒေတာဘောင်တစ်ခုကို လေ့ကျင့်ရေးနှင့် စမ်းသပ်မှုအစုံအဖြစ် R တွင် ဒေတာဘောင်တစ်ခုကို အပိုင်းပိုင်းခွဲရန် ကာကတ်ပက်ကေ့ ခ်ျ၏ createDataPartition() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

ဤလုပ်ဆောင်ချက်သည် အောက်ပါအခြေခံ syntax ကိုအသုံးပြုသည်-

createDataPartition(y၊ အမြှောက်=1၊ p=0.5၊ list=TRUE၊ …)

ရွှေ-

  • y : ရလဒ်များ၏ vector
  • အကြိမ် : ဖန်တီးရန် အခန်းကန့်အရေအတွက်
  • p : သင်တန်းအစုံတွင် အသုံးပြုရန် ဒေတာရာခိုင်နှုန်း
  • list : ရလဒ်များကို စာရင်းတွင် သိမ်းဆည်းရန် ရှိ၊ မရှိ၊

အောက်ဖော်ပြပါ ဥပမာသည် ဤလုပ်ဆောင်ချက်ကို လက်တွေ့အသုံးချနည်းကို ပြသထားသည်။

ဥပမာ- R တွင် createDataPartition() ကိုအသုံးပြုခြင်း။

ကျောင်းသားကျောင်းသူများ လေ့လာခဲ့သည့် နာရီများ နှင့် နောက်ဆုံးစာမေးပွဲတွင် ၎င်းတို့၏ သက်ဆိုင်ရာ ရမှတ်များ ပါဝင်သော အတန်း 1,000 ပါသော R တွင် ဒေတာဘောင်တစ်ခုရှိသည်ဆိုပါစို့။

 #make this example reproducible
set. seeds (0)

#create data frame
df <- data. frame (hours=runif(1000, min=0, max=10),
                 score=runif(1000, min=40, max=100))

#view head of data frame
head(df)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
6 2.016819 47.10139

နောက်ဆုံးစာမေးပွဲအဆင့်ကို ခန့်မှန်းရန် နာရီများကိုအသုံးပြုသည့် ရိုးရှင်းသော linear regression model နှင့် ကိုက်ညီလိုသည်ဆိုပါစို့။

ဒေတာဘောင်ရှိ အတန်းများ၏ 80% တွင် မော်ဒယ်ကို လေ့ကျင့်ပြီး ကျန်အတန်းများ၏ 20% တွင် ၎င်းကို စမ်းသပ်လိုသည်ဆိုကြပါစို့။

ဒေတာဘောင်ကို လေ့ကျင့်ရေးနှင့် စမ်းသပ်မှုအစုံများအဖြစ် ပိုင်းခြားရန် အောက်ပါကုဒ်သည် caret package ၏ createDataPartition() လုပ်ဆောင်ချက်ကို မည်သို့အသုံးပြုရမည်ကို ပြသသည်-

 library (caret)

#partition data frame into training and testing sets
train_indices <- createDataPartition(df$score, times= 1 , p= .8 , list= FALSE )

#create training set
df_train <- df[train_indices, ]

#create testing set
df_test <- df[-train_indices, ]

#view number of rows in each set
nrow(df_train)

[1] 800

nrow(df_test)

[1] 200

ကျွန်ုပ်တို့၏လေ့ကျင့်ရေးဒေတာအတွဲတွင် မူလဒေတာအတွဲ၏ 80% ဖြစ်သည့် အတန်း 800 ပါဝင်ကြောင်း ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

အလားတူပင်၊ ကျွန်ုပ်တို့၏ စမ်းသပ်ဒေတာအတွဲတွင် မူရင်းဒေတာအတွဲ၏ 20% ဖြစ်သည့် အတန်း 200 ပါ၀င်ကြောင်း ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

အတွဲတစ်ခုစီ၏ ပထမဆုံးစာကြောင်းများကိုလည်း မြင်ယောင်နိုင်သည်-

 #view head of training set
head(df_train)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
7 8.983897 42.34600

#view head of testing set
head(df_test)

      hours score
6 2.016819 47.10139
12 2.059746 96.67170
18 7.176185 92.61150
23 2.121425 89.17611
24 6.516738 50.47970
25 1.255551 90.58483

ထို့နောက် ကျွန်ုပ်တို့သည် လေ့ကျင့်ရေးအစုံကို အသုံးပြု၍ ဆုတ်ယုတ်မှုပုံစံကို လေ့ကျင့်ရန်နှင့် စမ်းသပ်မှုအစုံကို အသုံးပြု၍ ၎င်း၏စွမ်းဆောင်ရည်ကို အကဲဖြတ်နိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် အခြားဘုံလုပ်ဆောင်ချက်များကို အသုံးပြုနည်းကို ရှင်းပြထားပါသည်။

R တွင် K-Fold ဖြတ်ကျော်စစ်ဆေးနည်း
R တွင် linear regression အများအပြားလုပ်ဆောင်နည်း
R တွင် logistic regression ကို မည်သို့လုပ်ဆောင်ရမည်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်