Cara menggunakan fungsi createdatapartition() di r


Anda dapat menggunakan fungsi createDataPartition() dari paket caret di R untuk mempartisi bingkai data ke dalam set pelatihan dan pengujian untuk pembuatan model.

Fungsi ini menggunakan sintaks dasar berikut:

createDataPartition(y, kali = 1, p = 0,5, daftar = BENAR, …)

Emas:

  • y : vektor hasil
  • times : jumlah partisi yang akan dibuat
  • p : persentase data yang akan digunakan dalam set pelatihan
  • list : apakah akan menyimpan hasilnya dalam daftar atau tidak

Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya.

Contoh: Menggunakan createDataPartition() di R

Misalkan kita memiliki kerangka data dalam R dengan 1.000 baris yang berisi informasi tentang jam belajar siswa dan skor mereka pada ujian akhir:

 #make this example reproducible
set. seeds (0)

#create data frame
df <- data. frame (hours=runif(1000, min=0, max=10),
                 score=runif(1000, min=40, max=100))

#view head of data frame
head(df)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
6 2.016819 47.10139

Misalkan kita ingin menyesuaikan model regresi linier sederhana yang menggunakan jam belajar untuk memprediksi nilai ujian akhir.

Katakanlah kita ingin melatih model pada 80% baris dalam bingkai data dan mengujinya pada 20% baris sisanya.

Kode berikut menunjukkan cara menggunakan fungsi createDataPartition() dari paket caret untuk membagi frame data menjadi set pelatihan dan pengujian:

 library (caret)

#partition data frame into training and testing sets
train_indices <- createDataPartition(df$score, times= 1 , p= .8 , list= FALSE )

#create training set
df_train <- df[train_indices, ]

#create testing set
df_test <- df[-train_indices, ]

#view number of rows in each set
nrow(df_train)

[1] 800

nrow(df_test)

[1] 200

Kita dapat melihat bahwa dataset pelatihan kita berisi 800 baris, yang merupakan 80% dari dataset asli.

Demikian pula, kita dapat melihat bahwa kumpulan data pengujian kami berisi 200 baris, yang merupakan 20% dari kumpulan data asli.

Kita juga dapat memvisualisasikan baris pertama setiap set:

 #view head of training set
head(df_train)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
7 8.983897 42.34600

#view head of testing set
head(df_test)

      hours score
6 2.016819 47.10139
12 2.059746 96.67170
18 7.176185 92.61150
23 2.121425 89.17611
24 6.516738 50.47970
25 1.255551 90.58483

Kita kemudian dapat melanjutkan untuk melatih model regresi menggunakan set pelatihan dan mengevaluasi kinerjanya menggunakan set pengujian.

Sumber daya tambahan

Tutorial berikut menjelaskan cara menggunakan fungsi umum lainnya di R:

Cara melakukan validasi silang K-Fold di R
Cara melakukan regresi linier berganda di R
Bagaimana melakukan regresi logistik di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *