R'de createdatapartition() işlevi nasıl kullanılır?


Model oluşturma amacıyla bir veri çerçevesini eğitim ve test kümelerine bölmek için R’deki caret paketinin createDataPartition() işlevini kullanabilirsiniz.

Bu işlev aşağıdaki temel sözdizimini kullanır:

createDataPartition(y, kere = 1, p = 0,5, liste = DOĞRU, …)

Altın:

  • y : sonuçların vektörü
  • kez : oluşturulacak bölüm sayısı
  • p : eğitim setinde kullanılacak veri yüzdesi
  • list : sonuçların listede saklanıp saklanmayacağı

Aşağıdaki örnekte bu fonksiyonun pratikte nasıl kullanılacağı gösterilmektedir.

Örnek: R’de createDataPartition() işlevinin kullanılması

R’de öğrencilerin çalıştıkları saatler ve final sınavındaki karşılık gelen puanları hakkında bilgi içeren 1000 satırlık bir veri çerçevemiz olduğunu varsayalım:

 #make this example reproducible
set. seeds (0)

#create data frame
df <- data. frame (hours=runif(1000, min=0, max=10),
                 score=runif(1000, min=40, max=100))

#view head of data frame
head(df)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
6 2.016819 47.10139

Final sınavı notunu tahmin etmek için çalışılan saatleri kullanan basit bir doğrusal regresyon modeline uymak istediğimizi varsayalım.

Diyelim ki modeli veri çerçevesindeki satırların %80’inde eğitmek ve geri kalan %20’lik satırlarda test etmek istiyoruz.

Aşağıdaki kod, veri çerçevesini eğitim ve test kümelerine bölmek için caret paketinin createDataPartition() işlevinin nasıl kullanılacağını gösterir:

 library (caret)

#partition data frame into training and testing sets
train_indices <- createDataPartition(df$score, times= 1 , p= .8 , list= FALSE )

#create training set
df_train <- df[train_indices, ]

#create testing set
df_test <- df[-train_indices, ]

#view number of rows in each set
nrow(df_train)

[1] 800

nrow(df_test)

[1] 200

Eğitim veri setimizin orijinal veri setinin %80’i olan 800 satır içerdiğini görebiliriz.

Benzer şekilde test veri setimizin orijinal veri setinin %20’si olan 200 satır içerdiğini görebiliriz.

Ayrıca her setin ilk satırlarını da görselleştirebiliriz:

 #view head of training set
head(df_train)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
7 8.983897 42.34600

#view head of testing set
head(df_test)

      hours score
6 2.016819 47.10139
12 2.059746 96.67170
18 7.176185 92.61150
23 2.121425 89.17611
24 6.516738 50.47970
25 1.255551 90.58483

Daha sonra eğitim setini kullanarak regresyon modelini eğitmeye ve test setini kullanarak performansını değerlendirmeye devam edebiliriz.

Ek kaynaklar

Aşağıdaki eğitimlerde R’deki diğer yaygın işlevlerin nasıl kullanılacağı açıklanmaktadır:

R’de K-Fold çapraz doğrulama nasıl gerçekleştirilir?
R’de çoklu doğrusal regresyon nasıl gerçekleştirilir
R’de lojistik regresyon nasıl gerçekleştirilir

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir