R में createdatapartition() फ़ंक्शन का उपयोग कैसे करें


आप मॉडल निर्माण के लिए डेटा फ्रेम को प्रशिक्षण और परीक्षण सेट में विभाजित करने के लिए आर में कैरेट पैकेज के createDataPartition() फ़ंक्शन का उपयोग कर सकते हैं।

यह फ़ंक्शन निम्नलिखित मूल सिंटैक्स का उपयोग करता है:

createDataPartition(y, टाइम्स = 1, पी = 0.5, सूची = सत्य,…)

सोना:

  • y : परिणामों का वेक्टर
  • टाइम्स : बनाए जाने वाले विभाजनों की संख्या
  • पी : प्रशिक्षण सेट में उपयोग किए जाने वाले डेटा का प्रतिशत
  • सूची : परिणामों को सूची में संग्रहीत करना है या नहीं

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।

उदाहरण: R में createDataPartition() का उपयोग करना

मान लीजिए कि हमारे पास आर में 1,000 पंक्तियों वाला एक डेटा फ्रेम है जिसमें छात्रों द्वारा अध्ययन किए गए घंटों और अंतिम परीक्षा में उनके संबंधित स्कोर के बारे में जानकारी है:

 #make this example reproducible
set. seeds (0)

#create data frame
df <- data. frame (hours=runif(1000, min=0, max=10),
                 score=runif(1000, min=40, max=100))

#view head of data frame
head(df)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
6 2.016819 47.10139

मान लीजिए कि हम एक सरल रैखिक प्रतिगमन मॉडल फिट करना चाहते हैं जो अंतिम परीक्षा ग्रेड की भविष्यवाणी करने के लिए अध्ययन किए गए घंटों का उपयोग करता है।

मान लीजिए कि हम डेटा फ्रेम में 80% पंक्तियों पर मॉडल को प्रशिक्षित करना चाहते हैं और शेष 20% पंक्तियों पर इसका परीक्षण करना चाहते हैं।

निम्नलिखित कोड दिखाता है कि डेटा फ्रेम को प्रशिक्षण और परीक्षण सेट में विभाजित करने के लिए कैरेट पैकेज के createDataPartition() फ़ंक्शन का उपयोग कैसे करें:

 library (caret)

#partition data frame into training and testing sets
train_indices <- createDataPartition(df$score, times= 1 , p= .8 , list= FALSE )

#create training set
df_train <- df[train_indices, ]

#create testing set
df_test <- df[-train_indices, ]

#view number of rows in each set
nrow(df_train)

[1] 800

nrow(df_test)

[1] 200

हम देख सकते हैं कि हमारे प्रशिक्षण डेटासेट में 800 पंक्तियाँ हैं, जो मूल डेटासेट का 80% है।

इसी प्रकार, हम देख सकते हैं कि हमारे परीक्षण डेटासेट में 200 पंक्तियाँ हैं, जो मूल डेटासेट का 20% है।

हम प्रत्येक सेट की पहली पंक्तियों की कल्पना भी कर सकते हैं:

 #view head of training set
head(df_train)

     hours score
1 8.966972 55.93220
2 2.655087 71.84853
3 3.721239 81.09165
4 5.728534 62.99700
5 9.082078 97.29928
7 8.983897 42.34600

#view head of testing set
head(df_test)

      hours score
6 2.016819 47.10139
12 2.059746 96.67170
18 7.176185 92.61150
23 2.121425 89.17611
24 6.516738 50.47970
25 1.255551 90.58483

फिर हम प्रशिक्षण सेट का उपयोग करके प्रतिगमन मॉडल को प्रशिक्षित करने के लिए आगे बढ़ सकते हैं और परीक्षण सेट का उपयोग करके इसके प्रदर्शन का मूल्यांकन कर सकते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि R में अन्य सामान्य फ़ंक्शंस का उपयोग कैसे करें:

आर में के-फोल्ड क्रॉस-वैलिडेशन कैसे करें
आर में मल्टीपल लीनियर रिग्रेशन कैसे करें
आर में लॉजिस्टिक रिग्रेशन कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *