R में डेटा.टेबल बनाम डेटा फ़्रेम: तीन प्रमुख अंतर

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 16, 2023 मार्गदर्शक शून्य टिप्पणियां

आर प्रोग्रामिंग भाषा में, डेटा.फ़्रेम आर डेटाबेस का हिस्सा है।

किसी भी डेटा.फ़्रेम को डेटा.टेबल पैकेज के सेटडीएफ फ़ंक्शन का उपयोग करके डेटा.टेबल में परिवर्तित किया जा सकता है।

एक data.table R में data.frame की तुलना में निम्नलिखित लाभ प्रदान करता है:

1. आप किसी फ़ाइल को डेटा.टेबल में पढ़ने के लिए डेटा.टेबल पैकेज से फ़्रेड फ़ंक्शन का उपयोग कर सकते हैं, जो रीड.सीएसवी जैसे बुनियादी आर फ़ंक्शंस की तुलना में बहुत तेज़ है, जो फ़ाइलों को डेटा.फ़्रेम में पढ़ता है।

2. आप डेटा.फ्रेम की तुलना में डेटा.टेबल पर ऑपरेशन (जैसे समूहीकरण और एकत्रीकरण) बहुत तेजी से कर सकते हैं।

3. डेटा.फ़्रेम को कंसोल पर प्रिंट करते समय, R डेटा.फ़्रेम में प्रत्येक पंक्ति को प्रिंट करने का प्रयास करेगा। हालाँकि, एक data.table केवल पहली 100 पंक्तियों को प्रदर्शित करेगा, जो आपके सत्र को लटकने या क्रैश होने से रोक सकता है यदि आप बड़े डेटासेट के साथ काम कर रहे हैं।

निम्नलिखित उदाहरण व्यवहार में डेटा.फ़्रेम और डेटा.टेबल के बीच इन अंतरों को दर्शाते हैं।

अंतर #1: फ़्रेड के साथ तेज़ आयात

निम्नलिखित कोड दिखाता है कि data.table पैकेज से फ़्रेड फ़ंक्शन और R डेटाबेस से read.csv फ़ंक्शन का उपयोग करके 10,000 पंक्तियों और 100 कॉलमों का डेटा फ़्रेम कैसे आयात किया जाए:

 library (microbenchmark)
library (data.table)

#make this example reproducible
set. seeds (1)

#create data frame with 10,000 rows and 100 columns
df <- as. data . frame (matrix(runif(10^4 * 100), nrow = 10^4))

#export CSV to current working directory
write.write. csv (df, " test.csv ", quote = FALSE )

#import CSV file using fread and read.csv and time how long it takes
results <- microbenchmark(
  read.csv = read. csv (" test.csv ", header = TRUE , stringsAsFactors = FALSE ),
  fread = fread(" test.csv ", sep = ",", stringsAsFactors = FALSE ),
  times = 10)

#view results
results

Unit: milliseconds
     expr min lq mean median uq max neval cld
 read.csv 817.1867 892.8748 1026.7071 899.5755 926.9120 1964.0540 10 b
    fread 113.5889 116.2735 136.4079 124.3816 136.0534 211.7484 10 a

परिणामों से, हम देख सकते हैं कि read.csv फ़ंक्शन की तुलना में फ़्रेड इस CSV फ़ाइल को आयात करने में लगभग 10 गुना तेज़ है।

ध्यान दें कि बड़े डेटासेट के लिए यह अंतर और भी अधिक होगा।

अंतर #2: data.table के साथ तेज़ डेटा हेरफेर

सामान्य तौर पर, data.table किसी भी डेटा हेरफेर कार्य को data.frame की तुलना में बहुत तेजी से निष्पादित कर सकता है।

उदाहरण के लिए, निम्नलिखित कोड दिखाता है कि डेटा.टेबल और डेटा.फ़्रेम दोनों में किसी अन्य वेरिएबल द्वारा समूहीकृत एक वेरिएबल के औसत की गणना कैसे करें:

 library (microbenchmark)
library (data.table)

#make this example reproducible
set.seed(1)

#create data frame with 10,000 rows and 100 columns
d_frame <- data. frame (team=rep(c(' A ', ' B '), each=5000),
                      points=c(rnorm(10000, mean=20, sd=3)))

#create data.table from data.frame
d_table <- setDT(d_frame)

#calculate mean of points grouped by team in data.frame and data.table
results <- microbenchmark(
  mean_d_frame = aggregate(d_frame$points, list(d_frame$team), FUN=mean),
  mean_d_table = d_table[ ,list(mean=mean(points)), by=team],
  times = 10)

#view results
results

Unit: milliseconds
         expr min lq mean median uq max neval cld
 mean_d_frame 2.9045 3.0077 3.11683 3.1074 3.1654 3.4824 10 b
 mean_d_table 1.0539 1.1140 1.52002 1.2075 1.2786 3.6084 10 a

परिणामों से, हम देख सकते हैं कि data.table data.frame से लगभग तीन गुना तेज़ है।

बड़े डेटासेट के लिए, यह अंतर और भी अधिक होगा।

अंतर #3: डेटा.टेबल के साथ कम पंक्तियाँ मुद्रित होती हैं

डेटा.फ़्रेम को कंसोल पर प्रिंट करते समय, R डेटा.फ़्रेम में प्रत्येक पंक्ति को प्रिंट करने का प्रयास करेगा।

हालाँकि, एक data.table केवल पहली 100 पंक्तियों को प्रदर्शित करेगा, जो आपके सत्र को लटकने या क्रैश होने से रोक सकता है यदि आप बड़े डेटासेट के साथ काम कर रहे हैं।

उदाहरण के लिए, निम्नलिखित कोड में, हम 200 पंक्तियों का एक डेटा फ़्रेम और एक डेटा.टेबल दोनों बनाते हैं।

डेटा.फ़्रेम को प्रिंट करते समय, R डेटा.टेबल को प्रिंट करते समय प्रत्येक पंक्ति को प्रिंट करने का प्रयास करेगा, केवल पहली पाँच पंक्तियाँ और अंतिम पाँच पंक्तियाँ प्रदर्शित करेगा:

 library (data.table)

#make this example reproducible
set. seeds (1)

#create data frame
d_frame <- data. frame (x=rnorm(200),
                      y=rnorm(200),
                      z=rnorm(200))
#view data frame
d_frame

               X Y Z
1 -0.055303118 1.54858564 -2.065337e-02
2 0.354143920 0.36706204 -3.743962e-01
3 -0.999823809 -1.57842544 4.392027e-01
4 2.586214840 0.17383147 -2.081125e+00
5 -1.917692199 -2.11487401 4.073522e-01
6 0.039614766 2.21644236 1.869164e+00
7 -1.942259548 0.81566443 4.740712e-01
8 -0.424913746 1.01081030 4.996065e-01
9 -1.753210825 -0.98893038 -6.290307e-01
10 0.232382655 -1.25229873 -1.324883e+00
11 0.027278832 0.44209325 -3.221920e-01
...
#create data table
d_table <- setDT(d_frame)

#view data table
d_table

               X Y Z
  1: -0.05530312 1.54858564 -0.02065337
  2: 0.35414392 0.36706204 -0.37439617
  3: -0.99982381 -1.57842544 0.43920275
  4: 2.58621484 0.17383147 -2.08112491
  5: -1.91769220 -2.11487401 0.40735218
 ---                                    
196: -0.06196178 1.08164065 0.58609090
197: 0.34160667 -0.01886703 1.61296255
198: -0.38361957 -0.03890329 0.71377217
199: -0.80719743 -0.89674205 -0.49615702
200: -0.26502679 -0.15887435 -1.73781026

यह एक फायदा है जो data.table data.frame की तुलना में प्रदान करता है, खासकर जब बड़े डेटा सेट के साथ काम करते हैं जिन्हें आप गलती से कंसोल पर प्रिंट नहीं करना चाहते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

R में डेटा फ़्रेम में पंक्तियाँ कैसे जोड़ें
आर में कुछ कॉलम कैसे सुरक्षित रखें?
आर में केवल संख्यात्मक कॉलम का चयन कैसे करें

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने