लुप्त मानों के साथ आर में सहसंबंध की गणना कैसे करें


आप आर में सहसंबंध गुणांक की गणना करने के लिए निम्नलिखित तरीकों का उपयोग कर सकते हैं जब एक या अधिक चर में लापता मान हों:

विधि 1: मौजूद लुप्त मानों के साथ सहसंबंध गुणांक की गणना करें

 cor(x, y, use=' complete.obs ')

विधि 2: मौजूद लुप्त मानों के साथ सहसंबंध मैट्रिक्स की गणना करें

 cor(df, use=' pairwise.complete.obs ')

निम्नलिखित उदाहरण दिखाते हैं कि व्यवहार में प्रत्येक विधि का उपयोग कैसे करें।

उदाहरण 1: मौजूद लुप्त मानों के साथ सहसंबंध गुणांक की गणना करें

मान लीजिए कि हम लापता मान मौजूद होने पर दो चर के बीच पियर्सन सहसंबंध गुणांक की गणना करने के लिए cor() फ़ंक्शन का उपयोग करने का प्रयास कर रहे हैं:

 #create two variables
x <- c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85)
y <- c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75)

#attempt to calculate correlation coefficient between x and y
cor(x, y)

[1] NA

cor() फ़ंक्शन NA लौटाता है क्योंकि हमने यह निर्दिष्ट नहीं किया है कि लुप्त मानों को कैसे प्रबंधित किया जाए।

इस समस्या से बचने के लिए, हम use=’complete.obs’ तर्क का उपयोग कर सकते हैं ताकि R केवल जोड़ीदार अवलोकनों का उपयोग करना जान सके जहां दोनों मान मौजूद हैं:

 #create two variables
x <- c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85)
y <- c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75)

#calculate correlation coefficient between x and y
cor(x, y, use=' complete.obs ')

[1] -0.4888749

दो चरों के बीच सहसंबंध गुणांक -0.488749 निकला।

ध्यान दें कि cor() फ़ंक्शन केवल दोनों जोड़ीदार संयोजनों का उपयोग करता है जहां सहसंबंध गुणांक की गणना करते समय मान मौजूद थे।

उदाहरण 2: उपस्थित लुप्त मानों के साथ सहसंबंध मैट्रिक्स की गणना करें

मान लीजिए कि हम लापता मान मौजूद होने पर तीन चर वाले डेटा फ्रेम के लिए सहसंबंध मैट्रिक्स बनाने के लिए cor() फ़ंक्शन का उपयोग करने का प्रयास कर रहे हैं:

 #create data frame with some missing values
df <- data. frame (x=c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85),
                 y=c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75),
                 z=c(57, 57, 58, 59, 60, 78, 81, 83, NA, 90))

#attempt to create correlation matrix for variables in data frame
cor(df)

   X Y Z
x 1 NA NA
y NA 1 NA
z NA NA 1

cor() फ़ंक्शन कई स्थानों पर NA लौटाता है क्योंकि हमने यह निर्दिष्ट नहीं किया है कि लुप्त मानों को कैसे प्रबंधित किया जाए।

इस समस्या से बचने के लिए, हम उपयोग = ‘जोड़ीवार.पूर्ण.obs’ तर्क का उपयोग कर सकते हैं ताकि आर केवल जोड़ीदार अवलोकनों का उपयोग करना जान सके जहां दोनों मान मौजूद हैं:

 #create data frame with some missing values
df <- data. frame (x=c(70, 78, 90, 87, 84, NA, 91, 74, 83, 85),
                 y=c(90, NA, 79, 86, 84, 83, 88, 92, 76, 75),
                 z=c(57, 57, 58, 59, 60, 78, 81, 83, NA, 90))

#create correlation matrix for variables using only pairwise complete observations
cor(df, use=' pairwise.complete.obs ')

           X Y Z
x 1.0000000 -0.4888749 0.1311651
y -0.4888749 1.0000000 -0.1562371
z 0.1311651 -0.1562371 1.0000000

डेटाबेस में चरों के प्रत्येक जोड़ीवार संयोजन के लिए सहसंबंध गुणांक अब प्रदर्शित किए गए हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

R में सहसंबंध गुणांक का P मान कैसे ज्ञात करें
आर में स्पीयरमैन के सहसंबंध की गणना कैसे करें
आर में स्लाइडिंग सहसंबंध की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *