पायथन में डेटा को कैसे केन्द्रित करें: उदाहरणों के साथ


डेटा सेट को केन्द्रित करने का अर्थ है डेटा सेट में प्रत्येक व्यक्तिगत अवलोकन का औसत मूल्य घटाना।

एक बार जब आप किसी डेटा सेट को केन्द्रित कर लेते हैं, तो डेटा सेट का औसत मूल्य शून्य हो जाता है।

निम्नलिखित उदाहरण दिखाते हैं कि पायथन में डेटा को कैसे केन्द्रित किया जाए।

उदाहरण 1: NumPy सरणी के मानों को केन्द्रित करें

मान लीजिए हमारे पास निम्नलिखित NumPy सरणी है:

 import numpy as np

#create NumPy array
data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21])

#display mean of array
print ( data.mean ())

14.0

हम प्रत्येक व्यक्तिगत अवलोकन से औसत सरणी मान घटाने के लिए एक फ़ंक्शन को परिभाषित कर सकते हैं:

 #create function to data center
center_function = lambda x: x - x. mean ()

#apply function to original NumPy array
data_centered = center_function(data)

#view updated Array
print (data_centered)

array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])

परिणामी मान डेटासेट के केंद्रित मान हैं।

चूँकि मूल तालिका का माध्य 14 था, इस फ़ंक्शन ने मूल तालिका में प्रत्येक व्यक्तिगत मान से केवल 14 घटा दिया।

उदाहरण के लिए:

  • केन्द्रित सरणी का पहला मान = 4 – 14 = -10
  • केन्द्रित सरणी का दूसरा मान = 6 – 14 = -8
  • केन्द्रित सरणी में तीसरा मान = 9 – 14 = -5

और इसी तरह।

हम यह भी जाँच सकते हैं कि केन्द्रित तालिका का माध्य शून्य है:

 #display mean of centered array
print ( data_centered.mean ())

0.0

उदाहरण 2: पांडास डेटाफ़्रेम के स्तंभों को केंद्र में रखें

मान लीजिए हमारे पास निम्नलिखित पांडा डेटाफ़्रेम हैं:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9],
                   ' y ': [7, 7, 8, 8, 8, 9, 12],
                   ' z ': [3, 3, 4, 4, 6, 7, 7]})

#view DataFrame
print (df)

   X Y Z
0 1 7 3
1 4 7 3
2 5 8 4
3 6 8 4
4 6 8 6
5 8 9 7
6 9 12 7

हम डेटाफ़्रेम में प्रत्येक कॉलम के मानों को केन्द्रित करने के लिए पांडा लागू() फ़ंक्शन का उपयोग कर सकते हैं:

 #center the values in each column of the DataFrame
df_centered = df. apply ( lambda x: xx.mean ())

#view centered DataFrame
print (df_centered)

	        X Y Z
0 -4.571429 -1.428571 -1.857143
1 -1.571429 -1.428571 -1.857143
2 -0.571429 -0.428571 -0.857143
3 0.428571 -0.428571 -0.857143
4 0.428571 -0.428571 1.142857
5 2.428571 0.571429 2.142857
6 3.428571 3.571429 2.142857 

फिर हम सत्यापित कर सकते हैं कि प्रत्येक कॉलम का औसत मान शून्य है:

 #display mean of each column in the DataFrame
df_centered. mean ()

x 2.537653e-16
y-2.537653e-16
z 3.806479e-16
dtype:float64

कॉलम औसत वैज्ञानिक संकेतन में प्रदर्शित होते हैं, लेकिन प्रत्येक मान अनिवार्य रूप से शून्य होता है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि पायथन में अन्य सामान्य ऑपरेशन कैसे करें:

पायथन में ट्रिम किए गए माध्य की गणना कैसे करें
पायथन में माध्य वर्ग त्रुटि (MSE) की गणना कैसे करें
पांडा में चयनित स्तंभों के औसत की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *