पायथन में डेटा को कैसे केन्द्रित करें: उदाहरणों के साथ
डेटा सेट को केन्द्रित करने का अर्थ है डेटा सेट में प्रत्येक व्यक्तिगत अवलोकन का औसत मूल्य घटाना।
एक बार जब आप किसी डेटा सेट को केन्द्रित कर लेते हैं, तो डेटा सेट का औसत मूल्य शून्य हो जाता है।
निम्नलिखित उदाहरण दिखाते हैं कि पायथन में डेटा को कैसे केन्द्रित किया जाए।
उदाहरण 1: NumPy सरणी के मानों को केन्द्रित करें
मान लीजिए हमारे पास निम्नलिखित NumPy सरणी है:
import numpy as np #create NumPy array data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21]) #display mean of array print ( data.mean ()) 14.0
हम प्रत्येक व्यक्तिगत अवलोकन से औसत सरणी मान घटाने के लिए एक फ़ंक्शन को परिभाषित कर सकते हैं:
#create function to data center
center_function = lambda x: x - x. mean ()
#apply function to original NumPy array
data_centered = center_function(data)
#view updated Array
print (data_centered)
array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])
परिणामी मान डेटासेट के केंद्रित मान हैं।
चूँकि मूल तालिका का माध्य 14 था, इस फ़ंक्शन ने मूल तालिका में प्रत्येक व्यक्तिगत मान से केवल 14 घटा दिया।
उदाहरण के लिए:
- केन्द्रित सरणी का पहला मान = 4 – 14 = -10
- केन्द्रित सरणी का दूसरा मान = 6 – 14 = -8
- केन्द्रित सरणी में तीसरा मान = 9 – 14 = -5
और इसी तरह।
हम यह भी जाँच सकते हैं कि केन्द्रित तालिका का माध्य शून्य है:
#display mean of centered array print ( data_centered.mean ()) 0.0
उदाहरण 2: पांडास डेटाफ़्रेम के स्तंभों को केंद्र में रखें
मान लीजिए हमारे पास निम्नलिखित पांडा डेटाफ़्रेम हैं:
import pandas as pd #createDataFrame df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9], ' y ': [7, 7, 8, 8, 8, 9, 12], ' z ': [3, 3, 4, 4, 6, 7, 7]}) #view DataFrame print (df) X Y Z 0 1 7 3 1 4 7 3 2 5 8 4 3 6 8 4 4 6 8 6 5 8 9 7 6 9 12 7
हम डेटाफ़्रेम में प्रत्येक कॉलम के मानों को केन्द्रित करने के लिए पांडा लागू() फ़ंक्शन का उपयोग कर सकते हैं:
#center the values in each column of the DataFrame df_centered = df. apply ( lambda x: xx.mean ()) #view centered DataFrame print (df_centered) X Y Z 0 -4.571429 -1.428571 -1.857143 1 -1.571429 -1.428571 -1.857143 2 -0.571429 -0.428571 -0.857143 3 0.428571 -0.428571 -0.857143 4 0.428571 -0.428571 1.142857 5 2.428571 0.571429 2.142857 6 3.428571 3.571429 2.142857
फिर हम सत्यापित कर सकते हैं कि प्रत्येक कॉलम का औसत मान शून्य है:
#display mean of each column in the DataFrame df_centered. mean () x 2.537653e-16 y-2.537653e-16 z 3.806479e-16 dtype:float64
कॉलम औसत वैज्ञानिक संकेतन में प्रदर्शित होते हैं, लेकिन प्रत्येक मान अनिवार्य रूप से शून्य होता है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि पायथन में अन्य सामान्य ऑपरेशन कैसे करें:
पायथन में ट्रिम किए गए माध्य की गणना कैसे करें
पायथन में माध्य वर्ग त्रुटि (MSE) की गणना कैसे करें
पांडा में चयनित स्तंभों के औसत की गणना कैसे करें