วิธีจัดกึ่งกลางข้อมูลใน python: พร้อมตัวอย่าง

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 21, 2023 แนะนำ 0 ความคิดเห็น

การจัดศูนย์กลาง ชุดข้อมูลหมายถึงการลบ ค่าเฉลี่ย ของ การสังเกต แต่ละรายการในชุดข้อมูล

เมื่อคุณจัดชุดข้อมูลให้อยู่ตรงกลาง ค่าเฉลี่ยของชุดข้อมูลจะกลายเป็นศูนย์

ตัวอย่างต่อไปนี้แสดงวิธีการจัดกึ่งกลางข้อมูลใน Python

ตัวอย่างที่ 1: จัดกึ่งกลางค่าของอาร์เรย์ NumPy

สมมติว่าเรามีอาร์เรย์ NumPy ดังต่อไปนี้:

 import numpy as np

#create NumPy array
data = np. array ([4, 6, 9, 13, 14, 17, 18, 19, 19, 21])

#display mean of array
print ( data.mean ())

14.0

เราสามารถกำหนด ฟังก์ชัน เพื่อลบค่าอาร์เรย์เฉลี่ยจากการสังเกตแต่ละครั้งได้:

 #create function to data center
center_function = lambda x: x - x. mean ()

#apply function to original NumPy array
data_centered = center_function(data)

#view updated Array
print (data_centered)

array([-10., -8., -5., -1., 0., 3., 4., 5., 5., 7.])

ค่าที่ได้จะเป็นค่าที่อยู่กึ่งกลางของชุดข้อมูล

เนื่องจากค่าเฉลี่ยของตารางเดิมคือ 14 ฟังก์ชันนี้จึงลบ 14 ออกจากแต่ละค่าในตารางเดิม

ตัวอย่างเช่น:

ค่าที่ 1 ของอาร์เรย์ที่อยู่กึ่งกลาง = 4 – 14 = -10
ค่าที่ 2 ของอาร์เรย์ที่อยู่กึ่งกลาง = 6 – 14 = -8
ค่าที่ 3 ในอาร์เรย์กึ่งกลาง = 9 – 14 = -5

และอื่นๆ

เรายังสามารถตรวจสอบได้ว่าค่าเฉลี่ยของตารางตรงกลางเป็นศูนย์:

 #display mean of centered array
print ( data_centered.mean ())

0.0

ตัวอย่างที่ 2: จัดกึ่งกลางคอลัมน์ของ Pandas DataFrame

สมมติว่าเรามี DataFrame แพนด้าดังต่อไปนี้:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' x ': [1, 4, 5, 6, 6, 8, 9],
                   ' y ': [7, 7, 8, 8, 8, 9, 12],
                   ' z ': [3, 3, 4, 4, 6, 7, 7]})

#view DataFrame
print (df)

   X Y Z
0 1 7 3
1 4 7 3
2 5 8 4
3 6 8 4
4 6 8 6
5 8 9 7
6 9 12 7

เราสามารถใช้ฟังก์ชัน pandas Apply() เพื่อจัดกึ่งกลางค่าของแต่ละคอลัมน์ใน DataFrame:

 #center the values in each column of the DataFrame
df_centered = df. apply ( lambda x: xx.mean ())

#view centered DataFrame
print (df_centered)

	        X Y Z
0 -4.571429 -1.428571 -1.857143
1 -1.571429 -1.428571 -1.857143
2 -0.571429 -0.428571 -0.857143
3 0.428571 -0.428571 -0.857143
4 0.428571 -0.428571 1.142857
5 2.428571 0.571429 2.142857
6 3.428571 3.571429 2.142857

จากนั้นเราสามารถตรวจสอบได้ว่าค่าเฉลี่ยของแต่ละคอลัมน์เป็นศูนย์:

 #display mean of each column in the DataFrame
df_centered. mean ()

x 2.537653e-16
y-2.537653e-16
z 3.806479e-16
dtype:float64

ค่าเฉลี่ยของคอลัมน์จะแสดงในรูปแบบทางวิทยาศาสตร์ แต่โดยพื้นฐานแล้วแต่ละค่าจะเป็นศูนย์

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการทั่วไปอื่นๆ ใน Python:

วิธีการคำนวณค่าเฉลี่ยแบบเล็มใน Python
วิธีการคำนวณ Mean Square Error (MSE) ใน Python
วิธีการคำนวณค่าเฉลี่ยของคอลัมน์ที่เลือกใน Pandas

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม

ตัวอย่างที่ 1: จัดกึ่งกลางค่าของอาร์เรย์ NumPy

ตัวอย่างที่ 2: จัดกึ่งกลางคอลัมน์ของ Pandas DataFrame

แหล่งข้อมูลเพิ่มเติม

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

เพิ่มความคิดเห็น