วิธีจัดกึ่งกลางข้อมูลใน r (พร้อมตัวอย่าง)


การจัดศูนย์กลาง ชุดข้อมูลหมายถึงการลบค่าเฉลี่ยของการสังเกตแต่ละรายการในชุดข้อมูล

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้:

ปรากฎว่าค่าเฉลี่ยคือ 14 ดังนั้น หากต้องการให้ชุดข้อมูลนี้อยู่ตรงกลาง เราจะลบ 14 ออกจากการสังเกตแต่ละรายการ:

วิธีการศูนย์ข้อมูล

โปรดทราบว่าค่าเฉลี่ยของชุดข้อมูลที่อยู่ตรงกลางคือศูนย์

บทช่วยสอนนี้มีตัวอย่างหลายประการเกี่ยวกับวิธีจัดกึ่งกลางข้อมูลใน R

ตัวอย่างที่ 1: จัดกึ่งกลางค่าของเวกเตอร์

รหัสต่อไปนี้แสดงวิธีใช้ฟังก์ชัน base R scale() เพื่อจัดค่ากึ่งกลางในเวกเตอร์:

 #createvector
data <- c(4, 6, 9, 13, 14, 17, 18, 19, 19, 21)

#subtract the mean value from each observation in the vector
scale(data, scale= FALSE )

      [,1]
 [1,] -10
 [2,] -8
 [3,] -5
 [4,] -1
 [5,] 0
 [6,] 3
 [7,] 4
 [8,] 5
 [9,] 5
[10,] 7

attr(,"scaled:center")
[1] 14

ค่าที่ได้จะเป็นค่าที่อยู่กึ่งกลางของชุดข้อมูล ฟังก์ชัน scale() ยังบอกเราด้วยว่าค่าเฉลี่ยของชุดข้อมูลคือ 14

โปรดทราบว่าตามค่าเริ่มต้นแล้ว ฟังก์ชัน มาตราส่วน () จะลบค่าเฉลี่ยออกจากการสังเกตแต่ละรายการ แล้วหารด้วยค่าเบี่ยงเบนมาตรฐาน

โดยการระบุ scale=FALSE เราจะบอก R ว่าอย่าหารด้วยส่วนเบี่ยงเบนมาตรฐาน

ตัวอย่างที่ 2: คอลัมน์ตรงกลางในกรอบข้อมูล

รหัสต่อไปนี้แสดงวิธีใช้ฟังก์ชัน sapply() และฟังก์ชัน scale() ของฐานข้อมูล R เพื่อจัดกึ่งกลางค่าของแต่ละคอลัมน์ของกรอบข้อมูล:

 #create data frame
df <- data.frame(x = c(1, 4, 5, 6, 6, 8, 9),
                 y = c(7, 7, 8, 8, 8, 9, 12),
                 z = c(3, 3, 4, 4, 6, 7, 7))

#center each column in the data frame
df_new <- sapply(df, function (x) scale(x, scale= FALSE ))

#display data frame
df_new

              X Y Z
[1,] -4.5714286 -1.4285714 -1.8571429
[2,] -1.5714286 -1.4285714 -1.8571429
[3,] -0.5714286 -0.4285714 -0.8571429
[4,] 0.4285714 -0.4285714 -0.8571429
[5,] 0.4285714 -0.4285714 1.1428571
[6,] 2.4285714 0.5714286 2.1428571
[7,] 3.4285714 3.5714286 2.1428571

เราสามารถตรวจสอบได้ว่าค่าเฉลี่ยของแต่ละคอลัมน์ใน data frame ใหม่เป็นศูนย์โดยใช้ฟังก์ชัน colMeans() :

 colMeans(df_new)

            xyz 2.537653e-16 -2.537653e-16 3.806479e-16 

ค่าจะแสดงในรูปแบบทางวิทยาศาสตร์ แต่แต่ละค่าโดยพื้นฐานแล้วจะเป็นศูนย์

แหล่งข้อมูลเพิ่มเติม

วิธีเฉลี่ยคอลัมน์ใน R
วิธีรวมคอลัมน์เฉพาะใน R
วิธีลบค่าผิดปกติออกจากหลายคอลัมน์ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *