วิธีการคำนวณคะแนน z ใน r


ในสถิติ คะแนน z บอกเราว่าค่าหนึ่งๆ มาจากค่าเฉลี่ยเป็นจำนวนเท่าใด เราใช้สูตรต่อไปนี้เพื่อคำนวณคะแนน z:

z = (X – μ) / σ

ทอง:

  • X คือค่าข้อมูลดิบค่าเดียว
  • μ คือค่าเฉลี่ยของประชากร
  • σ คือค่าเบี่ยงเบนมาตรฐานของประชากร

บทช่วยสอนนี้จะอธิบายวิธีคำนวณคะแนน z สำหรับค่าข้อมูลดิบใน R

ตัวอย่างที่ 1: การค้นหาคะแนน Z สำหรับเวกเตอร์เดี่ยว

รหัสต่อไปนี้แสดงวิธีการค้นหาคะแนน z สำหรับแต่ละค่าข้อมูลดิบในเวกเตอร์:

 #create vector of data
data <- c(6, 7, 7, 12, 13, 13, 15, 16, 19, 22)

#find z-score for each data value 
z_scores <- (data-mean(data))/sd(data)

#display z-scores
z_scores

[1] -1.3228757 -1.1338934 -1.1338934 -0.1889822 0.0000000 0.0000000
[7] 0.3779645 0.5669467 1.1338934 1.7008401

คะแนน z แต่ละค่าจะบอกเราว่าค่าแต่ละค่ามาจากค่าเฉลี่ยเป็นจำนวนเท่าใด ตัวอย่างเช่น:

  • ค่าข้อมูลดิบแรกของ “6” คือ 1.323 ส่วนเบี่ยงเบนมาตรฐาน ที่ต่ำกว่า ค่าเฉลี่ย
  • ค่าข้อมูลดิบที่ห้า “13” คือ 0 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย กล่าวคือ เท่ากับค่าเฉลี่ย
  • ค่าข้อมูลดิบล่าสุดของ “22” คือ 1.701 ส่วนเบี่ยงเบนมาตรฐาน เหนือ ค่าเฉลี่ย

ตัวอย่างที่ 2: ค้นหาคะแนน Z สำหรับคอลัมน์เดี่ยวใน DataFrame

รหัสต่อไปนี้แสดงวิธีการค้นหาคะแนน z สำหรับแต่ละค่าข้อมูลดิบในคอลัมน์เดียวของ dataframe:

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-score for each data value in the 'points' column
z_scores <- (df$points-mean(df$points))/sd(df$points)

#display z-scores
z_scores

[1] 0.6191904 1.4635409 -1.2383807 -0.9006405 -0.2251601 0.2814502

คะแนน z แต่ละค่าจะบอกเราว่าค่าแต่ละค่ามาจากค่าเฉลี่ยเป็นจำนวนเท่าใด ตัวอย่างเช่น:

  • ค่าข้อมูลดิบแรกของ “24” คือ 0.619 ส่วนเบี่ยงเบนมาตรฐาน ที่สูงกว่า ค่าเฉลี่ย
  • ค่าข้อมูลดิบที่สอง “29” คือ 1.464 ส่วนเบี่ยงเบนมาตรฐาน เหนือ ค่าเฉลี่ย
  • ค่าข้อมูลดิบที่สาม “13” มีค่าเบี่ยงเบนมาตรฐาน ต่ำกว่า ค่าเฉลี่ย 1.238

และอื่นๆ

ตัวอย่างที่ 3: ค้นหาคะแนน Z สำหรับแต่ละคอลัมน์ใน DataFrame

รหัสต่อไปนี้แสดงวิธีค้นหาคะแนน z สำหรับค่าข้อมูลดิบแต่ละค่าในแต่ละคอลัมน์ของกรอบข้อมูลโดยใช้ ฟังก์ชัน sapply()

 #create dataframe
df <- data.frame(assists = c(4, 4, 6, 7, 9, 13),
                 points = c(24, 29, 13, 15, 19, 22),
                 rebounds = c(5, 5, 7, 8, 14, 15))

#find z-scores of each column
sapply(df, function(df) (df-mean(df))/sd(df))

         assists points rebounds
[1,] -0.92315712 0.6191904 -0.9035079
[2,] -0.92315712 1.4635409 -0.9035079
[3,] -0.34011052 -1.2383807 -0.4517540
[4,] -0.04858722 -0.9006405 -0.2258770
[5,] 0.53445939 -0.2251601 1.1293849
[6,] 1.70055260 0.2814502 1.3552619

คะแนน z สำหรับแต่ละค่าจะแสดงโดยสัมพันธ์กับคอลัมน์ที่ค่าเหล่านั้นอยู่ ตัวอย่างเช่น:

  • ค่าแรกของ “4” ในคอลัมน์แรกคือ 0.923 ส่วนเบี่ยงเบนมาตรฐาน ที่ต่ำกว่า ค่าเฉลี่ยของคอลัมน์
  • ค่าแรกของ “24” ในคอลัมน์ที่สองคือ 0.619 ส่วนเบี่ยงเบนมาตรฐาน เหนือ ค่าเฉลี่ยของคอลัมน์
  • ค่าแรกของ “9” ในคอลัมน์ที่สามคือ 0.904 ส่วนเบี่ยงเบนมาตรฐาน ซึ่งต่ำกว่า ค่าเฉลี่ยของคอลัมน์

และอื่นๆ

คุณสามารถค้นหาบทช่วยสอน R เพิ่มเติมได้ ที่นี่

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *