วิธีดำเนินการทำให้เป็นมาตรฐานเชิงควอนไทล์ใน r
ในเชิงสถิติ การทำให้เป็นมาตรฐานเชิงควอนไทล์ เป็นวิธีการที่ทำให้การแจกแจงสองค่าเหมือนกันในแง่ของคุณสมบัติทางสถิติ
ตัวอย่างต่อไปนี้แสดงวิธีดำเนินการปรับมาตรฐานควอนไทล์ใน R
ตัวอย่าง: การทำให้เป็นมาตรฐานเชิงควอนไทล์ใน R
สมมติว่าเราสร้างกรอบข้อมูลต่อไปนี้ใน R ซึ่งมีสองคอลัมน์:
#make this example reproducible set. seeds (0) #create data frame with two columns df <- data. frame (x=rnorm(1000), y=rnorm(1000)) #view first six rows of data frame head(df) xy 1 1.2629543 -0.28685156 2 -0.3262334 1.84110689 3 1.3297993 -0.15676431 4 1.2724293 -1.38980264 5 0.4146414 -1.47310399 6 -1.5399500 -0.06951893
เราสามารถใช้ฟังก์ชัน sapply() และ quantile() เพื่อคำนวณควอนไทล์สำหรับ x และ y:
#calculate quantiles for x and y
sapply(df, function(x) quantile(x, probs = seq(0, 1, 1/4)))
xy
0% -3.23638573 -3.04536393
25% -0.70845589 -0.73331907
50% -0.05887078 -0.03181533
75% 0.68763873 0.71755969
100% 3.26641452 3.03903341
โปรดทราบว่า x และ y มีค่าควอนไทล์คล้ายกัน แต่ไม่ใช่ค่าที่เหมือนกัน
ตัวอย่างเช่น ค่าเปอร์เซ็นไทล์ที่ 25 สำหรับ x คือ -0.708 และค่าเปอร์เซ็นไทล์ที่ 25 สำหรับ y คือ -0.7333
หากต้องการดำเนินการทำให้เป็นมาตรฐานเชิงควอนไทล์ เราสามารถใช้ฟังก์ชัน Normalize.quantiles() จากแพ็คเกจ preprocessCore ใน R:
library (preprocessCore) #perform quantile normalization df_norm <- as. data . frame ( normalize.quantiles ( as.matrix (df))) #rename data frame columns names(df_norm) <- c(' x ', ' y ') #view first six row of new data frame head(df_norm) xy 1 1.2632137 -0.28520228 2 -0.3469744 1.82440519 3 1.3465807 -0.16471644 4 1.2692599 -1.34472394 5 0.4161133 -1.43717759 6 -1.6269731 -0.07906793
จากนั้นเราสามารถใช้โค้ดต่อไปนี้เพื่อคำนวณควอไทล์ของ x และ y อีกครั้ง:
#calculate quantiles for x and y
sapply(df_norm, function(x) quantile(x, probs = seq(0, 1, 1/4)))
xy
0% -3.14087483 -3.14087483
25% -0.72088748 -0.72088748
50% -0.04534305 -0.04534305
75% 0.70259921 0.70259921
100% 3.15272396 3.15272396
โปรดทราบว่าตอนนี้ควอไทล์จะเท่ากันสำหรับ x และ y
เราจะบอกว่า x และ y ถูกทำให้เป็นมาตรฐานเชิงควอไทล์แล้ว กล่าวอีกนัยหนึ่ง การแจกแจงทั้งสองตอนนี้เหมือนกันในแง่ของคุณสมบัติทางสถิติ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน R:
วิธีทำให้ข้อมูลเป็นมาตรฐานใน R
วิธีการคำนวณเปอร์เซ็นไทล์ใน R
วิธีใช้ฟังก์ชัน quantile() ใน R