สถิติ press คืออะไร?
ในทางสถิติ เราใช้ แบบจำลองการถดถอย ด้วยเหตุผลสองประการ:
(1) อธิบาย ความสัมพันธ์ระหว่าง ตัวแปรอธิบายตั้งแต่หนึ่งตัวแปร ขึ้นไปกับ ตัวแปรตอบสนอง
(2) ทำนาย ค่าของตัวแปรตอบสนองโดยพิจารณาจากค่าของตัวแปรอธิบายตั้งแต่หนึ่งตัวแปรขึ้นไป
เมื่อเป้าหมายของเราคือ (2) ทำนาย ค่าของตัวแปรตอบสนอง เราต้องการให้แน่ใจว่าเราใช้แบบจำลองการถดถอยที่ดีที่สุดเท่าที่จะเป็นไปได้
ตัวชี้วัดหนึ่งที่เราสามารถใช้เพื่อค้นหาแบบจำลองการถดถอยที่จะทำให้การคาดการณ์ข้อมูลใหม่ได้ดีที่สุดคือ สถิติ PRESS ซึ่งย่อมาจาก ” ผลรวม ที่เหลือ ของ กำลังสอง ที่คาดการณ์ไว้ “
มีการคำนวณดังนี้:
กด = Σ(e i / (1-h ii )) 2
ทอง:
- e i : สาร ตกค้าง i
- h ii : การวัดอิทธิพล (เรียกอีกอย่างว่า “การยกระดับ”) ของการสังเกต ครั้งที่ 3 เกี่ยวกับความพอดีของแบบจำลอง
เมื่อพิจารณาจากแบบจำลองการถดถอยหลายตัว ควรเลือกตัวที่มี PRESS ต่ำสุดเป็นตัวที่จะทำงานได้ดีที่สุดกับชุดข้อมูลใหม่
ตัวอย่างต่อไปนี้แสดงวิธีคำนวณสถิติ PRESS สำหรับแบบจำลองการถดถอยเชิงเส้นที่แตกต่างกันสามแบบใน R
ตัวอย่าง: การคำนวณสถิติ PRESS
สมมติว่าเรามีชุดข้อมูลที่มีตัวแปรอธิบายสามตัว ได้แก่ x1 , x2 และ x3 และตัวแปรตอบสนอง y:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
รหัสต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยที่แตกต่างกันสามแบบให้พอดีกับชุดข้อมูลนี้โดยใช้ฟังก์ชัน lm()
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
รหัสต่อไปนี้แสดงวิธีการคำนวณสถิติ PRESS สำหรับแต่ละรุ่น
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
ปรากฎว่าโมเดลที่มีสถิติ PRESS ต่ำสุดคือโมเดล 2 โดยมีสถิติ PRESS อยู่ที่ 519.6435 ดังนั้นเราจะเลือกแบบจำลองนี้ให้เหมาะสมที่สุดสำหรับการคาดการณ์ชุดข้อมูลใหม่
แหล่งข้อมูลเพิ่มเติม
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
แบบจำลองที่รอบคอบคืออะไร?
ค่า R-กำลังสองที่ดีคืออะไร?