สถิติ press คืออะไร?


ในทางสถิติ เราใช้ แบบจำลองการถดถอย ด้วยเหตุผลสองประการ:

(1) อธิบาย ความสัมพันธ์ระหว่าง ตัวแปรอธิบายตั้งแต่หนึ่งตัวแปร ขึ้นไปกับ ตัวแปรตอบสนอง

(2) ทำนาย ค่าของตัวแปรตอบสนองโดยพิจารณาจากค่าของตัวแปรอธิบายตั้งแต่หนึ่งตัวแปรขึ้นไป

เมื่อเป้าหมายของเราคือ (2) ทำนาย ค่าของตัวแปรตอบสนอง เราต้องการให้แน่ใจว่าเราใช้แบบจำลองการถดถอยที่ดีที่สุดเท่าที่จะเป็นไปได้

ตัวชี้วัดหนึ่งที่เราสามารถใช้เพื่อค้นหาแบบจำลองการถดถอยที่จะทำให้การคาดการณ์ข้อมูลใหม่ได้ดีที่สุดคือ สถิติ PRESS ซึ่งย่อมาจาก ” ผลรวม ที่เหลือ ของ กำลังสอง ที่คาดการณ์ไว้

มีการคำนวณดังนี้:

กด = Σ(e i / (1-h ii )) 2

ทอง:

  • e i : สาร ตกค้าง i
  • h ii : การวัดอิทธิพล (เรียกอีกอย่างว่า “การยกระดับ”) ของการสังเกต ครั้งที่ 3 เกี่ยวกับความพอดีของแบบจำลอง

เมื่อพิจารณาจากแบบจำลองการถดถอยหลายตัว ควรเลือกตัวที่มี PRESS ต่ำสุดเป็นตัวที่จะทำงานได้ดีที่สุดกับชุดข้อมูลใหม่

ตัวอย่างต่อไปนี้แสดงวิธีคำนวณสถิติ PRESS สำหรับแบบจำลองการถดถอยเชิงเส้นที่แตกต่างกันสามแบบใน R

ตัวอย่าง: การคำนวณสถิติ PRESS

สมมติว่าเรามีชุดข้อมูลที่มีตัวแปรอธิบายสามตัว ได้แก่ x1 , x2 และ x3 และตัวแปรตอบสนอง y:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

รหัสต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยที่แตกต่างกันสามแบบให้พอดีกับชุดข้อมูลนี้โดยใช้ฟังก์ชัน lm()

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

รหัสต่อไปนี้แสดงวิธีการคำนวณสถิติ PRESS สำหรับแต่ละรุ่น

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

ปรากฎว่าโมเดลที่มีสถิติ PRESS ต่ำสุดคือโมเดล 2 โดยมีสถิติ PRESS อยู่ที่ 519.6435 ดังนั้นเราจะเลือกแบบจำลองนี้ให้เหมาะสมที่สุดสำหรับการคาดการณ์ชุดข้อมูลใหม่

แหล่งข้อมูลเพิ่มเติม

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
แบบจำลองที่รอบคอบคืออะไร?
ค่า R-กำลังสองที่ดีคืออะไร?

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *