ข้อผิดพลาดในการทำนายในสถิติคืออะไร? (คำจำกัดความและตัวอย่าง)


ในทางสถิติ ข้อผิดพลาดในการทำนาย หมายถึงความแตกต่างระหว่างค่าที่คาดการณ์โดยแบบจำลองบางอย่างกับค่าจริง

ข้อผิดพลาดในการทำนายมักใช้ในสองบริบท:

1. การถดถอยเชิงเส้น: ใช้เพื่อทำนายค่าของตัวแปรตอบสนองต่อเนื่อง

โดยทั่วไปเราจะวัดข้อผิดพลาดในการทำนายของแบบจำลองการถดถอยเชิงเส้นด้วยหน่วยเมตริกที่เรียกว่า RMSE ซึ่งย่อมาจากข้อผิดพลาดรูทค่าเฉลี่ยกำลังสอง

มีการคำนวณดังนี้:

RMSE = √ Σ(ŷ ผม – y ผม ) 2 / n

ทอง:

  • Σ เป็นสัญลักษณ์ที่หมายถึง “ผลรวม”
  • ŷ i คือค่าที่ทำนายไว้สำหรับการสังเกต ครั้งที่ i
  • y คือค่าที่สังเกตได้สำหรับการสังเกต ครั้งที่ 3
  • n คือขนาดตัวอย่าง

2. การถดถอยโลจิสติก: ใช้เพื่อทำนายค่าของตัวแปรตอบสนองแบบไบนารี

วิธีทั่วไปในการวัดข้อผิดพลาดในการทำนายของแบบจำลองการถดถอยโลจิสติกคือการใช้หน่วยเมตริกที่เรียกว่าอัตราข้อผิดพลาดในการจำแนกประเภททั้งหมด

มีการคำนวณดังนี้:

อัตราการจัดประเภทผิดทั้งหมด = (# การคาดคะเนที่ไม่ถูกต้อง / # การคาดคะเนทั้งหมด)

ยิ่งค่าของอัตราการจำแนกประเภทต่ำลง โมเดลก็ยิ่งสามารถทำนายผลลัพธ์ของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น

ตัวอย่างต่อไปนี้แสดงวิธีการคำนวณข้อผิดพลาดในการทำนายสำหรับแบบจำลองการถดถอยเชิงเส้นและแบบจำลองการถดถอยโลจิสติกในทางปฏิบัติ

ตัวอย่างที่ 1: การคำนวณข้อผิดพลาดในการทำนายในการถดถอยเชิงเส้น

สมมติว่าเราใช้แบบจำลองการถดถอยเพื่อทำนายว่าผู้เล่น 10 คนจะทำคะแนนในเกมบาสเก็ตบอลได้กี่คะแนน

ตารางต่อไปนี้แสดงคะแนนที่แบบจำลองทำนายไว้เปรียบเทียบกับคะแนนจริงที่ผู้เล่นทำได้:

เราจะคำนวณค่าความคลาดเคลื่อนกำลังสองเฉลี่ยราก (RMSE) ดังนี้

  • RMSE = √ Σ(ŷ ผม – y ผม ) 2 / n
  • RMSE = √(((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
  • RMSE = 4

ค่าคลาดเคลื่อนกำลังสองเฉลี่ยคือ 4 ซึ่งบอกเราว่าค่าเบี่ยงเบนเฉลี่ยระหว่างคะแนนที่คาดการณ์ไว้กับคะแนนจริงที่ได้คือ 4

ที่เกี่ยวข้อง: ค่า RMSE ที่ดีคืออะไร

ตัวอย่างที่ 2: การคำนวณข้อผิดพลาดในการทำนายในการถดถอยโลจิสติก

สมมติว่าเราใช้แบบจำลองการถดถอยลอจิสติกส์เพื่อคาดการณ์ว่าผู้เล่นบาสเกตบอลระดับวิทยาลัย 10 คนจะถูกคัดเลือกเข้าสู่ NBA หรือไม่

ตารางต่อไปนี้แสดงผลลัพธ์ที่คาดการณ์ไว้สำหรับผู้เล่นแต่ละคนเทียบกับผลลัพธ์จริง (1 = ร่างแล้ว 0 = ยังไม่ได้ร่าง):

เราจะคำนวณอัตราการจัดหมวดหมู่ที่ไม่ถูกต้องทั้งหมดดังนี้:

  • อัตราการจัดประเภทผิดทั้งหมด = (# การคาดคะเนที่ไม่ถูกต้อง / # การคาดคะเนทั้งหมด)
  • อัตราข้อผิดพลาดในการจำแนกประเภททั้งหมด = 4/10
  • อัตราการจัดหมวดหมู่ที่ไม่ถูกต้องทั้งหมด = 40%

อัตราข้อผิดพลาดในการจำแนกประเภททั้งหมดคือ 40%

ค่านี้ค่อนข้างสูง บ่งชี้ว่าโมเดลทำงานได้ไม่ดีนักในการทำนายว่าผู้เล่นจะถูกดราฟต์หรือไม่

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะให้ข้อมูลเบื้องต้นเกี่ยวกับวิธีการถดถอยประเภทต่างๆ:

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
รู้เบื้องต้นเกี่ยวกับการถดถอยโลจิสติก

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *