ข้อผิดพลาดในการทำนายในสถิติคืออะไร? (คำจำกัดความและตัวอย่าง)
ในทางสถิติ ข้อผิดพลาดในการทำนาย หมายถึงความแตกต่างระหว่างค่าที่คาดการณ์โดยแบบจำลองบางอย่างกับค่าจริง
ข้อผิดพลาดในการทำนายมักใช้ในสองบริบท:
1. การถดถอยเชิงเส้น: ใช้เพื่อทำนายค่าของตัวแปรตอบสนองต่อเนื่อง
โดยทั่วไปเราจะวัดข้อผิดพลาดในการทำนายของแบบจำลองการถดถอยเชิงเส้นด้วยหน่วยเมตริกที่เรียกว่า RMSE ซึ่งย่อมาจากข้อผิดพลาดรูทค่าเฉลี่ยกำลังสอง
มีการคำนวณดังนี้:
RMSE = √ Σ(ŷ ผม – y ผม ) 2 / n
ทอง:
- Σ เป็นสัญลักษณ์ที่หมายถึง “ผลรวม”
- ŷ i คือค่าที่ทำนายไว้สำหรับการสังเกต ครั้งที่ i
- y คือค่าที่สังเกตได้สำหรับการสังเกต ครั้งที่ 3
- n คือขนาดตัวอย่าง
2. การถดถอยโลจิสติก: ใช้เพื่อทำนายค่าของตัวแปรตอบสนองแบบไบนารี
วิธีทั่วไปในการวัดข้อผิดพลาดในการทำนายของแบบจำลองการถดถอยโลจิสติกคือการใช้หน่วยเมตริกที่เรียกว่าอัตราข้อผิดพลาดในการจำแนกประเภททั้งหมด
มีการคำนวณดังนี้:
อัตราการจัดประเภทผิดทั้งหมด = (# การคาดคะเนที่ไม่ถูกต้อง / # การคาดคะเนทั้งหมด)
ยิ่งค่าของอัตราการจำแนกประเภทต่ำลง โมเดลก็ยิ่งสามารถทำนายผลลัพธ์ของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น
ตัวอย่างต่อไปนี้แสดงวิธีการคำนวณข้อผิดพลาดในการทำนายสำหรับแบบจำลองการถดถอยเชิงเส้นและแบบจำลองการถดถอยโลจิสติกในทางปฏิบัติ
ตัวอย่างที่ 1: การคำนวณข้อผิดพลาดในการทำนายในการถดถอยเชิงเส้น
สมมติว่าเราใช้แบบจำลองการถดถอยเพื่อทำนายว่าผู้เล่น 10 คนจะทำคะแนนในเกมบาสเก็ตบอลได้กี่คะแนน
ตารางต่อไปนี้แสดงคะแนนที่แบบจำลองทำนายไว้เปรียบเทียบกับคะแนนจริงที่ผู้เล่นทำได้:

เราจะคำนวณค่าความคลาดเคลื่อนกำลังสองเฉลี่ยราก (RMSE) ดังนี้
- RMSE = √ Σ(ŷ ผม – y ผม ) 2 / n
- RMSE = √(((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
- RMSE = 4
ค่าคลาดเคลื่อนกำลังสองเฉลี่ยคือ 4 ซึ่งบอกเราว่าค่าเบี่ยงเบนเฉลี่ยระหว่างคะแนนที่คาดการณ์ไว้กับคะแนนจริงที่ได้คือ 4
ที่เกี่ยวข้อง: ค่า RMSE ที่ดีคืออะไร
ตัวอย่างที่ 2: การคำนวณข้อผิดพลาดในการทำนายในการถดถอยโลจิสติก
สมมติว่าเราใช้แบบจำลองการถดถอยลอจิสติกส์เพื่อคาดการณ์ว่าผู้เล่นบาสเกตบอลระดับวิทยาลัย 10 คนจะถูกคัดเลือกเข้าสู่ NBA หรือไม่
ตารางต่อไปนี้แสดงผลลัพธ์ที่คาดการณ์ไว้สำหรับผู้เล่นแต่ละคนเทียบกับผลลัพธ์จริง (1 = ร่างแล้ว 0 = ยังไม่ได้ร่าง):

เราจะคำนวณอัตราการจัดหมวดหมู่ที่ไม่ถูกต้องทั้งหมดดังนี้:
- อัตราการจัดประเภทผิดทั้งหมด = (# การคาดคะเนที่ไม่ถูกต้อง / # การคาดคะเนทั้งหมด)
- อัตราข้อผิดพลาดในการจำแนกประเภททั้งหมด = 4/10
- อัตราการจัดหมวดหมู่ที่ไม่ถูกต้องทั้งหมด = 40%
อัตราข้อผิดพลาดในการจำแนกประเภททั้งหมดคือ 40%
ค่านี้ค่อนข้างสูง บ่งชี้ว่าโมเดลทำงานได้ไม่ดีนักในการทำนายว่าผู้เล่นจะถูกดราฟต์หรือไม่
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะให้ข้อมูลเบื้องต้นเกี่ยวกับวิธีการถดถอยประเภทต่างๆ:
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
รู้เบื้องต้นเกี่ยวกับการถดถอยโลจิสติก