ชุดตรวจสอบและชุดทดสอบ: อะไรคือความแตกต่าง?


เมื่อใดก็ตามที่เราปรับ อัลกอริทึมการเรียนรู้ของเครื่องเข้า กับชุดข้อมูล โดยทั่วไปเราจะแบ่งชุดข้อมูลออกเป็นสามส่วน:

1. ชุดฝึก : ใช้สำหรับฝึกโมเดล

2. ชุดการตรวจสอบ : ใช้เพื่อปรับพารามิเตอร์โมเดลให้เหมาะสม

3. ชุดทดสอบ : ใช้เพื่อให้ได้ค่าประมาณประสิทธิภาพของโมเดลขั้นสุดท้ายอย่างเป็นกลาง

แผนภาพต่อไปนี้ให้คำอธิบายด้วยภาพของชุดข้อมูลสามประเภทที่แตกต่างกันเหล่านี้:

จุดหนึ่งของความสับสนสำหรับนักเรียนคือความแตกต่างระหว่างชุดการตรวจสอบและชุดการทดสอบ

กล่าวง่ายๆ ก็คือ ชุดการตรวจสอบความถูกต้อง จะใช้เพื่อปรับพารามิเตอร์แบบจำลองให้เหมาะสม ในขณะที่ ชุดทดสอบ ใช้เพื่อประเมินแบบจำลองขั้นสุดท้ายอย่างเป็นกลาง

แสดงให้เห็นว่าอัตราข้อผิดพลาดที่วัดโดยการตรวจสอบความถูกต้องข้าม k-fold มีแนวโน้มที่จะประเมินอัตราข้อผิดพลาดที่แท้จริงต่ำเกินไปเมื่อนำแบบจำลองไปใช้กับชุดข้อมูลที่มองไม่เห็น

ดังนั้นเราจึงปรับโมเดลสุดท้ายให้เข้ากับ ชุดทดสอบ เพื่อให้ได้ค่าประมาณที่เป็นกลางว่าอัตราข้อผิดพลาดที่แท้จริงจะเป็นอย่างไรในโลกแห่งความเป็นจริง

ตัวอย่างต่อไปนี้แสดงให้เห็นถึงความแตกต่างระหว่างชุดการตรวจสอบและชุดการทดสอบในทางปฏิบัติ

ตัวอย่าง: การทำความเข้าใจความแตกต่างระหว่างชุดการตรวจสอบและชุดการทดสอบ

สมมติว่านักลงทุนด้านอสังหาริมทรัพย์ต้องการใช้ (1) จำนวนห้องนอน (2) จำนวนตารางฟุตทั้งหมด และ (3) จำนวนห้องน้ำเพื่อทำนายราคาขายของบ้านหลังหนึ่งๆ

สมมติว่าเขามีชุดข้อมูลนี้เกี่ยวกับบ้าน 10,000 หลัง ขั้นแรก จะแบ่งชุดข้อมูลออกเป็นชุดการฝึกอบรมจำนวน 8,000 หลัง และชุดทดสอบจำนวน 2,000 หลัง:

จากนั้นมันจะปรับโมเดลการถดถอยเชิงเส้นหลายตัวเข้ากับชุดข้อมูลสี่ครั้ง โดยจะใช้บ้าน 6,000 หลังสำหรับชุดฝึกอบรม และ 2,000 หลังสำหรับชุดตรวจสอบในแต่ละครั้ง

สิ่งนี้เรียกว่า การตรวจสอบข้าม k-fold

ชุดการฝึกใช้เพื่อฝึกโมเดล และชุดการตรวจสอบความถูกต้องใช้เพื่อประเมินประสิทธิภาพของโมเดล โดยจะใช้กลุ่มบ้านที่แตกต่างกัน 2,000 หลังในแต่ละครั้งสำหรับชุดการตรวจสอบ

โดยสามารถทำการตรวจสอบข้าม k-fold นี้กับแบบจำลองการถดถอยหลายประเภท เพื่อระบุแบบจำลองที่มีข้อผิดพลาดน้อยที่สุด (เช่น ระบุแบบจำลองที่เหมาะกับชุดข้อมูลมากที่สุด)

เมื่อมีการระบุรุ่นที่ดีที่สุดแล้วเท่านั้น บริษัทจะใช้ชุดทดสอบ 2,000 บ้านที่นำเสนอในตอนเริ่มต้นเพื่อรับการประมาณประสิทธิภาพขั้นสุดท้ายของโมเดลอย่างเป็นกลาง

ตัวอย่างเช่น สามารถระบุประเภทเฉพาะของแบบจำลองการถดถอยซึ่งมีค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์เท่ากับ 8.345 นั่นคือความแตกต่างสัมบูรณ์โดยเฉลี่ยระหว่างราคาที่อยู่อาศัยที่คาดการณ์ไว้กับราคาที่อยู่อาศัยจริงคือ 8,345 ดอลลาร์

จากนั้นเขาสามารถนำแบบจำลองการถดถอยที่แน่นอนนี้ไปใช้กับชุดทดสอบของบ้าน 2,000 หลังที่ยังไม่ได้ใช้ และพบว่าค่าคลาดเคลื่อนสัมบูรณ์โดยเฉลี่ยของแบบจำลองคือ 8.847

ดังนั้น ค่าประมาณที่เป็นกลางของค่าคลาดเคลื่อนสัมบูรณ์ที่แท้จริงของแบบจำลองคือ 8,847 ดอลลาร์

แหล่งข้อมูลเพิ่มเติม

คำแนะนำง่ายๆ สำหรับการตรวจสอบข้าม K-Fold
วิธีดำเนินการตรวจสอบข้าม K-Fold ใน Python
วิธีดำเนินการตรวจสอบข้าม K-Fold ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *