การเลือกเซ็ตย่อยที่ดีที่สุดในการเรียนรู้ของเครื่อง (คำอธิบายและตัวอย่าง)
ในแมชชีนเลิร์นนิง เรามักจะต้องการสร้างแบบจำลองโดยใช้ชุดตัวแปรทำนายและ ตัวแปรตอบสนอง เป้าหมายของเราคือการสร้างแบบจำลองที่สามารถใช้ตัวแปรทำนายเพื่อทำนายค่าของตัวแปรตอบสนองได้อย่างมีประสิทธิภาพ
เมื่อพิจารณาจากชุดของตัวแปรทำนายผลรวม p มีหลายแบบจำลองที่เราสามารถสร้างได้ วิธีหนึ่งที่เราสามารถใช้เพื่อเลือกโมเดล ที่ดีที่สุด เรียกว่า การเลือกเซ็ตย่อยที่ดีที่สุด และทำงานดังนี้:
1. ให้ M 0 เป็นโมเดลว่าง ซึ่งไม่มีตัวแปรทำนาย
2. สำหรับ k = 1, 2, … p:
- ติดตั้งโมเดล p C k ทั้งหมดที่มีตัวทำนาย k ทุกประการ
- เลือกรุ่น ที่ ดีที่สุดจากรุ่น pCk เหล่านี้แล้วเรียกมันว่า Mk กำหนด “ดีที่สุด” เป็นโมเดลที่มี R 2 สูงสุดหรือ RSS ต่ำสุดที่เทียบเท่ากัน
3. เลือกแบบจำลองที่ดีที่สุดเพียงตัวเดียวจาก M 0 … M p โดยใช้ข้อผิดพลาดการทำนายการตรวจสอบข้าม, Cp, BIC, AIC หรือที่ปรับแล้ว R 2
โปรดทราบว่าสำหรับชุดตัวแปรทำนาย p มีแบบจำลองที่เป็นไปได้ 2 p
ตัวอย่างการเลือกเซตย่อยที่ดีที่สุด
สมมติว่าเรามีชุดข้อมูลที่มีตัวแปรทำนาย p = 3 และตัวแปรตอบสนอง y เพื่อทำการเลือกเซ็ตย่อยที่ดีที่สุดกับชุดข้อมูลนี้ เราจะใส่โมเดล 2 p = 2 3 = 8 ต่อไปนี้:
- แบบจำลองที่ไม่มีตัวทำนาย
- แบบจำลองที่มีตัวทำนาย x 1
- แบบจำลองที่มีตัวทำนาย x 2
- แบบจำลองที่มีตัวทำนาย x 3
- แบบจำลองที่มีตัวทำนาย x 1 , x 2
- แบบจำลองที่มีตัวทำนาย x 1 , x 3
- แบบจำลองที่มีตัวทำนาย x 2 , x 3
- แบบจำลองที่มีตัวทำนาย x 1 , x 2 , x 3
จากนั้นเราจะเลือกแบบจำลองที่มี R2 สูงสุดจากแต่ละชุดของแบบจำลองที่มีตัวทำนาย k ตัวอย่างเช่น เราอาจเลือก:
- แบบจำลองที่ไม่มีตัวทำนาย
- แบบจำลองที่มีตัวทำนาย x 2
- แบบจำลองที่มีตัวทำนาย x 1 , x 2
- แบบจำลองที่มีตัวทำนาย x 1 , x 2 , x 3
จากนั้นเราจะ ตรวจสอบความถูกต้องข้าม และเลือกแบบจำลองที่ดีที่สุดเป็นแบบจำลองที่ทำให้เกิดข้อผิดพลาดในการทำนายต่ำที่สุด ได้แก่ Cp, BIC, AIC หรือ R2 ที่ปรับปรุงแล้ว
ตัวอย่างเช่น เราอาจลงเอยด้วยการเลือกแบบจำลองต่อไปนี้เป็นแบบจำลองที่ “ดีที่สุด” เนื่องจากทำให้เกิดข้อผิดพลาดในการทำนายข้ามการตรวจสอบที่ต่ำที่สุด:
- แบบจำลองที่มีตัวทำนาย x 1 , x 2
เกณฑ์ในการเลือกรุ่นที่ “ดีที่สุด”
ขั้นตอนสุดท้ายในการเลือกเซ็ตย่อยที่ดีที่สุดคือการเลือกแบบจำลองที่มีข้อผิดพลาดในการทำนายต่ำที่สุด Cp ต่ำสุด BIC ต่ำสุด AIC ต่ำสุด หรือ R2 ที่ปรับต่ำสุด สูงกว่า
ต่อไปนี้คือสูตรที่ใช้ในการคำนวณแต่ละเมตริกเหล่านี้:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 ปรับแล้ว: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
ทอง:
- d: จำนวนตัวทำนาย
- n: การสังเกตทั้งหมด
- σ̂: การประมาณค่าความแปรปรวนของข้อผิดพลาดที่เกี่ยวข้องกับการวัดการตอบสนองแต่ละรายการในแบบจำลองการถดถอย
- RSS: ผลรวมที่เหลือของกำลังสองจากแบบจำลองการถดถอย
- TSS: ผลรวมกำลังสองของแบบจำลองการถดถอย
ข้อดีและข้อเสียของการเลือกเซ็ตย่อยที่ดีที่สุด
การเลือกเซ็ตย่อยที่ดีที่สุดจะให้ ประโยชน์ดังต่อไปนี้:
- เป็นวิธีง่ายๆ ในการทำความเข้าใจและตีความ
- สิ่งนี้ช่วยให้เราสามารถระบุแบบจำลองที่ดีที่สุดเท่าที่จะเป็นไปได้เนื่องจากเราพิจารณาการรวมกันของตัวแปรทำนายทั้งหมด
อย่างไรก็ตาม วิธีนี้มี ข้อเสียดังนี้:
- สิ่งนี้อาจมีความเข้มข้นในการคำนวณ สำหรับชุดของตัวแปรทำนาย p มีโมเดลที่เป็นไปได้ 2 p ตัวอย่างเช่น ด้วยตัวแปรทำนาย 10 ตัว จะมีแบบจำลองที่เป็นไปได้ 2 10 = 1,000 ตัวที่ต้องพิจารณา
- เนื่องจากพิจารณาแบบจำลองจำนวนมาก จึงอาจพบแบบจำลองที่ทำงานได้ดีกับข้อมูลการฝึก แต่ไม่ใช่กับข้อมูลในอนาคต ซึ่งอาจนำไป สู่การสวม อุปกรณ์ มากเกินไป
บทสรุป
แม้ว่าการเลือกชุดย่อยที่ดีที่สุดนั้นง่ายต่อการนำไปใช้และเข้าใจ แต่ก็อาจไม่สามารถทำได้หากคุณทำงานกับชุดข้อมูลที่มีตัวทำนายจำนวนมาก และอาจนำไปสู่การติดตั้งมากเกินไป
อีกทางเลือกหนึ่งของวิธีนี้เรียกว่า การเลือกแบบขั้นตอน ซึ่งมีประสิทธิภาพในการคำนวณมากกว่า