การเลือกแบบเป็นขั้นคืออะไร? (คำอธิบายและตัวอย่าง)
ในด้านการเรียนรู้ของเครื่อง เป้าหมายของเราคือการสร้างแบบจำลองที่สามารถใช้ชุดตัวแปรทำนายเพื่อทำนายค่าของ ตัวแปรตอบสนอง ได้อย่างมีประสิทธิภาพ
เมื่อพิจารณาจากชุดของตัวแปรทำนายผลรวม p มีหลายแบบจำลองที่เราสามารถสร้างได้ วิธีหนึ่งที่เราสามารถใช้เพื่อเลือกแบบจำลองที่ดีที่สุดเรียกว่า การเลือกเซตย่อยที่ดีที่สุด ซึ่งพยายามเลือกแบบจำลองที่ดีที่สุดจากแบบจำลองที่เป็นไปได้ ทั้งหมด ที่สามารถสร้างขึ้นด้วยชุดตัวทำนาย
น่าเสียดายที่วิธีนี้มีข้อเสียสองประการ:
- สิ่งนี้อาจมีความเข้มข้นในการคำนวณ สำหรับชุดของตัวแปรทำนาย p มีโมเดลที่เป็นไปได้ 2 p ตัวอย่างเช่น ด้วยตัวแปรทำนาย 10 ตัว จะมีแบบจำลองที่เป็นไปได้ 2 10 = 1,000 ตัวที่ต้องพิจารณา
- เนื่องจากพิจารณาแบบจำลองจำนวนมาก จึงอาจพบแบบจำลองที่ทำงานได้ดีกับข้อมูลการฝึก แต่ไม่ใช่กับข้อมูลในอนาคต ซึ่งอาจนำไป สู่การสวมอุปกรณ์มากเกินไป
อีกทางเลือกหนึ่งในการเลือกชุดย่อยที่ดีที่สุดเรียกว่า การเลือกแบบขั้นตอน ซึ่งจะเปรียบเทียบชุดโมเดลที่เล็กกว่ามาก
วิธีการเลือกขั้นตอนมีสองประเภท: การเลือกขั้นตอนไปข้างหน้าและการเลือกขั้นตอนย้อนกลับ
การเลือกไปข้างหน้าทีละขั้นตอน
การเลือกไปข้างหน้าทีละขั้นตอนทำงานดังนี้:
1. ให้ M 0 เป็นโมเดลว่าง ซึ่งไม่มีตัวแปรทำนาย
2. สำหรับ k = 0, 2, … p-1:
- ติดตั้งโมเดล pk ทั้งหมดที่เพิ่มตัวทำนายใน M k ด้วยตัวแปรตัวทำนายเพิ่มเติม
- เลือกสิ่งที่ดีที่สุดจากรุ่น pk เหล่านี้และเรียกมันว่า M k+1 กำหนด “ดีที่สุด” เป็นโมเดลที่มี R 2 สูงสุดหรือ RSS ต่ำสุดที่เทียบเท่ากัน
3. เลือกแบบจำลองที่ดีที่สุดเพียงตัวเดียวจาก M 0 … M p โดยใช้ข้อผิดพลาดการทำนายการตรวจสอบข้าม, Cp, BIC, AIC หรือที่ปรับแล้ว R 2
การเลือกแบบย้อนกลับทีละขั้นตอน
การเลือกขั้นตอนย้อนกลับทำงานดังนี้:
1. ให้ M p เป็นโมเดลที่สมบูรณ์ ซึ่งมีตัวแปรทำนาย p ทั้งหมด
2. สำหรับ k = p, p-1, … 1:
- ติดตั้งโมเดล k ทั้งหมดที่มีตัวทำนายทั้งหมดยกเว้นตัวเดียวใน Mk เพื่อให้ได้ตัวแปรตัวทำนาย k-1 ทั้งหมด
- เลือกสิ่งที่ดีที่สุดจากรุ่น k เหล่านี้แล้วเรียกมันว่า M k-1 กำหนด “ดีที่สุด” เป็นโมเดลที่มี R 2 สูงสุดหรือ RSS ต่ำสุดที่เทียบเท่ากัน
3. เลือกแบบจำลองที่ดีที่สุดเพียงตัวเดียวจาก M 0 … M p โดยใช้ข้อผิดพลาดการทำนายการตรวจสอบข้าม, Cp, BIC, AIC หรือที่ปรับแล้ว R 2
เกณฑ์ในการเลือกรุ่นที่ “ดีที่สุด”
ขั้นตอนสุดท้ายของการเลือกไปข้างหน้าและข้างหลังแบบเป็นขั้นตอนคือการเลือกแบบจำลองที่มีข้อผิดพลาดในการทำนายต่ำที่สุด Cp ต่ำสุด BIC ต่ำสุด AIC สูงสุดต่ำ หรือ R 2 ที่ปรับสูงสุด
ต่อไปนี้คือสูตรที่ใช้ในการคำนวณแต่ละเมตริกเหล่านี้:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 ปรับแล้ว: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
ทอง:
- d: จำนวนตัวทำนาย
- n: การสังเกตทั้งหมด
- σ̂: การประมาณค่าความแปรปรวนของข้อผิดพลาดที่เกี่ยวข้องกับการวัดการตอบสนองแต่ละรายการในแบบจำลองการถดถอย
- RSS: ผลรวมที่เหลือของกำลังสองจากแบบจำลองการถดถอย
- TSS: ผลรวมกำลังสองของแบบจำลองการถดถอย
ข้อดีและข้อเสียของการเลือกฉาก
การเลือกแบบทีละขั้นมี ข้อดี ดังต่อไปนี้:
วิธีนี้มีประสิทธิภาพในการคำนวณมากกว่าการเลือกเซ็ตย่อยที่ดีที่สุด เมื่อกำหนดตัวแปรทำนาย p การเลือกเซตย่อยที่ดีที่สุดจะต้องสอดคล้องกับแบบจำลอง 2 p
ในทางกลับกัน การเลือกแบบขั้นตอนควรพอดีกับรุ่น 1+p(p+ 1)/2 เท่านั้น สำหรับตัวแปรตัวทำนาย p = 10 การเลือกเซ็ตย่อยที่ดีที่สุดควรพอดีกับโมเดล 1,000 ตัว ในขณะที่การเลือกแบบขั้นตอนควรพอดีกับโมเดล 56 ตัวเท่านั้น
อย่างไรก็ตาม การเลือกแบบเป็นขั้นมี ข้อเสียที่อาจเกิดขึ้นดังต่อไปนี้:
ไม่รับประกันว่าจะพบรุ่นที่ดีที่สุดที่เป็นไปได้ในบรรดารุ่น 2p ที่เป็นไปได้ทั้งหมด
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลที่มีตัวทำนาย p = 3 ตัว โมเดลตัวทำนายที่ดีที่สุดเท่าที่เป็นไปได้อาจมี x 1 และโมเดลตัวทำนายสองตัวที่ดีที่สุดที่เป็นไปได้อาจมี x 1 และ x 2 แทน
ในกรณีนี้ การเลือกแบบทีละขั้นไปข้างหน้าจะล้มเหลวในการเลือกแบบจำลองตัวทำนายสองตัวที่ดีที่สุดเท่าที่เป็นไปได้ เนื่องจาก M 1 จะมี x 1 ดังนั้น M 2 จะต้องมี x 1 เช่นเดียวกับตัวแปรอื่นด้วย