การเลือกเซ็ตย่อยที่ดีที่สุดในการเรียนรู้ของเครื่อง (คำอธิบายและตัวอย่าง)


ในแมชชีนเลิร์นนิง เรามักจะต้องการสร้างแบบจำลองโดยใช้ชุดตัวแปรทำนายและ ตัวแปรตอบสนอง เป้าหมายของเราคือการสร้างแบบจำลองที่สามารถใช้ตัวแปรทำนายเพื่อทำนายค่าของตัวแปรตอบสนองได้อย่างมีประสิทธิภาพ

เมื่อพิจารณาจากชุดของตัวแปรทำนายผลรวม p มีหลายแบบจำลองที่เราสามารถสร้างได้ วิธีหนึ่งที่เราสามารถใช้เพื่อเลือกโมเดล ที่ดีที่สุด เรียกว่า การเลือกเซ็ตย่อยที่ดีที่สุด และทำงานดังนี้:

1. ให้ M 0 เป็นโมเดลว่าง ซึ่งไม่มีตัวแปรทำนาย

2. สำหรับ k = 1, 2, … p:

  • ติดตั้งโมเดล p C k ทั้งหมดที่มีตัวทำนาย k ทุกประการ
  • เลือกรุ่น ที่ ดีที่สุดจากรุ่น pCk เหล่านี้แล้วเรียกมันว่า Mk กำหนด “ดีที่สุด” เป็นโมเดลที่มี R 2 สูงสุดหรือ RSS ต่ำสุดที่เทียบเท่ากัน

3. เลือกแบบจำลองที่ดีที่สุดเพียงตัวเดียวจาก M 0 … M p โดยใช้ข้อผิดพลาดการทำนายการตรวจสอบข้าม, Cp, BIC, AIC หรือที่ปรับแล้ว R 2

โปรดทราบว่าสำหรับชุดตัวแปรทำนาย p มีแบบจำลองที่เป็นไปได้ 2 p

ตัวอย่างการเลือกเซตย่อยที่ดีที่สุด

สมมติว่าเรามีชุดข้อมูลที่มีตัวแปรทำนาย p = 3 และตัวแปรตอบสนอง y เพื่อทำการเลือกเซ็ตย่อยที่ดีที่สุดกับชุดข้อมูลนี้ เราจะใส่โมเดล 2 p = 2 3 = 8 ต่อไปนี้:

  • แบบจำลองที่ไม่มีตัวทำนาย
  • แบบจำลองที่มีตัวทำนาย x 1
  • แบบจำลองที่มีตัวทำนาย x 2
  • แบบจำลองที่มีตัวทำนาย x 3
  • แบบจำลองที่มีตัวทำนาย x 1 , x 2
  • แบบจำลองที่มีตัวทำนาย x 1 , x 3
  • แบบจำลองที่มีตัวทำนาย x 2 , x 3
  • แบบจำลองที่มีตัวทำนาย x 1 , x 2 , x 3

จากนั้นเราจะเลือกแบบจำลองที่มี R2 สูงสุดจากแต่ละชุดของแบบจำลองที่มีตัวทำนาย k ตัวอย่างเช่น เราอาจเลือก:

  • แบบจำลองที่ไม่มีตัวทำนาย
  • แบบจำลองที่มีตัวทำนาย x 2
  • แบบจำลองที่มีตัวทำนาย x 1 , x 2
  • แบบจำลองที่มีตัวทำนาย x 1 , x 2 , x 3

จากนั้นเราจะ ตรวจสอบความถูกต้องข้าม และเลือกแบบจำลองที่ดีที่สุดเป็นแบบจำลองที่ทำให้เกิดข้อผิดพลาดในการทำนายต่ำที่สุด ได้แก่ Cp, BIC, AIC หรือ R2 ที่ปรับปรุงแล้ว

ตัวอย่างเช่น เราอาจลงเอยด้วยการเลือกแบบจำลองต่อไปนี้เป็นแบบจำลองที่ “ดีที่สุด” เนื่องจากทำให้เกิดข้อผิดพลาดในการทำนายข้ามการตรวจสอบที่ต่ำที่สุด:

  • แบบจำลองที่มีตัวทำนาย x 1 , x 2

เกณฑ์ในการเลือกรุ่นที่ “ดีที่สุด”

ขั้นตอนสุดท้ายในการเลือกเซ็ตย่อยที่ดีที่สุดคือการเลือกแบบจำลองที่มีข้อผิดพลาดในการทำนายต่ำที่สุด Cp ต่ำสุด BIC ต่ำสุด AIC ต่ำสุด หรือ R2 ที่ปรับต่ำสุด สูงกว่า

ต่อไปนี้คือสูตรที่ใช้ในการคำนวณแต่ละเมตริกเหล่านี้:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 ปรับแล้ว: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

ทอง:

  • d: จำนวนตัวทำนาย
  • n: การสังเกตทั้งหมด
  • σ̂: การประมาณค่าความแปรปรวนของข้อผิดพลาดที่เกี่ยวข้องกับการวัดการตอบสนองแต่ละรายการในแบบจำลองการถดถอย
  • RSS: ผลรวมที่เหลือของกำลังสองจากแบบจำลองการถดถอย
  • TSS: ผลรวมกำลังสองของแบบจำลองการถดถอย

ข้อดีและข้อเสียของการเลือกเซ็ตย่อยที่ดีที่สุด

การเลือกเซ็ตย่อยที่ดีที่สุดจะให้ ประโยชน์ดังต่อไปนี้:

  • เป็นวิธีง่ายๆ ในการทำความเข้าใจและตีความ
  • สิ่งนี้ช่วยให้เราสามารถระบุแบบจำลองที่ดีที่สุดเท่าที่จะเป็นไปได้เนื่องจากเราพิจารณาการรวมกันของตัวแปรทำนายทั้งหมด

อย่างไรก็ตาม วิธีนี้มี ข้อเสียดังนี้:

  • สิ่งนี้อาจมีความเข้มข้นในการคำนวณ สำหรับชุดของตัวแปรทำนาย p มีโมเดลที่เป็นไปได้ 2 p ตัวอย่างเช่น ด้วยตัวแปรทำนาย 10 ตัว จะมีแบบจำลองที่เป็นไปได้ 2 10 = 1,000 ตัวที่ต้องพิจารณา
  • เนื่องจากพิจารณาแบบจำลองจำนวนมาก จึงอาจพบแบบจำลองที่ทำงานได้ดีกับข้อมูลการฝึก แต่ไม่ใช่กับข้อมูลในอนาคต ซึ่งอาจนำไป สู่การสวม อุปกรณ์ มากเกินไป

บทสรุป

แม้ว่าการเลือกชุดย่อยที่ดีที่สุดนั้นง่ายต่อการนำไปใช้และเข้าใจ แต่ก็อาจไม่สามารถทำได้หากคุณทำงานกับชุดข้อมูลที่มีตัวทำนายจำนวนมาก และอาจนำไปสู่การติดตั้งมากเกินไป

อีกทางเลือกหนึ่งของวิธีนี้เรียกว่า การเลือกแบบขั้นตอน ซึ่งมีประสิทธิภาพในการคำนวณมากกว่า

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *