ความรู้เบื้องต้นเกี่ยวกับกำลังสองน้อยที่สุดบางส่วน
ปัญหาที่พบบ่อยที่สุดประการหนึ่งที่คุณจะพบในการเรียนรู้ของเครื่องคือ ความเป็นหลายส่วน สิ่งนี้เกิดขึ้นเมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปในชุดข้อมูลมีความสัมพันธ์กันสูง
เมื่อสิ่งนี้เกิดขึ้น แบบจำลองอาจพอดีกับชุดข้อมูลการฝึกได้ดี แต่อาจทำงานได้ไม่ดีกับชุดข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน เนื่องจาก เกิน ชุดข้อมูลการฝึก ชุดฝึกซ้อม
วิธีหนึ่งในการแก้ไขปัญหา multicollinearity คือการใช้ การถดถอยองค์ประกอบหลัก ซึ่งคำนวณชุดค่าผสมเชิงเส้น M (เรียกว่า “ส่วนประกอบหลัก”) ของตัวแปรทำนาย p ดั้งเดิม จากนั้นใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองของการถดถอยเชิงเส้นโดยใช้หลักการ องค์ประกอบเป็นตัวทำนาย
ข้อเสียของการถดถอยองค์ประกอบหลัก (PCR) คือไม่ได้คำนึงถึง ตัวแปรการตอบสนอง เมื่อคำนวณองค์ประกอบหลัก
แต่จะพิจารณาเฉพาะขนาดของความแปรปรวนระหว่างตัวแปรทำนายที่องค์ประกอบหลักจับไว้เท่านั้น ด้วยเหตุนี้ จึงเป็นไปได้ว่าในบางกรณีองค์ประกอบหลักที่มีการเบี่ยงเบนมากที่สุดอาจไม่สามารถทำนายตัวแปรการตอบสนองได้ดี
เทคนิคที่เกี่ยวข้องกับ PCR เรียกว่า กำลังสองน้อยที่สุดบางส่วน เช่นเดียวกับ PCR กำลังสองน้อยที่สุดบางส่วนจะคำนวณชุดค่าผสมเชิงเส้น M (เรียกว่า “ส่วนประกอบ PLS”) ของตัวแปรตัวทำนาย p ดั้งเดิม และใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้ส่วนประกอบ PLS เป็นตัวทำนาย
แต่ต่างจาก PCR ตรงที่กำลังสองน้อยที่สุดบางส่วนพยายามค้นหาชุดค่าผสมเชิงเส้นที่อธิบายความแปรผันของ ทั้ง ตัวแปรตอบสนองและตัวแปรทำนาย
ขั้นตอนในการดำเนินการกำลังสองน้อยที่สุดบางส่วน
ในทางปฏิบัติ ขั้นตอนต่อไปนี้ใช้เพื่อดำเนินการกำลังสองน้อยที่สุดบางส่วน
1. สร้างมาตรฐานของข้อมูลโดยให้ตัวแปรทำนายและตัวแปรตอบสนองทั้งหมดมีค่าเฉลี่ย 0 และค่าเบี่ยงเบนมาตรฐานเป็น 1 เพื่อให้แน่ใจว่าตัวแปรแต่ละตัวจะถูกวัดในระดับเดียวกัน
2. คำนวณ Z 1 , … , Z M เป็นผลรวมเชิงเส้น M ของตัวพยากรณ์ p ดั้งเดิม
- ซี ม. = ΣΦ เจเอ็ม _
- ในการคำนวณ Z 1 ให้ตั้งค่า Φ j1 เท่ากับสัมประสิทธิ์ของการถดถอยเชิงเส้นอย่างง่ายของ Y บน X j คือผลรวมเชิงเส้นของตัวทำนายที่จะจับความแปรปรวนได้มากที่สุดเท่าที่จะเป็นไปได้
- ในการคำนวณ Z 2 ให้ถอยหลังแต่ละตัวแปรบน Z 1 แล้วหาค่าที่เหลือ จากนั้นคำนวณ Z 2 โดยใช้ข้อมูลที่จัดมุมฉากในลักษณะเดียวกับที่คำนวณ Z 1 ทุกประการ
- ทำซ้ำขั้นตอนนี้ M ครั้งเพื่อรับส่วนประกอบ M PLS
3. ใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้ส่วนประกอบ PLS Z 1 , … , Z M เป็นตัวทำนาย
4. สุดท้าย ใช้ การตรวจสอบข้าม k-fold เพื่อค้นหาจำนวนส่วนประกอบ PLS ที่เหมาะสมที่สุดที่จะเก็บไว้ในโมเดล จำนวนส่วนประกอบ PLS ที่ “เหมาะสมที่สุด” ที่จะเก็บไว้โดยทั่วไปคือตัวเลขที่ทำให้เกิดข้อผิดพลาดกำลังสองเฉลี่ยการทดสอบต่ำที่สุด (MSE)
บทสรุป
ในกรณีที่ชุดข้อมูลมีพหุคอลลิเนียร์ริตี้ การถดถอยกำลังสองน้อยที่สุดบางส่วนมีแนวโน้มที่จะทำงานได้ดีกว่าการถดถอยกำลังสองน้อยที่สุดทั่วไป อย่างไรก็ตาม เป็นความคิดที่ดีที่จะติดตั้งโมเดลที่แตกต่างกันหลายๆ โมเดล เพื่อที่คุณจะได้สามารถระบุได้ว่าโมเดลใดสรุปข้อมูลทั่วไปได้ดีที่สุดสำหรับข้อมูลที่มองไม่เห็น
ในทางปฏิบัติ เราได้ปรับโมเดลต่างๆ หลายประเภท (PLS, PCR , Ridge , Lasso , Multiple Linear Regression ฯลฯ) เข้ากับชุดข้อมูล และใช้การตรวจสอบความถูกต้องข้าม k-fold เพื่อระบุโมเดลที่สร้างการทดสอบ MSE ที่ดีที่สุด ลดลงจากข้อมูลใหม่ .