ความรู้เบื้องต้นเกี่ยวกับการถดถอยองค์ประกอบหลัก
ปัญหาที่พบบ่อยที่สุดประการหนึ่งที่คุณจะพบเมื่อสร้างแบบจำลองคือ ความเป็นหลายเส้นตรง สิ่งนี้เกิดขึ้นเมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปในชุดข้อมูลมีความสัมพันธ์กันสูง
เมื่อเกิดเหตุการณ์นี้ โมเดลที่กำหนดอาจพอดีกับชุดข้อมูลการฝึกได้ดี แต่อาจทำงานได้ไม่ดีกับชุดข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน เนื่องจาก เกินพอดีกับ ชุดการฝึก
วิธีหนึ่งในการหลีกเลี่ยงการโอเวอร์ฟิตคือการใช้วิธี การเลือกเซ็ตย่อย บางประเภท เช่น:
วิธีการเหล่านี้พยายามลบตัวทำนายที่ไม่เกี่ยวข้องออกจากแบบจำลอง เพื่อให้เหลือเพียงตัวทำนายที่สำคัญที่สุดที่สามารถทำนายความแปรผันของตัวแปรตอบสนองในแบบจำลองสุดท้ายได้
อีกวิธีหนึ่งในการหลีกเลี่ยงการโอเวอร์ฟิตคือการใช้วิธี การทำให้เป็นมาตรฐาน บางประเภท เช่น:
วิธีการเหล่านี้พยายามจำกัดหรือทำให้ค่าสัมประสิทธิ์ของแบบจำลอง เป็นปกติ เพื่อลดความแปรปรวนและสร้างแบบจำลองที่สามารถสรุปข้อมูลใหม่ได้ดี
แนวทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิงในการจัดการกับความเป็นหลายเส้นตรงเรียกว่า การลดขนาด
วิธีการทั่วไปในการลดขนาดเรียกว่า การถดถอยองค์ประกอบหลัก ซึ่งทำงานดังนี้:
1. สมมติว่า ชุด ข้อมูลที่กำหนดมี ตัวทำนาย p :
2. คำนวณ Z 1 , … , Z M เป็นผลรวมเชิงเส้น M ของตัวพยากรณ์ p ดั้งเดิม
- ซี ม. = ΣΦ เจเอ็ม _
- Z 1 คือผลรวมเชิงเส้นของตัวทำนายที่จะจับความแปรปรวนให้ได้มากที่สุด
- Z 2 คือผลรวมเชิงเส้นถัดไปของตัวทำนายที่จะจับความแปรปรวนมากที่สุดในขณะที่ ตั้งฉาก (กล่าวคือ ไม่สัมพันธ์กัน) กับ Z 1
- Z 3 คือผลรวมเชิงเส้นถัดไปของตัวทำนายที่จะจับความแปรปรวนมากที่สุดในขณะที่ตั้งฉากกับ Z 2
- และอื่นๆ
3. ใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้องค์ประกอบหลัก M ตัวแรก Z 1 , …, Z M เป็นตัวทำนาย
คำว่า การลดขนาด มาจากข้อเท็จจริงที่ว่าวิธีนี้ต้องประมาณค่าสัมประสิทธิ์ M+1 เท่านั้น แทนที่จะเป็นค่าสัมประสิทธิ์ p+1 โดยที่ M < p
กล่าวอีกนัยหนึ่ง มิติ ของปัญหาลดลงจาก p+1 เป็น M+1
ในหลายกรณีที่มีชุดข้อมูลหลายคอลลิเนียริตี้ การถดถอยองค์ประกอบหลักสามารถสร้างแบบจำลองที่สามารถสรุปข้อมูลใหม่ได้ดีกว่า การถดถอยเชิงเส้นพหุคูณ แบบทั่วไป
ขั้นตอนในการดำเนินการถดถอยองค์ประกอบหลัก
ในทางปฏิบัติ ขั้นตอนต่อไปนี้ใช้ในการดำเนินการถดถอยองค์ประกอบหลัก:
1. สร้างมาตรฐานให้กับตัวทำนาย
ขั้นแรก โดยทั่วไป เราสร้างมาตรฐานให้กับข้อมูลโดยที่ตัวแปรทำนายแต่ละตัวมีค่าเฉลี่ยเป็น 0 และค่าเบี่ยงเบนมาตรฐานเป็น 1 วิธีนี้จะป้องกันไม่ให้ตัวทำนายตัวใดตัวหนึ่งมีอิทธิพลมากเกินไป โดยเฉพาะอย่างยิ่งหากมีการวัดในหน่วยที่แตกต่างกัน (c นั่นคือ ถ้า 1 วัดเป็นนิ้ว) และ X 2 วัดเป็นหลา)
2. คำนวณองค์ประกอบหลักและดำเนินการถดถอยเชิงเส้นโดยใช้องค์ประกอบหลักเป็นตัวทำนาย
ต่อไป เราจะคำนวณองค์ประกอบหลักและใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้องค์ประกอบหลัก M ตัวแรก Z 1 , …, Z M เป็นตัวทำนาย
3. ตัดสินใจว่าจะเก็บส่วนประกอบหลักกี่ชิ้น
ต่อไป เราใช้ การตรวจสอบข้าม k-fold เพื่อค้นหาองค์ประกอบหลักที่เหมาะสมที่สุดเพื่อเก็บไว้ในโมเดล จำนวนส่วนประกอบหลักที่ “เหมาะสมที่สุด” ที่จะเก็บไว้ โดยทั่วไปคือจำนวนที่ทำให้เกิดความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) ต่ำสุดของการทดสอบ
ข้อดีและข้อเสียของการถดถอยองค์ประกอบหลัก
การถดถอยองค์ประกอบหลัก (PCR) มี ข้อดี ดังต่อไปนี้:
- PCR มีแนวโน้มที่จะทำงานได้ดีเมื่อองค์ประกอบหลักแรกสามารถจับความแปรผันส่วนใหญ่ในตัวทำนายได้ เช่นเดียวกับความสัมพันธ์กับตัวแปรตอบสนอง
- PCR สามารถทำงานได้ดีแม้ว่าตัวแปรทำนายจะมีความสัมพันธ์กันสูง เนื่องจากสร้างองค์ประกอบหลักที่ตั้งฉากกัน (กล่าวคือ ไม่มีความสัมพันธ์กัน) ซึ่งกันและกัน
- PCR ไม่ต้องการให้คุณเลือกตัวแปรตัวทำนายที่จะลบออกจากแบบจำลอง เนื่องจากแต่ละองค์ประกอบหลักใช้การผสมผสานเชิงเส้นของตัวแปรตัวทำนายทั้งหมด
- PCR สามารถใช้เมื่อมีตัวแปรทำนายมากกว่าการสังเกต ซึ่งแตกต่างจากการถดถอยเชิงเส้นพหุคูณ
อย่างไรก็ตาม PCR มี ข้อเสียเปรียบ:
- PCR จะไม่นำตัวแปรการตอบสนองมาพิจารณาในการตัดสินใจเลือกส่วนประกอบหลักที่จะเก็บหรือลบออก แต่จะพิจารณาเฉพาะขนาดของความแปรปรวนระหว่างตัวแปรทำนายที่องค์ประกอบหลักจับไว้เท่านั้น เป็นไปได้ว่าในบางกรณีองค์ประกอบหลักที่มีความแตกต่างมากที่สุดอาจไม่สามารถทำนายตัวแปรการตอบสนองได้ดี
ในทางปฏิบัติ เราปรับแบบจำลองได้หลายประเภท (PCR, Ridge, Lasso, การถดถอยเชิงเส้นพหุคูณ ฯลฯ) และใช้การตรวจสอบความถูกต้องข้ามแบบ k-fold เพื่อระบุแบบจำลองที่สร้างการทดสอบ MSE ต่ำสุดในข้อมูลใหม่
ในกรณีที่ชุดข้อมูลดั้งเดิมมีพหุคอลลิเนียริตี้ (ซึ่งมักเป็นเช่นนั้น) PCR มีแนวโน้มที่จะทำงานได้ดีกว่าการถดถอยกำลังสองน้อยที่สุดแบบธรรมดา อย่างไรก็ตาม เป็นความคิดที่ดีที่จะติดตั้งโมเดลที่แตกต่างกันหลายๆ โมเดล เพื่อที่คุณจะได้สามารถระบุได้ว่าโมเดลใดสรุปข้อมูลทั่วไปได้ดีที่สุดสำหรับข้อมูลที่มองไม่เห็น
การถดถอยองค์ประกอบหลักใน R & Python
บทช่วยสอนต่อไปนี้แสดงวิธีการถดถอยส่วนประกอบหลักใน R และ Python:
การถดถอยองค์ประกอบหลักใน R (ทีละขั้นตอน)
การถดถอยองค์ประกอบหลักใน Python (ทีละขั้นตอน)