ความรู้เบื้องต้นเกี่ยวกับการถดถอยองค์ประกอบหลัก


ปัญหาที่พบบ่อยที่สุดประการหนึ่งที่คุณจะพบเมื่อสร้างแบบจำลองคือ ความเป็นหลายเส้นตรง สิ่งนี้เกิดขึ้นเมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปในชุดข้อมูลมีความสัมพันธ์กันสูง

เมื่อเกิดเหตุการณ์นี้ โมเดลที่กำหนดอาจพอดีกับชุดข้อมูลการฝึกได้ดี แต่อาจทำงานได้ไม่ดีกับชุดข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน เนื่องจาก เกินพอดีกับ ชุดการฝึก

วิธีหนึ่งในการหลีกเลี่ยงการโอเวอร์ฟิตคือการใช้วิธี การเลือกเซ็ตย่อย บางประเภท เช่น:

วิธีการเหล่านี้พยายามลบตัวทำนายที่ไม่เกี่ยวข้องออกจากแบบจำลอง เพื่อให้เหลือเพียงตัวทำนายที่สำคัญที่สุดที่สามารถทำนายความแปรผันของตัวแปรตอบสนองในแบบจำลองสุดท้ายได้

อีกวิธีหนึ่งในการหลีกเลี่ยงการโอเวอร์ฟิตคือการใช้วิธี การทำให้เป็นมาตรฐาน บางประเภท เช่น:

วิธีการเหล่านี้พยายามจำกัดหรือทำให้ค่าสัมประสิทธิ์ของแบบจำลอง เป็นปกติ เพื่อลดความแปรปรวนและสร้างแบบจำลองที่สามารถสรุปข้อมูลใหม่ได้ดี

แนวทางที่แตกต่างไปจากเดิมอย่างสิ้นเชิงในการจัดการกับความเป็นหลายเส้นตรงเรียกว่า การลดขนาด

วิธีการทั่วไปในการลดขนาดเรียกว่า การถดถอยองค์ประกอบหลัก ซึ่งทำงานดังนี้:

1. สมมติว่า ชุด ข้อมูลที่กำหนดมี ตัวทำนาย p :

2. คำนวณ Z 1 , … , Z M เป็นผลรวมเชิงเส้น M ของตัวพยากรณ์ p ดั้งเดิม

  • ซี ม. = ΣΦ เจเอ็ม _
  • Z 1 คือผลรวมเชิงเส้นของตัวทำนายที่จะจับความแปรปรวนให้ได้มากที่สุด
  • Z 2 คือผลรวมเชิงเส้นถัดไปของตัวทำนายที่จะจับความแปรปรวนมากที่สุดในขณะที่ ตั้งฉาก (กล่าวคือ ไม่สัมพันธ์กัน) กับ Z 1
  • Z 3 คือผลรวมเชิงเส้นถัดไปของตัวทำนายที่จะจับความแปรปรวนมากที่สุดในขณะที่ตั้งฉากกับ Z 2
  • และอื่นๆ

3. ใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้องค์ประกอบหลัก M ตัวแรก Z 1 , …, Z M เป็นตัวทำนาย

คำว่า การลดขนาด มาจากข้อเท็จจริงที่ว่าวิธีนี้ต้องประมาณค่าสัมประสิทธิ์ M+1 เท่านั้น แทนที่จะเป็นค่าสัมประสิทธิ์ p+1 โดยที่ M < p

กล่าวอีกนัยหนึ่ง มิติ ของปัญหาลดลงจาก p+1 เป็น M+1

ในหลายกรณีที่มีชุดข้อมูลหลายคอลลิเนียริตี้ การถดถอยองค์ประกอบหลักสามารถสร้างแบบจำลองที่สามารถสรุปข้อมูลใหม่ได้ดีกว่า การถดถอยเชิงเส้นพหุคูณ แบบทั่วไป

ขั้นตอนในการดำเนินการถดถอยองค์ประกอบหลัก

ในทางปฏิบัติ ขั้นตอนต่อไปนี้ใช้ในการดำเนินการถดถอยองค์ประกอบหลัก:

1. สร้างมาตรฐานให้กับตัวทำนาย

ขั้นแรก โดยทั่วไป เราสร้างมาตรฐานให้กับข้อมูลโดยที่ตัวแปรทำนายแต่ละตัวมีค่าเฉลี่ยเป็น 0 และค่าเบี่ยงเบนมาตรฐานเป็น 1 วิธีนี้จะป้องกันไม่ให้ตัวทำนายตัวใดตัวหนึ่งมีอิทธิพลมากเกินไป โดยเฉพาะอย่างยิ่งหากมีการวัดในหน่วยที่แตกต่างกัน (c นั่นคือ ถ้า 1 วัดเป็นนิ้ว) และ X 2 วัดเป็นหลา)

2. คำนวณองค์ประกอบหลักและดำเนินการถดถอยเชิงเส้นโดยใช้องค์ประกอบหลักเป็นตัวทำนาย

ต่อไป เราจะคำนวณองค์ประกอบหลักและใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้องค์ประกอบหลัก M ตัวแรก Z 1 , …, Z M เป็นตัวทำนาย

3. ตัดสินใจว่าจะเก็บส่วนประกอบหลักกี่ชิ้น

ต่อไป เราใช้ การตรวจสอบข้าม k-fold เพื่อค้นหาองค์ประกอบหลักที่เหมาะสมที่สุดเพื่อเก็บไว้ในโมเดล จำนวนส่วนประกอบหลักที่ “เหมาะสมที่สุด” ที่จะเก็บไว้ โดยทั่วไปคือจำนวนที่ทำให้เกิดความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) ต่ำสุดของการทดสอบ

ข้อดีและข้อเสียของการถดถอยองค์ประกอบหลัก

การถดถอยองค์ประกอบหลัก (PCR) มี ข้อดี ดังต่อไปนี้:

  • PCR มีแนวโน้มที่จะทำงานได้ดีเมื่อองค์ประกอบหลักแรกสามารถจับความแปรผันส่วนใหญ่ในตัวทำนายได้ เช่นเดียวกับความสัมพันธ์กับตัวแปรตอบสนอง
  • PCR สามารถทำงานได้ดีแม้ว่าตัวแปรทำนายจะมีความสัมพันธ์กันสูง เนื่องจากสร้างองค์ประกอบหลักที่ตั้งฉากกัน (กล่าวคือ ไม่มีความสัมพันธ์กัน) ซึ่งกันและกัน
  • PCR ไม่ต้องการให้คุณเลือกตัวแปรตัวทำนายที่จะลบออกจากแบบจำลอง เนื่องจากแต่ละองค์ประกอบหลักใช้การผสมผสานเชิงเส้นของตัวแปรตัวทำนายทั้งหมด
  • PCR สามารถใช้เมื่อมีตัวแปรทำนายมากกว่าการสังเกต ซึ่งแตกต่างจากการถดถอยเชิงเส้นพหุคูณ

อย่างไรก็ตาม PCR มี ข้อเสียเปรียบ:

  • PCR จะไม่นำตัวแปรการตอบสนองมาพิจารณาในการตัดสินใจเลือกส่วนประกอบหลักที่จะเก็บหรือลบออก แต่จะพิจารณาเฉพาะขนาดของความแปรปรวนระหว่างตัวแปรทำนายที่องค์ประกอบหลักจับไว้เท่านั้น เป็นไปได้ว่าในบางกรณีองค์ประกอบหลักที่มีความแตกต่างมากที่สุดอาจไม่สามารถทำนายตัวแปรการตอบสนองได้ดี

ในทางปฏิบัติ เราปรับแบบจำลองได้หลายประเภท (PCR, Ridge, Lasso, การถดถอยเชิงเส้นพหุคูณ ฯลฯ) และใช้การตรวจสอบความถูกต้องข้ามแบบ k-fold เพื่อระบุแบบจำลองที่สร้างการทดสอบ MSE ต่ำสุดในข้อมูลใหม่

ในกรณีที่ชุดข้อมูลดั้งเดิมมีพหุคอลลิเนียริตี้ (ซึ่งมักเป็นเช่นนั้น) PCR มีแนวโน้มที่จะทำงานได้ดีกว่าการถดถอยกำลังสองน้อยที่สุดแบบธรรมดา อย่างไรก็ตาม เป็นความคิดที่ดีที่จะติดตั้งโมเดลที่แตกต่างกันหลายๆ โมเดล เพื่อที่คุณจะได้สามารถระบุได้ว่าโมเดลใดสรุปข้อมูลทั่วไปได้ดีที่สุดสำหรับข้อมูลที่มองไม่เห็น

การถดถอยองค์ประกอบหลักใน R & Python

บทช่วยสอนต่อไปนี้แสดงวิธีการถดถอยส่วนประกอบหลักใน R และ Python:

การถดถอยองค์ประกอบหลักใน R (ทีละขั้นตอน)
การถดถอยองค์ประกอบหลักใน Python (ทีละขั้นตอน)

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *