รู้เบื้องต้นเกี่ยวกับการถดถอยสันเขา


ใน การถดถอยเชิงเส้นพหุคูณ แบบธรรมดา เราใช้ชุดของตัวแปรทำนาย p และ ตัวแปรตอบสนอง เพื่อให้พอดีกับแบบจำลองของรูปแบบ:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

ทอง:

  • Y : ตัวแปรตอบสนอง
  • X j : ตัวแปร ทำนายที่ j
  • β j : ผลกระทบโดยเฉลี่ยต่อ Y ของการเพิ่มขึ้นของ X j หนึ่งหน่วย โดยคงตัวทำนายอื่นๆ ทั้งหมดไว้คงที่
  • ε : เงื่อนไขข้อผิดพลาด

ค่าของ β 0 , β 1 , B 2 , …, β p ถูกเลือกโดยใช้ วิธีกำลังสองน้อยที่สุด ซึ่งจะลดผลรวมของกำลังสองของส่วนที่เหลือ (RSS):

RSS = Σ(ฉัน ฉัน – ŷ ฉัน ) 2

ทอง:

  • Σ : สัญลักษณ์กรีกหมายถึง ผลรวม
  • y i : ค่าตอบสนองจริงสำหรับการสังเกต ครั้งที่ 3
  • ŷ i : ค่าตอบสนองที่คาดการณ์ไว้ตามแบบจำลองการถดถอยเชิงเส้นพหุคูณ

อย่างไรก็ตาม เมื่อตัวแปรทำนายมีความสัมพันธ์กันสูง ความเป็นหลายคอลลิเนียร์ อาจกลายเป็นปัญหาได้ ซึ่งอาจทำให้การประมาณค่าสัมประสิทธิ์แบบจำลองไม่น่าเชื่อถือและแสดงความแปรปรวนสูง

วิธีหนึ่งในการแก้ไขปัญหานี้โดยไม่ต้องลบตัวแปรตัวทำนายบางตัวออกจากโมเดลโดยสิ้นเชิงคือการใช้วิธีการที่เรียกว่า Ridge Regression ซึ่งพยายามลดสิ่งต่อไปนี้ให้เหลือน้อยที่สุด

RSS + ΣΣβ เจ 2

โดยที่ j ไปจาก 1 ถึง p และ แล ≥ 0

เทอมที่สองในสมการนี้เรียกว่า การลงโทษการถอน

เมื่อ แล = 0 เงื่อนไขการลงโทษนี้ไม่มีผลใดๆ และการถดถอยสันจะทำให้ค่าประมาณสัมประสิทธิ์เท่ากับกำลังสองน้อยที่สุด อย่างไรก็ตาม เมื่อ แล เข้าใกล้อนันต์ ค่าโทษจากการหดตัวจะมีอิทธิพลมากขึ้น และค่าสัมประสิทธิ์การถดถอยสูงสุดจะประมาณค่าเข้าใกล้ศูนย์

โดยทั่วไป ตัวแปรทำนายที่มีอิทธิพลน้อยที่สุดในแบบจำลองจะลดลงไปสู่ศูนย์เร็วที่สุด

เหตุใดจึงใช้ Ridge Regression

ข้อดีของการถดถอยแบบริดจ์เหนือการถดถอยกำลังสองน้อยที่สุดคือ การแลกเปลี่ยนระหว่างความแปรปรวนอคติ

โปรดจำไว้ว่า Mean Square Error (MSE) เป็นหน่วยเมตริกที่เราสามารถใช้เพื่อวัดความแม่นยำของแบบจำลองที่กำหนด และมีการคำนวณดังนี้

MSE = วาร์( f̂( x 0 )) + [อคติ( f̂( x 0 ))] 2 + วาร์(ε)

MSE = ความแปรปรวน + อคติ 2 + ข้อผิดพลาดที่ลดไม่ได้

แนวคิดพื้นฐานของการถดถอยริดจ์คือการแนะนำอคติเล็กน้อยเพื่อลดความแปรปรวนลงอย่างมาก ส่งผลให้ MSE โดยรวมลดลง

เพื่ออธิบายสิ่งนี้ ให้พิจารณากราฟต่อไปนี้:

การแลกเปลี่ยนการถดถอยแบบอคติ-ความแปรปรวนของริดจ์

โปรดทราบว่าเมื่อ แล เพิ่มขึ้น ความแปรปรวนจะลดลงอย่างมีนัยสำคัญโดยมีอคติเพิ่มขึ้นเล็กน้อย อย่างไรก็ตาม เมื่อเกินจุดใดจุดหนึ่ง ความแปรปรวนจะลดลงอย่างรวดเร็วน้อยลง และการลดลงของค่าสัมประสิทธิ์นำไปสู่การประเมินค่าเหล่านี้ต่ำเกินไปอย่างมีนัยสำคัญ ซึ่งนำไปสู่การเพิ่มขึ้นอย่างมากในอคติ

จากกราฟเราจะเห็นได้ว่า MSE ของการทดสอบนั้นต่ำที่สุด เมื่อเราเลือกค่าสำหรับ γ ที่สร้างการแลกเปลี่ยนที่เหมาะสมที่สุดระหว่างอคติและความแปรปรวน

เมื่อ แล = 0 เงื่อนไขการลงโทษในการถดถอยสันจะไม่มีผลใดๆ ดังนั้นจึงให้ค่าประมาณค่าสัมประสิทธิ์เดียวกันกับกำลังสองน้อยที่สุด อย่างไรก็ตาม การเพิ่ม แล ถึงจุดหนึ่งจะทำให้ค่า MSE โดยรวมของการทดสอบลดลงได้

การทดสอบการถดถอยของสันเขา การลด MSE

ซึ่งหมายความว่าการปรับโมเดลให้เหมาะสมโดยการถดถอยแบบสันจะทำให้เกิดข้อผิดพลาดในการทดสอบน้อยกว่าการปรับโมเดลให้เหมาะสมด้วยการถดถอยกำลังสองน้อยที่สุด

ขั้นตอนในการดำเนินการ Ridge Regression ในทางปฏิบัติ

ขั้นตอนต่อไปนี้สามารถใช้เพื่อดำเนินการถดถอยสัน:

ขั้นตอนที่ 1: คำนวณเมทริกซ์สหสัมพันธ์และค่า VIF สำหรับตัวแปรทำนาย

ขั้นแรก เราต้องสร้าง เมทริกซ์สหสัมพันธ์ และคำนวณ ค่า VIF (ปัจจัยอัตราเงินเฟ้อแปรปรวน) สำหรับตัวแปรทำนายแต่ละตัว

หากเราตรวจพบความสัมพันธ์ที่ชัดเจนระหว่างตัวแปรทำนายและค่า VIF สูง (ข้อความบางข้อความกำหนดค่า VIF “สูง” เป็น 5 ในขณะที่ข้อความอื่นๆ ใช้ 10) การถดถอยแบบสันเขาน่าจะเหมาะสม

อย่างไรก็ตาม หากข้อมูลไม่มีหลายคอลลิเนียริตี้ ก็อาจไม่จำเป็นต้องทำการถดถอยสันตั้งแต่แรก แต่เราสามารถใช้การถดถอยกำลังสองน้อยที่สุดแบบธรรมดาแทนได้

ขั้นตอนที่ 2: สร้างมาตรฐานให้กับตัวแปรทำนายแต่ละตัว

ก่อนดำเนินการการถดถอยแบบสันเขา เราจำเป็นต้องปรับขนาดข้อมูลเพื่อให้ตัวแปรตัวทำนายแต่ละตัวมีค่าเฉลี่ยเป็น 0 และค่าเบี่ยงเบนมาตรฐานเป็น 1 เพื่อให้แน่ใจว่าไม่มีตัวแปรตัวทำนายตัวใดตัวหนึ่งที่มีอิทธิพลมากเกินไปเมื่อเรียกใช้การถดถอยแบบสันเขา

ขั้นตอนที่ 3: ปรับโมเดลการถดถอยสันเขาและเลือกค่าสำหรับ แล

ไม่มีสูตรที่แน่นอนที่เราสามารถใช้เพื่อกำหนดว่าจะใช้ค่าใดสำหรับ แล ในทางปฏิบัติ มีสองวิธีทั่วไปในการเลือก แล:

(1) สร้างพล็อตการติดตาม Ridge นี่คือกราฟที่แสดงภาพค่าของการประมาณค่าสัมประสิทธิ์เมื่อ แล เพิ่มขึ้นไปสู่อนันต์ โดยทั่วไป เราเลือก แล เป็นค่าที่การประมาณค่าสัมประสิทธิ์ส่วนใหญ่เริ่มมีเสถียรภาพ

ร่องรอยสันเขา

(2) คำนวณการทดสอบ MSE สำหรับแต่ละค่าของ แล

อีกวิธีในการเลือก λ คือเพียงคำนวณ MSE ทดสอบของแต่ละรุ่นด้วยค่า แล ที่แตกต่างกัน และเลือก γ ให้เป็นค่าที่สร้าง MSE ทดสอบต่ำสุด

ข้อดีและข้อเสียของการถดถอยแบบสันเขา

ข้อได้เปรียบ ที่ใหญ่ที่สุดของการถดถอยแบบริดจ์คือความสามารถในการสร้างค่าความคลาดเคลื่อนกำลังสองเฉลี่ยในการทดสอบ (MSE) ที่ต่ำกว่ากำลังสองน้อยที่สุดเมื่อมีพหุคอลลิเนียร์

อย่างไรก็ตาม ข้อเสียเปรียบ ที่ใหญ่ที่สุดของการถดถอยแบบริดจ์คือการไม่สามารถทำการเลือกตัวแปรได้ เนื่องจากมีตัวแปรทำนายทั้งหมดในแบบจำลองสุดท้าย เนื่องจากตัวทำนายบางตัวจะลดลงจนใกล้ศูนย์มาก จึงอาจทำให้ตีความผลลัพธ์ของแบบจำลองได้ยาก

ในทางปฏิบัติ การถดถอยแบบริดจ์มีศักยภาพในการสร้างแบบจำลองที่สามารถคาดการณ์ได้ดีกว่าเมื่อเปรียบเทียบกับแบบจำลองกำลังสองน้อยที่สุด แต่มักจะตีความผลลัพธ์ของแบบจำลองได้ยากกว่า

ขึ้นอยู่กับว่าการตีความแบบจำลองหรือความแม่นยำในการคาดการณ์มีความสำคัญต่อคุณมากกว่าหรือไม่ คุณสามารถเลือกใช้กำลังสองน้อยที่สุดแบบธรรมดาหรือการถดถอยแบบสันในสถานการณ์ต่างๆ

การถดถอยริดจ์ใน R & Python

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการ ridge regression ใน R และ Python ซึ่งเป็นสองภาษาที่ใช้บ่อยที่สุดสำหรับการปรับโมเดล ridge regression ให้เหมาะสม:

Ridge Regression ใน R (ทีละขั้นตอน)
Ridge Regression ใน Python (ทีละขั้นตอน)

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *