เมื่อใดจึงควรใช้ ridge & lasso regression


ใน การถดถอยเชิงเส้นพหุคูณ แบบธรรมดา เรา ใช้ชุดของตัวแปรทำนาย p และตัวแปรตอบสนองเพื่อให้พอดีกับแบบจำลองของรูปแบบ:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

ค่าของ β 0 , β 1 , B 2 , …, β p ถูกเลือกโดยใช้วิธีกำลังสองน้อยที่สุด ซึ่งจะลดผลรวมของกำลังสองของส่วนที่เหลือ (RSS):

RSS = Σ(ฉัน ฉัน – ŷ ฉัน ) 2

ทอง:

  • Σ : สัญลักษณ์ที่หมายถึง “ผลรวม”
  • y i : ค่าตอบสนองจริงสำหรับการสังเกต ครั้งที่ 3
  • ŷ i : ค่าตอบสนองที่คาดการณ์ไว้สำหรับการสังเกตครั้งที่ i

ปัญหาของพหุคอลลิเนียร์ในการถดถอย

ปัญหาที่มักเกิดขึ้นในทางปฏิบัติกับการถดถอยเชิงเส้น พหุคูณคือความเป็นพหุคอลลิเนียร์ เมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปมีความสัมพันธ์กันอย่างมาก จนไม่ได้ให้ข้อมูลเฉพาะหรือเป็นอิสระในแบบจำลองการถดถอย

ซึ่งอาจทำให้การประมาณค่าสัมประสิทธิ์แบบจำลองไม่น่าเชื่อถือและแสดงความแปรปรวนสูง กล่าวคือ เมื่อนำแบบจำลองไปใช้กับชุดข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน ก็มีแนวโน้มว่าจะทำงานได้ไม่ดี

หลีกเลี่ยงความหลากหลาย: การถดถอยแบบ Ridge & Lasso

สองวิธีที่เราสามารถใช้เพื่อแก้ไขปัญหาพหุคอลลิเนียริตี้นี้คือ การถดถอยแบบสัน และ การถดถอยแบบบ่วงบาศ

การถดถอยของสัน พยายามลดสิ่งต่อไปนี้ให้เหลือน้อยที่สุด:

  • RSS + ΣΣβ เจ 2

การถดถอยแบบ Lasso พยายามลดสิ่งต่อไปนี้ให้เหลือน้อยที่สุด:

  • RSS + ΣΣ|β j |

ในสมการทั้งสอง เทอมที่สองเรียกว่า การลงโทษการถอน

เมื่อ แล = 0 เงื่อนไขการลงโทษนี้ไม่มีผลกระทบใดๆ และการถดถอยแบบสันและการถดถอยแบบบ่วงบาศจะให้ค่าประมาณค่าสัมประสิทธิ์เดียวกันกับกำลังสองน้อยที่สุด

อย่างไรก็ตาม เมื่อ แล เข้าใกล้อนันต์ ค่าโทษของการหดตัวจะมีอิทธิพลมากขึ้น และตัวแปรทำนายที่ไม่สามารถนำเข้าลงในแบบจำลองจะลดลงจนเหลือศูนย์

ด้วยการถดถอยแบบ Lasso เป็นไปได้ที่สัมประสิทธิ์บางอย่างจะกลายเป็น ศูนย์โดยสมบูรณ์ เมื่อ γ มีขนาดใหญ่เพียงพอ

ข้อดีและข้อเสียของการถดถอยแบบ Ridge & Lasso

ข้อดี ของการถดถอยแบบ Ridge และ Lasso เหนือการถดถอยกำลังสองน้อยที่สุดคือ การแลกเปลี่ยนระหว่างความแปรปรวนอคติ

โปรดจำไว้ว่า Mean Square Error (MSE) เป็นหน่วยเมตริกที่เราสามารถใช้เพื่อวัดความแม่นยำของแบบจำลองที่กำหนด และมีการคำนวณดังนี้

MSE = วาร์( f̂( x 0 )) + [อคติ( f̂( x 0 ))] 2 + วาร์(ε)

MSE = ความแปรปรวน + อคติ 2 + ข้อผิดพลาดที่ลดไม่ได้

แนวคิดพื้นฐานของ Ridge Regression และ Lasso Regression คือการแนะนำอคติเล็กน้อยเพื่อลดความแปรปรวนลงอย่างมาก ส่งผลให้ MSE โดยรวมลดลง

เพื่ออธิบายสิ่งนี้ ให้พิจารณากราฟต่อไปนี้:

การแลกเปลี่ยนการถดถอยแบบอคติ-ความแปรปรวนของริดจ์

โปรดทราบว่าเมื่อ แล เพิ่มขึ้น ความแปรปรวนจะลดลงอย่างมีนัยสำคัญโดยมีอคติเพิ่มขึ้นเล็กน้อย อย่างไรก็ตาม เมื่อเกินจุดใดจุดหนึ่ง ความแปรปรวนจะลดลงอย่างรวดเร็วน้อยลง และการลดลงของค่าสัมประสิทธิ์นำไปสู่การประเมินค่าเหล่านี้ต่ำเกินไปอย่างมีนัยสำคัญ ซึ่งนำไปสู่การเพิ่มขึ้นอย่างมากในอคติ

จากกราฟเราจะเห็นได้ว่า MSE ของการทดสอบนั้นต่ำที่สุด เมื่อเราเลือกค่าสำหรับ γ ที่สร้างการแลกเปลี่ยนที่เหมาะสมที่สุดระหว่างอคติและความแปรปรวน

เมื่อ แล = 0 เงื่อนไขการลงโทษในการถดถอยแบบบ่วงบาศจะไม่มีผลใดๆ ดังนั้นจึงให้ค่าประมาณค่าสัมประสิทธิ์เดียวกันกับกำลังสองน้อยที่สุด อย่างไรก็ตาม การเพิ่ม แล ถึงจุดหนึ่งจะทำให้ค่า MSE โดยรวมของการทดสอบลดลงได้

การถดถอยแบบ Lasso Bias-Variance Tradeoff

ซึ่งหมายความว่าการปรับโมเดลให้เหมาะสมโดยใช้การถดถอยแบบสันเขาและการถดถอยแบบบ่วงบาศอาจทำให้เกิดข้อผิดพลาดในการทดสอบน้อยกว่าการปรับโมเดลด้วยการถดถอยกำลังสองน้อยที่สุด

ข้อเสีย ของการถดถอยแบบ Ridge และ Lasso คือ การตีความค่าสัมประสิทธิ์ในแบบจำลองสุดท้ายกลายเป็นเรื่องยากเมื่อค่าสัมประสิทธิ์หดตัวเข้าหาศูนย์

ดังนั้นควรใช้การถดถอยแบบ Ridge และ Lasso เมื่อคุณต้องการเพิ่มประสิทธิภาพความสามารถในการคาดการณ์มากกว่าการอนุมาน

ริดจ์กับ Lasso Regression: เมื่อใดควรใช้แต่ละรายการ

การถดถอยแบบ L asso และการถดถอยแบบสันเป็นที่รู้จักในชื่อ วิธีการทำให้เป็นมาตรฐาน เนื่องจากทั้งสองวิธีพยายามที่จะลดผลรวมที่เหลือของกำลังสอง (RSS) ให้เหลือน้อยที่สุด รวมถึงการลงโทษด้วย

กล่าวอีกนัยหนึ่ง พวกมันจำกัดหรือทำให้การประมาณค่าสัมประสิทธิ์แบบจำลอง เป็นปกติ

สิ่งนี้ทำให้เกิดคำถามโดยธรรมชาติ: การถดถอยแบบสันหรือแบบบ่วงบาศดีกว่าหรือไม่

ในกรณีที่ตัวแปรทำนายจำนวนเล็กน้อยมีความสำคัญ การถดถอยแบบเชือก มีแนวโน้มที่จะทำงานได้ดีขึ้น เนื่องจากสามารถลดตัวแปรที่ไม่มีนัยสำคัญให้เหลือศูนย์และลบตัวแปรเหล่านั้นออกจากแบบจำลองได้

อย่างไรก็ตาม เมื่อตัวแปรทำนายจำนวนมากมีนัยสำคัญในแบบจำลองและค่าสัมประสิทธิ์ของตัวแปรมีค่าเท่ากันโดยประมาณ การถดถอยแบบสัน มีแนวโน้มที่จะทำงานได้ดีขึ้น เนื่องจากจะเก็บตัวทำนายทั้งหมดไว้ในแบบจำลอง

เพื่อพิจารณาว่าโมเดลใดดีที่สุดสำหรับการคาดการณ์ โดยทั่วไปเราจะดำเนิน การตรวจสอบข้าม k-fold และเลือกโมเดลที่ทำให้เกิดข้อผิดพลาดกำลังสองเฉลี่ยรูตทดสอบต่ำสุด

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเบื้องต้นเกี่ยวกับ Ridge Regression และ Lasso Regression:

บทช่วยสอนต่อไปนี้จะอธิบายวิธีการถดถอยทั้งสองประเภทใน R และ Python:

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *