7 ประเภทของการถดถอยทั่วไป (และเมื่อใดควรใช้)


การวิเคราะห์การถดถอย เป็นหนึ่งในเทคนิคที่ใช้บ่อยที่สุดในสถิติ

เป้าหมายพื้นฐานของการวิเคราะห์การถดถอยคือเพื่อให้เหมาะสมกับแบบจำลองที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวหรือมากกว่ากับ ตัวแปรตอบสนอง ได้ดีที่สุด

ในบทความนี้ เราจะแบ่งปันแบบจำลองการถดถอยที่ใช้บ่อยที่สุด 7 แบบในชีวิตจริง พร้อมกับเวลาที่ควรใช้การถดถอยแต่ละประเภท

1. การถดถอยเชิงเส้น

การถดถอยเชิงเส้นใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนองเชิงตัวเลข

ใช้เมื่อ:

  • ความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองเป็นแบบเส้นตรงอย่างสมเหตุสมผล
  • ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง

ตัวอย่าง: บริษัทค้าปลีกสามารถติดตั้งโมเดลการถดถอยเชิงเส้นโดยใช้ค่าโฆษณาเพื่อคาดการณ์ยอดขายรวม

เนื่องจากความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้มีแนวโน้มเป็นเส้นตรง (โดยทั่วไปเงินที่มากขึ้นในการโฆษณามักส่งผลให้มียอดขายเพิ่มขึ้น) และตัวแปรการตอบสนอง (ยอดขายรวม) เป็นตัวแปรตัวเลขที่ต่อเนื่องกัน จึงเหมาะสมที่จะปรับแบบจำลองการถดถอยเชิงเส้น

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ

2. การถดถอยโลจิสติก

การถดถอยแบบโลจิสติกใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนองแบบไบนารี

ใช้เมื่อ:

  • ตัวแปรตอบสนองเป็นไบนารี่ โดยสามารถรับได้เพียงสองค่าเท่านั้น

ตัวอย่าง: นักวิจัยทางการแพทย์สามารถใช้แบบจำลองการถดถอยลอจิสติกส์ได้โดยใช้พฤติกรรมการออกกำลังกายและการสูบบุหรี่ เพื่อคาดการณ์แนวโน้มที่บุคคลจะมีอาการหัวใจวาย

เนื่องจากตัวแปรการตอบสนอง (หัวใจวาย) เป็นแบบไบนารี่ – บุคคลอาจประสบกับอาการหัวใจวายหรือไม่ก็ได้ – จึงเหมาะสมที่จะปรับให้เข้ากับแบบจำลองการถดถอยลอจิสติก

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยโลจิสติก

3. การถดถอยพหุนาม

การถดถอยพหุนามใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนองเชิงตัวเลข

ใช้เมื่อ:

  • ความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น
  • ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง

ตัวอย่าง: นักจิตวิทยาสามารถหาค่าการถดถอยพหุนามได้โดยใช้ “ชั่วโมงทำงาน” เพื่อทำนาย “ความสุขโดยรวม” ของพนักงานในอุตสาหกรรมบางประเภท

ความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้อาจไม่เป็นเชิงเส้น กล่าวคือ เมื่อจำนวนชั่วโมงเพิ่มขึ้น บุคคลอาจรายงานถึงความสุขมากขึ้น แต่เมื่อเกินจำนวนชั่วโมงทำงานที่กำหนด ความสุขโดยรวมก็มีแนวโน้มที่จะลดลง เนื่องจากความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น จึงเหมาะสมที่จะพอดีกับแบบจำลองการถดถอยพหุนาม

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยพหุนาม

4. การถดถอยสันเขา

การถดถอยแบบริดจ์ใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนองเชิงตัวเลข

ใช้เมื่อ:

  • ตัวแปรทำนายมีความสัมพันธ์กันอย่างมากและ ความเป็นหลายเส้นตรง จะกลายเป็นปัญหา
  • ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง

ตัวอย่าง: นักวิทยาศาสตร์ข้อมูลบาสเก็ตบอลอาจปรับโมเดลการถดถอยแบบสันเขาโดยใช้ตัวแปรทำนาย เช่น คะแนน แอสซิสต์ และการรีบาวด์ เพื่อทำนายเงินเดือนของผู้เล่น

ตัวแปรทำนายมีแนวโน้มที่จะมีความสัมพันธ์กันสูง เนื่องจากผู้เล่นที่ดีกว่ามักจะมีแต้ม แอสซิสต์ และรีบาวด์มากกว่า ดังนั้น multicollinearity น่าจะเป็นปัญหา ดังนั้นเราจึงสามารถลดปัญหานี้ได้โดยใช้การถดถอยแบบสัน

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยสันเขา

5. การถดถอยแบบ Lasso

การถดถอยแบบ Lasso นั้นคล้ายคลึงกับการถดถอยแบบ Ridge มาก และใช้เพื่อปรับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนองเชิงตัวเลข

ใช้เมื่อ:

  • ตัวแปรทำนายมีความสัมพันธ์กันอย่างมากและ ความเป็นหลายเส้นตรง จะกลายเป็นปัญหา
  • ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง

ตัวอย่าง: นักเศรษฐศาสตร์อาจใช้แบบจำลองการถดถอยแบบบ่วงบาศโดยใช้ตัวแปรทำนาย เช่น จำนวนปีการศึกษาทั้งหมด ชั่วโมงทำงาน และค่าครองชีพเพื่อทำนายรายได้ครัวเรือน

ตัวแปรทำนายมีแนวโน้มที่จะมีความสัมพันธ์กันสูง เนื่องจากบุคคลที่มีการศึกษามากกว่ามักจะอาศัยอยู่ในเมืองที่มีค่าครองชีพสูงกว่าและมีเวลาทำงานมากกว่า ดังนั้น ความเป็นหลายเส้นตรงมีแนวโน้มที่จะเป็นปัญหา ดังนั้นเราจึงสามารถลดปัญหานี้ได้โดยใช้การถดถอยแบบบ่วงบาศ

โปรดทราบว่าการถดถอยแบบ Lasso และการถดถอยแบบสันค่อนข้างคล้ายกัน เมื่อปัญหาหลายคอลลิเนียริตี้ในชุดข้อมูล ขอแนะนำให้ปรับทั้งแบบจำลองการถดถอยแบบ Lasso และ Ridge เพื่อดูว่าแบบจำลองใดทำงานได้ดีที่สุด

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยแบบ Lasso

6. การถดถอยปัวซอง

การถดถอยแบบปัวซองใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง

ใช้เมื่อ:

  • ตัวแปรการตอบสนองคือข้อมูล “นับ” เช่น จำนวนวันที่มีแดดต่อสัปดาห์ จำนวนอุบัติเหตุทางถนนต่อปี จำนวนสายที่โทรต่อวัน เป็นต้น

ตัวอย่าง: มหาวิทยาลัยสามารถใช้การถดถอยปัวซองเพื่อตรวจสอบจำนวนนักศึกษาที่สำเร็จการศึกษาจากหลักสูตรวิทยาลัยใดหลักสูตรหนึ่ง โดยพิจารณาจากเกรดเฉลี่ยเมื่อเข้าเรียนหลักสูตรและเพศ

ในกรณีนี้ เนื่องจากตัวแปรตอบสนองเป็นข้อมูลการนับ (เราสามารถ “นับ” จำนวนนักเรียนที่สำเร็จการศึกษาได้ เช่น 200, 250, 300, 413 เป็นต้น) จึงเหมาะสมที่จะใช้การถดถอยแบบปัวซอง

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยปัวซอง

7. การถดถอยเชิงปริมาณ

การถดถอยเชิงปริมาณใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนอง

ใช้เมื่อ:

  • เราต้องการประมาณค่าควอนไทล์หรือเปอร์เซ็นไทล์เฉพาะของตัวแปรการตอบสนอง เช่น เปอร์เซ็นไทล์ที่ 90 เปอร์เซ็นไทล์ที่ 95 เป็นต้น

ตัวอย่าง: อาจารย์สามารถใช้การถดถอยเชิงควอนไทล์เพื่อทำนายคะแนนสอบเปอร์เซ็นไทล์ที่ 90 ที่คาดหวัง โดยขึ้นอยู่กับจำนวนชั่วโมงที่เรียน:

ในกรณีนี้ เนื่องจากศาสตราจารย์ต้องการทำนายเปอร์เซ็นต์ไทล์เฉพาะของตัวแปรคำตอบ (คะแนนสอบ) จึงควรใช้การถดถอยเชิงควอนไทล์

แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยเชิงปริมาณ

แหล่งข้อมูลเพิ่มเติม

4 ตัวอย่างการใช้การถดถอยเชิงเส้นในชีวิตจริง
4 ตัวอย่างการใช้ Logistic Regression ในชีวิตจริง
ANOVA กับการถดถอย: อะไรคือความแตกต่าง?
คู่มือฉบับสมบูรณ์: วิธีรายงานผลลัพธ์การถดถอย

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *