7 ประเภทของการถดถอยทั่วไป (และเมื่อใดควรใช้)
การวิเคราะห์การถดถอย เป็นหนึ่งในเทคนิคที่ใช้บ่อยที่สุดในสถิติ
เป้าหมายพื้นฐานของการวิเคราะห์การถดถอยคือเพื่อให้เหมาะสมกับแบบจำลองที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวหรือมากกว่ากับ ตัวแปรตอบสนอง ได้ดีที่สุด
ในบทความนี้ เราจะแบ่งปันแบบจำลองการถดถอยที่ใช้บ่อยที่สุด 7 แบบในชีวิตจริง พร้อมกับเวลาที่ควรใช้การถดถอยแต่ละประเภท
1. การถดถอยเชิงเส้น
การถดถอยเชิงเส้นใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนองเชิงตัวเลข
ใช้เมื่อ:
- ความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองเป็นแบบเส้นตรงอย่างสมเหตุสมผล
- ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง
ตัวอย่าง: บริษัทค้าปลีกสามารถติดตั้งโมเดลการถดถอยเชิงเส้นโดยใช้ค่าโฆษณาเพื่อคาดการณ์ยอดขายรวม
เนื่องจากความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้มีแนวโน้มเป็นเส้นตรง (โดยทั่วไปเงินที่มากขึ้นในการโฆษณามักส่งผลให้มียอดขายเพิ่มขึ้น) และตัวแปรการตอบสนอง (ยอดขายรวม) เป็นตัวแปรตัวเลขที่ต่อเนื่องกัน จึงเหมาะสมที่จะปรับแบบจำลองการถดถอยเชิงเส้น
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
2. การถดถอยโลจิสติก
การถดถอยแบบโลจิสติกใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนองแบบไบนารี
ใช้เมื่อ:
- ตัวแปรตอบสนองเป็นไบนารี่ โดยสามารถรับได้เพียงสองค่าเท่านั้น
ตัวอย่าง: นักวิจัยทางการแพทย์สามารถใช้แบบจำลองการถดถอยลอจิสติกส์ได้โดยใช้พฤติกรรมการออกกำลังกายและการสูบบุหรี่ เพื่อคาดการณ์แนวโน้มที่บุคคลจะมีอาการหัวใจวาย
เนื่องจากตัวแปรการตอบสนอง (หัวใจวาย) เป็นแบบไบนารี่ – บุคคลอาจประสบกับอาการหัวใจวายหรือไม่ก็ได้ – จึงเหมาะสมที่จะปรับให้เข้ากับแบบจำลองการถดถอยลอจิสติก
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยโลจิสติก
3. การถดถอยพหุนาม
การถดถอยพหุนามใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนองเชิงตัวเลข
ใช้เมื่อ:
- ความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น
- ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง
ตัวอย่าง: นักจิตวิทยาสามารถหาค่าการถดถอยพหุนามได้โดยใช้ “ชั่วโมงทำงาน” เพื่อทำนาย “ความสุขโดยรวม” ของพนักงานในอุตสาหกรรมบางประเภท
ความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้อาจไม่เป็นเชิงเส้น กล่าวคือ เมื่อจำนวนชั่วโมงเพิ่มขึ้น บุคคลอาจรายงานถึงความสุขมากขึ้น แต่เมื่อเกินจำนวนชั่วโมงทำงานที่กำหนด ความสุขโดยรวมก็มีแนวโน้มที่จะลดลง เนื่องจากความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น จึงเหมาะสมที่จะพอดีกับแบบจำลองการถดถอยพหุนาม
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยพหุนาม
4. การถดถอยสันเขา
การถดถอยแบบริดจ์ใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนองเชิงตัวเลข
ใช้เมื่อ:
- ตัวแปรทำนายมีความสัมพันธ์กันอย่างมากและ ความเป็นหลายเส้นตรง จะกลายเป็นปัญหา
- ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง
ตัวอย่าง: นักวิทยาศาสตร์ข้อมูลบาสเก็ตบอลอาจปรับโมเดลการถดถอยแบบสันเขาโดยใช้ตัวแปรทำนาย เช่น คะแนน แอสซิสต์ และการรีบาวด์ เพื่อทำนายเงินเดือนของผู้เล่น
ตัวแปรทำนายมีแนวโน้มที่จะมีความสัมพันธ์กันสูง เนื่องจากผู้เล่นที่ดีกว่ามักจะมีแต้ม แอสซิสต์ และรีบาวด์มากกว่า ดังนั้น multicollinearity น่าจะเป็นปัญหา ดังนั้นเราจึงสามารถลดปัญหานี้ได้โดยใช้การถดถอยแบบสัน
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยสันเขา
5. การถดถอยแบบ Lasso
การถดถอยแบบ Lasso นั้นคล้ายคลึงกับการถดถอยแบบ Ridge มาก และใช้เพื่อปรับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนองเชิงตัวเลข
ใช้เมื่อ:
- ตัวแปรทำนายมีความสัมพันธ์กันอย่างมากและ ความเป็นหลายเส้นตรง จะกลายเป็นปัญหา
- ตัวแปรตอบสนองเป็นตัวแปรตัวเลขต่อเนื่อง
ตัวอย่าง: นักเศรษฐศาสตร์อาจใช้แบบจำลองการถดถอยแบบบ่วงบาศโดยใช้ตัวแปรทำนาย เช่น จำนวนปีการศึกษาทั้งหมด ชั่วโมงทำงาน และค่าครองชีพเพื่อทำนายรายได้ครัวเรือน
ตัวแปรทำนายมีแนวโน้มที่จะมีความสัมพันธ์กันสูง เนื่องจากบุคคลที่มีการศึกษามากกว่ามักจะอาศัยอยู่ในเมืองที่มีค่าครองชีพสูงกว่าและมีเวลาทำงานมากกว่า ดังนั้น ความเป็นหลายเส้นตรงมีแนวโน้มที่จะเป็นปัญหา ดังนั้นเราจึงสามารถลดปัญหานี้ได้โดยใช้การถดถอยแบบบ่วงบาศ
โปรดทราบว่าการถดถอยแบบ Lasso และการถดถอยแบบสันค่อนข้างคล้ายกัน เมื่อปัญหาหลายคอลลิเนียริตี้ในชุดข้อมูล ขอแนะนำให้ปรับทั้งแบบจำลองการถดถอยแบบ Lasso และ Ridge เพื่อดูว่าแบบจำลองใดทำงานได้ดีที่สุด
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยแบบ Lasso
6. การถดถอยปัวซอง
การถดถอยแบบปัวซองใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง
ใช้เมื่อ:
- ตัวแปรการตอบสนองคือข้อมูล “นับ” เช่น จำนวนวันที่มีแดดต่อสัปดาห์ จำนวนอุบัติเหตุทางถนนต่อปี จำนวนสายที่โทรต่อวัน เป็นต้น
ตัวอย่าง: มหาวิทยาลัยสามารถใช้การถดถอยปัวซองเพื่อตรวจสอบจำนวนนักศึกษาที่สำเร็จการศึกษาจากหลักสูตรวิทยาลัยใดหลักสูตรหนึ่ง โดยพิจารณาจากเกรดเฉลี่ยเมื่อเข้าเรียนหลักสูตรและเพศ
ในกรณีนี้ เนื่องจากตัวแปรตอบสนองเป็นข้อมูลการนับ (เราสามารถ “นับ” จำนวนนักเรียนที่สำเร็จการศึกษาได้ เช่น 200, 250, 300, 413 เป็นต้น) จึงเหมาะสมที่จะใช้การถดถอยแบบปัวซอง
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยปัวซอง
7. การถดถอยเชิงปริมาณ
การถดถอยเชิงปริมาณใช้เพื่อให้พอดีกับแบบจำลองการถดถอยที่อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและตัวแปรตอบสนอง
ใช้เมื่อ:
- เราต้องการประมาณค่าควอนไทล์หรือเปอร์เซ็นไทล์เฉพาะของตัวแปรการตอบสนอง เช่น เปอร์เซ็นไทล์ที่ 90 เปอร์เซ็นไทล์ที่ 95 เป็นต้น
ตัวอย่าง: อาจารย์สามารถใช้การถดถอยเชิงควอนไทล์เพื่อทำนายคะแนนสอบเปอร์เซ็นไทล์ที่ 90 ที่คาดหวัง โดยขึ้นอยู่กับจำนวนชั่วโมงที่เรียน:
ในกรณีนี้ เนื่องจากศาสตราจารย์ต้องการทำนายเปอร์เซ็นต์ไทล์เฉพาะของตัวแปรคำตอบ (คะแนนสอบ) จึงควรใช้การถดถอยเชิงควอนไทล์
แหล่งข้อมูล: ข้อมูลเบื้องต้นเกี่ยวกับการถดถอยเชิงปริมาณ
แหล่งข้อมูลเพิ่มเติม
4 ตัวอย่างการใช้การถดถอยเชิงเส้นในชีวิตจริง
4 ตัวอย่างการใช้ Logistic Regression ในชีวิตจริง
ANOVA กับการถดถอย: อะไรคือความแตกต่าง?
คู่มือฉบับสมบูรณ์: วิธีรายงานผลลัพธ์การถดถอย