6 สมมติฐานของการถดถอยโลจิสติก (พร้อมตัวอย่าง)
การถดถอยแบบลอจิสติก เป็นวิธีการที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อ ตัวแปรตอบสนอง เป็นไบนารี
ก่อนที่จะปรับโมเดลให้เข้ากับชุดข้อมูล การถดถอยโลจิสติกจะตั้งสมมติฐานดังต่อไปนี้:
สมมติฐาน #1: ตัวแปรตอบสนองเป็นไบนารี
การถดถอยโลจิสติกถือว่าตัวแปรตอบสนองมีเพียงสองผลลัพธ์ที่เป็นไปได้ นี่คือตัวอย่างบางส่วน:
- ใช่หรือไม่
- ชายหรือหญิง
- สำเร็จหรือล้มเหลว
- เขียนหรือไม่เขียน
- ร้ายกาจหรือใจดี
วิธีตรวจสอบสมมติฐานนี้: เพียงนับจำนวนผลลัพธ์ที่ไม่ซ้ำที่เกิดขึ้นในตัวแปรการตอบสนอง หากมีผลลัพธ์ที่เป็นไปได้มากกว่าสองรายการ คุณจะต้องดำเนิน การการถดถอยลำดับ แทน
สมมติฐาน #2: การสังเกตมีความเป็นอิสระ
การถดถอยโลจิสติกถือว่าการสังเกตในชุดข้อมูลมีความเป็นอิสระจากกัน กล่าวคือ การสังเกตไม่ควรมาจากการวัดซ้ำของบุคคลคนเดียวกันหรือเกี่ยวข้องกันในทางใดทางหนึ่ง
วิธีทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการสร้างแผนภาพของปริมาณที่เหลือเทียบกับเวลา (เช่น ลำดับการสังเกต) และสังเกตว่ามีแนวโน้มสุ่มหรือไม่ หาก ไม่มี รูปแบบสุ่ม สมมติฐานนี้อาจถูกละเมิด
สมมติฐาน #3: ไม่มีตัวแปรเชิงอธิบายหลายเส้นตรง
การถดถอยแบบโลจิสติกถือว่าไม่มี ความหลากหลาย ที่ร้ายแรงระหว่าง ตัวแปรอธิบาย
มัลติคอลลิเนียร์ริตีเกิดขึ้นเมื่อตัวแปรอธิบายสองตัวขึ้นไปมีความสัมพันธ์กันอย่างมาก โดยไม่ได้ให้ข้อมูลเฉพาะหรือเป็นอิสระในแบบจำลองการถดถอย หากระดับความสัมพันธ์ระหว่างตัวแปรสูงเพียงพอ อาจทำให้เกิดปัญหาในการปรับและตีความโมเดลได้
ตัวอย่างเช่น สมมติว่าคุณต้องการดำเนินการถดถอยโลจิสติกโดยใช้ การกระโดดแนวตั้งสูงสุด เป็นตัวแปรตอบสนอง และตัวแปรต่อไปนี้เป็นตัวแปรอธิบาย:
- ขนาดผู้เล่น
- ขนาดผู้เล่น
- ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน
ในกรณีนี้ ความสูง และ ขนาดรองเท้าน่า จะมีความสัมพันธ์กันสูง เนื่องจากคนที่สูงกว่ามักจะมีขนาดรองเท้าที่ใหญ่กว่า ซึ่งหมายความว่าพหุคอลลิเนียร์ริตี้อาจเป็นปัญหาหากเราใช้ตัวแปรทั้งสองนี้ในการถดถอย
วิธีตรวจสอบสมมติฐานนี้: วิธีที่ใช้กันทั่วไปในการตรวจจับหลายคอลลิเนียริตีคือการใช้ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) ซึ่งวัดความสัมพันธ์และความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรทำนายในแบบจำลองการถดถอย ดู บทช่วยสอนนี้ เพื่อดูคำอธิบายโดยละเอียดเกี่ยวกับวิธีการคำนวณและตีความค่า VIF
สมมติฐาน #4: ไม่มีค่าผิดปกติที่รุนแรง
การถดถอยโลจิสติกถือว่าไม่มีค่าผิดปกติหรือข้อสังเกตที่มีอิทธิพลในชุดข้อมูล
วิธีตรวจสอบสมมติฐานนี้: วิธีที่ใช้กันทั่วไปในการทดสอบค่าผิดปกติที่รุนแรงและการสังเกตที่มีอิทธิพลในชุดข้อมูลคือการคำนวณ ระยะทางของ Cook สำหรับการสังเกตแต่ละครั้ง หากมีค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะ (1) ลบค่าเหล่านั้นออก (2) แทนที่ค่าเหล่านั้นด้วยค่า เช่น ค่าเฉลี่ยหรือค่ามัธยฐาน หรือ (3) เพียงเก็บค่าเหล่านั้นไว้ในแบบจำลอง แต่จดบันทึกไว้เมื่อรายงานการถดถอย . ผลลัพธ์.
สมมติฐาน #5: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายและบันทึกของตัวแปรตอบสนอง
การถดถอยโลจิสติกถือว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายแต่ละตัวและบันทึกของตัวแปรตอบสนอง โปรดจำไว้ว่า logit ถูกกำหนดเป็น:
Logit(p) = log(p / (1-p)) โดยที่ p คือความน่าจะเป็นของผลลัพธ์ที่เป็นบวก
วิธีทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการดูว่าสมมติฐานนี้เป็นจริงหรือไม่คือการใช้การทดสอบ Box-Tidwell
สมมติฐาน #6: ขนาดตัวอย่างมีขนาดใหญ่เพียงพอ
การถดถอยโลจิสติกถือว่าขนาดตัวอย่างของชุดข้อมูลมีขนาดใหญ่พอที่จะสรุปผลที่ถูกต้องจากแบบจำลองการถดถอยโลจิสติกที่ติดตั้งไว้
วิธีตรวจสอบสมมติฐานนี้: ตามหลักการทั่วไป คุณควรมีกรณีอย่างน้อย 10 กรณีซึ่งผลลัพธ์จะเกิดบ่อยน้อยที่สุดสำหรับตัวแปรอธิบายแต่ละตัว ตัวอย่างเช่น หากคุณมีตัวแปรอธิบาย 3 ตัว และความน่าจะเป็นที่คาดหวังของผลลัพธ์ที่เกิดบ่อยน้อยที่สุดคือ 0.20 คุณควรมีขนาดตัวอย่างอย่างน้อย (10*3) / 0.20 = 150
สมมติฐานของการถดถอยโลจิสติกเทียบกับ การถดถอยเชิงเส้น
ต่างจากการถดถอยเชิงเส้น การถดถอยโลจิสติกไม่ต้องการ:
- ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง
- ส่วนที่เหลือของแบบจำลองให้กระจายตามปกติ
- ส่วนที่เหลือจะต้องมีความแปรปรวนคงที่หรือที่เรียกว่าความสม่ำเสมอ (homoscedasticity )
ที่เกี่ยวข้อง: สมมติฐานสี่ประการของการถดถอยเชิงเส้น
แหล่งข้อมูลเพิ่มเติม
4 ตัวอย่างการใช้ Logistic Regression ในชีวิตจริง
วิธีดำเนินการถดถอยโลจิสติกใน SPSS
วิธีการดำเนินการถดถอยโลจิสติกใน Excel
วิธีดำเนินการถดถอยโลจิสติกใน Stata