6 สมมติฐานของการถดถอยโลจิสติก (พร้อมตัวอย่าง)


การถดถอยแบบลอจิสติก เป็นวิธีการที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อ ตัวแปรตอบสนอง เป็นไบนารี

ก่อนที่จะปรับโมเดลให้เข้ากับชุดข้อมูล การถดถอยโลจิสติกจะตั้งสมมติฐานดังต่อไปนี้:

สมมติฐาน #1: ตัวแปรตอบสนองเป็นไบนารี

การถดถอยโลจิสติกถือว่าตัวแปรตอบสนองมีเพียงสองผลลัพธ์ที่เป็นไปได้ นี่คือตัวอย่างบางส่วน:

  • ใช่หรือไม่
  • ชายหรือหญิง
  • สำเร็จหรือล้มเหลว
  • เขียนหรือไม่เขียน
  • ร้ายกาจหรือใจดี

วิธีตรวจสอบสมมติฐานนี้: เพียงนับจำนวนผลลัพธ์ที่ไม่ซ้ำที่เกิดขึ้นในตัวแปรการตอบสนอง หากมีผลลัพธ์ที่เป็นไปได้มากกว่าสองรายการ คุณจะต้องดำเนิน การการถดถอยลำดับ แทน

สมมติฐาน #2: การสังเกตมีความเป็นอิสระ

การถดถอยโลจิสติกถือว่าการสังเกตในชุดข้อมูลมีความเป็นอิสระจากกัน กล่าวคือ การสังเกตไม่ควรมาจากการวัดซ้ำของบุคคลคนเดียวกันหรือเกี่ยวข้องกันในทางใดทางหนึ่ง

วิธีทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการสร้างแผนภาพของปริมาณที่เหลือเทียบกับเวลา (เช่น ลำดับการสังเกต) และสังเกตว่ามีแนวโน้มสุ่มหรือไม่ หาก ไม่มี รูปแบบสุ่ม สมมติฐานนี้อาจถูกละเมิด

สมมติฐาน #3: ไม่มีตัวแปรเชิงอธิบายหลายเส้นตรง

การถดถอยแบบโลจิสติกถือว่าไม่มี ความหลากหลาย ที่ร้ายแรงระหว่าง ตัวแปรอธิบาย

มัลติคอลลิเนียร์ริตีเกิดขึ้นเมื่อตัวแปรอธิบายสองตัวขึ้นไปมีความสัมพันธ์กันอย่างมาก โดยไม่ได้ให้ข้อมูลเฉพาะหรือเป็นอิสระในแบบจำลองการถดถอย หากระดับความสัมพันธ์ระหว่างตัวแปรสูงเพียงพอ อาจทำให้เกิดปัญหาในการปรับและตีความโมเดลได้

ตัวอย่างเช่น สมมติว่าคุณต้องการดำเนินการถดถอยโลจิสติกโดยใช้ การกระโดดแนวตั้งสูงสุด เป็นตัวแปรตอบสนอง และตัวแปรต่อไปนี้เป็นตัวแปรอธิบาย:

  • ขนาดผู้เล่น
  • ขนาดผู้เล่น
  • ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน

ในกรณีนี้ ความสูง และ ขนาดรองเท้าน่า จะมีความสัมพันธ์กันสูง เนื่องจากคนที่สูงกว่ามักจะมีขนาดรองเท้าที่ใหญ่กว่า ซึ่งหมายความว่าพหุคอลลิเนียร์ริตี้อาจเป็นปัญหาหากเราใช้ตัวแปรทั้งสองนี้ในการถดถอย

วิธีตรวจสอบสมมติฐานนี้: วิธีที่ใช้กันทั่วไปในการตรวจจับหลายคอลลิเนียริตีคือการใช้ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) ซึ่งวัดความสัมพันธ์และความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรทำนายในแบบจำลองการถดถอย ดู บทช่วยสอนนี้ เพื่อดูคำอธิบายโดยละเอียดเกี่ยวกับวิธีการคำนวณและตีความค่า VIF

สมมติฐาน #4: ไม่มีค่าผิดปกติที่รุนแรง

การถดถอยโลจิสติกถือว่าไม่มีค่าผิดปกติหรือข้อสังเกตที่มีอิทธิพลในชุดข้อมูล

วิธีตรวจสอบสมมติฐานนี้: วิธีที่ใช้กันทั่วไปในการทดสอบค่าผิดปกติที่รุนแรงและการสังเกตที่มีอิทธิพลในชุดข้อมูลคือการคำนวณ ระยะทางของ Cook สำหรับการสังเกตแต่ละครั้ง หากมีค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะ (1) ลบค่าเหล่านั้นออก (2) แทนที่ค่าเหล่านั้นด้วยค่า เช่น ค่าเฉลี่ยหรือค่ามัธยฐาน หรือ (3) เพียงเก็บค่าเหล่านั้นไว้ในแบบจำลอง แต่จดบันทึกไว้เมื่อรายงานการถดถอย . ผลลัพธ์.

สมมติฐาน #5: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายและบันทึกของตัวแปรตอบสนอง

การถดถอยโลจิสติกถือว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายแต่ละตัวและบันทึกของตัวแปรตอบสนอง โปรดจำไว้ว่า logit ถูกกำหนดเป็น:

Logit(p) = log(p / (1-p)) โดยที่ p คือความน่าจะเป็นของผลลัพธ์ที่เป็นบวก

วิธีทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการดูว่าสมมติฐานนี้เป็นจริงหรือไม่คือการใช้การทดสอบ Box-Tidwell

สมมติฐาน #6: ขนาดตัวอย่างมีขนาดใหญ่เพียงพอ

การถดถอยโลจิสติกถือว่าขนาดตัวอย่างของชุดข้อมูลมีขนาดใหญ่พอที่จะสรุปผลที่ถูกต้องจากแบบจำลองการถดถอยโลจิสติกที่ติดตั้งไว้

วิธีตรวจสอบสมมติฐานนี้: ตามหลักการทั่วไป คุณควรมีกรณีอย่างน้อย 10 กรณีซึ่งผลลัพธ์จะเกิดบ่อยน้อยที่สุดสำหรับตัวแปรอธิบายแต่ละตัว ตัวอย่างเช่น หากคุณมีตัวแปรอธิบาย 3 ตัว และความน่าจะเป็นที่คาดหวังของผลลัพธ์ที่เกิดบ่อยน้อยที่สุดคือ 0.20 คุณควรมีขนาดตัวอย่างอย่างน้อย (10*3) / 0.20 = 150

สมมติฐานของการถดถอยโลจิสติกเทียบกับ การถดถอยเชิงเส้น

ต่างจากการถดถอยเชิงเส้น การถดถอยโลจิสติกไม่ต้องการ:

  • ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง
  • ส่วนที่เหลือของแบบจำลองให้กระจายตามปกติ
  • ส่วนที่เหลือจะต้องมีความแปรปรวนคงที่หรือที่เรียกว่าความสม่ำเสมอ (homoscedasticity )

ที่เกี่ยวข้อง: สมมติฐานสี่ประการของการถดถอยเชิงเส้น

แหล่งข้อมูลเพิ่มเติม

4 ตัวอย่างการใช้ Logistic Regression ในชีวิตจริง
วิธีดำเนินการถดถอยโลจิสติกใน SPSS
วิธีการดำเนินการถดถอยโลจิสติกใน Excel
วิธีดำเนินการถดถอยโลจิสติกใน Stata

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *