6 สมมติฐานของการถดถอยโลจิสติก (พร้อมตัวอย่าง)

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 27, 2023 แนะนำ 0 ความคิดเห็น

การถดถอยแบบลอจิสติก เป็นวิธีการที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อ ตัวแปรตอบสนอง เป็นไบนารี

ก่อนที่จะปรับโมเดลให้เข้ากับชุดข้อมูล การถดถอยโลจิสติกจะตั้งสมมติฐานดังต่อไปนี้:

สมมติฐาน #1: ตัวแปรตอบสนองเป็นไบนารี

การถดถอยโลจิสติกถือว่าตัวแปรตอบสนองมีเพียงสองผลลัพธ์ที่เป็นไปได้ นี่คือตัวอย่างบางส่วน:

ใช่หรือไม่
ชายหรือหญิง
สำเร็จหรือล้มเหลว
เขียนหรือไม่เขียน
ร้ายกาจหรือใจดี

วิธีตรวจสอบสมมติฐานนี้: เพียงนับจำนวนผลลัพธ์ที่ไม่ซ้ำที่เกิดขึ้นในตัวแปรการตอบสนอง หากมีผลลัพธ์ที่เป็นไปได้มากกว่าสองรายการ คุณจะต้องดำเนิน การการถดถอยลำดับ แทน

สมมติฐาน #2: การสังเกตมีความเป็นอิสระ

การถดถอยโลจิสติกถือว่าการสังเกตในชุดข้อมูลมีความเป็นอิสระจากกัน กล่าวคือ การสังเกตไม่ควรมาจากการวัดซ้ำของบุคคลคนเดียวกันหรือเกี่ยวข้องกันในทางใดทางหนึ่ง

วิธีทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการสร้างแผนภาพของปริมาณที่เหลือเทียบกับเวลา (เช่น ลำดับการสังเกต) และสังเกตว่ามีแนวโน้มสุ่มหรือไม่ หาก ไม่มี รูปแบบสุ่ม สมมติฐานนี้อาจถูกละเมิด

สมมติฐาน #3: ไม่มีตัวแปรเชิงอธิบายหลายเส้นตรง

การถดถอยแบบโลจิสติกถือว่าไม่มี ความหลากหลาย ที่ร้ายแรงระหว่าง ตัวแปรอธิบาย

มัลติคอลลิเนียร์ริตีเกิดขึ้นเมื่อตัวแปรอธิบายสองตัวขึ้นไปมีความสัมพันธ์กันอย่างมาก โดยไม่ได้ให้ข้อมูลเฉพาะหรือเป็นอิสระในแบบจำลองการถดถอย หากระดับความสัมพันธ์ระหว่างตัวแปรสูงเพียงพอ อาจทำให้เกิดปัญหาในการปรับและตีความโมเดลได้

ตัวอย่างเช่น สมมติว่าคุณต้องการดำเนินการถดถอยโลจิสติกโดยใช้ การกระโดดแนวตั้งสูงสุด เป็นตัวแปรตอบสนอง และตัวแปรต่อไปนี้เป็นตัวแปรอธิบาย:

ขนาดผู้เล่น
ขนาดผู้เล่น
ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน

ในกรณีนี้ ความสูง และ ขนาดรองเท้าน่า จะมีความสัมพันธ์กันสูง เนื่องจากคนที่สูงกว่ามักจะมีขนาดรองเท้าที่ใหญ่กว่า ซึ่งหมายความว่าพหุคอลลิเนียร์ริตี้อาจเป็นปัญหาหากเราใช้ตัวแปรทั้งสองนี้ในการถดถอย

วิธีตรวจสอบสมมติฐานนี้: วิธีที่ใช้กันทั่วไปในการตรวจจับหลายคอลลิเนียริตีคือการใช้ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) ซึ่งวัดความสัมพันธ์และความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรทำนายในแบบจำลองการถดถอย ดู บทช่วยสอนนี้ เพื่อดูคำอธิบายโดยละเอียดเกี่ยวกับวิธีการคำนวณและตีความค่า VIF

สมมติฐาน #4: ไม่มีค่าผิดปกติที่รุนแรง

การถดถอยโลจิสติกถือว่าไม่มีค่าผิดปกติหรือข้อสังเกตที่มีอิทธิพลในชุดข้อมูล

วิธีตรวจสอบสมมติฐานนี้: วิธีที่ใช้กันทั่วไปในการทดสอบค่าผิดปกติที่รุนแรงและการสังเกตที่มีอิทธิพลในชุดข้อมูลคือการคำนวณ ระยะทางของ Cook สำหรับการสังเกตแต่ละครั้ง หากมีค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะ (1) ลบค่าเหล่านั้นออก (2) แทนที่ค่าเหล่านั้นด้วยค่า เช่น ค่าเฉลี่ยหรือค่ามัธยฐาน หรือ (3) เพียงเก็บค่าเหล่านั้นไว้ในแบบจำลอง แต่จดบันทึกไว้เมื่อรายงานการถดถอย . ผลลัพธ์.

สมมติฐาน #5: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายและบันทึกของตัวแปรตอบสนอง

การถดถอยโลจิสติกถือว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายแต่ละตัวและบันทึกของตัวแปรตอบสนอง โปรดจำไว้ว่า logit ถูกกำหนดเป็น:

Logit(p) = log(p / (1-p)) โดยที่ p คือความน่าจะเป็นของผลลัพธ์ที่เป็นบวก

วิธีทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการดูว่าสมมติฐานนี้เป็นจริงหรือไม่คือการใช้การทดสอบ Box-Tidwell

สมมติฐาน #6: ขนาดตัวอย่างมีขนาดใหญ่เพียงพอ

การถดถอยโลจิสติกถือว่าขนาดตัวอย่างของชุดข้อมูลมีขนาดใหญ่พอที่จะสรุปผลที่ถูกต้องจากแบบจำลองการถดถอยโลจิสติกที่ติดตั้งไว้

วิธีตรวจสอบสมมติฐานนี้: ตามหลักการทั่วไป คุณควรมีกรณีอย่างน้อย 10 กรณีซึ่งผลลัพธ์จะเกิดบ่อยน้อยที่สุดสำหรับตัวแปรอธิบายแต่ละตัว ตัวอย่างเช่น หากคุณมีตัวแปรอธิบาย 3 ตัว และความน่าจะเป็นที่คาดหวังของผลลัพธ์ที่เกิดบ่อยน้อยที่สุดคือ 0.20 คุณควรมีขนาดตัวอย่างอย่างน้อย (10*3) / 0.20 = 150

สมมติฐานของการถดถอยโลจิสติกเทียบกับ การถดถอยเชิงเส้น

ต่างจากการถดถอยเชิงเส้น การถดถอยโลจิสติกไม่ต้องการ:

ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง
ส่วนที่เหลือของแบบจำลองให้กระจายตามปกติ
ส่วนที่เหลือจะต้องมีความแปรปรวนคงที่หรือที่เรียกว่าความสม่ำเสมอ (homoscedasticity )

ที่เกี่ยวข้อง: สมมติฐานสี่ประการของการถดถอยเชิงเส้น

แหล่งข้อมูลเพิ่มเติม

4 ตัวอย่างการใช้ Logistic Regression ในชีวิตจริง
วิธีดำเนินการถดถอยโลจิสติกใน SPSS
วิธีการดำเนินการถดถอยโลจิสติกใน Excel
วิธีดำเนินการถดถอยโลจิสติกใน Stata

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม