การถดถอยโลจิสติก
บทความนี้จะอธิบายว่าการถดถอยโลจิสติกในสถิติคืออะไร ในทำนองเดียวกัน คุณจะพบสูตรการถดถอยโลจิสติก ประเภทต่างๆ ของการถดถอยโลจิสติก และยิ่งกว่านั้น แบบฝึกหัดการถดถอยโลจิสติกที่แก้ไขแล้ว
การถดถอยโลจิสติกคืออะไร?
ในสถิติ การถดถอยโลจิสติก เป็นรูปแบบหนึ่งของแบบจำลองการถดถอยที่ใช้ในการทำนายผลลัพธ์ของ ตัวแปรเชิงหมวดหมู่ นั่นคือ การถดถอยโลจิสติกใช้ในการจำลองความน่าจะเป็นที่ตัวแปรเชิงหมวดหมู่ใช้กับค่าที่กำหนดโดยอิงจากตัวแปรอิสระ
แบบจำลองการถดถอยโลจิสติกที่พบบ่อยที่สุดคือการถดถอยโลจิสติกแบบไบนารี ซึ่งมีเพียงสองผลลัพธ์ที่เป็นไปได้: “ความล้มเหลว” หรือ “ความสำเร็จ” ( การแจกแจงแบบแบร์นูลลี ) “ความล้มเหลว” แสดงด้วยค่า 0 ในขณะที่ “ความสำเร็จ” แสดงด้วยค่า 1
ตัวอย่างเช่น ความน่าจะเป็นที่นักเรียนจะสอบผ่านโดยอิงตามชั่วโมงที่พวกเขาใช้เวลาเรียนสามารถศึกษาได้โดยใช้แบบจำลองการถดถอยลอจิสติก ในกรณีนี้ ความล้มเหลวจะเป็นผลมาจาก “ความล้มเหลว” และในทางกลับกัน ความสำเร็จจะเป็นผลมาจาก “ความสำเร็จ”
สูตรการถดถอยโลจิสติก
สมการสำหรับแบบจำลองการถดถอยโลจิสติกคือ:
ดังนั้น ในแบบจำลองการถดถอยโลจิสติก ความน่าจะเป็นที่จะได้รับผลลัพธ์ “ความสำเร็จ” นั่นคือตัวแปรตามรับค่า 1 จะถูกคำนวณด้วยสูตรต่อไปนี้:
ทอง:
-
คือความน่าจะเป็นที่ตัวแปรตามคือ 1
-
คือค่าคงที่ของแบบจำลองการถดถอยโลจิสติก
-
คือสัมประสิทธิ์การถดถอยของตัวแปร i
-
คือค่าของตัวแปร i
ตัวอย่างแบบจำลองการถดถอยโลจิสติก
ตอนนี้เรารู้คำจำกัดความของการถดถอยลอจิสติกแล้ว เรามาดูตัวอย่างที่ชัดเจนของวิธีการสร้างแบบจำลองของการถดถอยประเภทนี้กัน
- ในตารางต่อไปนี้ มีการรวบรวมข้อมูล 20 ชุดที่เกี่ยวข้องกับชั่วโมงเรียนของนักเรียนแต่ละคน และไม่ว่าพวกเขาจะผ่านหรือไม่ผ่านการทดสอบสถิติ เรียกใช้แบบจำลองการถดถอยลอจิสติกส์และคำนวณความน่าจะเป็นที่นักเรียนจะผ่านหากเขาหรือเธอเรียนเป็นเวลา 4 ชั่วโมง
ในกรณีนี้ ตัวแปรอธิบายคือจำนวนชั่วโมงเรียน และตัวแปรตอบกลับคือนักเรียนสอบไม่ผ่าน (0) หรือผ่าน (1) ดังนั้นในแบบจำลองของเราเราจะมีเพียงค่าสัมประสิทธิ์เท่านั้น
และค่าสัมประสิทธิ์
เนื่องจากมีตัวแปรอิสระเพียงตัวเดียวเท่านั้น
การหาค่าสัมประสิทธิ์การถดถอยด้วยตนเองนั้นต้องใช้ความพยายามอย่างมาก ดังนั้นจึงแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ เช่น Minitab ดังนั้นค่าสัมประสิทธิ์การถดถอยที่คำนวณโดยใช้ Minitab จึงเป็นดังนี้
แบบจำลองการถดถอยโลจิสติกจึงเป็นดังนี้:
ด้านล่างนี้ คุณสามารถดูข้อมูลตัวอย่างและสมการแบบจำลองการถดถอยโลจิสติกที่แสดงเป็นกราฟ:
ดังนั้น ในการคำนวณความน่าจะเป็นที่นักเรียนจะประสบความสำเร็จหากเรียนไป 4 ชั่วโมง ให้ใช้สมการที่ได้จากแบบจำลองการถดถอยลอจิสติก:
สรุปคือ ถ้านักเรียนเรียนสี่ชั่วโมงจะมีโอกาสสอบผ่าน 86.99%
ประเภทของการถดถอยโลจิสติก
การถดถอยโลจิสติกมีสามประเภท :
- Binary Logistic Regression : ตัวแปรตามสามารถมีได้เพียงสองค่าเท่านั้น (0 และ 1)
- การถดถอยโลจิสติกพหุนาม : ตัวแปรตามมีค่าที่เป็นไปได้มากกว่าสองค่า
- การถดถอยโลจิสติกลำดับ : ผลลัพธ์ที่เป็นไปได้มีลำดับตามธรรมชาติ
การถดถอยโลจิสติกและการถดถอยเชิงเส้น
โดยสรุป เราจะเห็นว่าอะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยเชิงเส้น เนื่องจากแบบจำลองการถดถอยที่ใช้มากที่สุดในสถิติคือแบบจำลองเชิงเส้น
การถดถอยเชิงเส้น ใช้ในการจำลองตัวแปรตามตัวเลข นอกจากนี้ ในการถดถอยเชิงเส้น ความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนองจะเป็นเชิงเส้น
ดังนั้น ความแตกต่างที่สำคัญระหว่างการถดถอยโลจิสติกและการถดถอยเชิงเส้น คือประเภทของตัวแปรตาม ในการถดถอยโลจิสติก ตัวแปรตามจะเป็นแบบหมวดหมู่ ในขณะที่ตัวแปรตามในการถดถอยเชิงเส้นจะเป็นตัวเลข
ดังนั้น การถดถอยโลจิสติกจึงถูกนำมาใช้เพื่อทำนายผลลัพธ์ระหว่างสองตัวเลือกที่เป็นไปได้ ในขณะที่การถดถอยเชิงเส้นจะช่วยทำนายผลลัพธ์ที่เป็นตัวเลข