วิธีการตีความสถิติ c ของแบบจำลองการถดถอยโลจิสติก
บทช่วยสอนนี้ให้คำอธิบายง่ายๆ เกี่ยวกับวิธีการตีความ สถิติ C ของแบบจำลองการถดถอยโลจิสติก
การถดถอยโลจิสติกคืออะไร?
การถดถอยแบบลอจิสติก เป็นวิธีการทางสถิติที่เราใช้เพื่อปรับให้เหมาะสมกับแบบจำลองการถดถอยเมื่อ ตัวแปร ตอบสนอง เป็นไบนารี นี่คือตัวอย่างบางส่วนของการใช้การถดถอยโลจิสติก:
- เราต้องการทราบว่าการออกกำลังกาย การรับประทานอาหาร และน้ำหนักส่งผลต่อโอกาสที่จะหัวใจวายอย่างไร ตัวแปรตอบสนองคือ หัวใจวาย และอาจมีผลลัพธ์ที่เป็นไปได้สองประการ: หัวใจวายเกิดขึ้นหรือไม่เกิดขึ้น
- เราต้องการทราบว่าเกรดเฉลี่ย คะแนน ACT และจำนวนหลักสูตร AP ส่งผลต่อโอกาสในการได้รับการตอบรับเข้าศึกษาในมหาวิทยาลัยแห่งใดแห่งหนึ่งอย่างไร ตัวแปรตอบสนองคือ การยอมรับ และมีผลลัพธ์ที่เป็นไปได้สองประการ: ยอมรับหรือไม่ยอมรับ
- เราต้องการทราบว่าจำนวนคำและชื่ออีเมลส่งผลต่อแนวโน้มที่อีเมลจะเป็นสแปมหรือไม่ ตัวแปรการตอบสนองคือ สแปม และอาจมีผลลัพธ์ที่เป็นไปได้สองประการ: สแปมหรือไม่ใช่สแปม
โปรดทราบว่าตัวแปรทำนายอาจเป็นตัวเลขหรือหมวดหมู่ก็ได้ สิ่งสำคัญคือตัวแปรตอบสนองนั้นเป็นไบนารี เมื่อเป็นกรณีนี้ การถดถอยโลจิสติกเป็นแบบจำลองที่เหมาะสมเพื่อใช้อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง
วิธีการประเมินความเพียงพอของตัวแบบการถดถอยโลจิสติก
เมื่อเราปรับแบบจำลองการถดถอยโลจิสติกเข้ากับชุดข้อมูลแล้ว เรามักจะสนใจว่าแบบจำลองนั้นเหมาะสมกับข้อมูล มากน้อยเพียงใด โดยเฉพาะอย่างยิ่ง เรามีความสนใจในความสามารถของแบบจำลองในการทำนายผลลัพธ์เชิงบวกและเชิงลบได้อย่างแม่นยำ
ความไว หมายถึงความน่าจะเป็นที่แบบจำลองคาดการณ์ผลลัพธ์ที่เป็นบวกสำหรับการสังเกต เมื่อผลลัพธ์เป็นบวกจริงๆ
ความจำเพาะ หมายถึงความน่าจะเป็นที่แบบจำลองคาดการณ์ผลลัพธ์เชิงลบสำหรับการสังเกต เมื่อผลลัพธ์เป็นลบจริงๆ
แบบจำลองการถดถอยโลจิสติกเหมาะอย่างยิ่งสำหรับการจำแนกประเภทการสังเกตหากมีความไวและความจำเพาะ 100% แต่ในทางปฏิบัติสิ่งนี้แทบไม่เคยเกิดขึ้นเลย
เมื่อเราติดตั้งแบบจำลองการถดถอยโลจิสติกแล้ว ก็จะสามารถนำมาใช้ในการคำนวณความน่าจะเป็นที่การสังเกตที่กำหนดจะมีผลในเชิงบวก โดยขึ้นอยู่กับค่าของตัวแปรทำนาย
ในการพิจารณาว่าการสังเกตควรจัดประเภทเป็นบวกหรือไม่ เราสามารถเลือกเกณฑ์ เช่น การสังเกตที่มีความน่าจะเป็นที่ปรับแล้วเหนือเกณฑ์นั้นจะถูกจัดประเภทเป็นบวก และการสังเกตทั้งหมดที่มีความน่าจะเป็นที่ปรับแล้วต่ำกว่าเกณฑ์นั้นจะถูกจัดประเภทเป็นลบ .
ตัวอย่างเช่น สมมติว่าเราเลือกเกณฑ์ที่ 0.5 ซึ่งหมายความว่า การสังเกตใดๆ ที่มีความน่าจะเป็นที่ปรับแล้วน้อยกว่า 0.5 จะมีผลเป็นบวก ในขณะที่การสังเกตใดๆ ที่มีความน่าจะเป็นที่ปรับแล้วน้อยกว่าหรือเท่ากับ 0.5 จะมีผลเป็นลบ
การเขียนกราฟเส้นโค้ง ROC
วิธีหนึ่งที่พบบ่อยที่สุดในการแสดงภาพความไวและความจำเพาะของแบบจำลองคือการพล็อต เส้นโค้ง ลักษณะการทำงานของตัวรับ ( ROC ) ซึ่งเป็นพล็อตของค่าความไวเทียบกับความจำเพาะ 1 เป็นค่าของเกณฑ์ จุดเปลี่ยนจาก 0 เป็น 1:
โมเดลที่มีความไวและความจำเพาะสูงจะมีเส้นโค้ง ROC ที่พอดีกับมุมซ้ายบนของโครงเรื่อง แบบจำลองที่มีความไวต่ำและความจำเพาะต่ำจะมีเส้นโค้งใกล้กับเส้นทแยงมุม 45 องศา
AUC (พื้นที่ใต้เส้นโค้ง) ช่วยให้เราเข้าใจถึงความสามารถของแบบจำลองในการแยกแยะระหว่างผลลัพธ์เชิงบวกและเชิงลบ AUC สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ยิ่ง AUC สูงเท่าใด โมเดลก็จะยิ่งจำแนกผลลัพธ์ได้อย่างถูกต้องมากขึ้นเท่านั้น
ซึ่งหมายความว่าแบบจำลองที่มีเส้นโค้ง ROC ที่โอบมุมซ้ายบนของโครงเรื่องจะมีพื้นที่ใต้เส้นโค้งสูง และดังนั้นจึงเป็นแบบจำลองที่สามารถจำแนกผลลัพธ์ได้อย่างถูกต้อง ในทางกลับกัน โมเดลที่มีเส้นโค้ง ROC ที่โอบเส้นทแยงมุม 45 องศาจะมีพื้นที่ต่ำใต้เส้นโค้ง และดังนั้นจึงเป็นแบบจำลองที่ไม่สามารถจำแนกผลลัพธ์ได้ดี
ทำความเข้าใจกับสถิติ C
สถิติ c หรือที่เรียกว่า สถิติความสอดคล้อง มีค่าเท่ากับ AUC (พื้นที่ใต้เส้นโค้ง) และมีการตีความดังต่อไปนี้:
- ค่าที่น้อยกว่า 0.5 หมายถึงโมเดลที่ไม่ดี
- ค่า 0.5 บ่งชี้ว่าแบบจำลองไม่สามารถจำแนกผลลัพธ์ได้ดีไปกว่าโอกาส
- ยิ่งค่าเข้าใกล้ 1 มากเท่าไร โมเดลก็ยิ่งสามารถจำแนกผลลัพธ์ได้อย่างถูกต้องมากขึ้นเท่านั้น
- ค่า 1 หมายความว่าโมเดลนี้เหมาะสำหรับการจำแนกผลลัพธ์
ดังนั้นสถิติ C ช่วยให้เราทราบว่าแบบจำลองมีประสิทธิภาพเพียงใดในการจำแนกผลลัพธ์อย่างถูกต้อง
ในสถานพยาบาล เป็นไปได้ที่จะคำนวณสถิติ C โดยนำคู่ที่เป็นไปได้ทั้งหมด ได้แก่ บุคคลที่ประสบกับผลลัพธ์ที่เป็นบวก และบุคคลที่ประสบกับผลลัพธ์ที่เป็นลบ จากนั้น สถิติ c สามารถคำนวณเป็นสัดส่วนของคู่ดังกล่าว โดยบุคคลที่ประสบกับผลลัพธ์ที่เป็นบวกมีความน่าจะเป็นที่คาดการณ์ไว้สูงกว่าที่จะประสบกับผลลัพธ์มากกว่าบุคคลที่ไม่ได้รับผลลัพธ์ที่เป็นบวก
ตัวอย่างเช่น สมมติว่าเราปรับแบบจำลองการถดถอยลอจิสติกโดยใช้ตัวแปรทำนาย เช่น อายุ และ ความดันโลหิต เพื่อทำนายโอกาสที่จะเกิดภาวะหัวใจวาย
ในการค้นหาสถิติ c ของแบบจำลอง เราสามารถระบุคู่บุคคลที่เป็นไปได้ทั้งหมด ซึ่งประกอบด้วยบุคคลที่มีอาการหัวใจวายและบุคคลที่ไม่มีอาการหัวใจวาย จากนั้น สถิติ c สามารถคำนวณเป็นสัดส่วนของคู่เหล่านี้ โดยที่บุคคลที่ป่วยเป็นโรคหัวใจวายมีความน่าจะเป็นที่คาดการณ์ไว้ได้สูงกว่าที่จะเป็นโรคหัวใจวาย เมื่อเทียบกับบุคคลที่ไม่ได้รับความทุกข์ทรมานจากอาการหัวใจวาย หัวใจวาย.
บทสรุป
ในบทความนี้เราได้เรียนรู้สิ่งต่อไปนี้:
- การถดถอยแบบลอจิสติก เป็นวิธีการทางสถิติที่เราใช้เพื่อปรับให้เหมาะสมกับแบบจำลองการถดถอยเมื่อ ตัวแปร ตอบสนอง เป็นไบนารี
- เพื่อประเมินความเหมาะสมของแบบจำลองการถดถอยลอจิสติก เราสามารถดู ความไว และ ความจำเพาะ ซึ่งบอกเราว่าแบบจำลองสามารถจัดประเภทผลลัพธ์ได้อย่างถูกต้องได้ดีเพียงใด
- เพื่อให้เห็นภาพความไวและความจำเพาะ เราสามารถสร้าง เส้นโค้ง ROC ได้
- AUC (พื้นที่ใต้เส้นโค้ง) บ่งชี้ว่าแบบจำลองสามารถจำแนกผลลัพธ์ได้อย่างถูกต้องเพียงใด เมื่อเส้นโค้ง ROC กอดมุมซ้ายบนของพล็อต แสดงว่าแบบจำลองสามารถจำแนกผลลัพธ์ได้สำเร็จ
- สถิติ c เท่ากับ AUC (พื้นที่ใต้เส้นโค้ง) และยังสามารถคำนวณได้โดยการนำคู่ที่เป็นไปได้ทั้งหมดของบุคคล กล่าวคือ บุคคลที่ประสบกับผลลัพธ์ที่เป็นบวก และบุคคลที่ประสบกับผลลัพธ์ที่เป็นลบ จากนั้น สถิติ c คือสัดส่วนของคู่ดังกล่าว ซึ่งบุคคลที่ประสบกับผลลัพธ์เชิงบวกมีความน่าจะเป็นที่คาดการณ์ไว้สูงกว่าที่จะประสบกับผลลัพธ์มากกว่าบุคคลที่ไม่ได้รับผลลัพธ์เชิงบวก
- ยิ่ง ค่าสถิติ C ใกล้ 1 มากเท่าไร โมเดลก็ยิ่งสามารถจำแนกผลลัพธ์ได้ถูกต้องมากขึ้นเท่านั้น