วิธีการตีความสถิติ c ของแบบจำลองการถดถอยโลจิสติก


บทช่วยสอนนี้ให้คำอธิบายง่ายๆ เกี่ยวกับวิธีการตีความ สถิติ C ของแบบจำลองการถดถอยโลจิสติก

การถดถอยโลจิสติกคืออะไร?

การถดถอยแบบลอจิสติก เป็นวิธีการทางสถิติที่เราใช้เพื่อปรับให้เหมาะสมกับแบบจำลองการถดถอยเมื่อ ตัวแปร ตอบสนอง เป็นไบนารี นี่คือตัวอย่างบางส่วนของการใช้การถดถอยโลจิสติก:

  • เราต้องการทราบว่าการออกกำลังกาย การรับประทานอาหาร และน้ำหนักส่งผลต่อโอกาสที่จะหัวใจวายอย่างไร ตัวแปรตอบสนองคือ หัวใจวาย และอาจมีผลลัพธ์ที่เป็นไปได้สองประการ: หัวใจวายเกิดขึ้นหรือไม่เกิดขึ้น
  • เราต้องการทราบว่าเกรดเฉลี่ย คะแนน ACT และจำนวนหลักสูตร AP ส่งผลต่อโอกาสในการได้รับการตอบรับเข้าศึกษาในมหาวิทยาลัยแห่งใดแห่งหนึ่งอย่างไร ตัวแปรตอบสนองคือ การยอมรับ และมีผลลัพธ์ที่เป็นไปได้สองประการ: ยอมรับหรือไม่ยอมรับ
  • เราต้องการทราบว่าจำนวนคำและชื่ออีเมลส่งผลต่อแนวโน้มที่อีเมลจะเป็นสแปมหรือไม่ ตัวแปรการตอบสนองคือ สแปม และอาจมีผลลัพธ์ที่เป็นไปได้สองประการ: สแปมหรือไม่ใช่สแปม

โปรดทราบว่าตัวแปรทำนายอาจเป็นตัวเลขหรือหมวดหมู่ก็ได้ สิ่งสำคัญคือตัวแปรตอบสนองนั้นเป็นไบนารี เมื่อเป็นกรณีนี้ การถดถอยโลจิสติกเป็นแบบจำลองที่เหมาะสมเพื่อใช้อธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง

วิธีการประเมินความเพียงพอของตัวแบบการถดถอยโลจิสติก

เมื่อเราปรับแบบจำลองการถดถอยโลจิสติกเข้ากับชุดข้อมูลแล้ว เรามักจะสนใจว่าแบบจำลองนั้นเหมาะสมกับข้อมูล มากน้อยเพียงใด โดยเฉพาะอย่างยิ่ง เรามีความสนใจในความสามารถของแบบจำลองในการทำนายผลลัพธ์เชิงบวกและเชิงลบได้อย่างแม่นยำ

ความไว หมายถึงความน่าจะเป็นที่แบบจำลองคาดการณ์ผลลัพธ์ที่เป็นบวกสำหรับการสังเกต เมื่อผลลัพธ์เป็นบวกจริงๆ

ความจำเพาะ หมายถึงความน่าจะเป็นที่แบบจำลองคาดการณ์ผลลัพธ์เชิงลบสำหรับการสังเกต เมื่อผลลัพธ์เป็นลบจริงๆ

แบบจำลองการถดถอยโลจิสติกเหมาะอย่างยิ่งสำหรับการจำแนกประเภทการสังเกตหากมีความไวและความจำเพาะ 100% แต่ในทางปฏิบัติสิ่งนี้แทบไม่เคยเกิดขึ้นเลย

เมื่อเราติดตั้งแบบจำลองการถดถอยโลจิสติกแล้ว ก็จะสามารถนำมาใช้ในการคำนวณความน่าจะเป็นที่การสังเกตที่กำหนดจะมีผลในเชิงบวก โดยขึ้นอยู่กับค่าของตัวแปรทำนาย

ในการพิจารณาว่าการสังเกตควรจัดประเภทเป็นบวกหรือไม่ เราสามารถเลือกเกณฑ์ เช่น การสังเกตที่มีความน่าจะเป็นที่ปรับแล้วเหนือเกณฑ์นั้นจะถูกจัดประเภทเป็นบวก และการสังเกตทั้งหมดที่มีความน่าจะเป็นที่ปรับแล้วต่ำกว่าเกณฑ์นั้นจะถูกจัดประเภทเป็นลบ .

ตัวอย่างเช่น สมมติว่าเราเลือกเกณฑ์ที่ 0.5 ซึ่งหมายความว่า การสังเกตใดๆ ที่มีความน่าจะเป็นที่ปรับแล้วน้อยกว่า 0.5 จะมีผลเป็นบวก ในขณะที่การสังเกตใดๆ ที่มีความน่าจะเป็นที่ปรับแล้วน้อยกว่าหรือเท่ากับ 0.5 จะมีผลเป็นลบ

การเขียนกราฟเส้นโค้ง ROC

วิธีหนึ่งที่พบบ่อยที่สุดในการแสดงภาพความไวและความจำเพาะของแบบจำลองคือการพล็อต เส้นโค้ง ลักษณะการทำงานของตัวรับ ( ROC ) ซึ่งเป็นพล็อตของค่าความไวเทียบกับความจำเพาะ 1 เป็นค่าของเกณฑ์ จุดเปลี่ยนจาก 0 เป็น 1:

โมเดลที่มีความไวและความจำเพาะสูงจะมีเส้นโค้ง ROC ที่พอดีกับมุมซ้ายบนของโครงเรื่อง แบบจำลองที่มีความไวต่ำและความจำเพาะต่ำจะมีเส้นโค้งใกล้กับเส้นทแยงมุม 45 องศา

AUC (พื้นที่ใต้เส้นโค้ง) ช่วยให้เราเข้าใจถึงความสามารถของแบบจำลองในการแยกแยะระหว่างผลลัพธ์เชิงบวกและเชิงลบ AUC สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ยิ่ง AUC สูงเท่าใด โมเดลก็จะยิ่งจำแนกผลลัพธ์ได้อย่างถูกต้องมากขึ้นเท่านั้น

ซึ่งหมายความว่าแบบจำลองที่มีเส้นโค้ง ROC ที่โอบมุมซ้ายบนของโครงเรื่องจะมีพื้นที่ใต้เส้นโค้งสูง และดังนั้นจึงเป็นแบบจำลองที่สามารถจำแนกผลลัพธ์ได้อย่างถูกต้อง ในทางกลับกัน โมเดลที่มีเส้นโค้ง ROC ที่โอบเส้นทแยงมุม 45 องศาจะมีพื้นที่ต่ำใต้เส้นโค้ง และดังนั้นจึงเป็นแบบจำลองที่ไม่สามารถจำแนกผลลัพธ์ได้ดี

ทำความเข้าใจกับสถิติ C

สถิติ c หรือที่เรียกว่า สถิติความสอดคล้อง มีค่าเท่ากับ AUC (พื้นที่ใต้เส้นโค้ง) และมีการตีความดังต่อไปนี้:

  • ค่าที่น้อยกว่า 0.5 หมายถึงโมเดลที่ไม่ดี
  • ค่า 0.5 บ่งชี้ว่าแบบจำลองไม่สามารถจำแนกผลลัพธ์ได้ดีไปกว่าโอกาส
  • ยิ่งค่าเข้าใกล้ 1 มากเท่าไร โมเดลก็ยิ่งสามารถจำแนกผลลัพธ์ได้อย่างถูกต้องมากขึ้นเท่านั้น
  • ค่า 1 หมายความว่าโมเดลนี้เหมาะสำหรับการจำแนกผลลัพธ์

ดังนั้นสถิติ C ช่วยให้เราทราบว่าแบบจำลองมีประสิทธิภาพเพียงใดในการจำแนกผลลัพธ์อย่างถูกต้อง

ในสถานพยาบาล เป็นไปได้ที่จะคำนวณสถิติ C โดยนำคู่ที่เป็นไปได้ทั้งหมด ได้แก่ บุคคลที่ประสบกับผลลัพธ์ที่เป็นบวก และบุคคลที่ประสบกับผลลัพธ์ที่เป็นลบ จากนั้น สถิติ c สามารถคำนวณเป็นสัดส่วนของคู่ดังกล่าว โดยบุคคลที่ประสบกับผลลัพธ์ที่เป็นบวกมีความน่าจะเป็นที่คาดการณ์ไว้สูงกว่าที่จะประสบกับผลลัพธ์มากกว่าบุคคลที่ไม่ได้รับผลลัพธ์ที่เป็นบวก

ตัวอย่างเช่น สมมติว่าเราปรับแบบจำลองการถดถอยลอจิสติกโดยใช้ตัวแปรทำนาย เช่น อายุ และ ความดันโลหิต เพื่อทำนายโอกาสที่จะเกิดภาวะหัวใจวาย

ในการค้นหาสถิติ c ของแบบจำลอง เราสามารถระบุคู่บุคคลที่เป็นไปได้ทั้งหมด ซึ่งประกอบด้วยบุคคลที่มีอาการหัวใจวายและบุคคลที่ไม่มีอาการหัวใจวาย จากนั้น สถิติ c สามารถคำนวณเป็นสัดส่วนของคู่เหล่านี้ โดยที่บุคคลที่ป่วยเป็นโรคหัวใจวายมีความน่าจะเป็นที่คาดการณ์ไว้ได้สูงกว่าที่จะเป็นโรคหัวใจวาย เมื่อเทียบกับบุคคลที่ไม่ได้รับความทุกข์ทรมานจากอาการหัวใจวาย หัวใจวาย.

บทสรุป

ในบทความนี้เราได้เรียนรู้สิ่งต่อไปนี้:

  • การถดถอยแบบลอจิสติก เป็นวิธีการทางสถิติที่เราใช้เพื่อปรับให้เหมาะสมกับแบบจำลองการถดถอยเมื่อ ตัวแปร ตอบสนอง เป็นไบนารี
  • เพื่อประเมินความเหมาะสมของแบบจำลองการถดถอยลอจิสติก เราสามารถดู ความไว และ ความจำเพาะ ซึ่งบอกเราว่าแบบจำลองสามารถจัดประเภทผลลัพธ์ได้อย่างถูกต้องได้ดีเพียงใด
  • เพื่อให้เห็นภาพความไวและความจำเพาะ เราสามารถสร้าง เส้นโค้ง ROC ได้
  • AUC (พื้นที่ใต้เส้นโค้ง) บ่งชี้ว่าแบบจำลองสามารถจำแนกผลลัพธ์ได้อย่างถูกต้องเพียงใด เมื่อเส้นโค้ง ROC กอดมุมซ้ายบนของพล็อต แสดงว่าแบบจำลองสามารถจำแนกผลลัพธ์ได้สำเร็จ
  • สถิติ c เท่ากับ AUC (พื้นที่ใต้เส้นโค้ง) และยังสามารถคำนวณได้โดยการนำคู่ที่เป็นไปได้ทั้งหมดของบุคคล กล่าวคือ บุคคลที่ประสบกับผลลัพธ์ที่เป็นบวก และบุคคลที่ประสบกับผลลัพธ์ที่เป็นลบ จากนั้น สถิติ c คือสัดส่วนของคู่ดังกล่าว ซึ่งบุคคลที่ประสบกับผลลัพธ์เชิงบวกมีความน่าจะเป็นที่คาดการณ์ไว้สูงกว่าที่จะประสบกับผลลัพธ์มากกว่าบุคคลที่ไม่ได้รับผลลัพธ์เชิงบวก
  • ยิ่ง ค่าสถิติ C ใกล้ 1 มากเท่าไร โมเดลก็ยิ่งสามารถจำแนกผลลัพธ์ได้ถูกต้องมากขึ้นเท่านั้น

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *