วิธีสร้าง roc curve ใน excel (ทีละขั้นตอน)


การถดถอยแบบลอจิสติก เป็นวิธีการทางสถิติที่เราใช้เพื่อปรับให้เหมาะสมกับแบบจำลองการถดถอยเมื่อตัวแปรตอบสนองเป็นไบนารี เพื่อประเมินว่าแบบจำลองการถดถอยโลจิสติกเหมาะสมกับชุดข้อมูลได้ดีเพียงใด เราสามารถดูตัวชี้วัดสองตัวต่อไปนี้:

  • ความไว: ความน่าจะเป็นที่แบบจำลองคาดการณ์ผลลัพธ์ที่เป็นบวกสำหรับการสังเกต เมื่อผลลัพธ์เป็นบวกจริงๆ สิ่งนี้เรียกอีกอย่างว่า “อัตราบวกที่แท้จริง”
  • ความจำเพาะ: ความน่าจะเป็นที่แบบจำลองทำนายผลลัพธ์ที่เป็นลบสำหรับการสังเกต เมื่อผลลัพธ์เป็นลบจริงๆ สิ่งนี้เรียกอีกอย่างว่า “อัตราติดลบที่แท้จริง”

วิธีหนึ่งในการแสดงภาพการวัดทั้งสองนี้คือการสร้าง เส้นโค้ง ROC ซึ่งย่อมาจากเส้นโค้ง “ลักษณะการทำงานของตัวรับ” นี่คือกราฟที่แสดงความไวและความเฉพาะเจาะจงของแบบจำลองการถดถอยลอจิสติก

ตัวอย่างทีละขั้นตอนต่อไปนี้แสดงวิธีสร้างและตีความเส้นโค้ง ROC ใน Excel

ขั้นตอนที่ 1: ป้อนข้อมูล

เริ่มต้นด้วยการป้อนข้อมูลดิบ:

ขั้นตอนที่ 2: คำนวณข้อมูลสะสม

จากนั้นลองใช้สูตรต่อไปนี้เพื่อคำนวณค่าสะสมสำหรับหมวดหมู่ผ่านและไม่ผ่าน:

  • ค่าความสำเร็จสะสม: =SUM($B$3:B3)
  • ค่าความล้มเหลวสะสม: =SUM($C$3:C3)

จากนั้นเราจะคัดลอกและวางสูตรเหล่านี้ลงในแต่ละเซลล์ในคอลัมน์ D และคอลัมน์ E:

ขั้นตอนที่ 3: คำนวณอัตราผลบวกลวงและอัตราผลบวกจริง

ต่อไป เราจะคำนวณอัตราผลบวกลวง (FPR) อัตราผลบวกจริง (TPR) และพื้นที่ใต้เส้นโค้ง (AUC) โดยใช้สูตรต่อไปนี้:

  • FPR: =1-D3/$D$14
  • ทีพีอาร์: =1-E3/$E$14
  • ASC: =(F3-F4)*G3

จากนั้นเราจะคัดลอกและวางสูตรเหล่านี้ลงในแต่ละเซลล์ในคอลัมน์ F, G และ H:

ขั้นตอนที่ 4: สร้างเส้นโค้ง ROC

ในการสร้างเส้นโค้ง ROC เราจะเน้นแต่ละค่าในช่วง F3:G14

ต่อไป เราจะคลิกแท็บ แทรก บริเวณริบบิ้นด้านบน จากนั้นคลิก แทรกกระจาย (X, Y) เพื่อสร้างเส้นทางต่อไปนี้:

เส้นโค้ง ROC ใน Excel

ขั้นตอนที่ 5: คำนวณ AUC

ยิ่งเส้นโค้งพอดีกับมุมซ้ายบนของพล็อตมากเท่าไร โมเดลก็ยิ่งสามารถจำแนกข้อมูลเป็นหมวดหมู่ได้ดีขึ้นเท่านั้น

ดังที่เราเห็นจากกราฟด้านบน โมเดลการถดถอยโลจิสติกนี้ทำหน้าที่จำแนกข้อมูลออกเป็นหมวดหมู่ได้ดีมาก

ในการหาปริมาณ เราสามารถคำนวณ AUC (พื้นที่ใต้เส้นโค้ง) ซึ่งจะบอกเราว่าพล็อตอยู่ใต้เส้นโค้งมากเพียงใด

ยิ่ง AUC ใกล้ 1 มากเท่าใด โมเดลก็ยิ่งดีเท่านั้น โมเดลที่มี AUC เท่ากับ 0.5 ไม่ได้ดีไปกว่าโมเดลที่มีการจำแนกแบบสุ่ม

ในการคำนวณ AUC ของเส้นโค้ง เราสามารถรวมค่าทั้งหมดในคอลัมน์ H:

คำนวณ AUC ใน Excel

AUC กลายเป็น 0.802662 ค่านี้ค่อนข้างสูง บ่งชี้ว่าโมเดลทำงานได้ดีในการจัดประเภทข้อมูลเป็นหมวดหมู่ “ผ่าน” และ “ไม่ผ่าน”

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้อธิบายวิธีสร้างแปลงทั่วไปอื่นๆ ใน Excel:

วิธีการลงจุด CDF ใน Excel
วิธีสร้างเส้นโค้งการเอาชีวิตรอดใน Excel
วิธีสร้างแผนภูมิควบคุมกระบวนการทางสถิติใน Excel

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *