การถดถอยหรือการจำแนกประเภท: อะไรคือความแตกต่าง?


อัลกอริธึมการเรียนรู้ของเครื่องสามารถแบ่งออกเป็นสองประเภทที่แตกต่างกัน: อัลกอริธึมการเรียนรู้แบบมีผู้ดูแลและแบบไม่มีผู้ดูแล

อัลกอริธึมการเรียนรู้ของเครื่องการถดถอยหรือการจำแนกประเภท

อัลกอริธึมการเรียนรู้แบบมีผู้สอนสามารถแบ่งได้เป็น 2 ประเภท:

1. การถดถอย: ตัวแปรตอบสนองเป็นแบบต่อเนื่อง

ตัวอย่างเช่น ตัวแปรการตอบสนอง อาจเป็น:

  • น้ำหนัก
  • ความสูง
  • ราคา
  • เวลา
  • หน่วยทั้งหมด

ในแต่ละกรณี แบบจำลองการถดถอยจะพยายามทำนายปริมาณที่ต่อเนื่อง

ตัวอย่างการถดถอย:

สมมติว่าเรามีชุดข้อมูลที่มีตัวแปร 3 ตัวสำหรับบ้านที่แตกต่างกัน 100 หลัง ได้แก่ พื้นที่เป็นตารางฟุต จำนวนห้องน้ำ และราคาขาย

เราสามารถปรับแบบจำลองการถดถอยที่ใช้พื้นที่เป็นตารางฟุตและจำนวนห้องน้ำเป็นตัวแปรอธิบายและราคาขายเป็นตัวแปรตอบสนอง

จากนั้นเราสามารถใช้แบบจำลองนี้เพื่อทำนายราคาขายของบ้าน โดยพิจารณาจากพื้นที่เป็นตารางฟุตและจำนวนห้องน้ำ

นี่คือตัวอย่างของแบบจำลองการถดถอยเนื่องจากตัวแปรการตอบสนอง (ราคาขาย) มีความต่อเนื่อง

วิธีที่ใช้กันทั่วไปในการวัดความแม่นยำของแบบจำลองการถดถอยคือการคำนวณค่าคลาดเคลื่อนกำลังสองเฉลี่ยรูต (RMSE) ซึ่งเป็นหน่วยเมตริกที่บอกเราว่าค่าที่คาดการณ์ของเรานั้นอยู่ห่างจากค่าที่สังเกตได้ในแบบจำลองโดยเฉลี่ยเท่าใด มีการคำนวณดังนี้:

RMSE = √ Σ(พี i – O i ) 2 / n

ทอง:

  • Σ เป็นสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”
  • P i คือค่าที่ทำนายไว้สำหรับการสังเกต ครั้งที่ 3
  • O i คือค่าที่สังเกตได้สำหรับการสังเกต ที่ i
  • n คือขนาดตัวอย่าง

ยิ่ง RMSE มีขนาดเล็กเท่าใด โมเดลการถดถอยก็จะพอดีกับข้อมูลได้ดีขึ้นเท่านั้น

2. การจำแนกประเภท: ตัวแปรตอบสนองเป็นแบบหมวดหมู่

ตัวอย่างเช่น ตัวแปรการตอบสนองอาจใช้ค่าต่อไปนี้:

  • ชายหรือหญิง
  • สำเร็จหรือล้มเหลว
  • ต่ำ กลาง หรือสูง

ในแต่ละกรณี โมเดลการจำแนกประเภทจะพยายามทำนายป้ายกำกับคลาส

ตัวอย่างการจำแนกประเภท:

สมมติว่าเรามีชุดข้อมูลที่มีตัวแปร 3 ตัวสำหรับผู้เล่นบาสเก็ตบอลระดับวิทยาลัย 100 คน ได้แก่ คะแนนต่อเกมโดยเฉลี่ย ระดับดิวิชั่น และไม่ว่าพวกเขาจะถูกเกณฑ์เข้าสู่ NBA หรือไม่

เราสามารถปรับแบบจำลองการจำแนกประเภทที่ใช้คะแนนเฉลี่ยต่อเกมและต่อระดับดิวิชั่นเป็นตัวแปรอธิบาย และใช้ “ร่าง” เป็นตัวแปรตอบสนอง

จากนั้นเราสามารถใช้แบบจำลองนี้เพื่อคาดการณ์ว่าผู้เล่นคนใดคนหนึ่งจะถูกร่างเข้าสู่ NBA หรือไม่ โดยพิจารณาจากคะแนนต่อเกมโดยเฉลี่ยและระดับดิวิชั่น

นี่คือตัวอย่างของแบบจำลองการจำแนกประเภทเนื่องจากตัวแปรตอบสนอง (“เขียน”) เป็นแบบเด็ดขาด กล่าวอีกนัยหนึ่งสามารถรับค่าได้ในสองหมวดหมู่ที่แตกต่างกันเท่านั้น: “เขียน” หรือ “ไม่ได้ร่าง”

วิธีที่ใช้กันทั่วไปในการวัดความแม่นยำของแบบจำลองการจำแนกประเภทคือการคำนวณเปอร์เซ็นต์ของการจำแนกประเภทที่ถูกต้องของแบบจำลอง:

ความแม่นยำ = การจำแนกประเภทการแก้ไข / จำนวนความพยายามในการจำแนกประเภททั้งหมด * 100%

ตัวอย่างเช่น หากโมเดลระบุได้อย่างถูกต้องว่าผู้เล่นจะถูกดราฟต์เข้าสู่ NBA 88 ครั้งจากทั้งหมด 100 ครั้งที่เป็นไปได้ ความแม่นยำของโมเดลคือ:

ความแม่นยำ = (88/100) * 100% = 88%

ยิ่งมีความแม่นยำมากเท่าใด โมเดลการจำแนกประเภทก็จะสามารถทำนายผลลัพธ์ได้ดีขึ้นเท่านั้น

ความคล้ายคลึงกันระหว่างการถดถอยและการจำแนกประเภท

อัลกอริธึมการถดถอยและการจำแนกประเภทมีความคล้ายคลึงกันในลักษณะต่อไปนี้:

  • ทั้งสองเป็นอัลกอริธึมการเรียนรู้แบบมีผู้สอน นั่นคือ ทั้งสองเกี่ยวข้องกับตัวแปรตอบสนอง
  • ทั้งสองใช้ ตัวแปรอธิบาย ตั้งแต่หนึ่งตัวขึ้นไปเพื่อสร้างแบบจำลองเพื่อทำนายการตอบสนอง
  • ทั้งสองสามารถใช้เพื่อทำความเข้าใจว่าการเปลี่ยนแปลงค่าของตัวแปรอธิบายส่งผลต่อค่าของตัวแปรตอบสนองอย่างไร

ความแตกต่างระหว่างการถดถอยและการจำแนกประเภท

อัลกอริธึมการถดถอยและการจำแนกประเภทแตกต่างกันในลักษณะต่อไปนี้:

  • อัลกอริธึมการถดถอยพยายามทำนายปริมาณที่ต่อเนื่องและอัลกอริธึมการจำแนกประเภทพยายามทำนายป้ายกำกับคลาส
  • วิธีที่เราวัดความแม่นยำของแบบจำลองการถดถอยและการจำแนกประเภทนั้นแตกต่างกัน

การแปลงการถดถอยเป็นการจำแนกประเภท

ควรสังเกตว่าปัญหาการถดถอยสามารถแปลงเป็นปัญหาการจำแนกประเภทได้โดย การแยก ตัวแปรการตอบสนองออกเป็นส่วนๆ

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลที่มีตัวแปร 3 ตัว ได้แก่ พื้นที่เป็นตารางฟุต จำนวนห้องน้ำ และราคาขาย

เราสามารถสร้างแบบจำลองการถดถอยโดยใช้พื้นที่เป็นตารางฟุตและจำนวนห้องน้ำเพื่อคาดการณ์ราคาขาย

อย่างไรก็ตาม เราสามารถแยกราคาขายออกเป็นสามประเภทที่แตกต่างกัน:

  • 80,000 – 160,000 เหรียญสหรัฐ: “ราคาขายต่ำ”
  • 161,000 – 240,000 เหรียญสหรัฐ: “ราคาขายเฉลี่ย”
  • 241,000 – 320,000 เหรียญสหรัฐ: “ราคาขายสูง”

จากนั้นเราสามารถใช้พื้นที่เป็นตารางฟุตและจำนวนห้องน้ำเป็นตัวแปรอธิบายเพื่อคาดการณ์ราคาขายของบ้านหนึ่งๆ (ต่ำ กลาง หรือสูง) ระดับใด

นี่จะเป็นตัวอย่างของแบบจำลองการจำแนกประเภทเนื่องจากเราพยายามจัดบ้านแต่ละหลังไว้ในชั้นเรียน

สรุป

ตารางต่อไปนี้สรุปความเหมือนและความแตกต่างระหว่างอัลกอริธึมการถดถอยและการจัดหมวดหมู่:

ความแตกต่างระหว่างการถดถอยและการจำแนกประเภท

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *