การถดถอยหรือการจำแนกประเภท: อะไรคือความแตกต่าง?
อัลกอริธึมการเรียนรู้ของเครื่องสามารถแบ่งออกเป็นสองประเภทที่แตกต่างกัน: อัลกอริธึมการเรียนรู้แบบมีผู้ดูแลและแบบไม่มีผู้ดูแล
อัลกอริธึมการเรียนรู้แบบมีผู้สอนสามารถแบ่งได้เป็น 2 ประเภท:
1. การถดถอย: ตัวแปรตอบสนองเป็นแบบต่อเนื่อง
ตัวอย่างเช่น ตัวแปรการตอบสนอง อาจเป็น:
- น้ำหนัก
- ความสูง
- ราคา
- เวลา
- หน่วยทั้งหมด
ในแต่ละกรณี แบบจำลองการถดถอยจะพยายามทำนายปริมาณที่ต่อเนื่อง
ตัวอย่างการถดถอย:
สมมติว่าเรามีชุดข้อมูลที่มีตัวแปร 3 ตัวสำหรับบ้านที่แตกต่างกัน 100 หลัง ได้แก่ พื้นที่เป็นตารางฟุต จำนวนห้องน้ำ และราคาขาย
เราสามารถปรับแบบจำลองการถดถอยที่ใช้พื้นที่เป็นตารางฟุตและจำนวนห้องน้ำเป็นตัวแปรอธิบายและราคาขายเป็นตัวแปรตอบสนอง
จากนั้นเราสามารถใช้แบบจำลองนี้เพื่อทำนายราคาขายของบ้าน โดยพิจารณาจากพื้นที่เป็นตารางฟุตและจำนวนห้องน้ำ
นี่คือตัวอย่างของแบบจำลองการถดถอยเนื่องจากตัวแปรการตอบสนอง (ราคาขาย) มีความต่อเนื่อง
วิธีที่ใช้กันทั่วไปในการวัดความแม่นยำของแบบจำลองการถดถอยคือการคำนวณค่าคลาดเคลื่อนกำลังสองเฉลี่ยรูต (RMSE) ซึ่งเป็นหน่วยเมตริกที่บอกเราว่าค่าที่คาดการณ์ของเรานั้นอยู่ห่างจากค่าที่สังเกตได้ในแบบจำลองโดยเฉลี่ยเท่าใด มีการคำนวณดังนี้:
RMSE = √ Σ(พี i – O i ) 2 / n
ทอง:
- Σ เป็นสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”
- P i คือค่าที่ทำนายไว้สำหรับการสังเกต ครั้งที่ 3
- O i คือค่าที่สังเกตได้สำหรับการสังเกต ที่ i
- n คือขนาดตัวอย่าง
ยิ่ง RMSE มีขนาดเล็กเท่าใด โมเดลการถดถอยก็จะพอดีกับข้อมูลได้ดีขึ้นเท่านั้น
2. การจำแนกประเภท: ตัวแปรตอบสนองเป็นแบบหมวดหมู่
ตัวอย่างเช่น ตัวแปรการตอบสนองอาจใช้ค่าต่อไปนี้:
- ชายหรือหญิง
- สำเร็จหรือล้มเหลว
- ต่ำ กลาง หรือสูง
ในแต่ละกรณี โมเดลการจำแนกประเภทจะพยายามทำนายป้ายกำกับคลาส
ตัวอย่างการจำแนกประเภท:
สมมติว่าเรามีชุดข้อมูลที่มีตัวแปร 3 ตัวสำหรับผู้เล่นบาสเก็ตบอลระดับวิทยาลัย 100 คน ได้แก่ คะแนนต่อเกมโดยเฉลี่ย ระดับดิวิชั่น และไม่ว่าพวกเขาจะถูกเกณฑ์เข้าสู่ NBA หรือไม่
เราสามารถปรับแบบจำลองการจำแนกประเภทที่ใช้คะแนนเฉลี่ยต่อเกมและต่อระดับดิวิชั่นเป็นตัวแปรอธิบาย และใช้ “ร่าง” เป็นตัวแปรตอบสนอง
จากนั้นเราสามารถใช้แบบจำลองนี้เพื่อคาดการณ์ว่าผู้เล่นคนใดคนหนึ่งจะถูกร่างเข้าสู่ NBA หรือไม่ โดยพิจารณาจากคะแนนต่อเกมโดยเฉลี่ยและระดับดิวิชั่น
นี่คือตัวอย่างของแบบจำลองการจำแนกประเภทเนื่องจากตัวแปรตอบสนอง (“เขียน”) เป็นแบบเด็ดขาด กล่าวอีกนัยหนึ่งสามารถรับค่าได้ในสองหมวดหมู่ที่แตกต่างกันเท่านั้น: “เขียน” หรือ “ไม่ได้ร่าง”
วิธีที่ใช้กันทั่วไปในการวัดความแม่นยำของแบบจำลองการจำแนกประเภทคือการคำนวณเปอร์เซ็นต์ของการจำแนกประเภทที่ถูกต้องของแบบจำลอง:
ความแม่นยำ = การจำแนกประเภทการแก้ไข / จำนวนความพยายามในการจำแนกประเภททั้งหมด * 100%
ตัวอย่างเช่น หากโมเดลระบุได้อย่างถูกต้องว่าผู้เล่นจะถูกดราฟต์เข้าสู่ NBA 88 ครั้งจากทั้งหมด 100 ครั้งที่เป็นไปได้ ความแม่นยำของโมเดลคือ:
ความแม่นยำ = (88/100) * 100% = 88%
ยิ่งมีความแม่นยำมากเท่าใด โมเดลการจำแนกประเภทก็จะสามารถทำนายผลลัพธ์ได้ดีขึ้นเท่านั้น
ความคล้ายคลึงกันระหว่างการถดถอยและการจำแนกประเภท
อัลกอริธึมการถดถอยและการจำแนกประเภทมีความคล้ายคลึงกันในลักษณะต่อไปนี้:
- ทั้งสองเป็นอัลกอริธึมการเรียนรู้แบบมีผู้สอน นั่นคือ ทั้งสองเกี่ยวข้องกับตัวแปรตอบสนอง
- ทั้งสองใช้ ตัวแปรอธิบาย ตั้งแต่หนึ่งตัวขึ้นไปเพื่อสร้างแบบจำลองเพื่อทำนายการตอบสนอง
- ทั้งสองสามารถใช้เพื่อทำความเข้าใจว่าการเปลี่ยนแปลงค่าของตัวแปรอธิบายส่งผลต่อค่าของตัวแปรตอบสนองอย่างไร
ความแตกต่างระหว่างการถดถอยและการจำแนกประเภท
อัลกอริธึมการถดถอยและการจำแนกประเภทแตกต่างกันในลักษณะต่อไปนี้:
- อัลกอริธึมการถดถอยพยายามทำนายปริมาณที่ต่อเนื่องและอัลกอริธึมการจำแนกประเภทพยายามทำนายป้ายกำกับคลาส
- วิธีที่เราวัดความแม่นยำของแบบจำลองการถดถอยและการจำแนกประเภทนั้นแตกต่างกัน
การแปลงการถดถอยเป็นการจำแนกประเภท
ควรสังเกตว่าปัญหาการถดถอยสามารถแปลงเป็นปัญหาการจำแนกประเภทได้โดย การแยก ตัวแปรการตอบสนองออกเป็นส่วนๆ
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลที่มีตัวแปร 3 ตัว ได้แก่ พื้นที่เป็นตารางฟุต จำนวนห้องน้ำ และราคาขาย
เราสามารถสร้างแบบจำลองการถดถอยโดยใช้พื้นที่เป็นตารางฟุตและจำนวนห้องน้ำเพื่อคาดการณ์ราคาขาย
อย่างไรก็ตาม เราสามารถแยกราคาขายออกเป็นสามประเภทที่แตกต่างกัน:
- 80,000 – 160,000 เหรียญสหรัฐ: “ราคาขายต่ำ”
- 161,000 – 240,000 เหรียญสหรัฐ: “ราคาขายเฉลี่ย”
- 241,000 – 320,000 เหรียญสหรัฐ: “ราคาขายสูง”
จากนั้นเราสามารถใช้พื้นที่เป็นตารางฟุตและจำนวนห้องน้ำเป็นตัวแปรอธิบายเพื่อคาดการณ์ราคาขายของบ้านหนึ่งๆ (ต่ำ กลาง หรือสูง) ระดับใด
นี่จะเป็นตัวอย่างของแบบจำลองการจำแนกประเภทเนื่องจากเราพยายามจัดบ้านแต่ละหลังไว้ในชั้นเรียน
สรุป
ตารางต่อไปนี้สรุปความเหมือนและความแตกต่างระหว่างอัลกอริธึมการถดถอยและการจัดหมวดหมู่: