การเข้ารหัสฉลากหรือการเข้ารหัสแบบร้อนเดียว: อะไรคือความแตกต่าง?
บ่อยครั้งในการเรียนรู้ของเครื่อง เราต้องการแปลง ตัวแปรหมวดหมู่ ให้เป็นรูปแบบตัวเลขบางประเภทที่อัลกอริธึมสามารถใช้งานได้ง่าย
มีสองวิธีทั่วไปในการแปลงตัวแปรเชิงหมวดหมู่เป็นตัวแปรตัวเลข:
1. การเข้ารหัสป้ายกำกับ: กำหนดค่าจำนวนเต็มให้กับค่าหมวดหมู่แต่ละค่าตามลำดับตัวอักษร
2. One Hot Encoding: สร้างตัวแปรใหม่ที่ใช้ค่า 0 และ 1 เพื่อแสดงค่าหมวดหมู่ดั้งเดิม
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีตัวแปรสองตัว และเราต้องการแปลงตัวแปร ทีม จากตัวแปรหมวดหมู่เป็นตัวแปรตัวเลข:

ตัวอย่างต่อไปนี้แสดงวิธีใช้ทั้ง การเข้ารหัสแท็ก และ การเข้ารหัสแบบร้อนแรงเดียว ในการดำเนินการนี้
ตัวอย่าง: การใช้การเข้ารหัสฉลาก
เมื่อใช้ การเข้ารหัสป้ายกำกับ เราจะแปลงค่าที่ไม่ซ้ำกันแต่ละค่าในคอลัมน์ ทีม ให้เป็นค่าจำนวนเต็มตามลำดับตัวอักษร:

ในตัวอย่างนี้เราจะเห็น:
- ค่า “A” แต่ละค่าถูกแปลงเป็น 0
- ค่า “B” แต่ละค่าถูกแปลงเป็น 1
- ค่า “C” แต่ละค่าถูกแปลงเป็น 2
เราได้แปลงคอลัมน์ ทีม จากตัวแปรหมวดหมู่เป็นตัวแปรตัวเลขเรียบร้อยแล้ว
ตัวอย่าง: การใช้การเข้ารหัสแบบ one-hot เดียว
เมื่อใช้ การเข้ารหัสแบบร้อนแรง เราจะแปลงคอลัมน์ Team เป็น ตัวแปรใหม่ที่มีค่าเพียง 0 และ 1 เท่านั้น:

เมื่อเราใช้วิธีการนี้ เราจะสร้างคอลัมน์ใหม่สำหรับค่าที่ไม่ซ้ำกันแต่ละค่าในตัวแปรหมวดหมู่ดั้งเดิม
ตัวอย่างเช่น ตัวแปรหมวดหมู่ Team มี ค่าที่ไม่ซ้ำกัน 3 ค่า ดังนั้นเราจึงสร้าง คอลัมน์ใหม่ 3 คอลัมน์ ในชุดข้อมูลที่ทุกค่ามีค่า 0 หรือ 1
ต่อไปนี้เป็นวิธีตีความค่าในคอลัมน์ใหม่:
- ค่าของคอลัมน์ Team_A ใหม่คือ 1 ถ้าค่าเดิมของคอลัมน์ Team คือ A มิฉะนั้น ค่าจะเป็น 0
- ค่าของคอลัมน์ Team_B ใหม่คือ 1 ถ้าค่าเดิมของคอลัมน์ Team คือ B มิฉะนั้น ค่าจะเป็น 0
- ค่าของคอลัมน์ Team_C ใหม่คือ 1 หากค่าเดิมของคอลัมน์ Team คือ C มิฉะนั้น ค่าจะเป็น 0
เราได้แปลงคอลัมน์ ทีม จากตัวแปรหมวดหมู่หนึ่งตัวไปเป็นตัวแปรตัวเลขสามตัวได้สำเร็จ ซึ่งบางครั้งเรียกว่าตัวแปร “จำลอง”
หมายเหตุ : เมื่อใช้ตัวแปร “จำลอง” เหล่านี้ในโมเดลการถดถอยหรืออัลกอริธึมการเรียนรู้ของเครื่องอื่นๆ โปรดใช้ความระมัดระวังเพื่อหลีกเลี่ยงกับ ดักตัวแปรจำลอง
เมื่อใดควรใช้การเข้ารหัสแท็กกับการเข้ารหัสแบบร้อนแรงเดียว
ในสถานการณ์ส่วนใหญ่ การเข้ารหัสแบบร้อนแรง เป็นวิธีที่ต้องการในการแปลงตัวแปรหมวดหมู่เป็นตัวแปรตัวเลข เนื่องจาก การเข้ารหัสป้ายกำกับ ทำให้ดูเหมือนว่ามีการจัดอันดับระหว่างค่าต่างๆ
ตัวอย่างเช่น พิจารณากรณีที่เราใช้การเข้ารหัสฉลากเพื่อแปลงทีมเป็นตัวแปรตัวเลข:

ข้อมูลที่เข้ารหัสโดยป้ายกำกับทำให้ดูเหมือนว่าทีม C มีขนาดใหญ่กว่าหรือสูงกว่าทีม B และ A เนื่องจากมีค่าตัวเลขที่สูงกว่า
นี่ไม่ใช่ปัญหาหากตัวแปรเชิงหมวดหมู่เดิมเป็นตัวแปรลำดับที่มีการเรียงลำดับหรือการจัดอันดับตามธรรมชาติ แต่ในหลาย ๆ สถานการณ์ กรณีนี้ไม่ได้เป็นเช่นนั้น
อย่างไรก็ตาม ข้อเสียประการหนึ่งของ การเข้ารหัสแบบร้อนแรง คือคุณต้องสร้างตัวแปรใหม่ให้มากที่สุดเท่าที่จะเป็นไปได้ตามค่าที่ไม่ซ้ำในตัวแปรหมวดหมู่ดั้งเดิม
ซึ่งหมายความว่าหากตัวแปรหมวดหมู่ของคุณมีค่าที่ไม่ซ้ำกัน 100 ค่า คุณจะต้องสร้างตัวแปรใหม่ 100 รายการเมื่อใช้การเข้ารหัสแบบ hot-hot
ขึ้นอยู่กับขนาดของชุดข้อมูลของคุณและประเภทของตัวแปรที่คุณใช้งานอยู่ คุณอาจต้องการการเข้ารหัสแบบร้อนแรงหรือการเข้ารหัสฉลาก
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีการ เข้ารหัสฉลาก ในทางปฏิบัติ:
บทช่วยสอนต่อไปนี้จะอธิบายวิธีปฏิบัติการ เข้ารหัสแบบ one-hot ในทางปฏิบัติ: