การเข้ารหัสฉลากหรือการเข้ารหัสแบบร้อนเดียว: อะไรคือความแตกต่าง?


บ่อยครั้งในการเรียนรู้ของเครื่อง เราต้องการแปลง ตัวแปรหมวดหมู่ ให้เป็นรูปแบบตัวเลขบางประเภทที่อัลกอริธึมสามารถใช้งานได้ง่าย

มีสองวิธีทั่วไปในการแปลงตัวแปรเชิงหมวดหมู่เป็นตัวแปรตัวเลข:

1. การเข้ารหัสป้ายกำกับ: กำหนดค่าจำนวนเต็มให้กับค่าหมวดหมู่แต่ละค่าตามลำดับตัวอักษร

2. One Hot Encoding: สร้างตัวแปรใหม่ที่ใช้ค่า 0 และ 1 เพื่อแสดงค่าหมวดหมู่ดั้งเดิม

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีตัวแปรสองตัว และเราต้องการแปลงตัวแปร ทีม จากตัวแปรหมวดหมู่เป็นตัวแปรตัวเลข:

ตัวอย่างต่อไปนี้แสดงวิธีใช้ทั้ง การเข้ารหัสแท็ก และ การเข้ารหัสแบบร้อนแรงเดียว ในการดำเนินการนี้

ตัวอย่าง: การใช้การเข้ารหัสฉลาก

เมื่อใช้ การเข้ารหัสป้ายกำกับ เราจะแปลงค่าที่ไม่ซ้ำกันแต่ละค่าในคอลัมน์ ทีม ให้เป็นค่าจำนวนเต็มตามลำดับตัวอักษร:

ในตัวอย่างนี้เราจะเห็น:

  • ค่า “A” แต่ละค่าถูกแปลงเป็น 0
  • ค่า “B” แต่ละค่าถูกแปลงเป็น 1
  • ค่า “C” แต่ละค่าถูกแปลงเป็น 2

เราได้แปลงคอลัมน์ ทีม จากตัวแปรหมวดหมู่เป็นตัวแปรตัวเลขเรียบร้อยแล้ว

ตัวอย่าง: การใช้การเข้ารหัสแบบ one-hot เดียว

เมื่อใช้ การเข้ารหัสแบบร้อนแรง เราจะแปลงคอลัมน์ Team เป็น ตัวแปรใหม่ที่มีค่าเพียง 0 และ 1 เท่านั้น:

เมื่อเราใช้วิธีการนี้ เราจะสร้างคอลัมน์ใหม่สำหรับค่าที่ไม่ซ้ำกันแต่ละค่าในตัวแปรหมวดหมู่ดั้งเดิม

ตัวอย่างเช่น ตัวแปรหมวดหมู่ Team มี ค่าที่ไม่ซ้ำกัน 3 ค่า ดังนั้นเราจึงสร้าง คอลัมน์ใหม่ 3 คอลัมน์ ในชุดข้อมูลที่ทุกค่ามีค่า 0 หรือ 1

ต่อไปนี้เป็นวิธีตีความค่าในคอลัมน์ใหม่:

  • ค่าของคอลัมน์ Team_A ใหม่คือ 1 ถ้าค่าเดิมของคอลัมน์ Team คือ A มิฉะนั้น ค่าจะเป็น 0
  • ค่าของคอลัมน์ Team_B ใหม่คือ 1 ถ้าค่าเดิมของคอลัมน์ Team คือ B มิฉะนั้น ค่าจะเป็น 0
  • ค่าของคอลัมน์ Team_C ใหม่คือ 1 หากค่าเดิมของคอลัมน์ Team คือ C มิฉะนั้น ค่าจะเป็น 0

เราได้แปลงคอลัมน์ ทีม จากตัวแปรหมวดหมู่หนึ่งตัวไปเป็นตัวแปรตัวเลขสามตัวได้สำเร็จ ซึ่งบางครั้งเรียกว่าตัวแปร “จำลอง”

หมายเหตุ : เมื่อใช้ตัวแปร “จำลอง” เหล่านี้ในโมเดลการถดถอยหรืออัลกอริธึมการเรียนรู้ของเครื่องอื่นๆ โปรดใช้ความระมัดระวังเพื่อหลีกเลี่ยงกับ ดักตัวแปรจำลอง

เมื่อใดควรใช้การเข้ารหัสแท็กกับการเข้ารหัสแบบร้อนแรงเดียว

ในสถานการณ์ส่วนใหญ่ การเข้ารหัสแบบร้อนแรง เป็นวิธีที่ต้องการในการแปลงตัวแปรหมวดหมู่เป็นตัวแปรตัวเลข เนื่องจาก การเข้ารหัสป้ายกำกับ ทำให้ดูเหมือนว่ามีการจัดอันดับระหว่างค่าต่างๆ

ตัวอย่างเช่น พิจารณากรณีที่เราใช้การเข้ารหัสฉลากเพื่อแปลงทีมเป็นตัวแปรตัวเลข:

ข้อมูลที่เข้ารหัสโดยป้ายกำกับทำให้ดูเหมือนว่าทีม C มีขนาดใหญ่กว่าหรือสูงกว่าทีม B และ A เนื่องจากมีค่าตัวเลขที่สูงกว่า

นี่ไม่ใช่ปัญหาหากตัวแปรเชิงหมวดหมู่เดิมเป็นตัวแปรลำดับที่มีการเรียงลำดับหรือการจัดอันดับตามธรรมชาติ แต่ในหลาย ๆ สถานการณ์ กรณีนี้ไม่ได้เป็นเช่นนั้น

อย่างไรก็ตาม ข้อเสียประการหนึ่งของ การเข้ารหัสแบบร้อนแรง คือคุณต้องสร้างตัวแปรใหม่ให้มากที่สุดเท่าที่จะเป็นไปได้ตามค่าที่ไม่ซ้ำในตัวแปรหมวดหมู่ดั้งเดิม

ซึ่งหมายความว่าหากตัวแปรหมวดหมู่ของคุณมีค่าที่ไม่ซ้ำกัน 100 ค่า คุณจะต้องสร้างตัวแปรใหม่ 100 รายการเมื่อใช้การเข้ารหัสแบบ hot-hot

ขึ้นอยู่กับขนาดของชุดข้อมูลของคุณและประเภทของตัวแปรที่คุณใช้งานอยู่ คุณอาจต้องการการเข้ารหัสแบบร้อนแรงหรือการเข้ารหัสฉลาก

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีการ เข้ารหัสฉลาก ในทางปฏิบัติ:

บทช่วยสอนต่อไปนี้จะอธิบายวิธีปฏิบัติการ เข้ารหัสแบบ one-hot ในทางปฏิบัติ:

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *