ترميز التسمية أو الترميز الساخن: ما الفرق؟
في كثير من الأحيان، في التعلم الآلي، نريد تحويل المتغيرات الفئوية إلى نوع من التنسيق الرقمي الذي يمكن استخدامه بسهولة بواسطة الخوارزميات.
هناك طريقتان شائعتان لتحويل المتغيرات الفئوية إلى متغيرات رقمية:
1. ترميز التسمية: قم بتعيين قيمة عددية لكل قيمة فئوية بناءً على الترتيب الأبجدي.
2. ترميز واحد ساخن: قم بإنشاء متغيرات جديدة تأخذ القيمتين 0 و 1 لتمثيل القيم الفئوية الأصلية.
على سبيل المثال، لنفترض أن لدينا مجموعة البيانات التالية مع متغيرين ونريد تحويل متغير الفريق من متغير فئوي إلى متغير رقمي:
توضح الأمثلة التالية كيفية استخدام كلاً من ترميز العلامات والترميز السريع الواحد للقيام بذلك.
مثال: استخدام ترميز التسمية
باستخدام ترميز التسمية ، سنقوم بتحويل كل قيمة فريدة في عمود الفريق إلى قيمة عددية بناءً على الترتيب الأبجدي:
في هذا المثال يمكننا أن نرى:
- تم تحويل كل قيمة “A” إلى 0 .
- تم تحويل كل قيمة “B” إلى 1 .
- تم تحويل كل قيمة “C” إلى 2 .
لقد نجحنا في تحويل عمود الفريق من متغير فئوي إلى متغير رقمي.
مثال: استخدام ترميز واحد ساخن
باستخدام ترميز واحد ساخن ، سنقوم بتحويل عمود الفريق إلى متغيرات جديدة تحتوي على قيمتين 0 و1 فقط:
عندما نستخدم هذا الأسلوب، نقوم بإنشاء عمود جديد لكل قيمة فريدة في المتغير الفئوي الأصلي.
على سبيل المثال، كان للمتغير الفئوي Team ثلاث قيم فريدة ، لذلك أنشأنا ثلاثة أعمدة جديدة في مجموعة البيانات تحتوي جميعها على القيم 0 أو 1.
إليك كيفية تفسير القيم في الأعمدة الجديدة:
- قيمة عمود Team_A الجديد هي 1 إذا كانت القيمة الأصلية لعمود الفريق هي A. وبخلاف ذلك، تكون القيمة 0.
- قيمة عمود Team_B الجديد هي 1 إذا كانت القيمة الأصلية لعمود الفريق هي B. وبخلاف ذلك، تكون القيمة 0.
- قيمة عمود Team_C الجديد هي 1 إذا كانت القيمة الأصلية لعمود الفريق هي C. وبخلاف ذلك، تكون القيمة 0.
لقد نجحنا في تحويل عمود الفريق من متغير فئوي واحد إلى ثلاثة متغيرات رقمية – تسمى أحيانًا المتغيرات “الزائفة”.
ملاحظة : عند استخدام هذه المتغيرات “الزائفة” في نموذج الانحدار أو خوارزمية التعلم الآلي الأخرى، كن حذرًا لتجنب مصيدة المتغير الوهمي .
متى يتم استخدام ترميز العلامات مقابل الترميز الساخن
في معظم السيناريوهات، يعد التشفير السريع هو الطريقة المفضلة لتحويل متغير فئوي إلى متغير رقمي لأن ترميز التسمية يجعل الأمر يبدو أن هناك ترتيبًا بين القيم.
على سبيل المثال، خذ بعين الاعتبار الحالة التي استخدمنا فيها تشفير التسمية لتحويل الفريق إلى متغير رقمي:
البيانات المشفرة بواسطة الملصق تجعل الأمر يبدو أن الفريق C أكبر أو أطول إلى حد ما من الفريقين B وA نظرًا لأنه يحتوي على قيمة عددية أعلى.
لا يمثل هذا مشكلة إذا كان المتغير الفئوي الأصلي هو في الواقع متغير ترتيبي ذو ترتيب أو تصنيف طبيعي، ولكن هذا ليس هو الحال في العديد من السيناريوهات.
ومع ذلك، فإن أحد عيوب التشفير السريع هو أنه يتطلب منك إنشاء العديد من المتغيرات الجديدة حيث توجد قيم فريدة في المتغير الفئوي الأصلي.
هذا يعني أنه إذا كان المتغير الفئوي الخاص بك يحتوي على 100 قيمة فريدة، فستحتاج إلى إنشاء 100 متغير جديد عند استخدام التشفير السريع.
اعتمادًا على حجم مجموعة البيانات الخاصة بك ونوع المتغيرات التي تعمل بها، قد تفضل التشفير السريع أو تشفير الملصقات.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية تنفيذ تشفير الملصقات عمليًا:
تشرح البرامج التعليمية التالية كيفية تنفيذ التشفير الساخن عمليًا: