كيفية تحويل البيانات إلى winsorize: التعريف والأمثلة
يعني Winsorizing البيانات تعيين القيم المتطرفة المتطرفة مساوية لنسبة مئوية محددة من البيانات.
على سبيل المثال، يؤدي الفوز بنسبة 90% إلى تعيين جميع الملاحظات الأعلى من المئين الخامس والتسعين مساوية للقيمة عند المئين الخامس والتسعين وجميع الملاحظات الأقل من المئين الخامس مساوية للقيمة عند المئين الخامس.
في الواقع، يعني فوز البيانات تغيير القيم المتطرفة لمجموعة البيانات إلى قيم أقل تطرفًا.
مثال: كيفية تحويل البيانات إلى Winsorize
لنفترض أن لدينا مجموعة البيانات التالية:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
لإجراء عملية فوز بنسبة 90% على مجموعة البيانات هذه، سنجد أولاً المئين الخامس والمئين الخامس والتسعين، وهما:
- النسبة المئوية الخامسة: 12.35
- النسبة المئوية 95: 92.05
سنجعل بعد ذلك جميع القيم الأقل من 12.35 تساوي 12.35 وجميع القيم الأكبر من 92.05 تساوي 92.05:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
في هذه الحالة أصبحت القيمة 3 12.35 والقيمة 98 أصبحت 92.05 .
لماذا Winsoize البيانات؟
يعد المتوسط والانحراف المعياري طريقتين شائعتين لقياس موقع مركز مجموعة البيانات وتوزيع الملاحظات في مجموعة البيانات، على التوالي.
ومع ذلك، يمكن أن يتأثر كلا المقياسين بالقيم المتطرفة. وبالتالي، فإن فوز البيانات يتيح لنا تحديد القيم المتطرفة المتطرفة التي تساوي القيم الأقل تطرفًا.
يتيح لنا هذا غالبًا الحصول على عرض أكثر دقة للمتوسط والانحراف المعياري لمجموعة البيانات.
البرقوق الذهب وينسوريز
هناك طريقة شائعة أخرى للتعامل مع القيم المتطرفة وهي إزالتها من مجموعة البيانات، مما يعني إزالتها بالكامل.
على سبيل المثال، خذ بعين الاعتبار مجموعة البيانات السابقة:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
إذا أردنا تقليل القيم إلى ما دون المئين الخامس أو أعلى من المئين 95، فسنقوم ببساطة بإزالة القيمتين 3 و 98 .
فيما يلي بعض القواعد الأساسية حول متى يتم استخدام التقطيع أو Winsorization:
التشذيب: من المنطقي تقليم قيم البيانات عندما تبدو بعض القيم غير معقولة على الإطلاق، أي أنها نتيجة خطأ في إدخال البيانات.
Winsorization: من المنطقي أن نقوم بـ Winsorize البيانات عندما نريد الاحتفاظ بالملاحظات الموجودة في أقصى الحدود، ولكن لا نريد أن نأخذها بشكل حرفي.
الاحتياطات المتعلقة بربح البيانات
فيما يلي بعض الأشياء التي يجب وضعها في الاعتبار عند اتخاذ قرار بالحصول على البيانات:
1. إذا لم تكن هناك قيم متطرفة، فإن فوز البيانات لن يؤدي إلا إلى تغيير طفيف في القيم الأصغر والأكبر. هذه ليست فكرة جيدة بشكل عام لأنها تعني أننا ببساطة نقوم بتغيير قيم البيانات لغرض وحيد هو تغييرها.
2. يمكن أن تمثل القيم المتطرفة حالات حافة مثيرة للاهتمام في البيانات. لذا، قبل أن تقوم بتحرير القيم المتطرفة، من الجيد إلقاء نظرة فاحصة عليها لمعرفة السبب المحتمل لها.
3. يجب عليك أن تقرر ما إذا كنت تريد الفوز بالبيانات أم لا بعد جمع البيانات، وليس قبل ذلك. يجب عليك معرفة ما إذا كان هناك بالفعل أي قيم متطرفة قبل أن تقرر Winsorize. في حالة عدم وجود قيم متطرفة، قد تكون عملية Winsorization غير ضرورية.
البرنامج التعليمي: Winsorize البيانات في Excel
ارجع إلى هذا البرنامج التعليمي للحصول على مثال خطوة بخطوة حول كيفية فوز مجموعة بيانات في Excel.