الدليل الكامل: متى يجب إزالة القيم المتطرفة في البيانات
القيمة المتطرفة هي ملاحظة بعيدة بشكل غير طبيعي عن القيم الأخرى في مجموعة البيانات.
يمكن أن تكون القيم المتطرفة مشكلة لأنها يمكن أن تؤثر على نتائج التحليل.
ومع ذلك، يمكنهم أيضًا تقديم نظرة ثاقبة للبيانات التي تدرسها، حيث يمكنهم الكشف عن حالات غير طبيعية أو أفراد ذوي سمات نادرة.
في أي تحليل، يجب عليك أن تقرر ما إذا كنت تريد إزالة القيم المتطرفة أو الاحتفاظ بها.
لحسن الحظ، يمكنك استخدام المخطط الانسيابي التالي لمساعدتك في اتخاذ القرار:
دعونا نلقي نظرة فاحصة على كل سؤال في المخطط الانسيابي.
هل الخارج هو نتيجة خطأ في إدخال البيانات؟
في بعض الأحيان تكون القيم المتطرفة في مجموعة البيانات نتيجة لخطأ في إدخال البيانات.
على سبيل المثال، لنفترض أن عالم الأحياء يجمع بيانات عن ارتفاع نوع معين من النباتات ويسجل البيانات التالية:
- 6.83 بوصة
- 7.51 بوصة
- 5.21 بوصة
- 5.84 بوصة
- 7.83 بوصة
- 755 بوصة
- 6.53 بوصة
- 6.31 بوصة
- 5.91 بوصة
من الواضح أن إدخال 755 بوصة يعد أمرًا شاذًا ومن المحتمل أن يكون نتيجة لخطأ في إدخال البيانات. من المرجح أن يكون الارتفاع 7.55 بوصة، ولكن تم إدخاله بشكل غير صحيح.
إذا احتفظ عالم الأحياء بهذه الملاحظة وحسب إحصائية وصفية مثل متوسط ارتفاع النباتات في العينة، فإن هذه الملاحظة ستحرف النتائج بشكل كبير وتعطي صورة غير دقيقة عن متوسط ارتفاع النبات الحقيقي.
في هذا السيناريو (والسيناريوهات المشابهة لهذا)، يكون من المنطقي إزالة هذه القيمة المتطرفة من مجموعة البيانات لأنها خطأ وليست نقطة بيانات مشروعة لتضمينها في التحليل.
هل تؤثر القيم المتطرفة بشكل كبير على نتائج التحليل؟
إذا كانت الملاحظة عبارة عن قيمة متطرفة حقيقية وليست مجرد نتيجة لخطأ في إدخال البيانات، فنحن بحاجة إلى فحص ما إذا كانت القيمة المتطرفة تؤثر على نتائج التحليل أم لا.
على سبيل المثال، لنفترض أن عالم الأحياء يدرس العلاقة بين الأسمدة وارتفاع النبات. إنها تريد ملاءمة نموذج الانحدار الخطي البسيط باستخدام الأسمدة كمتغير متوقع وارتفاع النبات كمتغير الاستجابة .
يقوم بجمع البيانات التالية لـ 12 مصنعًا مختلفًا:
ومن الواضح أن الملاحظة الأخيرة شاذة.
ومع ذلك، إذا أنشأنا مخططًا مبعثرًا لتصور مجموعة البيانات هذه، فيمكننا أن نرى أن خط الانحدار لن يتغير كثيرًا سواء قمنا بتضمين القيمة المتطرفة أم لا:
في هذا السيناريو، لا تنتهك القيمة المتطرفة فعليًا أيًا من افتراضات نموذج الانحدار الخطي ، لذلك يمكننا الاحتفاظ بها في مجموعة البيانات.
ومع ذلك، لنفترض أن لدينا القيمة المتطرفة التالية في البيانات:
من الواضح أن هذه القيمة المتطرفة تؤثر بشكل كبير على خط الانحدار، لذلك يمكننا أن نلائم نموذج انحدار واحد مع القيمة المتطرفة والآخر بدونها، ثم نقوم بالإبلاغ عن نتائج كلا نموذجي الانحدار.
هل تؤثر القيم المتطرفة على الافتراضات الواردة في التحليل؟
إذا لم تكن القيمة المتطرفة نتيجة لخطأ في إدخال البيانات ولا تؤثر بشكل كبير على نتائج التحليل، فيجب علينا أن نسأل ما إذا كانت القيمة المتطرفة تؤثر على الفرضيات الموضوعة في التحليل أم لا. تحليل.
إذا لم يؤثر ذلك على الافتراضات، فيمكننا الاحتفاظ بها في البيانات.
لكن إذا كان ذلك يؤثر على الافتراضات، فلدينا عدة خيارات:
1. قم بإزالته. يمكننا ببساطة إزالته من البيانات وتدوينه عند الإبلاغ عن النتائج.
2. إجراء تحويل على البيانات. بدلاً من إزالة القيمة المتطرفة، يمكننا محاولة إجراء تحويل على البيانات، على سبيل المثال أخذ الجذر التربيعي أو سجل جميع القيم في البيانات. وقد ثبت أن هذا يقلل من القيم المتطرفة وغالباً ما يجعل البيانات موزعة بشكل أكثر طبيعية .
بغض النظر عن الطريقة التي تقرر بها التعامل مع القيم المتطرفة في بياناتك، يجب عليك ملاحظة قرارك في نتيجة تحليلك جنبًا إلى جنب مع أسبابك.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية العثور على القيم المتطرفة وإزالتها في برامج إحصائية مختلفة:
كيفية البحث عن القيم المتطرفة في إكسل
كيفية العثور على القيم المتطرفة في جداول بيانات Google
كيفية العثور على القيم المتطرفة في R
كيفية العثور على القيم المتطرفة في بايثون
كيفية العثور على القيم المتطرفة في SPSS