كيفية تحديد القيم المتطرفة في sas (مع مثال)


القيمة المتطرفة هي ملاحظة بعيدة بشكل غير طبيعي عن القيم الأخرى في مجموعة البيانات. يمكن أن تكون القيم المتطرفة مشكلة لأنها يمكن أن تؤثر على نتائج التحليل.

الطريقة الأكثر شيوعًا لتحديد القيم المتطرفة في مجموعة البيانات هي استخدام النطاق الربيعي.

النطاق الربيعي (IQR) هو الفرق بين المئين الخامس والسبعين (Q3) والمئين الخامس والعشرين (Q1) في مجموعة البيانات. وهو يقيس توزيع متوسط 50% من القيم.

نحن نعرّف الملاحظة عمومًا على أنها قيمة متطرفة إذا كانت 1.5 مرة من المدى الربيعي فوق الربع الثالث (Q3) أو 1.5 مرة من المدى الربيعي أسفل الربع الأول (Q1).

القيم المتطرفة = الملاحظات > Q3 + 1.5*IQR أو <Q1 – 1.5*IQR

يوضح المثال التالي كيفية استخدام هذه الصيغة لتحديد القيم المتطرفة في مجموعة بيانات في SAS.

مثال: تحديد القيم المتطرفة في SAS

لنفترض أن لدينا مجموعة البيانات التالية في SAS:

 /*create dataset*/
data original_data;
    input team $points;
    datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;

/*view dataset*/
proc print data = original_data;

أسهل طريقة لتحديد القيم المتطرفة في SAS هي إنشاء مخطط boxplot، والذي يستخدم تلقائيًا الصيغة المذكورة سابقًا لتحديد القيم المتطرفة وعرضها في مجموعة البيانات كدوائر صغيرة:

 /*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
    vbox points;
run ;

/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data; 

من المخطط الصندوقي يمكننا أن نرى أن هناك دائرتين صغيرتين بالقرب من الجزء العلوي من المخطط. وهذا يدل على أن هناك قيمتين متطرفتين.

في الجدول الموجود أسفل مخطط boxplot، يمكننا رؤية القيم الدقيقة للقيمتين المتطرفتين: 221 و 223 .

يمكننا التحقق يدويًا من أن هاتين القيمتين قيمتان متطرفتان باستخدام الصيغة السابقة:

القيم المتطرفة = الملاحظات > Q3 + 1.5*IQR أو <Q1 – 1.5*IQR

المدى الربيعي هو: Q3 – Q1 = 89.5 – 36 = 53.5.

الحد الأعلى للقيم المتطرفة سيكون: Q3 + 1.5*IQR = 89.5 + 1.5*53.5 = 169.75.

وبما أن 221 و 223 كلاهما أكبر من هذه القيمة، فقد تم تصنيفهما على أنهما قيمان متطرفتان.

يمكننا بعد ذلك استخدام الكود التالي لإزالة هاتين القيمتين المتطرفتين من مجموعة البيانات إذا أردنا:

 /*create new dataset with outliers removed*/
data new_data;
    set original_data;
    if points >= 221 then delete;
run ;

/*view new dataset*/
proc print data =new_data; 

لاحظ أنه تمت إزالة القيمتين المتطرفتين.

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في SAS:

كيفية استخدام ملخص الإجراء في SAS
كيفية استخدام Proc Tabulate في SAS
كيفية حساب الارتباط في SAS
كيفية إنشاء الجداول التكرارية في SAS
كيفية استبدال القيم المفقودة بالصفر في SAS

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *