كيفية استخدام proc cluster في sas (مع مثال)


التجميع هو أسلوب للتعلم الآلي يحاول العثور على مجموعات من الملاحظات ضمن مجموعة بيانات.

الهدف هو العثور على مجموعات بحيث تكون الملاحظات داخل كل مجموعة متشابهة تمامًا مع بعضها البعض، في حين أن الملاحظات في مجموعات مختلفة تختلف تمامًا عن بعضها البعض.

أسهل طريقة للقيام بالتجميع في SAS هي استخدام PROC CLUSTER .

يوضح المثال التالي كيفية استخدام PROC CLUSTER عمليًا.

مثال: كيفية استخدام PROC CLUSTER في SAS

لنفترض أن لدينا مجموعة البيانات التالية التي تحتوي على معلومات حول النقاط والتمريرات الحاسمة والمرتدات لـ 20 لاعبًا مختلفًا لكرة السلة:

 /*create dataset*/             
data my_data;
    input points assists rebounds;   
    datalines ;
18 3 15
20 3 14
19 4 14
14 5 10
14 4 8
15 7 14
20 8 13
28 7 9
30 6 5
31 9 4
35 12 11
33 14 6
29 9 5
25 9 5
25 4 3
27 3 8
29 4 12
30 12 7
19 5 6
23 11 5
;
run ;

/*view dataset*/ 
proc print data =my_data;

لنفترض أننا نريد إجراء بعض التجميعات لمحاولة تحديد “مجموعات” اللاعبين الذين لديهم إحصائيات مماثلة لبعضهم البعض.

يوضح الكود التالي كيفية استخدام PROC CLUSTER في SAS لإجراء التجميع:

 /*perform clustering using points, assists and rebounds variables*/             
proc cluster data =my_data method =average;
var points assists rebounds;
run ;

توفر الجداول الأولى للنتيجة معلومات حول كيفية تنفيذ التجميع:

يتم أيضًا إنتاج مخطط الأشجار حتى نتمكن من فحص التشابه بصريًا بين الملاحظات في مجموعة البيانات:

يُظهر المحور ص الملاحظات الفردية ويُظهر المحور السيني متوسط المسافة بين المجموعات.

بالنظر إلى هذا المخطط الشجري، يبدو أن الملاحظات تنقسم بطبيعة الحال إلى ثلاث مجموعات:

مثال على مجموعة SAS PROC

يمكننا بعد ذلك استخدام عبارة PROC TREE مع ncl=3 لإخبار SAS بتعيين كل ملاحظة في مجموعة البيانات الأصلية لواحدة من المجموعات الثلاث:

 /*assign each observation to one of three clusters*/
proc tree data =clustd noprint ncl =3 out =clusts;
    copy points assists rebounds;
    id player_ID;
run ;
proc sort ;
   by cluster;
run ;

/*view cluster assignments*/
proc print data = clusters;
    id player_ID;
run ;

تعرض مجموعة البيانات الناتجة كل الملاحظات الأصلية بالإضافة إلى المجموعة التي تنتمي إليها:

على سبيل المثال، يمكننا أن نرى: أن اللاعبين ذوي المعرفات 2 و3 و1 و4 و5 و7 و6 و19 جميعهم ينتمون إلى المجموعة 1 .

وهذا يخبرنا أن هؤلاء اللاعبين الثمانية “متشابهون” من حيث متغيرات النقاط والتمريرات والمرتدات.

ملحوظة : في هذا المثال، اخترنا استخدام المتوسط كأسلوب ربط للتجميع. راجع وثائق SAS للحصول على قائمة كاملة بطرق الربط الأخرى التي يمكنك استخدامها.

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في SAS:

كيفية إجراء تحليل المكونات الرئيسية في SAS
كيفية إجراء الانحدار الخطي المتعدد في SAS
كيفية إجراء الانحدار اللوجستي في SAS

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *