วิธีใช้ proc cluster ใน sas (พร้อมตัวอย่าง)


การจัดกลุ่ม เป็นเทคนิคการเรียนรู้ของเครื่องที่พยายามค้นหากลุ่มของ การสังเกต ภายในชุดข้อมูล

เป้าหมายคือการค้นหากระจุกที่การสังเกตภายในแต่ละกระจุกค่อนข้างคล้ายกัน ในขณะที่การสังเกตกระจุกที่ต่างกันจะค่อนข้างแตกต่างกัน

วิธีที่ง่ายที่สุดในการทำคลัสเตอร์ใน SAS คือการใช้ PROC CLUSTER

ตัวอย่างต่อไปนี้แสดงวิธีใช้ PROC CLUSTER ในทางปฏิบัติ

ตัวอย่าง: วิธีใช้ PROC CLUSTER ใน SAS

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีข้อมูลเกี่ยวกับแต้ม แอสซิสต์ และการรีบาวด์ของผู้เล่นบาสเก็ตบอล 20 คน:

 /*create dataset*/             
data my_data;
    input points assists rebounds;   
    datalines ;
18 3 15
20 3 14
19 4 14
14 5 10
14 4 8
15 7 14
20 8 13
28 7 9
30 6 5
31 9 4
35 12 11
33 14 6
29 9 5
25 9 5
25 4 3
27 3 8
29 4 12
30 12 7
19 5 6
23 11 5
;
run ;

/*view dataset*/ 
proc print data =my_data;

สมมติว่าเราต้องการจัดกลุ่มเพื่อพยายามระบุ “กลุ่ม” ของผู้เล่นที่มีสถิติใกล้เคียงกัน

รหัสต่อไปนี้แสดงวิธีใช้ PROC CLUSTER ใน SAS เพื่อทำคลัสเตอร์:

 /*perform clustering using points, assists and rebounds variables*/             
proc cluster data =my_data method =average;
var points assists rebounds;
run ;

ตารางแรกของผลลัพธ์ให้ข้อมูลเกี่ยวกับวิธีการดำเนินการจัดกลุ่ม:

นอกจากนี้ยังมีการสร้างเดนโดรแกรมเพื่อให้เราสามารถตรวจสอบความคล้ายคลึงกันระหว่างการสังเกตในชุดข้อมูลด้วยสายตา:

แกน y แสดงการสังเกตการณ์แต่ละรายการ และแกน x แสดงระยะห่างเฉลี่ยระหว่างกระจุกดาว

เมื่อพิจารณาจากเดนโดรแกรมนี้ ดูเหมือนว่าการสังเกตโดยธรรมชาติแบ่งออกเป็นสามกลุ่ม:

ตัวอย่างของ SAS PROC CLUSTER

จากนั้นเราสามารถใช้คำสั่ง PROC TREE กับ ncl=3 เพื่อบอก SAS ให้กำหนดการสังเกตแต่ละครั้งในชุดข้อมูลดั้งเดิมให้กับหนึ่งในสามคลัสเตอร์:

 /*assign each observation to one of three clusters*/
proc tree data =clustd noprint ncl =3 out =clusts;
    copy points assists rebounds;
    id player_ID;
run ;
proc sort ;
   by cluster;
run ;

/*view cluster assignments*/
proc print data = clusters;
    id player_ID;
run ;

ชุดข้อมูลผลลัพธ์จะแสดงการสังเกตดั้งเดิมแต่ละรายการพร้อมกับคลัสเตอร์ที่เป็นของ:

ตัวอย่างเช่น เราเห็นได้ว่าผู้เล่น ที่มี ID 2, 3, 1, 4, 5, 7, 6 และ 19 ทั้งหมดอยู่ในคลัสเตอร์ 1

สิ่งนี้บอกเราว่าผู้เล่นทั้งแปดคนนี้ “คล้ายกัน” ในแง่ของตัวแปรแต้ม แอสซิสต์ และรีบาวด์

หมายเหตุ : สำหรับตัวอย่างนี้ เราเลือกใช้ การหาค่าเฉลี่ย เป็นวิธีการเชื่อมโยงสำหรับการจัดกลุ่ม โปรดดู เอกสารประกอบของ SAS สำหรับรายการวิธีการผูกอื่นๆ ที่คุณสามารถใช้ได้

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:

วิธีดำเนินการวิเคราะห์องค์ประกอบหลักใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS
วิธีดำเนินการถดถอยโลจิสติกใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *