วิธีใช้ proc cluster ใน sas (พร้อมตัวอย่าง)
การจัดกลุ่ม เป็นเทคนิคการเรียนรู้ของเครื่องที่พยายามค้นหากลุ่มของ การสังเกต ภายในชุดข้อมูล
เป้าหมายคือการค้นหากระจุกที่การสังเกตภายในแต่ละกระจุกค่อนข้างคล้ายกัน ในขณะที่การสังเกตกระจุกที่ต่างกันจะค่อนข้างแตกต่างกัน
วิธีที่ง่ายที่สุดในการทำคลัสเตอร์ใน SAS คือการใช้ PROC CLUSTER
ตัวอย่างต่อไปนี้แสดงวิธีใช้ PROC CLUSTER ในทางปฏิบัติ
ตัวอย่าง: วิธีใช้ PROC CLUSTER ใน SAS
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีข้อมูลเกี่ยวกับแต้ม แอสซิสต์ และการรีบาวด์ของผู้เล่นบาสเก็ตบอล 20 คน:
/*create dataset*/
data my_data;
input points assists rebounds;
datalines ;
18 3 15
20 3 14
19 4 14
14 5 10
14 4 8
15 7 14
20 8 13
28 7 9
30 6 5
31 9 4
35 12 11
33 14 6
29 9 5
25 9 5
25 4 3
27 3 8
29 4 12
30 12 7
19 5 6
23 11 5
;
run ;
/*view dataset*/
proc print data =my_data;
สมมติว่าเราต้องการจัดกลุ่มเพื่อพยายามระบุ “กลุ่ม” ของผู้เล่นที่มีสถิติใกล้เคียงกัน
รหัสต่อไปนี้แสดงวิธีใช้ PROC CLUSTER ใน SAS เพื่อทำคลัสเตอร์:
/*perform clustering using points, assists and rebounds variables*/
proc cluster data =my_data method =average;
var points assists rebounds;
run ;
ตารางแรกของผลลัพธ์ให้ข้อมูลเกี่ยวกับวิธีการดำเนินการจัดกลุ่ม:
นอกจากนี้ยังมีการสร้างเดนโดรแกรมเพื่อให้เราสามารถตรวจสอบความคล้ายคลึงกันระหว่างการสังเกตในชุดข้อมูลด้วยสายตา:
แกน y แสดงการสังเกตการณ์แต่ละรายการ และแกน x แสดงระยะห่างเฉลี่ยระหว่างกระจุกดาว
เมื่อพิจารณาจากเดนโดรแกรมนี้ ดูเหมือนว่าการสังเกตโดยธรรมชาติแบ่งออกเป็นสามกลุ่ม:
จากนั้นเราสามารถใช้คำสั่ง PROC TREE กับ ncl=3 เพื่อบอก SAS ให้กำหนดการสังเกตแต่ละครั้งในชุดข้อมูลดั้งเดิมให้กับหนึ่งในสามคลัสเตอร์:
/*assign each observation to one of three clusters*/
proc tree data =clustd noprint ncl =3 out =clusts;
copy points assists rebounds;
id player_ID;
run ;
proc sort ;
by cluster;
run ;
/*view cluster assignments*/
proc print data = clusters;
id player_ID;
run ;
ชุดข้อมูลผลลัพธ์จะแสดงการสังเกตดั้งเดิมแต่ละรายการพร้อมกับคลัสเตอร์ที่เป็นของ:
ตัวอย่างเช่น เราเห็นได้ว่าผู้เล่น ที่มี ID 2, 3, 1, 4, 5, 7, 6 และ 19 ทั้งหมดอยู่ในคลัสเตอร์ 1
สิ่งนี้บอกเราว่าผู้เล่นทั้งแปดคนนี้ “คล้ายกัน” ในแง่ของตัวแปรแต้ม แอสซิสต์ และรีบาวด์
หมายเหตุ : สำหรับตัวอย่างนี้ เราเลือกใช้ การหาค่าเฉลี่ย เป็นวิธีการเชื่อมโยงสำหรับการจัดกลุ่ม โปรดดู เอกสารประกอบของ SAS สำหรับรายการวิธีการผูกอื่นๆ ที่คุณสามารถใช้ได้
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:
วิธีดำเนินการวิเคราะห์องค์ประกอบหลักใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS
วิธีดำเนินการถดถอยโลจิสติกใน SAS