วิธีคำนวณระยะปรุงอาหารใน sas


ระยะห่างของคุก ใช้เพื่อระบุ การสังเกต ที่มีอิทธิพลในแบบจำลองการถดถอย

สูตรระยะทางของคุกคือ:

d i = (r i 2 / p*MSE) * (h ii / (1-h ii ) 2 )

ทอง:

  • r i คือ สาร ตกค้าง i
  • p คือจำนวนสัมประสิทธิ์ในแบบจำลองการถดถอย
  • MSE คือค่าคลาดเคลื่อนกำลังสองเฉลี่ย
  • h ii คือค่าเลเวอเรจ ที่ i

โดยพื้นฐานแล้ว ระยะทางของ Cook จะวัดว่าค่าที่ติดตั้งทั้งหมดของแบบจำลองเปลี่ยนแปลงไปมากเพียงใดเมื่อลบการสังเกตครั้งที่ 1 ออก

ยิ่งค่าระยะทางของคุกมากเท่าใด การสังเกตที่ได้รับก็จะยิ่งมีอิทธิพลมากขึ้นเท่านั้น

โดยทั่วไป การสังเกตใดๆ ที่มีระยะปรุงอาหารมากกว่า 4/n (โดยที่ n = การสังเกตทั้งหมด) ถือว่ามีอิทธิพลอย่างมาก

ตัวอย่างต่อไปนี้แสดงวิธีคำนวณระยะทางของ Cook สำหรับการสังเกตแต่ละครั้งในแบบจำลองการถดถอยใน SAS

ตัวอย่าง: การคำนวณระยะทางของแม่ครัวใน SAS

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ใน SAS:

 /*create dataset*/
data my_data;
    input xy;
    datalines ;
8 41
12 42
12 39
13 37
14 35
16 39
17 45
22 46
24 39
26 49
29 55
30 57
;
run ;

/*view dataset*/
proc print data =my_data;

เราสามารถใช้ PROC REG เพื่อปรับ โมเดลการถดถอยเชิงเส้นอย่างง่าย เข้ากับชุดข้อมูลนี้ จากนั้นใช้คำสั่ง OUTPUT ร่วมกับคำสั่ง COOKD เพื่อคำนวณระยะทางของ Cook สำหรับการสังเกตแต่ละครั้งในแบบจำลองการถดถอย:

 /*fit simple linear regression model and calculate Cook's distance for each obs*/
proc reg data =my_data;
    model y=x;
    output out=cooksData cookd =cookd;
run ;

/*print Cook's distance values for each observation*/
proc print data =cooksData;

ตารางผลลัพธ์สุดท้ายจะแสดงชุดข้อมูลดั้งเดิมพร้อมกับระยะการปรุงสำหรับการสังเกตแต่ละครั้ง:

ตัวอย่างเช่น เราเห็น:

  • ระยะปรุงอาหารสำหรับการสังเกตครั้งแรกคือ 0.36813
  • ระยะปรุงอาหารสำหรับการสังเกตครั้งที่สองคือ 0.06075
  • ระยะปรุงอาหารสำหรับการสังเกตครั้งที่สามคือ 0.00052

และอื่นๆ

ขั้นตอน PROC REG ยังสร้างแผนการวินิจฉัยหลายแผนในเอาท์พุต และสามารถดูแผนระยะทางในการปรุงได้ในเอาท์พุตนี้:

ปรุงระยะทางใน SAS

แกน x แสดงตัวเลขการสังเกต และแกน y แสดงระยะการปรุงอาหารสำหรับการสังเกตแต่ละครั้ง

โปรดทราบว่าเส้นตัดจะอยู่ที่ 4/n (ในกรณีนี้ n = 12 ดังนั้นเส้นตัดจะอยู่ที่ 0.33) และเราจะเห็นว่าข้อสังเกตสามรายการในชุดข้อมูลมีค่ามากกว่าเส้นนี้

สิ่งนี้บ่งชี้ว่าข้อสังเกตเหล่านี้อาจมีอิทธิพลอย่างมากต่อแบบจำลองการถดถอย และควรได้รับการตรวจสอบอย่างใกล้ชิดมากขึ้นก่อนที่จะตีความผลลัพธ์ของแบบจำลอง

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:

วิธีสร้างพล็อตคงเหลือใน SAS
วิธีสร้างฮิสโตแกรมใน SAS
วิธีสร้างพอยต์คลาวด์ใน SAS
วิธีระบุค่าผิดปกติใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *