วิธีดำเนินการถดถอยโลจิสติกใน sas


การถดถอยแบบลอจิสติก เป็นวิธีการที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อตัวแปรตอบสนองเป็นไบนารี

การถดถอยโลจิสติกใช้วิธีการที่เรียกว่า การประมาณค่าความน่าจะเป็นสูงสุด เพื่อค้นหาสมการในรูปแบบต่อไปนี้:

บันทึก[p(X) / (1 p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p

ทอง:

  • X j : ตัวแปร ทำนายที่ j
  • β j : การประมาณค่าสัมประสิทธิ์ของตัวแปรทำนายที่ j

สูตรทางด้านขวาของสมการทำนาย อัตราต่อรองของบันทึก ที่ตัวแปรตอบกลับรับค่า 1

ตัวอย่างทีละขั้นตอนต่อไปนี้แสดงวิธีการปรับแบบจำลองการถดถอยโลจิสติกใน SAS

ขั้นตอนที่ 1: สร้างชุดข้อมูล

ขั้นแรก เราจะสร้างชุดข้อมูลที่มีข้อมูลเกี่ยวกับตัวแปร 3 ตัวต่อไปนี้สำหรับนักเรียน 18 คน:

  • การรับเข้าเรียนในวิทยาลัยบางแห่ง (1 = ใช่, 0 = ไม่ใช่)
  • เกรดเฉลี่ย (ระดับ 1 ถึง 4)
  • คะแนน ACT (ระดับ 1 ถึง 36)
 /*create dataset*/
data my_data;
    input acceptance gpa act;
    datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

/*view dataset*/
proc print data =my_data;

ขั้นตอนที่ 2: ติดตั้งแบบจำลองการถดถอยโลจิสติก

ต่อไป เราจะใช้ proc Logistics เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติก โดยใช้ “การยอมรับ” เป็นตัวแปรตอบสนอง และใช้ “gpa” และ “act” เป็นตัวแปรทำนาย

หมายเหตุ : ต้องระบุ การลดลง สำหรับ SAS เพื่อคาดการณ์ความน่าจะเป็นที่ตัวแปรการตอบสนองจะใช้ค่า 1 โดยค่าเริ่มต้น SAS คาดการณ์ความน่าจะเป็นที่ตัวแปรตอบสนองจะใช้ค่า 0

 /*fit logistic regression model*/
proc logistic data =my_data descending ;
  model acceptance = gpa act;
run ;

ตารางแรกที่น่าสนใจมีชื่อว่า Model Fit Statistics

จากตารางนี้ เราจะเห็นค่า AIC ของโมเดล ซึ่งกลายเป็น 16.595 ยิ่งค่า AIC ต่ำ โมเดลก็ยิ่งสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น

อย่างไรก็ตาม ไม่มีเกณฑ์สำหรับสิ่งที่ถือว่าเป็น ค่า AIC “ดี” แต่เราใช้ AIC เพื่อเปรียบเทียบความพอดีของโมเดลหลายตัวกับชุดข้อมูลเดียวกัน โมเดลที่มีค่า AIC ต่ำที่สุดโดยทั่วไปถือว่าดีที่สุด

ตารางที่น่าสนใจถัดไปมีชื่อว่า การทดสอบสมมติฐานว่างทั่วโลก: BETA=0

จากตารางนี้ เราจะเห็นอัตราส่วนความน่าจะเป็นของค่าไค-สแควร์เท่ากับ 13.4620 โดยมีค่า p-value เท่ากับ 0.0012

เนื่องจากค่า p นี้น้อยกว่า 0.05 จึงบอกเราว่าแบบจำลองการถดถอยโลจิสติกโดยรวมมีนัยสำคัญทางสถิติ

ต่อไป เราสามารถวิเคราะห์การประมาณค่าสัมประสิทธิ์ได้ในตารางชื่อ การวิเคราะห์ ค่าประมาณโอกาสสูงสุด

จากตารางนี้ เราจะเห็นค่าสัมประสิทธิ์ของเกรดเฉลี่ยและการกระทำ ซึ่งระบุถึงการเปลี่ยนแปลงโดยเฉลี่ยของโอกาสที่จะรับเข้าวิทยาลัยในการเพิ่มหนึ่งหน่วยในแต่ละตัวแปร

ตัวอย่างเช่น:

  • ค่า GPA ที่เพิ่มขึ้นหนึ่งหน่วยสัมพันธ์กับการเพิ่มขึ้นเฉลี่ย 2.9665 ในอัตราต่อรองในการรับเข้าเรียนในวิทยาลัย
  • คะแนน ACT ที่เพิ่มขึ้นหนึ่งหน่วยสัมพันธ์กับโอกาสเข้าสู่ระบบในการรับเข้าวิทยาลัย ที่ลดลง โดยเฉลี่ย 0.1145

ค่า p ที่สอดคล้องกันในผลลัพธ์ยังช่วยให้เราทราบว่าตัวแปรทำนายแต่ละตัวมีประสิทธิภาพเพียงใดในการทำนายความน่าจะเป็นที่จะได้รับการยอมรับ:

  • เกรดเฉลี่ย P-value: 0.0679
  • ACT ค่า P: 0.6289

สิ่งนี้บอกเราว่าเกรดเฉลี่ยดูเหมือนจะเป็นตัวทำนายที่มีนัยสำคัญทางสถิติในการตอบรับจากวิทยาลัย ในขณะที่คะแนน ACT ดูเหมือนจะไม่มีนัยสำคัญทางสถิติ

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีปรับโมเดลการถดถอยอื่นๆ ใน SAS ให้เหมาะสม:

วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *