วิธีดำเนินการถดถอยโลจิสติกใน sas
การถดถอยแบบลอจิสติก เป็นวิธีการที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อตัวแปรตอบสนองเป็นไบนารี
การถดถอยโลจิสติกใช้วิธีการที่เรียกว่า การประมาณค่าความน่าจะเป็นสูงสุด เพื่อค้นหาสมการในรูปแบบต่อไปนี้:
บันทึก[p(X) / (1 – p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p
ทอง:
- X j : ตัวแปร ทำนายที่ j
- β j : การประมาณค่าสัมประสิทธิ์ของตัวแปรทำนายที่ j
สูตรทางด้านขวาของสมการทำนาย อัตราต่อรองของบันทึก ที่ตัวแปรตอบกลับรับค่า 1
ตัวอย่างทีละขั้นตอนต่อไปนี้แสดงวิธีการปรับแบบจำลองการถดถอยโลจิสติกใน SAS
ขั้นตอนที่ 1: สร้างชุดข้อมูล
ขั้นแรก เราจะสร้างชุดข้อมูลที่มีข้อมูลเกี่ยวกับตัวแปร 3 ตัวต่อไปนี้สำหรับนักเรียน 18 คน:
- การรับเข้าเรียนในวิทยาลัยบางแห่ง (1 = ใช่, 0 = ไม่ใช่)
- เกรดเฉลี่ย (ระดับ 1 ถึง 4)
- คะแนน ACT (ระดับ 1 ถึง 36)
/*create dataset*/ data my_data; input acceptance gpa act; datalines ; 1 3 30 0 1 21 0 2 26 0 1 24 1 3 29 1 3 34 0 3 31 1 2 29 0 1 21 1 2 21 0 1 15 1 3 32 1 4 31 1 4 29 0 1 24 1 4 29 1 3 21 1 4 34 ; run ; /*view dataset*/ proc print data =my_data;

ขั้นตอนที่ 2: ติดตั้งแบบจำลองการถดถอยโลจิสติก
ต่อไป เราจะใช้ proc Logistics เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติก โดยใช้ “การยอมรับ” เป็นตัวแปรตอบสนอง และใช้ “gpa” และ “act” เป็นตัวแปรทำนาย
หมายเหตุ : ต้องระบุ การลดลง สำหรับ SAS เพื่อคาดการณ์ความน่าจะเป็นที่ตัวแปรการตอบสนองจะใช้ค่า 1 โดยค่าเริ่มต้น SAS คาดการณ์ความน่าจะเป็นที่ตัวแปรตอบสนองจะใช้ค่า 0
/*fit logistic regression model*/
proc logistic data =my_data descending ;
model acceptance = gpa act;
run ;

ตารางแรกที่น่าสนใจมีชื่อว่า Model Fit Statistics
จากตารางนี้ เราจะเห็นค่า AIC ของโมเดล ซึ่งกลายเป็น 16.595 ยิ่งค่า AIC ต่ำ โมเดลก็ยิ่งสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น
อย่างไรก็ตาม ไม่มีเกณฑ์สำหรับสิ่งที่ถือว่าเป็น ค่า AIC “ดี” แต่เราใช้ AIC เพื่อเปรียบเทียบความพอดีของโมเดลหลายตัวกับชุดข้อมูลเดียวกัน โมเดลที่มีค่า AIC ต่ำที่สุดโดยทั่วไปถือว่าดีที่สุด
ตารางที่น่าสนใจถัดไปมีชื่อว่า การทดสอบสมมติฐานว่างทั่วโลก: BETA=0
จากตารางนี้ เราจะเห็นอัตราส่วนความน่าจะเป็นของค่าไค-สแควร์เท่ากับ 13.4620 โดยมีค่า p-value เท่ากับ 0.0012
เนื่องจากค่า p นี้น้อยกว่า 0.05 จึงบอกเราว่าแบบจำลองการถดถอยโลจิสติกโดยรวมมีนัยสำคัญทางสถิติ
ต่อไป เราสามารถวิเคราะห์การประมาณค่าสัมประสิทธิ์ได้ในตารางชื่อ การวิเคราะห์ ค่าประมาณโอกาสสูงสุด
จากตารางนี้ เราจะเห็นค่าสัมประสิทธิ์ของเกรดเฉลี่ยและการกระทำ ซึ่งระบุถึงการเปลี่ยนแปลงโดยเฉลี่ยของโอกาสที่จะรับเข้าวิทยาลัยในการเพิ่มหนึ่งหน่วยในแต่ละตัวแปร
ตัวอย่างเช่น:
- ค่า GPA ที่เพิ่มขึ้นหนึ่งหน่วยสัมพันธ์กับการเพิ่มขึ้นเฉลี่ย 2.9665 ในอัตราต่อรองในการรับเข้าเรียนในวิทยาลัย
- คะแนน ACT ที่เพิ่มขึ้นหนึ่งหน่วยสัมพันธ์กับโอกาสเข้าสู่ระบบในการรับเข้าวิทยาลัย ที่ลดลง โดยเฉลี่ย 0.1145
ค่า p ที่สอดคล้องกันในผลลัพธ์ยังช่วยให้เราทราบว่าตัวแปรทำนายแต่ละตัวมีประสิทธิภาพเพียงใดในการทำนายความน่าจะเป็นที่จะได้รับการยอมรับ:
- เกรดเฉลี่ย P-value: 0.0679
- ACT ค่า P: 0.6289
สิ่งนี้บอกเราว่าเกรดเฉลี่ยดูเหมือนจะเป็นตัวทำนายที่มีนัยสำคัญทางสถิติในการตอบรับจากวิทยาลัย ในขณะที่คะแนน ACT ดูเหมือนจะไม่มีนัยสำคัญทางสถิติ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีปรับโมเดลการถดถอยอื่นๆ ใน SAS ให้เหมาะสม:
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS