วิธีดำเนินการถดถอยโลจิสติกใน sas

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 21, 2023 แนะนำ 0 ความคิดเห็น

การถดถอยแบบลอจิสติก เป็นวิธีการที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อตัวแปรตอบสนองเป็นไบนารี

การถดถอยโลจิสติกใช้วิธีการที่เรียกว่า การประมาณค่าความน่าจะเป็นสูงสุด เพื่อค้นหาสมการในรูปแบบต่อไปนี้:

บันทึก[p(X) / (1 _– p(X))] = β ₀ + β ₁ X ₁ + β ₂ X ₂ + … + β _p

ทอง:

X _j : ^{ตัวแปร} ทำนายที่ j
β _j : การประมาณค่าสัมประสิทธิ์ของตัวแปรทำนายที่ ^j

สูตรทางด้านขวาของสมการทำนาย อัตราต่อรองของบันทึก ที่ตัวแปรตอบกลับรับค่า 1

ตัวอย่างทีละขั้นตอนต่อไปนี้แสดงวิธีการปรับแบบจำลองการถดถอยโลจิสติกใน SAS

ขั้นตอนที่ 1: สร้างชุดข้อมูล

ขั้นแรก เราจะสร้างชุดข้อมูลที่มีข้อมูลเกี่ยวกับตัวแปร 3 ตัวต่อไปนี้สำหรับนักเรียน 18 คน:

การรับเข้าเรียนในวิทยาลัยบางแห่ง (1 = ใช่, 0 = ไม่ใช่)
เกรดเฉลี่ย (ระดับ 1 ถึง 4)
คะแนน ACT (ระดับ 1 ถึง 36)

 /*create dataset*/
data my_data;
    input acceptance gpa act;
    datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

/*view dataset*/
proc print data =my_data;

ขั้นตอนที่ 2: ติดตั้งแบบจำลองการถดถอยโลจิสติก

ต่อไป เราจะใช้ proc Logistics เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติก โดยใช้ “การยอมรับ” เป็นตัวแปรตอบสนอง และใช้ “gpa” และ “act” เป็นตัวแปรทำนาย

หมายเหตุ : ต้องระบุ การลดลง สำหรับ SAS เพื่อคาดการณ์ความน่าจะเป็นที่ตัวแปรการตอบสนองจะใช้ค่า 1 โดยค่าเริ่มต้น SAS คาดการณ์ความน่าจะเป็นที่ตัวแปรตอบสนองจะใช้ค่า 0

 /*fit logistic regression model*/
proc logistic data =my_data descending ;
  model acceptance = gpa act;
run ;

ตารางแรกที่น่าสนใจมีชื่อว่า Model Fit Statistics

จากตารางนี้ เราจะเห็นค่า AIC ของโมเดล ซึ่งกลายเป็น 16.595 ยิ่งค่า AIC ต่ำ โมเดลก็ยิ่งสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น

อย่างไรก็ตาม ไม่มีเกณฑ์สำหรับสิ่งที่ถือว่าเป็น ค่า AIC “ดี” แต่เราใช้ AIC เพื่อเปรียบเทียบความพอดีของโมเดลหลายตัวกับชุดข้อมูลเดียวกัน โมเดลที่มีค่า AIC ต่ำที่สุดโดยทั่วไปถือว่าดีที่สุด

ตารางที่น่าสนใจถัดไปมีชื่อว่า การทดสอบสมมติฐานว่างทั่วโลก: BETA=0

จากตารางนี้ เราจะเห็นอัตราส่วนความน่าจะเป็นของค่าไค-สแควร์เท่ากับ 13.4620 โดยมีค่า p-value เท่ากับ 0.0012

เนื่องจากค่า p นี้น้อยกว่า 0.05 จึงบอกเราว่าแบบจำลองการถดถอยโลจิสติกโดยรวมมีนัยสำคัญทางสถิติ

ต่อไป เราสามารถวิเคราะห์การประมาณค่าสัมประสิทธิ์ได้ในตารางชื่อ การวิเคราะห์ ค่าประมาณโอกาสสูงสุด

จากตารางนี้ เราจะเห็นค่าสัมประสิทธิ์ของเกรดเฉลี่ยและการกระทำ ซึ่งระบุถึงการเปลี่ยนแปลงโดยเฉลี่ยของโอกาสที่จะรับเข้าวิทยาลัยในการเพิ่มหนึ่งหน่วยในแต่ละตัวแปร

ตัวอย่างเช่น:

ค่า GPA ที่เพิ่มขึ้นหนึ่งหน่วยสัมพันธ์กับการเพิ่มขึ้นเฉลี่ย 2.9665 ในอัตราต่อรองในการรับเข้าเรียนในวิทยาลัย
คะแนน ACT ที่เพิ่มขึ้นหนึ่งหน่วยสัมพันธ์กับโอกาสเข้าสู่ระบบในการรับเข้าวิทยาลัย ที่ลดลง โดยเฉลี่ย 0.1145

ค่า p ที่สอดคล้องกันในผลลัพธ์ยังช่วยให้เราทราบว่าตัวแปรทำนายแต่ละตัวมีประสิทธิภาพเพียงใดในการทำนายความน่าจะเป็นที่จะได้รับการยอมรับ:

เกรดเฉลี่ย P-value: 0.0679
ACT ค่า P: 0.6289

สิ่งนี้บอกเราว่าเกรดเฉลี่ยดูเหมือนจะเป็นตัวทำนายที่มีนัยสำคัญทางสถิติในการตอบรับจากวิทยาลัย ในขณะที่คะแนน ACT ดูเหมือนจะไม่มีนัยสำคัญทางสถิติ

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีปรับโมเดลการถดถอยอื่นๆ ใน SAS ให้เหมาะสม:

วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม

ขั้นตอนที่ 1: สร้างชุดข้อมูล

ขั้นตอนที่ 2: ติดตั้งแบบจำลองการถดถอยโลจิสติก

แหล่งข้อมูลเพิ่มเติม

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

เพิ่มความคิดเห็น