วิธีดำเนินการถดถอยโลจิสติกใน stata
การถดถอยแบบลอจิสติก เป็นวิธีการที่เราใช้เพื่อให้พอดีกับแบบจำลองการถดถอยเมื่อตัวแปรตอบสนองเป็นไบนารี นี่คือตัวอย่างบางส่วนของการใช้การถดถอยโลจิสติก:
- เราต้องการทราบว่าการออกกำลังกาย การรับประทานอาหาร และน้ำหนักส่งผลต่อโอกาสที่จะหัวใจวายอย่างไร ตัวแปรตอบสนองคือ หัวใจวาย และอาจมีผลลัพธ์ที่เป็นไปได้สองประการ: หัวใจวายเกิดขึ้นหรือไม่เกิดขึ้น
- เราต้องการทราบว่าเกรดเฉลี่ย คะแนน ACT และจำนวนหลักสูตร AP ส่งผลต่อโอกาสในการได้รับการตอบรับเข้าศึกษาในมหาวิทยาลัยแห่งใดแห่งหนึ่งอย่างไร ตัวแปรตอบสนองคือ การยอมรับ และมีผลลัพธ์ที่เป็นไปได้สองประการ: ยอมรับหรือไม่ยอมรับ
- เราต้องการทราบว่าจำนวนคำและชื่ออีเมลส่งผลต่อแนวโน้มที่อีเมลจะเป็นสแปมหรือไม่ ตัวแปรการตอบสนองคือ สแปม และอาจมีผลลัพธ์ที่เป็นไปได้สองประการ: สแปมหรือไม่ใช่สแปม
บทช่วยสอนนี้จะอธิบายวิธีการถดถอยโลจิสติกใน Stata
ตัวอย่าง: การถดถอยโลจิสติกใน Stata
สมมติว่าเราต้องการเข้าใจว่าอายุของมารดาและนิสัยการสูบบุหรี่ส่งผลต่อโอกาสที่ทารกน้ำหนักแรกเกิดน้อยหรือไม่
ในการสำรวจสิ่งนี้ เราสามารถดำเนินการถดถอยโลจิสติกโดยใช้อายุและการสูบบุหรี่ (ใช่หรือไม่ใช่) เป็นตัวแปรอธิบาย และน้ำหนักแรกเกิดต่ำ (ใช่หรือไม่ใช่) เป็นตัวแปรตอบสนอง เนื่องจากตัวแปรตอบสนองเป็นแบบไบนารี่ มีเพียงสองผลลัพธ์ที่เป็นไปได้เท่านั้น จึงควรใช้การถดถอยลอจิสติก
ทำตามขั้นตอนต่อไปนี้ใน Stata เพื่อดำเนินการถดถอยโลจิสติกโดยใช้ชุดข้อมูลที่เรียกว่า lbw ซึ่งมีข้อมูลเกี่ยวกับมารดาที่แตกต่างกัน 189 ราย
ขั้นตอนที่ 1: โหลดข้อมูล
โหลดข้อมูลโดยพิมพ์ข้อความต่อไปนี้ในกล่องคำสั่ง:
ใช้ https://www.stata-press.com/data/r13/lbw
ขั้นตอนที่ 2: รับข้อมูลสรุป
ทำความเข้าใจข้อมูลที่คุณกำลังทำงานอย่างรวดเร็วโดยพิมพ์ข้อความต่อไปนี้ในกล่องคำสั่ง:
เพื่อสรุป
เราจะเห็นได้ว่าชุดข้อมูลมีตัวแปรที่แตกต่างกัน 11 ตัว แต่มีเพียงสามตัวแปรที่เราสนใจเท่านั้นคือ:
- ต่ำ – ทารกมีน้ำหนักแรกเกิดน้อยหรือไม่ 1 = ใช่ 0 = ไม่ใช่
- อายุ – อายุของแม่
- สูบบุหรี่ – ไม่ว่าแม่จะสูบบุหรี่ในระหว่างตั้งครรภ์หรือไม่ก็ตาม 1 = ใช่ 0 = ไม่ใช่
ขั้นตอนที่ 3: ดำเนินการถดถอยโลจิสติก
พิมพ์ข้อความต่อไปนี้ในกล่องคำสั่งเพื่อดำเนินการถดถอยโลจิสติกโดยใช้ อายุ และ ควัน เป็นตัวแปรอธิบาย และ ใช้ค่าต่ำ เป็นตัวแปรตอบสนอง
บันทึกควันอายุต่ำ
วิธีการตีความตัวเลขที่น่าสนใจที่สุดในผลลัพธ์มีดังนี้:
Coef (อายุ): -.0497792. การสูบ บุหรี่ อย่างต่อเนื่อง อายุที่เพิ่มขึ้นในแต่ละปีสัมพันธ์กับ exp(-0.0497792) = 0.951 โอกาสที่ทารกจะมีน้ำหนักแรกเกิดต่ำเพิ่มขึ้น จำนวนนี้น้อยกว่า 1 หมายความว่าอายุที่เพิ่มขึ้นสัมพันธ์กับโอกาสที่ทารกมีน้ำหนักแรกเกิดน้อยลดลง
ตัวอย่างเช่น สมมติว่าแม่ A และแม่ B สูบบุหรี่ทั้งคู่ หากแม่ A มีอายุมากกว่าแม่ B หนึ่งปี โอกาสที่แม่ A จะมีทารกน้ำหนักแรกเกิดน้อยมีเพียง 95.1% ของโอกาสที่แม่ B จะมีลูกน้ำหนักแรกเกิดน้อย เกิด.
ป>|z| (อายุ): 0.119. นี่คือค่า p ที่เกี่ยวข้องกับสถิติการทดสอบสำหรับ อายุ เนื่องจากค่านี้ไม่น้อยกว่า 0.05 อายุจึงไม่ใช่ตัวทำนายที่มีนัยสำคัญทางสถิติของน้ำหนักแรกเกิดน้อย
อัตราต่อรอง(ควัน) : 0.6918486. อายุ คงที่ แม่ที่สูบบุหรี่ระหว่างตั้งครรภ์มีความน่าจะเป็นที่สูงกว่า (.6918486) = 1.997 ที่จะมีลูกน้ำหนักแรกเกิดน้อยกว่าแม่ที่ไม่สูบบุหรี่ระหว่างตั้งครรภ์
ตัวอย่างเช่น สมมติว่าแม่ A และแม่ B มีอายุ 30 ปีทั้งคู่ หากแม่ A สูบบุหรี่ในระหว่างตั้งครรภ์และแม่ B ไม่สูบบุหรี่ โอกาสที่แม่ A จะมีทารกน้ำหนักแรกเกิดน้อยจะสูงกว่าโอกาสที่แม่ B จะมีทารกน้ำหนักแรกเกิดน้อยถึง 99.7%
ป>|z| (ควัน): 0.032. นี่คือค่า p ที่เกี่ยวข้องกับสถิติการทดสอบ ควัน เนื่องจากค่านี้น้อยกว่า 0.05 การสูบบุหรี่ จึงเป็นตัวพยากรณ์น้ำหนักแรกเกิดน้อยที่มีนัยสำคัญทางสถิติ
ขั้นตอนที่ 4: รายงานผลลัพธ์
สุดท้ายนี้ เราอยากจะรายงานผลลัพธ์ของการถดถอยลอจิสติกส์ของเรา นี่คือตัวอย่างของวิธีการทำเช่นนี้:
ทำการถดถอยแบบโลจิสติกเพื่อพิจารณาว่าอายุของมารดาและนิสัยการสูบบุหรี่ส่งผลต่อโอกาสที่จะมีทารกที่มีน้ำหนักแรกเกิดน้อยหรือไม่ ใช้กลุ่มตัวอย่างจากมารดาจำนวน 189 คน ในการวิเคราะห์
ผลการวิจัยพบว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างการสูบบุหรี่กับโอกาสที่น้ำหนักแรกเกิดต่ำ (z = 2.15, p = 0.032) ในขณะที่ไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างอายุและความน่าจะเป็นที่น้ำหนักแรกเกิดต่ำ (z = -1.56 , p = 0.032) 119)