การถดถอยโลจิสติกกับการถดถอยเชิงเส้น: ความแตกต่างที่สำคัญ


โมเดลการถดถอยที่ใช้กันมากที่สุดสองแบบคือ การถดถอยเชิงเส้น และ การถดถอยโลจิสติก

โมเดลการถดถอยทั้งสองประเภทใช้ในการหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและ ตัวแปรตอบสนอง แต่มีความแตกต่างที่สำคัญบางประการระหว่างทั้งสองโมเดล:

การถดถอยโลจิสติกเทียบกับการถดถอยเชิงเส้น

นี่คือบทสรุปของความแตกต่าง:

ความแตกต่าง #1: ประเภทตัวแปรการตอบสนอง

โมเดลการถดถอยเชิงเส้นจะใช้เมื่อตัวแปรตอบสนองรับค่าต่อเนื่อง เช่น:

  • ราคา
  • ความสูง
  • อายุ
  • ระยะทาง

ในทางกลับกัน แบบจำลองการถดถอยโลจิสติกจะถูกใช้เมื่อตัวแปรตอบสนองรับค่าที่เป็นหมวดหมู่ เช่น:

  • ใช่หรือไม่
  • ชายหรือหญิง
  • ที่จะชนะหรือไม่ชนะ

ความแตกต่าง #2: สมการที่ใช้

การถดถอยเชิงเส้นใช้สมการต่อไปนี้เพื่อสรุปความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

ทอง:

  • Y: ตัวแปรตอบสนอง
  • X j : ตัวแปร ทำนายที่ j
  • β j : ผลกระทบโดยเฉลี่ยต่อ Y ของการเพิ่มขึ้นของ X j หนึ่งหน่วย โดยคงตัวทำนายอื่นๆ ทั้งหมดไว้คงที่

ในทางกลับกัน การถดถอยโลจิสติกใช้สมการต่อไปนี้:

p(X) = อี β 0 + β 1 X 1 + β 2 X 2 + + β p

สมการนี้ใช้เพื่อทำนายความน่าจะเป็นที่การสังเกตแต่ละรายการจะจัดอยู่ในหมวดหมู่ใดหมวดหมู่หนึ่ง

ความแตกต่าง #3: วิธีการที่ใช้เพื่อให้พอดีกับสมการ

การถดถอยเชิงเส้นใช้วิธีการที่เรียกว่า กำลังสองน้อยที่สุดธรรมดา เพื่อค้นหาสมการการถดถอยที่เหมาะสมที่สุด

ในทางกลับกัน การถดถอยโลจิสติกใช้วิธีการที่เรียกว่า การประมาณค่าความน่าจะเป็นสูงสุด เพื่อค้นหาสมการถดถอยที่เหมาะสมที่สุด

ความแตกต่าง #4: ผลลัพธ์ที่ต้องทำนาย

การถดถอยเชิงเส้นทำนายค่าต่อเนื่องเป็นเอาต์พุต ตัวอย่างเช่น:

  • ราคา ($150, $199, $400 ฯลฯ)
  • ส่วนสูง (14 นิ้ว 2 ฟุต 94.32 เซนติเมตร เป็นต้น)
  • อายุ (2 เดือน 6 ปี 41.5 ปี เป็นต้น)
  • ระยะทาง (1.23 ไมล์, 4.5 กิโลเมตร ฯลฯ)

ในทางกลับกัน การถดถอยโลจิสติกทำนายความน่าจะเป็นเป็นผลลัพธ์ ตัวอย่างเช่น:

  • โอกาส 40.3% ที่จะได้เข้าศึกษาในมหาวิทยาลัย
  • โอกาสชนะเกม 93.2%
  • มีโอกาส 34.2% ที่จะมีการบังคับใช้กฎหมาย

เมื่อใดควรใช้การถดถอยโลจิสติกหรือการถดถอยเชิงเส้น

แบบฝึกหัดแก้ปัญหาต่อไปนี้สามารถช่วยให้คุณเข้าใจได้ดีขึ้นว่าเมื่อใดควรใช้การถดถอยโลจิสติกหรือการถดถอยเชิงเส้น

ปัญหา #1: รายได้ต่อปี

สมมติว่านักเศรษฐศาสตร์ต้องการใช้ตัวแปรทำนาย (1) ชั่วโมงการทำงานต่อสัปดาห์ และ (2) ปีการศึกษา เพื่อทำนายรายได้ต่อปีของบุคคล

ในสถานการณ์นี้ เขาจะใช้ การถดถอยเชิงเส้น เนื่องจากตัวแปรการตอบสนอง (รายได้ต่อปี) มีความต่อเนื่อง

ปัญหา #2: การยอมรับจากวิทยาลัย

สมมติว่าเจ้าหน้าที่รับสมัครนักศึกษาวิทยาลัยต้องการใช้ตัวแปรทำนาย (1) เกรดเฉลี่ยและ (2) คะแนน ACT เพื่อทำนายความเป็นไปได้ที่นักศึกษาจะได้รับการยอมรับในมหาวิทยาลัยบางแห่ง

ในสถานการณ์นี้ เธอจะใช้ การถดถอยโลจิสติก เนื่องจากตัวแปรการตอบสนองเป็นแบบหมวดหมู่และสามารถรับได้เพียงสองค่าเท่านั้น: ยอมรับหรือไม่ยอมรับ

ปัญหา #3: ราคาอสังหาริมทรัพย์

สมมติว่าตัวแทนอสังหาริมทรัพย์ต้องการใช้ตัวแปรทำนาย (1) พื้นที่เป็นตารางฟุต (2) จำนวนห้องนอน และ (3) จำนวนห้องน้ำเพื่อทำนายราคาขายบ้าน

ในสถานการณ์นี้ เธอจะใช้ การถดถอยเชิงเส้น เนื่องจากตัวแปรการตอบสนอง (ราคา) มีความต่อเนื่อง

ปัญหา #4: การตรวจจับสแปม

สมมติว่าโปรแกรมเมอร์คอมพิวเตอร์ต้องการใช้ตัวแปรทำนาย (1) จำนวนคำ และ (2) ประเทศต้นทาง เพื่อคาดการณ์ความน่าจะเป็นที่อีเมลที่กำหนดจะเป็นสแปม

ในสถานการณ์สมมตินี้ จะใช้ การถดถอยโลจิสติก เนื่องจากตัวแปรการตอบสนองเป็นแบบหมวดหมู่และสามารถรับได้เพียงสองค่าเท่านั้น: สแปมหรือไม่ใช่สแปม

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้รายละเอียดเพิ่มเติมเกี่ยวกับการถดถอยเชิงเส้น:

บทช่วยสอนต่อไปนี้ให้รายละเอียดเพิ่มเติมเกี่ยวกับการถดถอยโลจิสติก:

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *