รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ


เมื่อเราต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายเดี่ยวและตัวแปรตอบสนอง เรามักจะใช้ การถดถอยเชิงเส้นอย่างง่าย

อย่างไรก็ตาม หากเราต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนาย หลายตัว กับตัวแปรตอบสนอง เราสามารถใช้ การถดถอยเชิงเส้นหลายตัว

หากเรามีตัวแปรทำนาย p แบบจำลองการถดถอยเชิงเส้นหลายตัวจะอยู่ในรูปแบบ:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

ทอง:

  • Y : ตัวแปรตอบสนอง
  • X j : ตัวแปร ทำนายที่ j
  • β j : ผลกระทบโดยเฉลี่ยต่อ Y ของการเพิ่มขึ้นของ X j หนึ่งหน่วย โดยคงตัวทำนายอื่นๆ ทั้งหมดไว้คงที่
  • ε : เงื่อนไขข้อผิดพลาด

ค่าของ β 0 , β 1 , B 2 , …, β p ถูกเลือกโดยใช้ วิธีกำลังสองน้อยที่สุด ซึ่งจะลดผลรวมของกำลังสองของส่วนที่เหลือ (RSS):

RSS = Σ(ฉัน ฉัน – ŷ ฉัน ) 2

ทอง:

  • Σ : สัญลักษณ์กรีกหมายถึง ผลรวม
  • y i : ค่าตอบสนองจริงสำหรับการสังเกต ครั้งที่ 3
  • ŷ i : ค่าตอบสนองที่คาดการณ์ไว้ตามแบบจำลองการถดถอยเชิงเส้นพหุคูณ

วิธีที่ใช้ในการหาค่าประมาณสัมประสิทธิ์เหล่านี้เชื่อมโยงกับพีชคณิตเมทริกซ์ และเราจะไม่ลงรายละเอียดที่นี่ โชคดีที่ซอฟต์แวร์ทางสถิติสามารถคำนวณค่าสัมประสิทธิ์เหล่านี้ให้คุณได้

วิธีการตีความเอาต์พุตการถดถอยเชิงเส้นหลายรายการ

สมมติว่าเราปรับแบบจำลองการถดถอยเชิงเส้นพหุคูณโดยใช้ตัวแปรทำนาย จำนวนชั่วโมงที่เรียน และ การสอบเตรียมสอบ รวมถึง คะแนนสอบ ตัวแปรคำตอบ

ภาพหน้าจอต่อไปนี้แสดงให้เห็นว่าผลลัพธ์ของการถดถอยเชิงเส้นพหุคูณอาจมีลักษณะอย่างไรสำหรับแบบจำลองนี้:

หมายเหตุ: ภาพหน้าจอด้านล่างแสดง เอาต์พุตการถดถอยเชิงเส้นหลายรายการสำหรับ Excel แต่ตัวเลขที่แสดงในเอาต์พุตเป็นเรื่องปกติของเอาต์พุตการถดถอยที่คุณจะเห็นโดยใช้ซอฟต์แวร์ทางสถิติใดๆ

การตีความผลลัพธ์การถดถอยเชิงเส้นพหุคูณ

จากผลลัพธ์ของแบบจำลอง ค่าสัมประสิทธิ์ช่วยให้เราสร้างแบบจำลองการถดถอยเชิงเส้นพหุคูณโดยประมาณได้:

คะแนนสอบ = 67.67 + 5.56*(ชม.) – 0.60*(สอบเตรียมอุดมศึกษา)

วิธีการตีความค่าสัมประสิทธิ์มีดังนี้:

  • ชั่วโมงเรียนที่เพิ่มขึ้นหนึ่งหน่วยแต่ละครั้งสัมพันธ์กับคะแนนสอบที่เพิ่มขึ้นโดยเฉลี่ย 5.56 คะแนน โดยถือว่าการสอบฝึกหัดยังคงที่
  • การสอบเตรียมสอบที่เพิ่มขึ้นอีกหนึ่งหน่วยแต่ละครั้งจะสัมพันธ์กับคะแนนสอบที่ลดลงโดยเฉลี่ย 0.60 คะแนน โดยสมมติว่าจำนวนชั่วโมงที่เรียนคงที่

นอกจากนี้เรายังสามารถใช้แบบจำลองนี้เพื่อกำหนดเกรดการสอบที่คาดหวังที่นักเรียนจะได้รับโดยพิจารณาจากจำนวนชั่วโมงเรียนทั้งหมดและการสอบเตรียมสอบ เช่น นักเรียนที่เรียน 4 ชั่วโมง และสอบเตรียมสอบ 1 ครั้ง ควรได้คะแนนสอบ 89.31 :

คะแนนสอบ = 67.67 + 5.56*(4) -0.60*(1) = 89.31

ต่อไปนี้เป็นวิธีตีความผลลัพธ์ของโมเดลที่เหลือ:

  • R-Square: สิ่งนี้เรียกว่าสัมประสิทธิ์การตัดสินใจ เป็นสัดส่วนของความแปรปรวนของตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรอธิบาย ในตัวอย่างนี้ 73.4% ของการเปลี่ยนแปลงของคะแนนสอบอธิบายได้จากจำนวนชั่วโมงที่เรียนและจำนวนการสอบเพื่อเตรียมสอบ
  • ข้อผิดพลาดมาตรฐาน: นี่คือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ในตัวอย่างนี้ ค่าที่สังเกตได้เบี่ยงเบนไปจากเส้นถดถอยโดยเฉลี่ย 5,366 หน่วย
  • F: นี่คือสถิติ F โดยรวมสำหรับแบบจำลองการถดถอย ซึ่งคำนวณเป็น Regression MS/Residual MS
  • F ความหมาย: นี่คือค่า p ที่เกี่ยวข้องกับสถิติ F โดยรวม ข้อมูลนี้บอกเราว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติหรือไม่ กล่าวอีกนัยหนึ่ง มันบอกเราว่าตัวแปรอธิบายสองตัวที่รวมกันมีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรตอบสนองหรือไม่ ในกรณีนี้ ค่า p น้อยกว่า 0.05 ซึ่งบ่งชี้ว่าตัวแปรอธิบาย ชั่วโมงการศึกษา และการสอบเตรียมสอบรวมกัน มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับผลการสอบ
  • ค่า P ของสัมประสิทธิ์ ค่า p ส่วนบุคคลบอกเราว่าตัวแปรอธิบายแต่ละตัวมีนัยสำคัญทางสถิติหรือไม่ เราจะเห็นว่าจำนวนชั่วโมงที่เรียนมีนัยสำคัญทางสถิติ (p = 0.00) ในขณะที่การสอบเพื่อเตรียมการ (p = 0.52) ไม่มีนัยสำคัญทางสถิติที่ α = 0.05 เนื่องจากการสอบเตรียมการที่ผ่านมาไม่มีนัยสำคัญทางสถิติ เราจึงอาจตัดสินใจลบข้อสอบเหล่านั้นออกจากแบบจำลอง

วิธีประเมินความพอดีของแบบจำลองการถดถอยเชิงเส้นพหุคูณ

โดยทั่วไปจะใช้ตัวเลขสองตัวเพื่อประเมินว่าแบบจำลองการถดถอยเชิงเส้นหลายตัว “พอดี” กับชุดข้อมูลได้ดีเพียงใด:

1. R-squared: นี่คือสัดส่วนของความแปรปรวนใน ตัวแปรตอบสนอง ที่สามารถอธิบายได้ด้วยตัวแปรทำนาย

ค่า R-squared สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่า 0 บ่งชี้ว่าตัวแปรการตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย ค่า 1 บ่งชี้ว่าตัวแปรตัวทำนายสามารถอธิบายตัวแปรตอบสนองได้อย่างสมบูรณ์แบบโดยไม่มีข้อผิดพลาด

ยิ่งค่า R ของโมเดลสูงเท่าไร โมเดลก็จะสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น

2. ข้อผิดพลาดมาตรฐาน: นี่คือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ยิ่งข้อผิดพลาดมาตรฐานมีขนาดเล็กลง โมเดลก็จะสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น

หากเราต้องการทำนายโดยใช้แบบจำลองการถดถอย ข้อผิดพลาดมาตรฐานของการถดถอยอาจเป็นหน่วยเมตริกที่มีประโยชน์มากกว่าที่ควรรู้มากกว่า R-squared เพราะมันทำให้เราเข้าใจได้ว่าการคาดการณ์ของเรามีความแม่นยำเพียงใดในแง่ของหน่วย

สำหรับคำอธิบายทั้งหมดเกี่ยวกับข้อดีข้อเสียของการใช้ข้อผิดพลาด R-squared กับข้อผิดพลาดมาตรฐานในการประเมินความเหมาะสมของแบบจำลอง โปรดดูบทความต่อไปนี้:

สมมติฐานการถดถอยเชิงเส้นพหุคูณ

การถดถอยเชิงเส้นพหุคูณทำให้เกิดสมมติฐานหลักสี่ประการเกี่ยวกับข้อมูล:

1. ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ x และตัวแปรตาม y

2. ความเป็นอิสระ: ส่วนที่เหลือเป็นอิสระ โดยเฉพาะอย่างยิ่งไม่มีความสัมพันธ์ระหว่างข้อมูลตกค้างติดต่อกันในข้อมูลอนุกรมเวลา

3. ความเป็นเนื้อเดียวกัน: สารตกค้างมีความแปรปรวนคงที่ในแต่ละระดับของ x

4. Normality: โมเดลที่เหลือมีการกระจายตามปกติ

หากต้องการทราบคำอธิบายโดยละเอียดเกี่ยวกับวิธีทดสอบสมมติฐานเหล่านี้ โปรดดู บทความนี้

การถดถอยเชิงเส้นพหุคูณโดยใช้ซอฟต์แวร์

บทช่วยสอนต่อไปนี้ให้ตัวอย่างทีละขั้นตอนเกี่ยวกับวิธีดำเนินการถดถอยเชิงเส้นหลายรายการโดยใช้ซอฟต์แวร์ทางสถิติที่แตกต่างกัน:

วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน Python
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน Excel
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน SPSS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน Stata
วิธีดำเนินการถดถอยเชิงเส้นใน Google ชีต

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *