รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
เมื่อเราต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายเดี่ยวและตัวแปรตอบสนอง เรามักจะใช้ การถดถอยเชิงเส้นอย่างง่าย
อย่างไรก็ตาม หากเราต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนาย หลายตัว กับตัวแปรตอบสนอง เราสามารถใช้ การถดถอยเชิงเส้นหลายตัว
หากเรามีตัวแปรทำนาย p แบบจำลองการถดถอยเชิงเส้นหลายตัวจะอยู่ในรูปแบบ:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
ทอง:
- Y : ตัวแปรตอบสนอง
- X j : ตัวแปร ทำนายที่ j
- β j : ผลกระทบโดยเฉลี่ยต่อ Y ของการเพิ่มขึ้นของ X j หนึ่งหน่วย โดยคงตัวทำนายอื่นๆ ทั้งหมดไว้คงที่
- ε : เงื่อนไขข้อผิดพลาด
ค่าของ β 0 , β 1 , B 2 , …, β p ถูกเลือกโดยใช้ วิธีกำลังสองน้อยที่สุด ซึ่งจะลดผลรวมของกำลังสองของส่วนที่เหลือ (RSS):
RSS = Σ(ฉัน ฉัน – ŷ ฉัน ) 2
ทอง:
- Σ : สัญลักษณ์กรีกหมายถึง ผลรวม
- y i : ค่าตอบสนองจริงสำหรับการสังเกต ครั้งที่ 3
- ŷ i : ค่าตอบสนองที่คาดการณ์ไว้ตามแบบจำลองการถดถอยเชิงเส้นพหุคูณ
วิธีที่ใช้ในการหาค่าประมาณสัมประสิทธิ์เหล่านี้เชื่อมโยงกับพีชคณิตเมทริกซ์ และเราจะไม่ลงรายละเอียดที่นี่ โชคดีที่ซอฟต์แวร์ทางสถิติสามารถคำนวณค่าสัมประสิทธิ์เหล่านี้ให้คุณได้
วิธีการตีความเอาต์พุตการถดถอยเชิงเส้นหลายรายการ
สมมติว่าเราปรับแบบจำลองการถดถอยเชิงเส้นพหุคูณโดยใช้ตัวแปรทำนาย จำนวนชั่วโมงที่เรียน และ การสอบเตรียมสอบ รวมถึง คะแนนสอบ ตัวแปรคำตอบ
ภาพหน้าจอต่อไปนี้แสดงให้เห็นว่าผลลัพธ์ของการถดถอยเชิงเส้นพหุคูณอาจมีลักษณะอย่างไรสำหรับแบบจำลองนี้:
หมายเหตุ: ภาพหน้าจอด้านล่างแสดง เอาต์พุตการถดถอยเชิงเส้นหลายรายการสำหรับ Excel แต่ตัวเลขที่แสดงในเอาต์พุตเป็นเรื่องปกติของเอาต์พุตการถดถอยที่คุณจะเห็นโดยใช้ซอฟต์แวร์ทางสถิติใดๆ
จากผลลัพธ์ของแบบจำลอง ค่าสัมประสิทธิ์ช่วยให้เราสร้างแบบจำลองการถดถอยเชิงเส้นพหุคูณโดยประมาณได้:
คะแนนสอบ = 67.67 + 5.56*(ชม.) – 0.60*(สอบเตรียมอุดมศึกษา)
วิธีการตีความค่าสัมประสิทธิ์มีดังนี้:
- ชั่วโมงเรียนที่เพิ่มขึ้นหนึ่งหน่วยแต่ละครั้งสัมพันธ์กับคะแนนสอบที่เพิ่มขึ้นโดยเฉลี่ย 5.56 คะแนน โดยถือว่าการสอบฝึกหัดยังคงที่
- การสอบเตรียมสอบที่เพิ่มขึ้นอีกหนึ่งหน่วยแต่ละครั้งจะสัมพันธ์กับคะแนนสอบที่ลดลงโดยเฉลี่ย 0.60 คะแนน โดยสมมติว่าจำนวนชั่วโมงที่เรียนคงที่
นอกจากนี้เรายังสามารถใช้แบบจำลองนี้เพื่อกำหนดเกรดการสอบที่คาดหวังที่นักเรียนจะได้รับโดยพิจารณาจากจำนวนชั่วโมงเรียนทั้งหมดและการสอบเตรียมสอบ เช่น นักเรียนที่เรียน 4 ชั่วโมง และสอบเตรียมสอบ 1 ครั้ง ควรได้คะแนนสอบ 89.31 :
คะแนนสอบ = 67.67 + 5.56*(4) -0.60*(1) = 89.31
ต่อไปนี้เป็นวิธีตีความผลลัพธ์ของโมเดลที่เหลือ:
- R-Square: สิ่งนี้เรียกว่าสัมประสิทธิ์การตัดสินใจ เป็นสัดส่วนของความแปรปรวนของตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรอธิบาย ในตัวอย่างนี้ 73.4% ของการเปลี่ยนแปลงของคะแนนสอบอธิบายได้จากจำนวนชั่วโมงที่เรียนและจำนวนการสอบเพื่อเตรียมสอบ
- ข้อผิดพลาดมาตรฐาน: นี่คือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ในตัวอย่างนี้ ค่าที่สังเกตได้เบี่ยงเบนไปจากเส้นถดถอยโดยเฉลี่ย 5,366 หน่วย
- F: นี่คือสถิติ F โดยรวมสำหรับแบบจำลองการถดถอย ซึ่งคำนวณเป็น Regression MS/Residual MS
- F ความหมาย: นี่คือค่า p ที่เกี่ยวข้องกับสถิติ F โดยรวม ข้อมูลนี้บอกเราว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติหรือไม่ กล่าวอีกนัยหนึ่ง มันบอกเราว่าตัวแปรอธิบายสองตัวที่รวมกันมีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรตอบสนองหรือไม่ ในกรณีนี้ ค่า p น้อยกว่า 0.05 ซึ่งบ่งชี้ว่าตัวแปรอธิบาย ชั่วโมงการศึกษา และการสอบเตรียมสอบรวมกัน มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับผลการสอบ
- ค่า P ของสัมประสิทธิ์ ค่า p ส่วนบุคคลบอกเราว่าตัวแปรอธิบายแต่ละตัวมีนัยสำคัญทางสถิติหรือไม่ เราจะเห็นว่าจำนวนชั่วโมงที่เรียนมีนัยสำคัญทางสถิติ (p = 0.00) ในขณะที่การสอบเพื่อเตรียมการ (p = 0.52) ไม่มีนัยสำคัญทางสถิติที่ α = 0.05 เนื่องจากการสอบเตรียมการที่ผ่านมาไม่มีนัยสำคัญทางสถิติ เราจึงอาจตัดสินใจลบข้อสอบเหล่านั้นออกจากแบบจำลอง
วิธีประเมินความพอดีของแบบจำลองการถดถอยเชิงเส้นพหุคูณ
โดยทั่วไปจะใช้ตัวเลขสองตัวเพื่อประเมินว่าแบบจำลองการถดถอยเชิงเส้นหลายตัว “พอดี” กับชุดข้อมูลได้ดีเพียงใด:
1. R-squared: นี่คือสัดส่วนของความแปรปรวนใน ตัวแปรตอบสนอง ที่สามารถอธิบายได้ด้วยตัวแปรทำนาย
ค่า R-squared สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่า 0 บ่งชี้ว่าตัวแปรการตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย ค่า 1 บ่งชี้ว่าตัวแปรตัวทำนายสามารถอธิบายตัวแปรตอบสนองได้อย่างสมบูรณ์แบบโดยไม่มีข้อผิดพลาด
ยิ่งค่า R ของโมเดลสูงเท่าไร โมเดลก็จะสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น
2. ข้อผิดพลาดมาตรฐาน: นี่คือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ยิ่งข้อผิดพลาดมาตรฐานมีขนาดเล็กลง โมเดลก็จะสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น
หากเราต้องการทำนายโดยใช้แบบจำลองการถดถอย ข้อผิดพลาดมาตรฐานของการถดถอยอาจเป็นหน่วยเมตริกที่มีประโยชน์มากกว่าที่ควรรู้มากกว่า R-squared เพราะมันทำให้เราเข้าใจได้ว่าการคาดการณ์ของเรามีความแม่นยำเพียงใดในแง่ของหน่วย
สำหรับคำอธิบายทั้งหมดเกี่ยวกับข้อดีข้อเสียของการใช้ข้อผิดพลาด R-squared กับข้อผิดพลาดมาตรฐานในการประเมินความเหมาะสมของแบบจำลอง โปรดดูบทความต่อไปนี้:
สมมติฐานการถดถอยเชิงเส้นพหุคูณ
การถดถอยเชิงเส้นพหุคูณทำให้เกิดสมมติฐานหลักสี่ประการเกี่ยวกับข้อมูล:
1. ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ x และตัวแปรตาม y
2. ความเป็นอิสระ: ส่วนที่เหลือเป็นอิสระ โดยเฉพาะอย่างยิ่งไม่มีความสัมพันธ์ระหว่างข้อมูลตกค้างติดต่อกันในข้อมูลอนุกรมเวลา
3. ความเป็นเนื้อเดียวกัน: สารตกค้างมีความแปรปรวนคงที่ในแต่ละระดับของ x
4. Normality: โมเดลที่เหลือมีการกระจายตามปกติ
หากต้องการทราบคำอธิบายโดยละเอียดเกี่ยวกับวิธีทดสอบสมมติฐานเหล่านี้ โปรดดู บทความนี้
การถดถอยเชิงเส้นพหุคูณโดยใช้ซอฟต์แวร์
บทช่วยสอนต่อไปนี้ให้ตัวอย่างทีละขั้นตอนเกี่ยวกับวิธีดำเนินการถดถอยเชิงเส้นหลายรายการโดยใช้ซอฟต์แวร์ทางสถิติที่แตกต่างกัน:
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน Python
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน Excel
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน SPSS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน Stata
วิธีดำเนินการถดถอยเชิงเส้นใน Google ชีต