สมมติฐานห้าประการของการถดถอยเชิงเส้นพหุคูณ
การถดถอยเชิงเส้นพหุคูณ เป็นวิธีการทางสถิติที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายหลายตัวกับ ตัวแปรตอบสนอง
อย่างไรก็ตาม ก่อนที่จะทำการถดถอยเชิงเส้นหลายครั้ง เราต้องตรวจสอบให้แน่ใจก่อนว่าเป็นไปตามสมมติฐานทั้งห้าประการ:
1. ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง
2. ไม่มี multicollinearity: ไม่มีตัวแปรทำนายใดที่มีความสัมพันธ์กันสูง
3. ความเป็นอิสระ: การสังเกตมีความเป็นอิสระ
4. ความเป็นเนื้อเดียวกัน: สารตกค้างมีความแปรปรวนคงที่ในแต่ละจุดของแบบจำลองเชิงเส้น
5. ภาวะปกติหลายตัวแปร: ส่วนที่เหลือของแบบจำลองมีการกระจายตามปกติ
หากไม่เป็นไปตามสมมติฐานเหล่านี้ตั้งแต่หนึ่งข้อขึ้นไป ผลลัพธ์ของการถดถอยเชิงเส้นพหุคูณอาจไม่น่าเชื่อถือ
ในบทความนี้ เราจะให้คำอธิบายสำหรับแต่ละสมมติฐาน วิธีตรวจสอบว่าเป็นไปตามสมมติฐานหรือไม่ และต้องทำอย่างไรหากไม่เป็นไปตามสมมติฐาน
สมมติฐานที่ 1: ความสัมพันธ์เชิงเส้น
การถดถอยเชิงเส้นพหุคูณถือว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้
วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือการสร้างแผนภาพกระจายของตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง
วิธีนี้ช่วยให้คุณมองเห็นได้ว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสองหรือไม่
หากจุดในแผนภาพกระจายอยู่ประมาณตามแนวเส้นทแยงมุมตรง ก็มีแนวโน้มที่จะมีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรต่างๆ
ตัวอย่างเช่น จุดในกราฟด้านล่างดูเหมือนจะตกลงบนเส้นตรง ซึ่งบ่งชี้ว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทำนายเฉพาะ (x) และตัวแปรตอบสนอง (y):

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ
หากไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง เราจะมีหลายตัวเลือก:
1. ใช้การแปลงแบบไม่เชิงเส้นกับตัวแปรทำนาย เช่น หาบันทึกหรือรากที่สอง สิ่งนี้มักจะเปลี่ยนความสัมพันธ์ให้เป็นความสัมพันธ์ที่เป็นเส้นตรงมากขึ้น
2. เพิ่มตัวแปรทำนายอื่นให้กับโมเดล ตัวอย่างเช่น หากโครงเรื่องของ x เทียบกับ y มีรูปร่างพาราโบลา ก็อาจสมเหตุสมผลที่จะเพิ่ม X 2 เป็นตัวแปรตัวทำนายเพิ่มเติมในแบบจำลอง
3. ลบตัวแปรทำนายออกจากแบบจำลอง ในกรณีที่รุนแรงที่สุด หากไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายและตัวแปรตอบสนอง การรวมตัวแปรทำนายไว้ในแบบจำลองอาจไม่มีประโยชน์
สมมติฐานที่ 2: ไม่มีความหลากหลาย
การถดถอยเชิงเส้นพหุคูณถือว่าไม่มีตัวแปรทำนายใดที่มีความสัมพันธ์กันสูง
เมื่อตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปมีความสัมพันธ์กันสูง ตัวแบบการถดถอยจะได้รับผลกระทบจาก หลายคอลลิเนียริตี้ ทำให้การประมาณค่าสัมประสิทธิ์ของตัวแบบไม่น่าเชื่อถือ
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้
วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือการคำนวณค่า VIF สำหรับตัวแปรทำนายแต่ละตัว
ค่า VIF เริ่มต้นที่ 1 และไม่มีขีดจำกัดบน โดยทั่วไป ค่า VIF ที่สูงกว่า 5* บ่งชี้ถึงความมีหลายคอลลิเนียร์ที่อาจเกิดขึ้น
บทช่วยสอนต่อไปนี้แสดงวิธีคำนวณ VIF ในซอฟต์แวร์ทางสถิติต่างๆ:
*บางครั้งนักวิจัยใช้ค่า VIF 10 แทน ขึ้นอยู่กับสาขาวิชาที่ศึกษา
จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ
หากตัวแปรทำนายอย่างน้อยหนึ่งตัวมีค่า VIF มากกว่า 5 วิธีที่ง่ายที่สุดในการแก้ไขปัญหานี้คือเพียงลบตัวแปรทำนายที่มีค่า VIF สูงออก
อีกทางหนึ่ง หากคุณต้องการเก็บตัวแปรทำนายแต่ละตัวไว้ในแบบจำลอง คุณสามารถใช้วิธีทางสถิติที่แตกต่างกัน เช่น การถดถอยแบบสัน การถดถอยแบบลาสโซ หรือ การถดถอยกำลังสองน้อยที่สุดบางส่วน ซึ่งออกแบบมาเพื่อจัดการกับตัวแปรตัวทำนายที่มีความสัมพันธ์กันสูง
สมมติฐานที่ 3: ความเป็นอิสระ
การถดถอยเชิงเส้นพหุคูณถือว่าแต่ละข้อสังเกตในชุดข้อมูลเป็นอิสระจากกัน
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้
วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือทำการ ทดสอบ Durbin-Watson ซึ่งเป็นการทดสอบทางสถิติอย่างเป็นทางการที่บอกเราว่าสิ่งตกค้าง (และจากการสังเกต) แสดงความสัมพันธ์อัตโนมัติหรือไม่
จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ
คุณมีหลายทางเลือก ขึ้นอยู่กับว่าสมมติฐานนี้ถูกละเมิดอย่างไร:
- สำหรับความสัมพันธ์แบบอนุกรมเชิงบวก ให้พิจารณาเพิ่มความล่าช้าของตัวแปรตามและ/หรือตัวแปรอิสระให้กับโมเดล
- สำหรับความสัมพันธ์แบบอนุกรมเชิงลบ ตรวจสอบให้แน่ใจว่าไม่มีตัวแปรใด ล่าช้าเกินไป
- สำหรับความสัมพันธ์ตามฤดูกาล ให้ลองเพิ่ม หุ่น ตามฤดูกาลให้กับโมเดล
สมมติฐานที่ 4: ความเป็นเนื้อเดียวกัน
การถดถอยเชิงเส้นพหุคูณถือว่าส่วนที่เหลือมีความแปรปรวนคงที่ในแต่ละจุดในแบบจำลองเชิงเส้น เมื่อไม่เป็นเช่นนั้น สิ่งตกค้างจะประสบกับ ภาวะเฮเทอโรซีดาสติกซิตี
เมื่อเกิดภาวะเฮเทอโรสซิดาสติกในการวิเคราะห์การถดถอย ผลลัพธ์ของแบบจำลองการถดถอยจะไม่น่าเชื่อถือ
โดยเฉพาะอย่างยิ่ง ความแปรปรวนแบบเฮเทอโรสเคดาสติกจะเพิ่มความแปรปรวนของการประมาณค่าสัมประสิทธิ์การถดถอย แต่แบบจำลองการถดถอยไม่ได้คำนึงถึงค่าดังกล่าว ซึ่งทำให้มีโอกาสมากขึ้นที่แบบจำลองการถดถอยจะอ้างว่าคำในแบบจำลองนั้นมีนัยสำคัญทางสถิติ ทั้งที่ในความเป็นจริงกลับไม่มีนัยสำคัญ
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้
วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือการสร้างพล็อตของปริมาณคงเหลือที่เป็นมาตรฐานเทียบกับค่าที่คาดการณ์ไว้
เมื่อคุณใส่แบบจำลองการถดถอยเข้ากับชุดข้อมูลแล้ว คุณสามารถสร้างแผนภาพกระจายที่แสดงค่าที่คาดการณ์ไว้ของตัวแปรตอบสนองบนแกน x และค่าตกค้างมาตรฐานของแบบจำลองบนแกน x ย.
หากจุดต่างๆ ในแผนภาพกระจายมีแนวโน้ม แสดงว่ามีความต่างกัน
แผนภูมิต่อไปนี้แสดงตัวอย่างของแบบจำลองการถดถอยซึ่งความต่างกันไม่เป็นปัญหา:

โปรดทราบว่าสารตกค้างที่ได้มาตรฐานจะกระจัดกระจายอยู่รอบศูนย์โดยไม่มีรูปแบบที่ชัดเจน
แผนภูมิต่อไปนี้แสดงตัวอย่างแบบจำลองการถดถอยที่ มี ปัญหาด้านความต่างมิติ:

สังเกตว่าปริมาณตกค้างที่ได้มาตรฐานจะกระจายออกไปมากขึ้นเรื่อยๆ เมื่อค่าที่คาดการณ์เพิ่มขึ้น รูปร่าง “กรวย” นี้เป็นสัญลักษณ์คลาสสิกของความแตกต่าง:

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ
มีสามวิธีทั่วไปในการแก้ไขความแตกต่าง:
1. แปลงตัวแปรการตอบสนอง วิธีที่พบบ่อยที่สุดในการจัดการกับความแตกต่างแบบเฮเทอโรสเคดาสติกคือการแปลงตัวแปรการตอบสนองโดยการใช้ล็อก รากที่สอง หรือรากที่สามของค่าทั้งหมดของตัวแปรตอบสนอง ซึ่งมักส่งผลให้ความต่างไปจากเดิมหายไป
2. กำหนดตัวแปรตอบสนองใหม่ วิธีหนึ่งในการกำหนดตัวแปรตอบสนองใหม่คือการใช้ อัตรา แทนค่าดิบ ตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ในเมือง เราสามารถใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ต่อหัวได้
ในกรณีส่วนใหญ่ สิ่งนี้จะช่วยลดความแปรปรวนที่เกิดขึ้นตามธรรมชาติภายในประชากรจำนวนมากขึ้น เนื่องจากเราวัดจำนวนร้านดอกไม้ต่อคน มากกว่าที่จะวัดจำนวนร้านดอกไม้เอง
3. ใช้การถดถอยแบบถ่วงน้ำหนัก อีกวิธีหนึ่งในการแก้ไขค่าความต่างศักย์ไฟฟ้าคือการใช้การถดถอยแบบถ่วงน้ำหนัก ซึ่งจะกำหนดน้ำหนักให้กับจุดข้อมูลแต่ละจุดตามความแปรปรวนของค่าที่พอดี
โดยพื้นฐานแล้ว สิ่งนี้จะให้น้ำหนักที่ต่ำแก่จุดข้อมูลที่มีความแปรปรวนสูงกว่า ช่วยลดกำลังสองที่เหลือ เมื่อใช้ตุ้มน้ำหนักที่เหมาะสม สิ่งนี้สามารถขจัดปัญหาเรื่องความแตกต่างได้
ที่เกี่ยวข้อง : วิธีดำเนินการถดถอยถ่วงน้ำหนักใน R
สมมติฐานที่ 4: ภาวะปกติหลายตัวแปร
การถดถอยเชิงเส้นพหุคูณถือว่าส่วนที่เหลือของแบบจำลองมีการกระจายตามปกติ
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้
มีสองวิธีทั่วไปในการตรวจสอบว่าสมมติฐานนี้เป็นไปตามข้อกำหนดหรือไม่:
1. ตรวจสอบสมมติฐานด้วยสายตาโดยใช้ แผน QQ
พล็อต QQ ย่อมาจาก พล็อตควอนไทล์-ควอนไทล์ เป็นพล็อตประเภทหนึ่งที่เราสามารถใช้เพื่อพิจารณาว่าส่วนที่เหลือของแบบจำลองเป็นไปตามการแจกแจงแบบปกติหรือไม่ หากจุดบนโครงเรื่องเป็นเส้นทแยงมุมโดยประมาณ ก็จะถือว่าเป็นไปตามภาวะปกติ
แผนภาพ QQ ต่อไปนี้แสดงตัวอย่างส่วนที่เหลือซึ่งเป็นไปตามการแจกแจงแบบปกติโดยประมาณ:
อย่างไรก็ตาม แผนภาพ QQ ด้านล่างแสดงตัวอย่างกรณีที่สารตกค้างเบี่ยงเบนไปจากเส้นทแยงมุมอย่างชัดเจน ซึ่งบ่งชี้ว่าสิ่งตกค้างไม่เป็นไปตามการแจกแจงแบบปกติ:
2. ตรวจสอบสมมติฐานโดยใช้การทดสอบทางสถิติอย่างเป็นทางการ เช่น Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre หรือ D’Agostino-Pearson
โปรดทราบว่าการทดสอบเหล่านี้ไวต่อตัวอย่างขนาดใหญ่ กล่าวคือ มักจะสรุปว่าสารตกค้างไม่ปกติเมื่อตัวอย่างของคุณมีขนาดใหญ่มาก ด้วยเหตุนี้จึงมักจะง่ายกว่าที่จะใช้วิธีการแบบกราฟิก เช่น พล็อต QQ เพื่อยืนยันสมมติฐานนี้
จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ
หากไม่เป็นไปตามสมมติฐานของภาวะปกติ คุณจะมีหลายทางเลือก:
1. ขั้นแรก ตรวจสอบว่าไม่มีค่าผิดปกติที่รุนแรงในข้อมูลที่ส่งผลให้เกิดการละเมิดสมมติฐานปกติ
2. จากนั้น คุณสามารถใช้การแปลงแบบไม่เชิงเส้นกับตัวแปรตอบกลับได้ เช่น โดยการหารากที่สอง บันทึก หรือรากที่สามของค่าทั้งหมดของตัวแปรตอบกลับ ซึ่งมักส่งผลให้มีการกระจายตัวของแบบจำลองตามปกติมากขึ้น
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการถดถอยเชิงเส้นพหุคูณและสมมติฐาน:
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
คู่มือ Heteroskedasticity ในการวิเคราะห์การถดถอย
คู่มือเกี่ยวกับพหุคอลลิเนียร์ริตีและ VIF ในการถดถอย
บทช่วยสอนต่อไปนี้ให้ตัวอย่างทีละขั้นตอนเกี่ยวกับวิธีดำเนินการถดถอยเชิงเส้นหลายรายการโดยใช้ซอฟต์แวร์ทางสถิติที่แตกต่างกัน:
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน Excel
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน SPSS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน Stata