สมมติฐานห้าประการของการถดถอยเชิงเส้นพหุคูณ


การถดถอยเชิงเส้นพหุคูณ เป็นวิธีการทางสถิติที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายหลายตัวกับ ตัวแปรตอบสนอง

อย่างไรก็ตาม ก่อนที่จะทำการถดถอยเชิงเส้นหลายครั้ง เราต้องตรวจสอบให้แน่ใจก่อนว่าเป็นไปตามสมมติฐานทั้งห้าประการ:

1. ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง

2. ไม่มี multicollinearity: ไม่มีตัวแปรทำนายใดที่มีความสัมพันธ์กันสูง

3. ความเป็นอิสระ: การสังเกตมีความเป็นอิสระ

4. ความเป็นเนื้อเดียวกัน: สารตกค้างมีความแปรปรวนคงที่ในแต่ละจุดของแบบจำลองเชิงเส้น

5. ภาวะปกติหลายตัวแปร: ส่วนที่เหลือของแบบจำลองมีการกระจายตามปกติ

หากไม่เป็นไปตามสมมติฐานเหล่านี้ตั้งแต่หนึ่งข้อขึ้นไป ผลลัพธ์ของการถดถอยเชิงเส้นพหุคูณอาจไม่น่าเชื่อถือ

ในบทความนี้ เราจะให้คำอธิบายสำหรับแต่ละสมมติฐาน วิธีตรวจสอบว่าเป็นไปตามสมมติฐานหรือไม่ และต้องทำอย่างไรหากไม่เป็นไปตามสมมติฐาน

สมมติฐานที่ 1: ความสัมพันธ์เชิงเส้น

การถดถอยเชิงเส้นพหุคูณถือว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือการสร้างแผนภาพกระจายของตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง

วิธีนี้ช่วยให้คุณมองเห็นได้ว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสองหรือไม่

หากจุดในแผนภาพกระจายอยู่ประมาณตามแนวเส้นทแยงมุมตรง ก็มีแนวโน้มที่จะมีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรต่างๆ

ตัวอย่างเช่น จุดในกราฟด้านล่างดูเหมือนจะตกลงบนเส้นตรง ซึ่งบ่งชี้ว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทำนายเฉพาะ (x) และตัวแปรตอบสนอง (y):

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

หากไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง เราจะมีหลายตัวเลือก:

1. ใช้การแปลงแบบไม่เชิงเส้นกับตัวแปรทำนาย เช่น หาบันทึกหรือรากที่สอง สิ่งนี้มักจะเปลี่ยนความสัมพันธ์ให้เป็นความสัมพันธ์ที่เป็นเส้นตรงมากขึ้น

2. เพิ่มตัวแปรทำนายอื่นให้กับโมเดล ตัวอย่างเช่น หากโครงเรื่องของ x เทียบกับ y มีรูปร่างพาราโบลา ก็อาจสมเหตุสมผลที่จะเพิ่ม X 2 เป็นตัวแปรตัวทำนายเพิ่มเติมในแบบจำลอง

3. ลบตัวแปรทำนายออกจากแบบจำลอง ในกรณีที่รุนแรงที่สุด หากไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายและตัวแปรตอบสนอง การรวมตัวแปรทำนายไว้ในแบบจำลองอาจไม่มีประโยชน์

สมมติฐานที่ 2: ไม่มีความหลากหลาย

การถดถอยเชิงเส้นพหุคูณถือว่าไม่มีตัวแปรทำนายใดที่มีความสัมพันธ์กันสูง

เมื่อตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปมีความสัมพันธ์กันสูง ตัวแบบการถดถอยจะได้รับผลกระทบจาก หลายคอลลิเนียริตี้ ทำให้การประมาณค่าสัมประสิทธิ์ของตัวแบบไม่น่าเชื่อถือ

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือการคำนวณค่า VIF สำหรับตัวแปรทำนายแต่ละตัว

ค่า VIF เริ่มต้นที่ 1 และไม่มีขีดจำกัดบน โดยทั่วไป ค่า VIF ที่สูงกว่า 5* บ่งชี้ถึงความมีหลายคอลลิเนียร์ที่อาจเกิดขึ้น

บทช่วยสอนต่อไปนี้แสดงวิธีคำนวณ VIF ในซอฟต์แวร์ทางสถิติต่างๆ:

*บางครั้งนักวิจัยใช้ค่า VIF 10 แทน ขึ้นอยู่กับสาขาวิชาที่ศึกษา

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

หากตัวแปรทำนายอย่างน้อยหนึ่งตัวมีค่า VIF มากกว่า 5 วิธีที่ง่ายที่สุดในการแก้ไขปัญหานี้คือเพียงลบตัวแปรทำนายที่มีค่า VIF สูงออก

อีกทางหนึ่ง หากคุณต้องการเก็บตัวแปรทำนายแต่ละตัวไว้ในแบบจำลอง คุณสามารถใช้วิธีทางสถิติที่แตกต่างกัน เช่น การถดถอยแบบสัน การถดถอยแบบลาสโซ หรือ การถดถอยกำลังสองน้อยที่สุดบางส่วน ซึ่งออกแบบมาเพื่อจัดการกับตัวแปรตัวทำนายที่มีความสัมพันธ์กันสูง

สมมติฐานที่ 3: ความเป็นอิสระ

การถดถอยเชิงเส้นพหุคูณถือว่าแต่ละข้อสังเกตในชุดข้อมูลเป็นอิสระจากกัน

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือทำการ ทดสอบ Durbin-Watson ซึ่งเป็นการทดสอบทางสถิติอย่างเป็นทางการที่บอกเราว่าสิ่งตกค้าง (และจากการสังเกต) แสดงความสัมพันธ์อัตโนมัติหรือไม่

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

คุณมีหลายทางเลือก ขึ้นอยู่กับว่าสมมติฐานนี้ถูกละเมิดอย่างไร:

  • สำหรับความสัมพันธ์แบบอนุกรมเชิงบวก ให้พิจารณาเพิ่มความล่าช้าของตัวแปรตามและ/หรือตัวแปรอิสระให้กับโมเดล
  • สำหรับความสัมพันธ์แบบอนุกรมเชิงลบ ตรวจสอบให้แน่ใจว่าไม่มีตัวแปรใด ล่าช้าเกินไป
  • สำหรับความสัมพันธ์ตามฤดูกาล ให้ลองเพิ่ม หุ่น ตามฤดูกาลให้กับโมเดล

สมมติฐานที่ 4: ความเป็นเนื้อเดียวกัน

การถดถอยเชิงเส้นพหุคูณถือว่าส่วนที่เหลือมีความแปรปรวนคงที่ในแต่ละจุดในแบบจำลองเชิงเส้น เมื่อไม่เป็นเช่นนั้น สิ่งตกค้างจะประสบกับ ภาวะเฮเทอโรซีดาสติกซิตี

เมื่อเกิดภาวะเฮเทอโรสซิดาสติกในการวิเคราะห์การถดถอย ผลลัพธ์ของแบบจำลองการถดถอยจะไม่น่าเชื่อถือ

โดยเฉพาะอย่างยิ่ง ความแปรปรวนแบบเฮเทอโรสเคดาสติกจะเพิ่มความแปรปรวนของการประมาณค่าสัมประสิทธิ์การถดถอย แต่แบบจำลองการถดถอยไม่ได้คำนึงถึงค่าดังกล่าว ซึ่งทำให้มีโอกาสมากขึ้นที่แบบจำลองการถดถอยจะอ้างว่าคำในแบบจำลองนั้นมีนัยสำคัญทางสถิติ ทั้งที่ในความเป็นจริงกลับไม่มีนัยสำคัญ

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการพิจารณาว่าเป็นไปตามสมมติฐานนี้คือการสร้างพล็อตของปริมาณคงเหลือที่เป็นมาตรฐานเทียบกับค่าที่คาดการณ์ไว้

เมื่อคุณใส่แบบจำลองการถดถอยเข้ากับชุดข้อมูลแล้ว คุณสามารถสร้างแผนภาพกระจายที่แสดงค่าที่คาดการณ์ไว้ของตัวแปรตอบสนองบนแกน x และค่าตกค้างมาตรฐานของแบบจำลองบนแกน x ย.

หากจุดต่างๆ ในแผนภาพกระจายมีแนวโน้ม แสดงว่ามีความต่างกัน

แผนภูมิต่อไปนี้แสดงตัวอย่างของแบบจำลองการถดถอยซึ่งความต่างกันไม่เป็นปัญหา:

โปรดทราบว่าสารตกค้างที่ได้มาตรฐานจะกระจัดกระจายอยู่รอบศูนย์โดยไม่มีรูปแบบที่ชัดเจน

แผนภูมิต่อไปนี้แสดงตัวอย่างแบบจำลองการถดถอยที่ มี ปัญหาด้านความต่างมิติ:

สังเกตว่าปริมาณตกค้างที่ได้มาตรฐานจะกระจายออกไปมากขึ้นเรื่อยๆ เมื่อค่าที่คาดการณ์เพิ่มขึ้น รูปร่าง “กรวย” นี้เป็นสัญลักษณ์คลาสสิกของความแตกต่าง:

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

มีสามวิธีทั่วไปในการแก้ไขความแตกต่าง:

1. แปลงตัวแปรการตอบสนอง วิธีที่พบบ่อยที่สุดในการจัดการกับความแตกต่างแบบเฮเทอโรสเคดาสติกคือการแปลงตัวแปรการตอบสนองโดยการใช้ล็อก รากที่สอง หรือรากที่สามของค่าทั้งหมดของตัวแปรตอบสนอง ซึ่งมักส่งผลให้ความต่างไปจากเดิมหายไป

2. กำหนดตัวแปรตอบสนองใหม่ วิธีหนึ่งในการกำหนดตัวแปรตอบสนองใหม่คือการใช้ อัตรา แทนค่าดิบ ตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ในเมือง เราสามารถใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ต่อหัวได้

ในกรณีส่วนใหญ่ สิ่งนี้จะช่วยลดความแปรปรวนที่เกิดขึ้นตามธรรมชาติภายในประชากรจำนวนมากขึ้น เนื่องจากเราวัดจำนวนร้านดอกไม้ต่อคน มากกว่าที่จะวัดจำนวนร้านดอกไม้เอง

3. ใช้การถดถอยแบบถ่วงน้ำหนัก อีกวิธีหนึ่งในการแก้ไขค่าความต่างศักย์ไฟฟ้าคือการใช้การถดถอยแบบถ่วงน้ำหนัก ซึ่งจะกำหนดน้ำหนักให้กับจุดข้อมูลแต่ละจุดตามความแปรปรวนของค่าที่พอดี

โดยพื้นฐานแล้ว สิ่งนี้จะให้น้ำหนักที่ต่ำแก่จุดข้อมูลที่มีความแปรปรวนสูงกว่า ช่วยลดกำลังสองที่เหลือ เมื่อใช้ตุ้มน้ำหนักที่เหมาะสม สิ่งนี้สามารถขจัดปัญหาเรื่องความแตกต่างได้

ที่เกี่ยวข้อง : วิธีดำเนินการถดถอยถ่วงน้ำหนักใน R

สมมติฐานที่ 4: ภาวะปกติหลายตัวแปร

การถดถอยเชิงเส้นพหุคูณถือว่าส่วนที่เหลือของแบบจำลองมีการกระจายตามปกติ

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

มีสองวิธีทั่วไปในการตรวจสอบว่าสมมติฐานนี้เป็นไปตามข้อกำหนดหรือไม่:

1. ตรวจสอบสมมติฐานด้วยสายตาโดยใช้ แผน QQ

พล็อต QQ ย่อมาจาก พล็อตควอนไทล์-ควอนไทล์ เป็นพล็อตประเภทหนึ่งที่เราสามารถใช้เพื่อพิจารณาว่าส่วนที่เหลือของแบบจำลองเป็นไปตามการแจกแจงแบบปกติหรือไม่ หากจุดบนโครงเรื่องเป็นเส้นทแยงมุมโดยประมาณ ก็จะถือว่าเป็นไปตามภาวะปกติ

แผนภาพ QQ ต่อไปนี้แสดงตัวอย่างส่วนที่เหลือซึ่งเป็นไปตามการแจกแจงแบบปกติโดยประมาณ:

อย่างไรก็ตาม แผนภาพ QQ ด้านล่างแสดงตัวอย่างกรณีที่สารตกค้างเบี่ยงเบนไปจากเส้นทแยงมุมอย่างชัดเจน ซึ่งบ่งชี้ว่าสิ่งตกค้างไม่เป็นไปตามการแจกแจงแบบปกติ:

2. ตรวจสอบสมมติฐานโดยใช้การทดสอบทางสถิติอย่างเป็นทางการ เช่น Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre หรือ D’Agostino-Pearson

โปรดทราบว่าการทดสอบเหล่านี้ไวต่อตัวอย่างขนาดใหญ่ กล่าวคือ มักจะสรุปว่าสารตกค้างไม่ปกติเมื่อตัวอย่างของคุณมีขนาดใหญ่มาก ด้วยเหตุนี้จึงมักจะง่ายกว่าที่จะใช้วิธีการแบบกราฟิก เช่น พล็อต QQ เพื่อยืนยันสมมติฐานนี้

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

หากไม่เป็นไปตามสมมติฐานของภาวะปกติ คุณจะมีหลายทางเลือก:

1. ขั้นแรก ตรวจสอบว่าไม่มีค่าผิดปกติที่รุนแรงในข้อมูลที่ส่งผลให้เกิดการละเมิดสมมติฐานปกติ

2. จากนั้น คุณสามารถใช้การแปลงแบบไม่เชิงเส้นกับตัวแปรตอบกลับได้ เช่น โดยการหารากที่สอง บันทึก หรือรากที่สามของค่าทั้งหมดของตัวแปรตอบกลับ ซึ่งมักส่งผลให้มีการกระจายตัวของแบบจำลองตามปกติมากขึ้น

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการถดถอยเชิงเส้นพหุคูณและสมมติฐาน:

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
คู่มือ Heteroskedasticity ในการวิเคราะห์การถดถอย
คู่มือเกี่ยวกับพหุคอลลิเนียร์ริตีและ VIF ในการถดถอย

บทช่วยสอนต่อไปนี้ให้ตัวอย่างทีละขั้นตอนเกี่ยวกับวิธีดำเนินการถดถอยเชิงเส้นหลายรายการโดยใช้ซอฟต์แวร์ทางสถิติที่แตกต่างกัน:

วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน Excel
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีการดำเนินการถดถอยเชิงเส้นหลายรายการใน SPSS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน Stata

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *