สมมติฐานสี่ประการของการถดถอยเชิงเส้น


การถดถอยเชิงเส้น เป็นวิธีการทางสถิติที่มีประโยชน์ที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว นั่นคือ x และ y อย่างไรก็ตาม ก่อนที่จะทำการถดถอยเชิงเส้น เราต้องตรวจสอบให้แน่ใจก่อนว่าเป็นไปตามสมมติฐานสี่ประการ:

1. ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ x และตัวแปรตาม y

2. ความเป็นอิสระ: ส่วนที่เหลือเป็นอิสระ โดยเฉพาะอย่างยิ่งไม่มีความสัมพันธ์ระหว่างข้อมูลตกค้างติดต่อกันในข้อมูลอนุกรมเวลา

3. ความเป็นเนื้อเดียวกัน: สารตกค้างมีความแปรปรวนคงที่ในแต่ละระดับของ x

4. Normality: โมเดลที่เหลือมีการกระจายตามปกติ

หากไม่เป็นไปตามสมมติฐานเหล่านี้ตั้งแต่หนึ่งข้อขึ้นไป ผลลัพธ์ของการถดถอยเชิงเส้นของเราอาจไม่น่าเชื่อถือหรืออาจทำให้เข้าใจผิดได้

ในบทความนี้ เราจะให้คำอธิบายสำหรับแต่ละสมมติฐาน วิธีตรวจสอบว่าเป็นไปตามสมมติฐานหรือไม่ และต้องทำอย่างไรหากไม่เป็นไปตามสมมติฐาน

สมมติฐานที่ 1: ความสัมพันธ์เชิงเส้น

คำอธิบาย

ข้อสันนิษฐานแรกของการถดถอยเชิงเส้นคือมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ x และตัวแปรอิสระ y

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการตรวจสอบว่าสมมติฐานนี้เป็นไปตามสมมติฐานหรือไม่คือการสร้างแผนภาพกระจายของ x กับ y วิธีนี้ช่วยให้คุณมองเห็นได้ว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสองหรือไม่ หากปรากฏว่าจุดบนโครงเรื่องสามารถวางเป็นเส้นตรงได้ แสดงว่ามีความสัมพันธ์เชิงเส้นบางประเภทระหว่างตัวแปรทั้งสองและเป็นไปตามสมมติฐานนี้

ตัวอย่างเช่น จุดในกราฟด้านล่างดูเหมือนจะตกลงบนเส้นตรง ซึ่งบ่งชี้ว่ามีความสัมพันธ์เชิงเส้นระหว่าง x และ y:

อย่างไรก็ตาม ดูเหมือนจะไม่มีความสัมพันธ์เชิงเส้นระหว่าง x และ y ในกราฟด้านล่าง:

และในกราฟนี้ดูเหมือนว่าจะมีความสัมพันธ์ที่ชัดเจนระหว่าง x และ y แต่ไม่ใช่ความสัมพันธ์เชิงเส้น :

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

หากคุณสร้างแผนภาพกระจายของค่าสำหรับ x และ y และพบว่า ไม่มี ความสัมพันธ์เชิงเส้นระหว่างตัวแปรทั้งสอง คุณจะมีหลายตัวเลือก:

1. ใช้การแปลงแบบไม่เชิงเส้นกับตัวแปรอิสระและ/หรือตัวแปรตาม ตัวอย่างทั่วไปได้แก่ การหาบันทึก รากที่สอง หรือส่วนกลับของตัวแปรอิสระและ/หรือตัวแปรตาม

2. เพิ่มตัวแปรอิสระอื่นให้กับโมเดล ตัวอย่างเช่น หากโครงเรื่องของ x เทียบกับ y มีรูปร่างพาราโบลา ก็อาจสมเหตุสมผลที่จะเพิ่ม X 2 เป็นตัวแปรอิสระเพิ่มเติมในแบบจำลอง

สมมติฐานที่ 2: ความเป็นอิสระ

คำอธิบาย

สมมติฐานต่อไปของการถดถอยเชิงเส้นคือส่วนที่เหลือเป็นอิสระจากกัน สิ่งนี้มีความเกี่ยวข้องอย่างยิ่งเมื่อทำงานกับข้อมูลอนุกรมเวลา ตามหลักแล้ว เราไม่ต้องการให้มีแนวโน้มในจำนวนคงเหลือต่อเนื่องกัน ตัวอย่างเช่น สารตกค้างไม่ควรเพิ่มขึ้นอย่างต่อเนื่องเมื่อเวลาผ่านไป

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการทดสอบว่าสมมติฐานนี้ยังคงอยู่หรือไม่คือการดูแผนภาพอนุกรมเวลาของสารตกค้าง ซึ่งเป็นแผนภาพของสารตกค้างเทียบกับเวลา ตามหลักการแล้ว ความสัมพันธ์อัตโนมัติที่ตกค้างส่วนใหญ่ควรอยู่ภายในแถบความเชื่อมั่น 95% รอบศูนย์ ซึ่งอยู่ที่ประมาณ +/- 2 บนรากที่สองของ n โดยที่ n คือขนาดตัวอย่าง คุณยังสามารถทดสอบอย่างเป็นทางการว่าเป็นไปตามสมมติฐานนี้หรือไม่โดยใช้ การทดสอบ Durbin-Watson

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

คุณมีหลายทางเลือก ขึ้นอยู่กับว่าสมมติฐานนี้ถูกละเมิดอย่างไร:

  • สำหรับความสัมพันธ์แบบอนุกรมเชิงบวก ให้พิจารณาเพิ่มความล่าช้าของตัวแปรตามและ/หรือตัวแปรอิสระให้กับโมเดล
  • สำหรับความสัมพันธ์แบบอนุกรมเชิงลบ ตรวจสอบให้แน่ใจว่าไม่มีตัวแปรใด ล่าช้าเกินไป
  • สำหรับความสัมพันธ์ตามฤดูกาล ให้ลองเพิ่มหุ่นตามฤดูกาลให้กับโมเดล

สมมติฐานที่ 3: ความคล้ายคลึงกัน

คำอธิบาย

สมมติฐานถัดไปของการถดถอยเชิงเส้นคือส่วนที่เหลือมีความแปรปรวนคงที่ในแต่ละระดับของ x สิ่งนี้เรียกว่า การรักร่วมเพศ เมื่อไม่เป็นเช่นนั้น สิ่งตกค้างจะประสบกับ ภาวะเฮเทอโรซีดาสติกซิตี

เมื่อมีภาวะเฮเทอโรสซิดาสติกในการวิเคราะห์การถดถอย ผลลัพธ์ของการวิเคราะห์จึงเป็นเรื่องยากที่จะเชื่อได้ โดยเฉพาะอย่างยิ่ง ความแปรปรวนแบบเฮเทอโรสเคดาสติกจะเพิ่มความแปรปรวนของการประมาณค่าสัมประสิทธิ์การถดถอย แต่แบบจำลองการถดถอยไม่ได้คำนึงถึงค่าดังกล่าว ซึ่งทำให้มีโอกาสมากขึ้นที่แบบจำลองการถดถอยจะอ้างว่าคำในแบบจำลองนั้นมีนัยสำคัญทางสถิติ ทั้งที่ในความเป็นจริงกลับไม่มีนัยสำคัญ

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

วิธีที่ง่ายที่สุดในการตรวจจับความแตกต่างแบบเฮเทอโรสเคดาสติกคือการสร้าง ค่าที่พอดี/จุดคงเหลือ

เมื่อคุณปรับเส้นการถดถอยให้พอดีกับชุดข้อมูลแล้ว คุณสามารถสร้างแผนภูมิกระจายที่แสดงค่าที่พอดีของโมเดลเทียบกับค่าที่เหลือของค่าที่พอดีเหล่านั้น แผนภูมิกระจายด้านล่างแสดง แผนภาพทั่วไปของค่าที่พอดีเทียบกับค่าคงเหลือ ซึ่งมีความเป็นเฮเทอโรสเคดาสติกอยู่

สังเกตว่าส่วนที่เหลือจะกระจายออกไปมากขึ้นเรื่อยๆ เมื่อค่าติดตั้งเพิ่มขึ้น รูปร่าง “กรวย” นี้เป็นสัญลักษณ์คลาสสิกของความแตกต่าง:

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

มีสามวิธีทั่วไปในการแก้ไขความแตกต่าง:

1. แปลงตัวแปรตาม การแปลงทั่วไปคือเพียงนำบันทึกของตัวแปรตามมา ตัวอย่างเช่น หากเราใช้ขนาดประชากร (ตัวแปรอิสระ) เพื่อทำนายจำนวนร้านดอกไม้ในเมือง (ตัวแปรตาม) เราสามารถลองใช้ขนาดประชากรเพื่อทำนายลอการิทึมของจำนวนร้านดอกไม้ในเมืองแทนได้ การใช้บันทึกของตัวแปรตาม แทนที่จะเป็นตัวแปรตามดั้งเดิม มักจะส่งผลให้ความต่างกันหายไป

2. กำหนดตัวแปรตามใหม่ วิธีทั่วไปในการกำหนดตัวแปรตามใหม่คือการใช้ อัตรา แทนค่าดิบ ตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ในเมือง เราสามารถใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ต่อหัวได้ ในกรณีส่วนใหญ่ สิ่งนี้จะช่วยลดความแปรปรวนที่เกิดขึ้นตามธรรมชาติภายในประชากรจำนวนมากขึ้น เนื่องจากเราวัดจำนวนร้านดอกไม้ต่อคน มากกว่าที่จะวัดจำนวนร้านดอกไม้เอง

3. ใช้การถดถอยแบบถ่วงน้ำหนัก อีกวิธีหนึ่งในการแก้ไขความแตกต่างแบบเฮเทอโรสเคดาสติกคือการใช้การถดถอยแบบถ่วงน้ำหนัก การถดถอยประเภทนี้จะกำหนดน้ำหนักให้กับจุดข้อมูลแต่ละจุดโดยพิจารณาจากความแปรปรวนของค่าที่พอดี โดยพื้นฐานแล้ว สิ่งนี้จะให้น้ำหนักที่ต่ำแก่จุดข้อมูลที่มีความแปรปรวนสูงกว่า ช่วยลดกำลังสองที่เหลือ เมื่อใช้ตุ้มน้ำหนักที่เหมาะสม สิ่งนี้สามารถขจัดปัญหาความไม่สมดุลได้

สมมติฐานที่ 4: ความปกติ

คำอธิบาย

สมมติฐานต่อไปของการถดถอยเชิงเส้นคือส่วนที่เหลือมีการกระจายตามปกติ

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานนี้

มีสองวิธีทั่วไปในการตรวจสอบว่าสมมติฐานนี้เป็นไปตามข้อกำหนดหรือไม่:

1. ตรวจสอบสมมติฐานด้วยสายตาโดยใช้ แผน QQ

พล็อต QQ ย่อมาจาก พล็อตควอนไทล์-ควอนไทล์ เป็นพล็อตประเภทหนึ่งที่เราสามารถใช้เพื่อพิจารณาว่าส่วนที่เหลือของแบบจำลองเป็นไปตามการแจกแจงแบบปกติหรือไม่ หากจุดบนโครงเรื่องเป็นเส้นทแยงมุมโดยประมาณ ก็จะถือว่าเป็นไปตามภาวะปกติ

แผนภาพ QQ ต่อไปนี้แสดงตัวอย่างส่วนที่เหลือซึ่งเป็นไปตามการแจกแจงแบบปกติโดยประมาณ:

อย่างไรก็ตาม แผนภาพ QQ ด้านล่างแสดงตัวอย่างกรณีที่สารตกค้างเบี่ยงเบนไปจากเส้นทแยงมุมอย่างชัดเจน ซึ่งบ่งชี้ว่าสิ่งตกค้างไม่เป็นไปตามการแจกแจงแบบปกติ:

2. คุณสามารถตรวจสอบสมมติฐานภาวะปกติได้โดยใช้การทดสอบทางสถิติอย่างเป็นทางการ เช่น Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre หรือ D’Agostino-Pearson อย่างไรก็ตาม โปรดทราบว่าการทดสอบเหล่านี้ไวต่อตัวอย่างขนาดใหญ่ กล่าวคือ มักจะสรุปว่าสารตกค้างไม่ปกติเมื่อตัวอย่างของคุณมีขนาดใหญ่ ด้วยเหตุนี้จึงมักจะง่ายกว่าที่จะใช้วิธีการแบบกราฟิก เช่น พล็อต QQ เพื่อยืนยันสมมติฐานนี้

จะทำอย่างไรถ้าสมมติฐานนี้ไม่ได้รับการเคารพ

หากไม่เป็นไปตามสมมติฐานของภาวะปกติ คุณจะมีหลายทางเลือก:

  • ขั้นแรก ตรวจสอบว่าค่าผิดปกติไม่มีผลกระทบอย่างมากต่อการกระจาย หากมีค่าผิดปกติตรวจสอบให้แน่ใจว่าเป็นค่าจริงไม่ใช่ข้อผิดพลาดในการป้อนข้อมูล
  • จากนั้นคุณสามารถใช้การแปลงแบบไม่เชิงเส้นกับตัวแปรอิสระและ/หรือตัวแปรตามได้ ตัวอย่างทั่วไปได้แก่ การหาบันทึก รากที่สอง หรือส่วนกลับของตัวแปรอิสระและ/หรือตัวแปรตาม

อ่านเพิ่มเติม:

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
การทำความเข้าใจเฮเทอโรสเคดาสติกซิตี้ในการวิเคราะห์การถดถอย
วิธีสร้างและตีความพล็อต QQ ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *