การทำความเข้าใจเฮเทอโรสเคดาสติกซิตี้ในการวิเคราะห์การถดถอย
ในการวิเคราะห์การถดถอย เฮเทอโรสเคดาสติกซิตี้ (บางครั้งสะกดว่า เฮเทอโรสเคดาสติกซิตี้) หมายถึงการกระจายตัวของสารตกค้างหรือเงื่อนไขข้อผิดพลาดไม่เท่ากัน ที่แม่นยำยิ่งขึ้นคือกรณีที่มีการเปลี่ยนแปลงอย่างเป็นระบบในการกระจายของสารตกค้างในช่วงของค่าที่วัดได้
Heteroskedasticity เป็นปัญหาเนื่องจากการถดถอยกำลังสองน้อยที่สุดสามัญ (OLS) ถือว่าส่วนที่เหลือมาจากประชากรที่มี ภาวะโฮโมสเคดาสติก ซึ่งหมายถึงความแปรปรวนคงที่
เมื่อมีภาวะเฮเทอโรสซิดาสติกในการวิเคราะห์การถดถอย ผลลัพธ์ของการวิเคราะห์จึงเป็นเรื่องยากที่จะเชื่อได้ โดยเฉพาะอย่างยิ่ง ความแปรปรวนแบบเฮเทอโรสเคดาสติกจะเพิ่มความแปรปรวนของการประมาณค่าสัมประสิทธิ์การถดถอย แต่แบบจำลองการถดถอยไม่ได้คำนึงถึงค่าดังกล่าว
ซึ่งทำให้มีโอกาสมากขึ้นที่แบบจำลองการถดถอยจะอ้างว่าคำในแบบจำลองนั้นมีนัยสำคัญทางสถิติ ทั้งที่ในความเป็นจริงกลับไม่มีนัยสำคัญ
บทช่วยสอนนี้จะอธิบายวิธีการตรวจหาความ ต่างขั้ว สาเหตุของความต่างขั้ว และวิธีการที่เป็นไปได้ในการแก้ปัญหาความต่างขั้ว
วิธีการตรวจหาความแตกต่าง
วิธีที่ง่ายที่สุดในการตรวจจับความแตกต่างแบบเฮเทอโรสเคดาสติกคือการใช้ ค่าที่พอดี/จุดตกค้าง
เมื่อคุณปรับเส้นการถดถอยให้พอดีกับชุดข้อมูลแล้ว คุณสามารถสร้างแผนภูมิกระจายที่แสดงค่าที่พอดีของโมเดลเทียบกับค่าที่เหลือของค่าที่พอดีเหล่านั้น
แผนภูมิกระจายด้านล่างแสดง แผนภาพทั่วไปของค่าที่พอดีเทียบกับค่าคงเหลือ ซึ่งมีความเป็นเฮเทอโรเซดาสติกอยู่
สังเกตว่าส่วนที่เหลือจะกระจายออกไปมากขึ้นเรื่อยๆ เมื่อค่าติดตั้งเพิ่มขึ้น รูปร่าง “กรวย” นี้เป็นสัญญาณบ่งบอกถึงความแตกต่าง
อะไรคือสาเหตุของความต่างกัน?
ความต่างกันเกิดขึ้นตามธรรมชาติในชุดข้อมูลที่มีค่าข้อมูลที่สังเกตได้หลากหลาย ตัวอย่างเช่น:
- พิจารณาชุดข้อมูลซึ่งรวมถึงรายได้และค่าใช้จ่ายต่อปีของผู้คน 100,000 คนในสหรัฐอเมริกา สำหรับผู้ที่มีรายได้น้อย ความแปรปรวนของรายจ่ายที่สอดคล้องกันจะลดลง เนื่องจากคนเหล่านี้มีแนวโน้มที่จะมีเงินเพียงพอสำหรับใช้จ่ายจำเป็นเท่านั้น สำหรับบุคคลที่มีรายได้สูงกว่า รายจ่ายที่สอดคล้องกันจะมีความแปรปรวนมากขึ้น เนื่องจากบุคคลเหล่านี้จะมีเงินใช้จ่ายมากขึ้นหากต้องการ คนที่มีรายได้สูงบางคนจะเลือกที่จะใช้จ่ายรายได้ส่วนใหญ่ ในขณะที่บางคนจะเลือกที่จะประหยัดและใช้จ่ายเพียงบางส่วนเท่านั้น ดังนั้นความแปรปรวนในการใช้จ่ายของผู้มีรายได้สูงเหล่านี้จะสูงขึ้นโดยธรรมชาติ
- พิจารณาชุดข้อมูลที่ประกอบด้วยประชากรและจำนวนร้านดอกไม้ในเมืองต่างๆ 1,000 เมืองในสหรัฐอเมริกา สำหรับเมืองที่มีประชากรเบาบาง อาจเป็นเรื่องปกติที่จะมีร้านขายดอกไม้เพียง 1 หรือ 2 คนเท่านั้น แต่ในเมืองที่มีประชากรหนาแน่น จำนวนร้านดอกไม้จะแปรผันมากกว่ามาก เมืองเหล่านี้สามารถมีร้านค้าได้ระหว่าง 10 ถึง 100 แห่ง ซึ่งหมายความว่าเมื่อเราสร้างการวิเคราะห์การถดถอยและใช้ประชากรเพื่อทำนายจำนวนร้านดอกไม้ จะมีความแปรปรวนมากขึ้นในจำนวนที่เหลือสำหรับเมืองที่มีประชากรมากขึ้น
ชุดข้อมูลบางชุดมีแนวโน้มที่จะเกิดความแตกต่างมากกว่าชุดอื่นๆ
วิธีแก้ไข Heteroscedasticity
มีสามวิธีทั่วไปในการแก้ไขความแตกต่าง:
1. แปลงตัวแปรตาม
วิธีหนึ่งในการแก้ไขความแตกต่างแบบเฮเทอโรสเคดาสติกคือการแปลงตัวแปรตามด้วยวิธีใดวิธีหนึ่ง การแปลงทั่วไปคือเพียงนำบันทึกของตัวแปรตามมา
ตัวอย่างเช่น หากเราใช้ขนาดประชากร (ตัวแปรอิสระ) เพื่อทำนายจำนวนร้านดอกไม้ในเมือง (ตัวแปรตาม) เราสามารถลองใช้ขนาดประชากรเพื่อทำนายลอการิทึมของจำนวนร้านดอกไม้ในเมืองแทนได้
การใช้บันทึกของตัวแปรตาม แทนที่จะเป็นตัวแปรตามดั้งเดิม มักจะส่งผลให้ความต่างกันหายไป
2. กำหนดตัวแปรตามใหม่
อีกวิธีหนึ่งในการแก้ไขความแตกต่างแบบเฮเทอโรสเคดาสติกคือการกำหนดตัวแปรตามใหม่ วิธีทั่วไปในการทำเช่นนี้คือการใช้ อัตรา สำหรับตัวแปรตาม แทนที่จะเป็นค่าดิบ
ตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ในเมือง เราสามารถใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ต่อหัวได้
ในกรณีส่วนใหญ่ สิ่งนี้จะช่วยลดความแปรปรวนที่เกิดขึ้นตามธรรมชาติภายในประชากรจำนวนมากขึ้น เนื่องจากเราวัดจำนวนร้านดอกไม้ต่อคน มากกว่าที่จะวัดจำนวนร้านดอกไม้เอง
3. ใช้การถดถอยแบบถ่วงน้ำหนัก
อีกวิธีหนึ่งในการแก้ไข ความแตกต่างแบบเฮเทอโรสเคดาสติกคือการใช้การถดถอยแบบถ่วงน้ำหนัก การถดถอยประเภทนี้จะกำหนดน้ำหนักให้กับจุดข้อมูลแต่ละจุดโดยพิจารณาจากความแปรปรวนของค่าที่พอดี
โดยพื้นฐานแล้ว สิ่งนี้จะให้น้ำหนักที่ต่ำแก่จุดข้อมูลที่มีความแปรปรวนสูงกว่า ช่วยลดกำลังสองที่เหลือ เมื่อใช้ตุ้มน้ำหนักที่เหมาะสม สิ่งนี้สามารถขจัดปัญหาความไม่สมดุลได้
บทสรุป
ความเป็นเฮเทอโรสซิดาสติกเป็นปัญหาที่พบบ่อยในการวิเคราะห์การถดถอย เนื่องจากชุดข้อมูลจำนวนมากมีความแปรปรวนที่ไม่คงที่โดยธรรมชาติ
อย่างไรก็ตาม โดยการใช้ พล็อตมูลค่าพอดีกับพล็อตที่เหลือ จึงสามารถตรวจพบความแตกต่างได้ง่ายมาก
และโดยการแปลงตัวแปรตาม นิยามตัวแปรตามใหม่ หรือใช้การถดถอยแบบถ่วงน้ำหนัก ปัญหาของความไม่สมดุลแบบเฮเทอโรสเกดาสติกมักจะถูกกำจัดออกไป