การทำความเข้าใจเฮเทอโรสเคดาสติกซิตี้ในการวิเคราะห์การถดถอย


ในการวิเคราะห์การถดถอย เฮเทอโรสเคดาสติกซิตี้ (บางครั้งสะกดว่า เฮเทอโรสเคดาสติกซิตี้) หมายถึงการกระจายตัวของสารตกค้างหรือเงื่อนไขข้อผิดพลาดไม่เท่ากัน ที่แม่นยำยิ่งขึ้นคือกรณีที่มีการเปลี่ยนแปลงอย่างเป็นระบบในการกระจายของสารตกค้างในช่วงของค่าที่วัดได้

Heteroskedasticity เป็นปัญหาเนื่องจากการถดถอยกำลังสองน้อยที่สุดสามัญ (OLS) ถือว่าส่วนที่เหลือมาจากประชากรที่มี ภาวะโฮโมสเคดาสติก ซึ่งหมายถึงความแปรปรวนคงที่

เมื่อมีภาวะเฮเทอโรสซิดาสติกในการวิเคราะห์การถดถอย ผลลัพธ์ของการวิเคราะห์จึงเป็นเรื่องยากที่จะเชื่อได้ โดยเฉพาะอย่างยิ่ง ความแปรปรวนแบบเฮเทอโรสเคดาสติกจะเพิ่มความแปรปรวนของการประมาณค่าสัมประสิทธิ์การถดถอย แต่แบบจำลองการถดถอยไม่ได้คำนึงถึงค่าดังกล่าว

ซึ่งทำให้มีโอกาสมากขึ้นที่แบบจำลองการถดถอยจะอ้างว่าคำในแบบจำลองนั้นมีนัยสำคัญทางสถิติ ทั้งที่ในความเป็นจริงกลับไม่มีนัยสำคัญ

บทช่วยสอนนี้จะอธิบายวิธีการตรวจหาความ ต่างขั้ว สาเหตุของความต่างขั้ว และวิธีการที่เป็นไปได้ในการแก้ปัญหาความต่างขั้ว

วิธีการตรวจหาความแตกต่าง

วิธีที่ง่ายที่สุดในการตรวจจับความแตกต่างแบบเฮเทอโรสเคดาสติกคือการใช้ ค่าที่พอดี/จุดตกค้าง

เมื่อคุณปรับเส้นการถดถอยให้พอดีกับชุดข้อมูลแล้ว คุณสามารถสร้างแผนภูมิกระจายที่แสดงค่าที่พอดีของโมเดลเทียบกับค่าที่เหลือของค่าที่พอดีเหล่านั้น

แผนภูมิกระจายด้านล่างแสดง แผนภาพทั่วไปของค่าที่พอดีเทียบกับค่าคงเหลือ ซึ่งมีความเป็นเฮเทอโรเซดาสติกอยู่

สังเกตว่าส่วนที่เหลือจะกระจายออกไปมากขึ้นเรื่อยๆ เมื่อค่าติดตั้งเพิ่มขึ้น รูปร่าง “กรวย” นี้เป็นสัญญาณบ่งบอกถึงความแตกต่าง

อะไรคือสาเหตุของความต่างกัน?

ความต่างกันเกิดขึ้นตามธรรมชาติในชุดข้อมูลที่มีค่าข้อมูลที่สังเกตได้หลากหลาย ตัวอย่างเช่น:

  • พิจารณาชุดข้อมูลซึ่งรวมถึงรายได้และค่าใช้จ่ายต่อปีของผู้คน 100,000 คนในสหรัฐอเมริกา สำหรับผู้ที่มีรายได้น้อย ความแปรปรวนของรายจ่ายที่สอดคล้องกันจะลดลง เนื่องจากคนเหล่านี้มีแนวโน้มที่จะมีเงินเพียงพอสำหรับใช้จ่ายจำเป็นเท่านั้น สำหรับบุคคลที่มีรายได้สูงกว่า รายจ่ายที่สอดคล้องกันจะมีความแปรปรวนมากขึ้น เนื่องจากบุคคลเหล่านี้จะมีเงินใช้จ่ายมากขึ้นหากต้องการ คนที่มีรายได้สูงบางคนจะเลือกที่จะใช้จ่ายรายได้ส่วนใหญ่ ในขณะที่บางคนจะเลือกที่จะประหยัดและใช้จ่ายเพียงบางส่วนเท่านั้น ดังนั้นความแปรปรวนในการใช้จ่ายของผู้มีรายได้สูงเหล่านี้จะสูงขึ้นโดยธรรมชาติ
  • พิจารณาชุดข้อมูลที่ประกอบด้วยประชากรและจำนวนร้านดอกไม้ในเมืองต่างๆ 1,000 เมืองในสหรัฐอเมริกา สำหรับเมืองที่มีประชากรเบาบาง อาจเป็นเรื่องปกติที่จะมีร้านขายดอกไม้เพียง 1 หรือ 2 คนเท่านั้น แต่ในเมืองที่มีประชากรหนาแน่น จำนวนร้านดอกไม้จะแปรผันมากกว่ามาก เมืองเหล่านี้สามารถมีร้านค้าได้ระหว่าง 10 ถึง 100 แห่ง ซึ่งหมายความว่าเมื่อเราสร้างการวิเคราะห์การถดถอยและใช้ประชากรเพื่อทำนายจำนวนร้านดอกไม้ จะมีความแปรปรวนมากขึ้นในจำนวนที่เหลือสำหรับเมืองที่มีประชากรมากขึ้น

ชุดข้อมูลบางชุดมีแนวโน้มที่จะเกิดความแตกต่างมากกว่าชุดอื่นๆ

วิธีแก้ไข Heteroscedasticity

มีสามวิธีทั่วไปในการแก้ไขความแตกต่าง:

1. แปลงตัวแปรตาม

วิธีหนึ่งในการแก้ไขความแตกต่างแบบเฮเทอโรสเคดาสติกคือการแปลงตัวแปรตามด้วยวิธีใดวิธีหนึ่ง การแปลงทั่วไปคือเพียงนำบันทึกของตัวแปรตามมา

ตัวอย่างเช่น หากเราใช้ขนาดประชากร (ตัวแปรอิสระ) เพื่อทำนายจำนวนร้านดอกไม้ในเมือง (ตัวแปรตาม) เราสามารถลองใช้ขนาดประชากรเพื่อทำนายลอการิทึมของจำนวนร้านดอกไม้ในเมืองแทนได้

การใช้บันทึกของตัวแปรตาม แทนที่จะเป็นตัวแปรตามดั้งเดิม มักจะส่งผลให้ความต่างกันหายไป

2. กำหนดตัวแปรตามใหม่

อีกวิธีหนึ่งในการแก้ไขความแตกต่างแบบเฮเทอโรสเคดาสติกคือการกำหนดตัวแปรตามใหม่ วิธีทั่วไปในการทำเช่นนี้คือการใช้ อัตรา สำหรับตัวแปรตาม แทนที่จะเป็นค่าดิบ

ตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ในเมือง เราสามารถใช้ขนาดประชากรเพื่อทำนายจำนวนร้านดอกไม้ต่อหัวได้

ในกรณีส่วนใหญ่ สิ่งนี้จะช่วยลดความแปรปรวนที่เกิดขึ้นตามธรรมชาติภายในประชากรจำนวนมากขึ้น เนื่องจากเราวัดจำนวนร้านดอกไม้ต่อคน มากกว่าที่จะวัดจำนวนร้านดอกไม้เอง

3. ใช้การถดถอยแบบถ่วงน้ำหนัก

อีกวิธีหนึ่งในการแก้ไข ความแตกต่างแบบเฮเทอโรสเคดาสติกคือการใช้การถดถอยแบบถ่วงน้ำหนัก การถดถอยประเภทนี้จะกำหนดน้ำหนักให้กับจุดข้อมูลแต่ละจุดโดยพิจารณาจากความแปรปรวนของค่าที่พอดี

โดยพื้นฐานแล้ว สิ่งนี้จะให้น้ำหนักที่ต่ำแก่จุดข้อมูลที่มีความแปรปรวนสูงกว่า ช่วยลดกำลังสองที่เหลือ เมื่อใช้ตุ้มน้ำหนักที่เหมาะสม สิ่งนี้สามารถขจัดปัญหาความไม่สมดุลได้

บทสรุป

ความเป็นเฮเทอโรสซิดาสติกเป็นปัญหาที่พบบ่อยในการวิเคราะห์การถดถอย เนื่องจากชุดข้อมูลจำนวนมากมีความแปรปรวนที่ไม่คงที่โดยธรรมชาติ

อย่างไรก็ตาม โดยการใช้ พล็อตมูลค่าพอดีกับพล็อตที่เหลือ จึงสามารถตรวจพบความแตกต่างได้ง่ายมาก

และโดยการแปลงตัวแปรตาม นิยามตัวแปรตามใหม่ หรือใช้การถดถอยแบบถ่วงน้ำหนัก ปัญหาของความไม่สมดุลแบบเฮเทอโรสเกดาสติกมักจะถูกกำจัดออกไป

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *