คู่มือเกี่ยวกับความหลากหลายและ vif ในการถดถอย


ความหลากหลาย ใน การวิเคราะห์การถดถอย เกิดขึ้นเมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปมีความสัมพันธ์กันอย่างมาก โดยไม่ได้ให้ข้อมูลที่ไม่ซ้ำกันหรือเป็นอิสระในแบบจำลองการถดถอย

หากระดับความสัมพันธ์ระหว่างตัวแปรสูงเพียงพอ อาจทำให้เกิดปัญหาเมื่อปรับให้เหมาะสมและตีความแบบจำลองการถดถอย

ตัวอย่างเช่น สมมติว่าคุณรันการวิเคราะห์การถดถอยโดยใช้ ตัวแปรการตอบสนองการ กระโดดแนวตั้งสูงสุด และตัวแปรตัวทำนายต่อไปนี้:

  • ความสูง
  • ขนาดรองเท้า
  • ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน

ในกรณีนี้ ความสูง และ ขนาดรองเท้าน่า จะมีความสัมพันธ์กันสูง เนื่องจากคนที่สูงกว่ามักจะมีขนาดรองเท้าที่ใหญ่กว่า ซึ่งหมายความว่าพหุคอลลิเนียร์ริตี้น่าจะเป็นปัญหาในการถดถอยนี้

บทช่วยสอนนี้จะอธิบายว่าทำไม multicollinearity จึงเป็นปัญหา วิธีตรวจจับ และวิธีแก้ไข

เหตุใด multicollinearity จึงเป็นปัญหา

เป้าหมายหลักประการหนึ่งของการวิเคราะห์การถดถอยคือการแยกความสัมพันธ์ระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง

โดยเฉพาะอย่างยิ่ง เมื่อเราทำการวิเคราะห์การถดถอย เราจะตีความค่าสัมประสิทธิ์การถดถอยแต่ละรายการเป็นการเปลี่ยนแปลงโดยเฉลี่ยในตัวแปรตอบ สนอง โดยสมมติว่าตัวแปรตัวทำนายอื่นๆ ทั้งหมดในแบบจำลองยังคงที่

ซึ่งหมายความว่าเราถือว่าเราสามารถเปลี่ยนค่าของตัวแปรทำนายที่กำหนดได้โดยไม่ต้องเปลี่ยนค่าของตัวแปรทำนายอื่น ๆ

อย่างไรก็ตาม เมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปมีความสัมพันธ์กันสูง การเปลี่ยนแปลงตัวแปรหนึ่งโดยไม่เปลี่ยนอีกตัวหนึ่งจึงกลายเป็นเรื่องยาก

ซึ่งทำให้ยากสำหรับแบบจำลองการถดถอยในการประมาณความสัมพันธ์ระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนองอย่างอิสระ เนื่องจากตัวแปรทำนายมีแนวโน้มที่จะเปลี่ยนแปลงพร้อมกัน

โดยทั่วไป multicollinearity ก่อให้เกิดปัญหาสองประเภท:

  • การประมาณค่าสัมประสิทธิ์ของแบบจำลอง (และแม้แต่สัญญาณของค่าสัมประสิทธิ์) อาจผันผวนได้มากขึ้นอยู่กับตัวแปรทำนายอื่นๆ ที่รวมอยู่ในแบบจำลอง
  • ความแม่นยำของการประมาณค่าสัมประสิทธิ์ลดลง ทำให้ค่า p ไม่น่าเชื่อถือ ทำให้ยากต่อการพิจารณาว่าตัวแปรทำนายใดที่มีนัยสำคัญทางสถิติจริงๆ

วิธีตรวจจับมัลติคอลลิเนียร์

วิธีที่ใช้กันทั่วไปที่สุดในการตรวจจับความเป็นหลายคอลลิเนียร์คือการใช้ ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) ซึ่งวัดความสัมพันธ์และความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรทำนายในแบบจำลองการถดถอย

การใช้ปัจจัยเงินเฟ้อแปรปรวน (VIF)

ซอฟต์แวร์ทางสถิติส่วนใหญ่มีความสามารถในการคำนวณ VIF สำหรับแบบจำลองการถดถอย ค่า VIF เริ่มต้นที่ 1 และไม่มีขีดจำกัดบน กฎทั่วไปสำหรับการตีความ VIF คือ:

  • ค่า 1 บ่งชี้ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรทำนายที่กำหนดกับตัวแปรทำนายอื่นๆ ในแบบจำลอง
  • ค่าระหว่าง 1 ถึง 5 บ่งชี้ถึงความสัมพันธ์ระดับปานกลางระหว่างตัวแปรทำนายที่กำหนดกับตัวแปรทำนายอื่นๆ ในแบบจำลอง แต่มักจะไม่รุนแรงพอที่จะต้องได้รับการดูแลเป็นพิเศษ
  • ค่าที่มากกว่า 5 บ่งชี้ถึงความสัมพันธ์ที่อาจร้ายแรงระหว่างตัวแปรทำนายที่กำหนดกับตัวแปรทำนายอื่นๆ ในแบบจำลอง ในกรณีนี้การประมาณค่าสัมประสิทธิ์และค่า p ในผลลัพธ์การถดถอยมีแนวโน้มว่าจะไม่น่าเชื่อถือ

ตัวอย่างเช่น สมมติว่าเราทำการวิเคราะห์การถดถอยโดยใช้ตัวแปรทำนาย ความสูง ขนาดรองเท้า และ ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน เพื่อทำนาย การกระโดดในแนวดิ่งสูงสุด ของผู้เล่นบาสเก็ตบอล และรับผลลัพธ์ต่อไปนี้:

ในคอลัมน์สุดท้าย เราจะเห็นว่าค่า VIF สำหรับ ความสูง และ ขนาดรองเท้า มีค่ามากกว่า 5 ทั้งคู่ ซึ่งบ่งชี้ว่าพวกเขามีแนวโน้มที่จะประสบปัญหา multicollinearity และการประมาณค่าสัมประสิทธิ์และค่า p มีแนวโน้มไม่น่าเชื่อถือ

หากเราดูการประมาณค่าสัมประสิทธิ์สำหรับขนาดรองเท้า แบบจำลองจะบอกเราว่าสำหรับการเพิ่มขนาดรองเท้าแต่ละหน่วย การเพิ่มขึ้นเฉลี่ยของ การกระโดดในแนวดิ่งสูงสุด คือ -0.67498 นิ้ว โดยถือว่าความสูงและชั่วโมงฝึกซ้อมคงที่

ดูเหมือนจะไม่สมเหตุสมผล เนื่องจากเราคาดหวังว่าผู้เล่นที่สวมรองเท้าที่ใหญ่กว่าจะสูงกว่า และด้วยเหตุนี้จึงมีการกระโดดสูงสุดในแนวดิ่งที่สูงกว่า

นี่คือตัวอย่างคลาสสิกของความเป็นหลายเส้นตรงที่ทำให้การประมาณค่าสัมประสิทธิ์ดูซับซ้อนและไม่เข้าใจง่าย

วิธีแก้ multicollinearity

หากคุณตรวจพบ multicollinearity ขั้นตอนต่อไปคือการตัดสินใจว่าคุณจำเป็นต้องแก้ไขมันด้วยวิธีใดวิธีหนึ่งหรือไม่ ขึ้นอยู่กับเป้าหมายของการวิเคราะห์การถดถอยของคุณ คุณอาจไม่จำเป็นต้องแก้ไข multicollinearity

ที่จะรู้ว่า:

1. หากมี multicollinearity ปานกลาง คุณอาจไม่จำเป็นต้องแก้ไขมันแต่อย่างใด

2. Multicollinearity ส่งผลต่อตัวแปรทำนายที่สัมพันธ์กันเท่านั้น หากคุณสนใจตัวแปรทำนายในแบบจำลองที่ไม่ได้รับผลกระทบจากหลายคอลลิเนียร์ ความเป็นมัลติคอลลิเนียร์ก็ไม่ใช่ปัญหา

3. Multicollinearity ส่งผลกระทบต่อการประมาณค่าสัมประสิทธิ์และค่า p แต่จะไม่ส่งผลกระทบต่อการคาดการณ์หรือสถิติความดีเหมาะสม ซึ่งหมายความว่าหากเป้าหมายหลักของคุณเกี่ยวกับการถดถอยคือการคาดการณ์และคุณไม่สนใจที่จะทำความเข้าใจความสัมพันธ์ที่แน่นอนระหว่างตัวแปรทำนายและตัวแปรตอบสนอง ก็ไม่จำเป็นต้องแก้ไขความเป็นหลายเส้นตรง

หากคุณตัดสินใจว่า จำเป็น ต้องแก้ไข multicollinearity วิธีแก้ไขปัญหาทั่วไปบางประการ ได้แก่:

1. ลบตัวแปรที่มีความสัมพันธ์สูงอย่างน้อยหนึ่งตัวออก นี่เป็นวิธีแก้ปัญหาที่รวดเร็วที่สุดในกรณีส่วนใหญ่ และมักจะเป็นวิธีแก้ปัญหาที่ยอมรับได้ เนื่องจากตัวแปรที่คุณลบออกนั้นซ้ำซ้อนอยู่แล้ว และเพิ่มข้อมูลเฉพาะหรือข้อมูลอิสระเพียงเล็กน้อยให้กับโมเดล

2. รวมตัวแปรทำนายในลักษณะเชิงเส้นตรงด้วยวิธีใดวิธีหนึ่ง เช่น การบวกหรือการลบตัวแปรเหล่านั้นด้วยวิธีใดวิธีหนึ่ง การทำเช่นนี้ คุณสามารถสร้างตัวแปรใหม่ที่ครอบคลุมข้อมูลจากตัวแปรทั้งสอง และคุณจะไม่มีปัญหาเรื่องหลายคอลลิเนียร์อีกต่อไป

3. ทำการวิเคราะห์ที่ออกแบบมาเพื่อพิจารณาตัวแปรที่มีความสัมพันธ์กันสูง เช่น การวิเคราะห์องค์ประกอบหลัก หรือ การถดถอยกำลังสองน้อยที่สุดบางส่วน (PLS) เทคนิคเหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการกับตัวแปรตัวทำนายที่มีความสัมพันธ์กันสูง

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *