คู่มือเกี่ยวกับความหลากหลายและ vif ในการถดถอย
ความหลากหลาย ใน การวิเคราะห์การถดถอย เกิดขึ้นเมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปมีความสัมพันธ์กันอย่างมาก โดยไม่ได้ให้ข้อมูลที่ไม่ซ้ำกันหรือเป็นอิสระในแบบจำลองการถดถอย
หากระดับความสัมพันธ์ระหว่างตัวแปรสูงเพียงพอ อาจทำให้เกิดปัญหาเมื่อปรับให้เหมาะสมและตีความแบบจำลองการถดถอย
ตัวอย่างเช่น สมมติว่าคุณรันการวิเคราะห์การถดถอยโดยใช้ ตัวแปรการตอบสนองการ กระโดดแนวตั้งสูงสุด และตัวแปรตัวทำนายต่อไปนี้:
- ความสูง
- ขนาดรองเท้า
- ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน
ในกรณีนี้ ความสูง และ ขนาดรองเท้าน่า จะมีความสัมพันธ์กันสูง เนื่องจากคนที่สูงกว่ามักจะมีขนาดรองเท้าที่ใหญ่กว่า ซึ่งหมายความว่าพหุคอลลิเนียร์ริตี้น่าจะเป็นปัญหาในการถดถอยนี้
บทช่วยสอนนี้จะอธิบายว่าทำไม multicollinearity จึงเป็นปัญหา วิธีตรวจจับ และวิธีแก้ไข
เหตุใด multicollinearity จึงเป็นปัญหา
เป้าหมายหลักประการหนึ่งของการวิเคราะห์การถดถอยคือการแยกความสัมพันธ์ระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนอง
โดยเฉพาะอย่างยิ่ง เมื่อเราทำการวิเคราะห์การถดถอย เราจะตีความค่าสัมประสิทธิ์การถดถอยแต่ละรายการเป็นการเปลี่ยนแปลงโดยเฉลี่ยในตัวแปรตอบ สนอง โดยสมมติว่าตัวแปรตัวทำนายอื่นๆ ทั้งหมดในแบบจำลองยังคงที่
ซึ่งหมายความว่าเราถือว่าเราสามารถเปลี่ยนค่าของตัวแปรทำนายที่กำหนดได้โดยไม่ต้องเปลี่ยนค่าของตัวแปรทำนายอื่น ๆ
อย่างไรก็ตาม เมื่อตัวแปรทำนายตั้งแต่สองตัวขึ้นไปมีความสัมพันธ์กันสูง การเปลี่ยนแปลงตัวแปรหนึ่งโดยไม่เปลี่ยนอีกตัวหนึ่งจึงกลายเป็นเรื่องยาก
ซึ่งทำให้ยากสำหรับแบบจำลองการถดถอยในการประมาณความสัมพันธ์ระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนองอย่างอิสระ เนื่องจากตัวแปรทำนายมีแนวโน้มที่จะเปลี่ยนแปลงพร้อมกัน
โดยทั่วไป multicollinearity ก่อให้เกิดปัญหาสองประเภท:
- การประมาณค่าสัมประสิทธิ์ของแบบจำลอง (และแม้แต่สัญญาณของค่าสัมประสิทธิ์) อาจผันผวนได้มากขึ้นอยู่กับตัวแปรทำนายอื่นๆ ที่รวมอยู่ในแบบจำลอง
- ความแม่นยำของการประมาณค่าสัมประสิทธิ์ลดลง ทำให้ค่า p ไม่น่าเชื่อถือ ทำให้ยากต่อการพิจารณาว่าตัวแปรทำนายใดที่มีนัยสำคัญทางสถิติจริงๆ
วิธีตรวจจับมัลติคอลลิเนียร์
วิธีที่ใช้กันทั่วไปที่สุดในการตรวจจับความเป็นหลายคอลลิเนียร์คือการใช้ ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) ซึ่งวัดความสัมพันธ์และความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรทำนายในแบบจำลองการถดถอย
การใช้ปัจจัยเงินเฟ้อแปรปรวน (VIF)
ซอฟต์แวร์ทางสถิติส่วนใหญ่มีความสามารถในการคำนวณ VIF สำหรับแบบจำลองการถดถอย ค่า VIF เริ่มต้นที่ 1 และไม่มีขีดจำกัดบน กฎทั่วไปสำหรับการตีความ VIF คือ:
- ค่า 1 บ่งชี้ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรทำนายที่กำหนดกับตัวแปรทำนายอื่นๆ ในแบบจำลอง
- ค่าระหว่าง 1 ถึง 5 บ่งชี้ถึงความสัมพันธ์ระดับปานกลางระหว่างตัวแปรทำนายที่กำหนดกับตัวแปรทำนายอื่นๆ ในแบบจำลอง แต่มักจะไม่รุนแรงพอที่จะต้องได้รับการดูแลเป็นพิเศษ
- ค่าที่มากกว่า 5 บ่งชี้ถึงความสัมพันธ์ที่อาจร้ายแรงระหว่างตัวแปรทำนายที่กำหนดกับตัวแปรทำนายอื่นๆ ในแบบจำลอง ในกรณีนี้การประมาณค่าสัมประสิทธิ์และค่า p ในผลลัพธ์การถดถอยมีแนวโน้มว่าจะไม่น่าเชื่อถือ
ตัวอย่างเช่น สมมติว่าเราทำการวิเคราะห์การถดถอยโดยใช้ตัวแปรทำนาย ความสูง ขนาดรองเท้า และ ชั่วโมงที่ใช้ในการฝึกซ้อมต่อวัน เพื่อทำนาย การกระโดดในแนวดิ่งสูงสุด ของผู้เล่นบาสเก็ตบอล และรับผลลัพธ์ต่อไปนี้:
ในคอลัมน์สุดท้าย เราจะเห็นว่าค่า VIF สำหรับ ความสูง และ ขนาดรองเท้า มีค่ามากกว่า 5 ทั้งคู่ ซึ่งบ่งชี้ว่าพวกเขามีแนวโน้มที่จะประสบปัญหา multicollinearity และการประมาณค่าสัมประสิทธิ์และค่า p มีแนวโน้มไม่น่าเชื่อถือ
หากเราดูการประมาณค่าสัมประสิทธิ์สำหรับขนาดรองเท้า แบบจำลองจะบอกเราว่าสำหรับการเพิ่มขนาดรองเท้าแต่ละหน่วย การเพิ่มขึ้นเฉลี่ยของ การกระโดดในแนวดิ่งสูงสุด คือ -0.67498 นิ้ว โดยถือว่าความสูงและชั่วโมงฝึกซ้อมคงที่
ดูเหมือนจะไม่สมเหตุสมผล เนื่องจากเราคาดหวังว่าผู้เล่นที่สวมรองเท้าที่ใหญ่กว่าจะสูงกว่า และด้วยเหตุนี้จึงมีการกระโดดสูงสุดในแนวดิ่งที่สูงกว่า
นี่คือตัวอย่างคลาสสิกของความเป็นหลายเส้นตรงที่ทำให้การประมาณค่าสัมประสิทธิ์ดูซับซ้อนและไม่เข้าใจง่าย
วิธีแก้ multicollinearity
หากคุณตรวจพบ multicollinearity ขั้นตอนต่อไปคือการตัดสินใจว่าคุณจำเป็นต้องแก้ไขมันด้วยวิธีใดวิธีหนึ่งหรือไม่ ขึ้นอยู่กับเป้าหมายของการวิเคราะห์การถดถอยของคุณ คุณอาจไม่จำเป็นต้องแก้ไข multicollinearity
ที่จะรู้ว่า:
1. หากมี multicollinearity ปานกลาง คุณอาจไม่จำเป็นต้องแก้ไขมันแต่อย่างใด
2. Multicollinearity ส่งผลต่อตัวแปรทำนายที่สัมพันธ์กันเท่านั้น หากคุณสนใจตัวแปรทำนายในแบบจำลองที่ไม่ได้รับผลกระทบจากหลายคอลลิเนียร์ ความเป็นมัลติคอลลิเนียร์ก็ไม่ใช่ปัญหา
3. Multicollinearity ส่งผลกระทบต่อการประมาณค่าสัมประสิทธิ์และค่า p แต่จะไม่ส่งผลกระทบต่อการคาดการณ์หรือสถิติความดีเหมาะสม ซึ่งหมายความว่าหากเป้าหมายหลักของคุณเกี่ยวกับการถดถอยคือการคาดการณ์และคุณไม่สนใจที่จะทำความเข้าใจความสัมพันธ์ที่แน่นอนระหว่างตัวแปรทำนายและตัวแปรตอบสนอง ก็ไม่จำเป็นต้องแก้ไขความเป็นหลายเส้นตรง
หากคุณตัดสินใจว่า จำเป็น ต้องแก้ไข multicollinearity วิธีแก้ไขปัญหาทั่วไปบางประการ ได้แก่:
1. ลบตัวแปรที่มีความสัมพันธ์สูงอย่างน้อยหนึ่งตัวออก นี่เป็นวิธีแก้ปัญหาที่รวดเร็วที่สุดในกรณีส่วนใหญ่ และมักจะเป็นวิธีแก้ปัญหาที่ยอมรับได้ เนื่องจากตัวแปรที่คุณลบออกนั้นซ้ำซ้อนอยู่แล้ว และเพิ่มข้อมูลเฉพาะหรือข้อมูลอิสระเพียงเล็กน้อยให้กับโมเดล
2. รวมตัวแปรทำนายในลักษณะเชิงเส้นตรงด้วยวิธีใดวิธีหนึ่ง เช่น การบวกหรือการลบตัวแปรเหล่านั้นด้วยวิธีใดวิธีหนึ่ง การทำเช่นนี้ คุณสามารถสร้างตัวแปรใหม่ที่ครอบคลุมข้อมูลจากตัวแปรทั้งสอง และคุณจะไม่มีปัญหาเรื่องหลายคอลลิเนียร์อีกต่อไป
3. ทำการวิเคราะห์ที่ออกแบบมาเพื่อพิจารณาตัวแปรที่มีความสัมพันธ์กันสูง เช่น การวิเคราะห์องค์ประกอบหลัก หรือ การถดถอยกำลังสองน้อยที่สุดบางส่วน (PLS) เทคนิคเหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการกับตัวแปรตัวทำนายที่มีความสัมพันธ์กันสูง