ความเป็นหลายเส้นตรง
บทความนี้จะอธิบายว่า multicollinearity ในสถิติคืออะไร ดังนั้น คุณจะพบว่าเมื่อใดที่มีหลายคอลลิเนียร์มีอยู่ อะไรคือผลที่ตามมาของมัลติคอลลิเนียร์ วิธีการระบุมัลติคอลลิเนียร์ และสุดท้ายจะแก้ไขปัญหานี้ได้อย่างไร
multicollinearity คืออะไร?
Multicollinearity คือสถานการณ์ที่เกิดขึ้นเมื่อตัวแปรอธิบายตั้งแต่สองตัวขึ้นไปในแบบจำลองการถดถอยมีความสัมพันธ์กันสูง กล่าวอีกนัยหนึ่ง ในแบบจำลองการถดถอย ความหลากหลายจะเกิดขึ้นเมื่อความสัมพันธ์ระหว่างตัวแปรสองตัวขึ้นไปในแบบจำลองนั้นแข็งแกร่งมาก
ตัวอย่างเช่น หากเราใช้แบบจำลองการถดถอยที่เกี่ยวข้องกับอายุคาดเฉลี่ยของประเทศหนึ่งกับขนาดประชากรและ GDP ของประเทศนั้น ความเป็นหลายสายจะเกิดขึ้นอย่างแน่นอนระหว่างขนาดประชากรและ GDP เนื่องจากโดยทั่วไปแล้วตัวแปรทั้งสองนี้มีความสัมพันธ์กันอย่างมาก มีความสัมพันธ์กัน ดังนั้นจึงเป็นเรื่องยากที่จะวิเคราะห์ผลกระทบของแต่ละตัวแปรที่มีต่ออายุขัย
ตามตรรกะแล้ว ตัวแปรในแบบจำลองจะมีความสัมพันธ์กันเสมอ เฉพาะในกระบวนการที่งดงามเท่านั้นที่การไม่มีความสัมพันธ์เกิดขึ้นระหว่างตัวแปร อย่างไรก็ตาม สิ่งที่เราสนใจคือ ความสัมพันธ์ ระหว่างตัวแปรนั้นต่ำ ไม่เช่นนั้นเราจะไม่สามารถทราบผลกระทบของตัวแปรอธิบายแต่ละตัวที่มีต่อตัวแปรตอบสนองได้
สาเหตุหลักของ multicollinearity โดยทั่วไปคือขนาดของกลุ่มตัวอย่างที่เล็ก การมีอยู่ของความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรอธิบาย หรือความแปรปรวนต่ำของการสังเกต
ประเภทของมัลติคอลลิเนียริตี้
multicollinearity มีสองประเภท:
- Multicollinearity ที่แน่นอน : เมื่อตัวแปรตั้งแต่หนึ่งตัวขึ้นไปเป็นผลรวมเชิงเส้นของตัวแปรอื่นๆ ในกรณีนี้ ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรหลายคอลลิเนียร์จะเท่ากับ 1
- multicollinearity โดยประมาณ : ไม่มีการรวมกันเชิงเส้นระหว่างตัวแปร แต่ค่าสัมประสิทธิ์การกำหนดระหว่างตัวแปรตั้งแต่สองตัวขึ้นไปนั้นใกล้เคียงกับ 1 มากและดังนั้นจึงมีความสัมพันธ์กันสูง
ผลที่ตามมาของความเป็นหลายเส้นตรง
- ค่าสัมประสิทธิ์การถดถอยของแบบจำลองจะเปลี่ยนไปเมื่อมีการเพิ่มตัวแปรที่สัมพันธ์กัน ทำให้ยากต่อการตีความผลลัพธ์ของแบบจำลองการถดถอย
- ความแม่นยำของการประมาณค่าพารามิเตอร์ลดลง ดังนั้นข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์การถดถอยจึงเพิ่มขึ้น
- ตัวแปรบางตัวที่ทำให้เกิด multicollinearity นั้นซ้ำซ้อนอย่างแน่นอน ดังนั้นจึงไม่จำเป็นต้องรวมตัวแปรเหล่านั้นไว้ในโมเดล
- มีแนวโน้มว่าคุณตกอยู่ในสถานการณ์ที่ไม่เหมาะสม กล่าวคือ โมเดลมีการติดตั้งมากเกินไป และด้วยเหตุนี้ จึงไม่มีประโยชน์สำหรับการคาดการณ์
- ค่า p ของสัมประสิทธิ์การถดถอยมีความน่าเชื่อถือน้อยลง ดังนั้นจึงเป็นการยากกว่าในการพิจารณาว่าตัวแปรใดที่จะรวมและตัวแปรใดที่จะลบในแบบจำลองการถดถอย
วิธีตรวจจับมัลติคอลลิเนียร์
วิธีหนึ่งในการระบุความเป็นหลายเส้นตรงคือการคำนวณเมทริกซ์สหสัมพันธ์ เนื่องจากเมทริกซ์นี้มีค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรทั้งหมด ดังนั้นจึงสังเกตได้หากคู่ของตัวแปรมีความสัมพันธ์กันสูง
อย่างไรก็ตาม ด้วยเมทริกซ์สหสัมพันธ์ คุณจะทราบได้เพียงว่าตัวแปรสองตัวมีความสัมพันธ์กันหรือไม่ แต่คุณไม่สามารถทราบได้ว่าชุดของตัวแปรชุดหนึ่งรวมกันหรือไม่ เมื่อต้องการทำเช่นนี้ โดยปกติจะคำนวณปัจจัยอัตราเงินเฟ้อแปรปรวน
ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) หรือที่เรียกว่า ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) เป็นค่าสัมประสิทธิ์ทางสถิติที่คำนวณสำหรับตัวแปรอธิบายแต่ละตัว และบ่งชี้ความสัมพันธ์ของตัวแปรอื่นกับตัวแปรอธิบายที่กำหนด โดยเป็นรูปธรรมมีสูตรดังนี้:
ทอง
คือปัจจัยเงินเฟ้อของความแปรปรวนของตัวแปร iy
คือ สัมประสิทธิ์การกำหนด แบบจำลองการถดถอยซึ่งมีตัวแปร i เป็นตัวแปรตาม และตัวแปรที่เหลือเป็นตัวแปรอิสระ
ดังนั้น ขึ้นอยู่กับค่าของปัจจัยเงินเฟ้อที่แปรปรวนที่ได้รับ จึงเป็นไปได้ที่จะทราบได้ว่ามีหลายคอลลิเนียร์หรือไม่:
- VIF = 1 : เมื่อปัจจัยเงินเฟ้อแปรปรวนเท่ากับ 1 หมายความว่าไม่มีความสัมพันธ์กันระหว่างตัวแปรตามและตัวแปรอื่นๆ
- 1 < IVF < 5 : ตัวแปรมีความสัมพันธ์กันแต่อยู่ในระดับปานกลาง โดยหลักการแล้ว ไม่จำเป็นที่จะต้องดำเนินการใดๆ เพื่อแก้ไข multicollinearity
- VIF > 5 : หากปัจจัยอัตราเงินเฟ้อแปรปรวนมากกว่า 1 หมายความว่าโมเดลมีความหลายคอลลิเนียร์สูง ดังนั้นจึงควรพยายามแก้ไขปัญหาดังกล่าว
ในทางปฏิบัติ ปัจจัยเงินเฟ้อที่แปรปรวนมักจะคำนวณโดยใช้ซอฟต์แวร์คอมพิวเตอร์ เนื่องจากการสร้างแบบจำลองการถดถอยสำหรับแต่ละตัวแปรแล้วค้นหาค่าสัมประสิทธิ์ด้วยตนเองจะใช้เวลานาน
multicollinearity ที่ถูกต้อง
มาตรการต่อไปนี้มีประโยชน์ในการแก้ไขปัญหาพหุคอลลิเนียร์ในแบบจำลองการถดถอย:
- หากขนาดตัวอย่างมีขนาดเล็ก การเพิ่มจำนวนข้อมูลสามารถลดความเป็นเส้นตรงหลายเส้นโดยประมาณได้
- ลบตัวแปรทั้งหมดที่สร้าง multicollinearity หากตัวแปรมีความสัมพันธ์กันสูง ข้อมูลเพียงเล็กน้อยจะสูญหายไปในโมเดลและความเป็นหลายคอลลิเนียร์จะลดลง
- สร้างแบบจำลองการถดถอยโดยใช้เกณฑ์กำลังสองน้อยที่สุดบางส่วน (PLS)
- บางครั้งคุณสามารถปล่อยโมเดลการถดถอยไว้เหมือนเดิมได้ โดยมีหลายคอลลิเนียร์ ตัวอย่างเช่น หากเราเพียงต้องการสร้างแบบจำลองเพื่อทำนายและเราไม่จำเป็นต้องตีความมัน เราสามารถใช้สมการแบบจำลองเพื่อทำนายค่าของตัวแปรตามด้วยการสังเกตใหม่ โดยสมมติว่ารูปแบบหลายเส้นตรงเกิดขึ้นซ้ำตัวเอง ในการสังเกตใหม่