ความเป็นหลายเส้นตรง

บทความนี้จะอธิบายว่า multicollinearity ในสถิติคืออะไร ดังนั้น คุณจะพบว่าเมื่อใดที่มีหลายคอลลิเนียร์มีอยู่ อะไรคือผลที่ตามมาของมัลติคอลลิเนียร์ วิธีการระบุมัลติคอลลิเนียร์ และสุดท้ายจะแก้ไขปัญหานี้ได้อย่างไร

multicollinearity คืออะไร?

Multicollinearity คือสถานการณ์ที่เกิดขึ้นเมื่อตัวแปรอธิบายตั้งแต่สองตัวขึ้นไปในแบบจำลองการถดถอยมีความสัมพันธ์กันสูง กล่าวอีกนัยหนึ่ง ในแบบจำลองการถดถอย ความหลากหลายจะเกิดขึ้นเมื่อความสัมพันธ์ระหว่างตัวแปรสองตัวขึ้นไปในแบบจำลองนั้นแข็งแกร่งมาก

ตัวอย่างเช่น หากเราใช้แบบจำลองการถดถอยที่เกี่ยวข้องกับอายุคาดเฉลี่ยของประเทศหนึ่งกับขนาดประชากรและ GDP ของประเทศนั้น ความเป็นหลายสายจะเกิดขึ้นอย่างแน่นอนระหว่างขนาดประชากรและ GDP เนื่องจากโดยทั่วไปแล้วตัวแปรทั้งสองนี้มีความสัมพันธ์กันอย่างมาก มีความสัมพันธ์กัน ดังนั้นจึงเป็นเรื่องยากที่จะวิเคราะห์ผลกระทบของแต่ละตัวแปรที่มีต่ออายุขัย

ตามตรรกะแล้ว ตัวแปรในแบบจำลองจะมีความสัมพันธ์กันเสมอ เฉพาะในกระบวนการที่งดงามเท่านั้นที่การไม่มีความสัมพันธ์เกิดขึ้นระหว่างตัวแปร อย่างไรก็ตาม สิ่งที่เราสนใจคือ ความสัมพันธ์ ระหว่างตัวแปรนั้นต่ำ ไม่เช่นนั้นเราจะไม่สามารถทราบผลกระทบของตัวแปรอธิบายแต่ละตัวที่มีต่อตัวแปรตอบสนองได้

สาเหตุหลักของ multicollinearity โดยทั่วไปคือขนาดของกลุ่มตัวอย่างที่เล็ก การมีอยู่ของความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรอธิบาย หรือความแปรปรวนต่ำของการสังเกต

ประเภทของมัลติคอลลิเนียริตี้

multicollinearity มีสองประเภท:

  • Multicollinearity ที่แน่นอน : เมื่อตัวแปรตั้งแต่หนึ่งตัวขึ้นไปเป็นผลรวมเชิงเส้นของตัวแปรอื่นๆ ในกรณีนี้ ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรหลายคอลลิเนียร์จะเท่ากับ 1
  • multicollinearity โดยประมาณ : ไม่มีการรวมกันเชิงเส้นระหว่างตัวแปร แต่ค่าสัมประสิทธิ์การกำหนดระหว่างตัวแปรตั้งแต่สองตัวขึ้นไปนั้นใกล้เคียงกับ 1 มากและดังนั้นจึงมีความสัมพันธ์กันสูง

ผลที่ตามมาของความเป็นหลายเส้นตรง

  • ค่าสัมประสิทธิ์การถดถอยของแบบจำลองจะเปลี่ยนไปเมื่อมีการเพิ่มตัวแปรที่สัมพันธ์กัน ทำให้ยากต่อการตีความผลลัพธ์ของแบบจำลองการถดถอย
  • ความแม่นยำของการประมาณค่าพารามิเตอร์ลดลง ดังนั้นข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์การถดถอยจึงเพิ่มขึ้น
  • ตัวแปรบางตัวที่ทำให้เกิด multicollinearity นั้นซ้ำซ้อนอย่างแน่นอน ดังนั้นจึงไม่จำเป็นต้องรวมตัวแปรเหล่านั้นไว้ในโมเดล
  • มีแนวโน้มว่าคุณตกอยู่ในสถานการณ์ที่ไม่เหมาะสม กล่าวคือ โมเดลมีการติดตั้งมากเกินไป และด้วยเหตุนี้ จึงไม่มีประโยชน์สำหรับการคาดการณ์
  • ค่า p ของสัมประสิทธิ์การถดถอยมีความน่าเชื่อถือน้อยลง ดังนั้นจึงเป็นการยากกว่าในการพิจารณาว่าตัวแปรใดที่จะรวมและตัวแปรใดที่จะลบในแบบจำลองการถดถอย

วิธีตรวจจับมัลติคอลลิเนียร์

วิธีหนึ่งในการระบุความเป็นหลายเส้นตรงคือการคำนวณเมทริกซ์สหสัมพันธ์ เนื่องจากเมทริกซ์นี้มีค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรทั้งหมด ดังนั้นจึงสังเกตได้หากคู่ของตัวแปรมีความสัมพันธ์กันสูง

อย่างไรก็ตาม ด้วยเมทริกซ์สหสัมพันธ์ คุณจะทราบได้เพียงว่าตัวแปรสองตัวมีความสัมพันธ์กันหรือไม่ แต่คุณไม่สามารถทราบได้ว่าชุดของตัวแปรชุดหนึ่งรวมกันหรือไม่ เมื่อต้องการทำเช่นนี้ โดยปกติจะคำนวณปัจจัยอัตราเงินเฟ้อแปรปรวน

ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) หรือที่เรียกว่า ปัจจัยอัตราเงินเฟ้อแปรปรวน (VIF) เป็นค่าสัมประสิทธิ์ทางสถิติที่คำนวณสำหรับตัวแปรอธิบายแต่ละตัว และบ่งชี้ความสัมพันธ์ของตัวแปรอื่นกับตัวแปรอธิบายที่กำหนด โดยเป็นรูปธรรมมีสูตรดังนี้:

FIV_i=\cfrac{1}{1-R_i^2}

ทอง

FIV_i

คือปัจจัยเงินเฟ้อของความแปรปรวนของตัวแปร iy

R_i^2

คือ สัมประสิทธิ์การกำหนด แบบจำลองการถดถอยซึ่งมีตัวแปร i เป็นตัวแปรตาม และตัวแปรที่เหลือเป็นตัวแปรอิสระ

ดังนั้น ขึ้นอยู่กับค่าของปัจจัยเงินเฟ้อที่แปรปรวนที่ได้รับ จึงเป็นไปได้ที่จะทราบได้ว่ามีหลายคอลลิเนียร์หรือไม่:

  • VIF = 1 : เมื่อปัจจัยเงินเฟ้อแปรปรวนเท่ากับ 1 หมายความว่าไม่มีความสัมพันธ์กันระหว่างตัวแปรตามและตัวแปรอื่นๆ
  • 1 < IVF < 5 : ตัวแปรมีความสัมพันธ์กันแต่อยู่ในระดับปานกลาง โดยหลักการแล้ว ไม่จำเป็นที่จะต้องดำเนินการใดๆ เพื่อแก้ไข multicollinearity
  • VIF > 5 : หากปัจจัยอัตราเงินเฟ้อแปรปรวนมากกว่า 1 หมายความว่าโมเดลมีความหลายคอลลิเนียร์สูง ดังนั้นจึงควรพยายามแก้ไขปัญหาดังกล่าว

ในทางปฏิบัติ ปัจจัยเงินเฟ้อที่แปรปรวนมักจะคำนวณโดยใช้ซอฟต์แวร์คอมพิวเตอร์ เนื่องจากการสร้างแบบจำลองการถดถอยสำหรับแต่ละตัวแปรแล้วค้นหาค่าสัมประสิทธิ์ด้วยตนเองจะใช้เวลานาน

multicollinearity ที่ถูกต้อง

มาตรการต่อไปนี้มีประโยชน์ในการแก้ไขปัญหาพหุคอลลิเนียร์ในแบบจำลองการถดถอย:

  • หากขนาดตัวอย่างมีขนาดเล็ก การเพิ่มจำนวนข้อมูลสามารถลดความเป็นเส้นตรงหลายเส้นโดยประมาณได้
  • ลบตัวแปรทั้งหมดที่สร้าง multicollinearity หากตัวแปรมีความสัมพันธ์กันสูง ข้อมูลเพียงเล็กน้อยจะสูญหายไปในโมเดลและความเป็นหลายคอลลิเนียร์จะลดลง
  • สร้างแบบจำลองการถดถอยโดยใช้เกณฑ์กำลังสองน้อยที่สุดบางส่วน (PLS)
  • บางครั้งคุณสามารถปล่อยโมเดลการถดถอยไว้เหมือนเดิมได้ โดยมีหลายคอลลิเนียร์ ตัวอย่างเช่น หากเราเพียงต้องการสร้างแบบจำลองเพื่อทำนายและเราไม่จำเป็นต้องตีความมัน เราสามารถใช้สมการแบบจำลองเพื่อทำนายค่าของตัวแปรตามด้วยการสังเกตใหม่ โดยสมมติว่ารูปแบบหลายเส้นตรงเกิดขึ้นซ้ำตัวเอง ในการสังเกตใหม่

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *