กับดักตัวแปรจำลองคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)


การถดถอยเชิงเส้น เป็นวิธีการที่เราสามารถใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง

โดยทั่วไปเราใช้การถดถอยเชิงเส้นกับ ตัวแปรเชิงปริมาณ บางครั้งเรียกว่าตัวแปร “ตัวเลข” ซึ่งเป็นตัวแปรที่แสดงถึงปริมาณที่วัดได้ ตัวอย่างได้แก่:

  • จำนวนตารางฟุตในบ้าน
  • ขนาดประชากรของเมือง
  • อายุของแต่ละบุคคล

อย่างไรก็ตาม บางครั้งเราต้องการใช้ตัวแปรเชิงหมวดหมู่เป็นตัวแปรทำนาย เหล่านี้เป็นตัวแปรที่ใช้ชื่อหรือป้ายกำกับและสามารถจัดเป็นหมวดหมู่ได้ ตัวอย่างได้แก่:

  • สีตา (เช่น “สีฟ้า”, “สีเขียว”, “สีน้ำตาล”)
  • เพศ (เช่น “ผู้ชาย” “ผู้หญิง”)
  • สถานภาพการสมรส (เช่น “แต่งงานแล้ว” “โสด” “หย่าร้าง”)

เมื่อใช้ตัวแปรเด็ดขาด มันไม่สมเหตุสมผลเลยที่จะกำหนดค่าเช่น 1, 2, 3 ให้กับค่าเช่น “สีน้ำเงิน”, “สีเขียว” และ “สีน้ำตาล” เพราะมันไม่เหมาะสมที่จะพูด สีเขียวนั้นเป็นสองเท่า สีสันอย่างสีน้ำเงินหรือสีน้ำตาลก็มีสีสันมากกว่าสีน้ำเงินถึงสามเท่า

วิธีแก้ไขคือใช้ ตัวแปรจำลองแทน ตัวแปรเหล่านี้เป็นตัวแปรที่เราสร้างขึ้นโดยเฉพาะสำหรับการวิเคราะห์การถดถอย และใช้ค่าใดค่าหนึ่งจากสองค่า: ศูนย์หรือหนึ่งค่า

จำนวนตัวแปรจำลองที่เราต้องสร้างมีค่าเท่ากับ k -1 โดยที่ k คือจำนวนค่าต่างๆ ที่ตัวแปรหมวดหมู่สามารถรับได้

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้และต้องการใช้ สถานภาพสมรส และ อายุ เพื่อทำนาย รายได้ :

หากต้องการใช้ สถานภาพการสมรส เป็นตัวแปรทำนายในแบบจำลองการถดถอย เราจำเป็นต้องแปลงให้เป็นตัวแปรจำลอง

เนื่องจากปัจจุบันนี้เป็นตัวแปรเด็ดขาดที่สามารถรับค่าที่แตกต่างกันได้สามค่า (“โสด”, “แต่งงานแล้ว” หรือ “หย่าร้าง”) เราจึงต้องสร้างตัวแปรจำลอง k -1 = 3-1 = 2 ตัว

ในการสร้างตัวแปรจำลองนี้ เราสามารถปล่อยให้ “เดี่ยว” เป็นค่าฐานได้เนื่องจากปรากฏบ่อยที่สุด ต่อไปนี้คือวิธีที่เราจะแปลง สถานภาพการสมรส เป็นตัวแปรจำลอง:

ตัวแปรจำลองที่มีสามค่า

จากนั้นเราสามารถใช้ Age , Married and Divorced เป็นตัวแปรทำนายในแบบจำลองการถดถอย

เมื่อสร้างตัวแปรจำลอง ปัญหาที่อาจเกิดขึ้นเรียกว่ากับ ดักตัวแปรจำลอง สิ่งนี้จะเกิดขึ้นเมื่อเราสร้างตัวแปรจำลอง k แทนที่จะเป็นตัวแปรจำลอง k -1

เมื่อสิ่งนี้เกิดขึ้น ตัวแปรจำลองอย่างน้อยสองตัวจะต้องทนทุกข์ทรมานจาก ความหลากหลาย ที่สมบูรณ์แบบ กล่าวอีกนัยหนึ่ง พวกมันจะมีความสัมพันธ์กันอย่างสมบูรณ์ ซึ่งส่งผลให้การคำนวณค่าสัมประสิทธิ์การถดถอยและค่า p ที่สอดคล้องกันไม่ถูกต้อง

กับดักตัวแปรจำลอง: เมื่อจำนวนตัวแปรจำลองที่สร้างขึ้นเท่ากับจำนวนค่า ค่าหมวดหมู่ที่สามารถรับได้ สิ่งนี้นำไปสู่ความเป็นหลายเส้นตรง ซึ่งส่งผลให้การคำนวณค่าสัมประสิทธิ์การถดถอยและค่า p ไม่ถูกต้อง

ตัวอย่างเช่น สมมติว่าเราแปลง สถานภาพการสมรส เป็นตัวแปรจำลองต่อไปนี้:

ตัวอย่างกับดักตัวแปรจำลอง

ในกรณีนี้ โสด และ แต่งงานแล้ว มีความสัมพันธ์กันอย่างสมบูรณ์และมีค่าสัมประสิทธิ์สหสัมพันธ์เป็น -1

ดังนั้นเมื่อเราทำการถดถอยเชิงเส้นหลายครั้ง การคำนวณค่าสัมประสิทธิ์การถดถอยจะไม่ถูกต้อง

วิธีหลีกเลี่ยงกับดักตัวแปรจำลอง

คุณเพียงแค่ต้องจำกฎหนึ่งข้อเพื่อหลีกเลี่ยงกับดักของตัวแปรจำลอง:

หากตัวแปรเชิงหมวดหมู่สามารถรับค่าที่ต่างกัน k ค่าได้ คุณควรสร้างเฉพาะตัวแปรจำลอง k-1 เพื่อใช้ในรูปแบบการถดถอย

ตัวอย่างเช่น สมมติว่าคุณต้องการแปลงตัวแปรหมวดหมู่ “ปีการศึกษา” เป็นตัวแปรจำลอง สมมติว่าตัวแปรนี้รับค่าต่อไปนี้:

  • นักศึกษาปีแรก
  • นักศึกษาปีสอง
  • จูเนียร์
  • อาวุโส

เนื่องจากตัวแปรนี้สามารถรับค่าที่แตกต่างกันได้ 4 ค่า เราจะสร้างตัวแปรจำลองเพียง 3 ตัวเท่านั้น ตัวอย่างเช่น ตัวแปรจำลองของเราอาจเป็น:

  • X 1 = 1 ถ้าเป็นนักศึกษาปีสอง; 0 มิฉะนั้น
  • X 2 = 1 ถ้ารุ่นจูเนียร์; 0 มิฉะนั้น
  • X 3 = 1 ผู้อาวุโส; 0 มิฉะนั้น

เนื่องจากจำนวนตัวแปรจำลองนั้นน้อยกว่าจำนวนค่าที่ “ปีการศึกษา” สามารถรับได้หนึ่งตัว เราจึงสามารถหลีกเลี่ยงกับดักตัวแปรจำลองและปัญหาพหุคอลลิเนียริตี้ได้

แหล่งข้อมูลเพิ่มเติม

วิธีใช้ตัวแปรจำลองในการวิเคราะห์การถดถอย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
คู่มือ Multicollinearity ในการถดถอย

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *