กับดักตัวแปรจำลองคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)
การถดถอยเชิงเส้น เป็นวิธีการที่เราสามารถใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง
โดยทั่วไปเราใช้การถดถอยเชิงเส้นกับ ตัวแปรเชิงปริมาณ บางครั้งเรียกว่าตัวแปร “ตัวเลข” ซึ่งเป็นตัวแปรที่แสดงถึงปริมาณที่วัดได้ ตัวอย่างได้แก่:
- จำนวนตารางฟุตในบ้าน
- ขนาดประชากรของเมือง
- อายุของแต่ละบุคคล
อย่างไรก็ตาม บางครั้งเราต้องการใช้ตัวแปรเชิงหมวดหมู่เป็นตัวแปรทำนาย เหล่านี้เป็นตัวแปรที่ใช้ชื่อหรือป้ายกำกับและสามารถจัดเป็นหมวดหมู่ได้ ตัวอย่างได้แก่:
- สีตา (เช่น “สีฟ้า”, “สีเขียว”, “สีน้ำตาล”)
- เพศ (เช่น “ผู้ชาย” “ผู้หญิง”)
- สถานภาพการสมรส (เช่น “แต่งงานแล้ว” “โสด” “หย่าร้าง”)
เมื่อใช้ตัวแปรเด็ดขาด มันไม่สมเหตุสมผลเลยที่จะกำหนดค่าเช่น 1, 2, 3 ให้กับค่าเช่น “สีน้ำเงิน”, “สีเขียว” และ “สีน้ำตาล” เพราะมันไม่เหมาะสมที่จะพูด สีเขียวนั้นเป็นสองเท่า สีสันอย่างสีน้ำเงินหรือสีน้ำตาลก็มีสีสันมากกว่าสีน้ำเงินถึงสามเท่า
วิธีแก้ไขคือใช้ ตัวแปรจำลองแทน ตัวแปรเหล่านี้เป็นตัวแปรที่เราสร้างขึ้นโดยเฉพาะสำหรับการวิเคราะห์การถดถอย และใช้ค่าใดค่าหนึ่งจากสองค่า: ศูนย์หรือหนึ่งค่า
จำนวนตัวแปรจำลองที่เราต้องสร้างมีค่าเท่ากับ k -1 โดยที่ k คือจำนวนค่าต่างๆ ที่ตัวแปรหมวดหมู่สามารถรับได้
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้และต้องการใช้ สถานภาพสมรส และ อายุ เพื่อทำนาย รายได้ :
หากต้องการใช้ สถานภาพการสมรส เป็นตัวแปรทำนายในแบบจำลองการถดถอย เราจำเป็นต้องแปลงให้เป็นตัวแปรจำลอง
เนื่องจากปัจจุบันนี้เป็นตัวแปรเด็ดขาดที่สามารถรับค่าที่แตกต่างกันได้สามค่า (“โสด”, “แต่งงานแล้ว” หรือ “หย่าร้าง”) เราจึงต้องสร้างตัวแปรจำลอง k -1 = 3-1 = 2 ตัว
ในการสร้างตัวแปรจำลองนี้ เราสามารถปล่อยให้ “เดี่ยว” เป็นค่าฐานได้เนื่องจากปรากฏบ่อยที่สุด ต่อไปนี้คือวิธีที่เราจะแปลง สถานภาพการสมรส เป็นตัวแปรจำลอง:
จากนั้นเราสามารถใช้ Age , Married and Divorced เป็นตัวแปรทำนายในแบบจำลองการถดถอย
เมื่อสร้างตัวแปรจำลอง ปัญหาที่อาจเกิดขึ้นเรียกว่ากับ ดักตัวแปรจำลอง สิ่งนี้จะเกิดขึ้นเมื่อเราสร้างตัวแปรจำลอง k แทนที่จะเป็นตัวแปรจำลอง k -1
เมื่อสิ่งนี้เกิดขึ้น ตัวแปรจำลองอย่างน้อยสองตัวจะต้องทนทุกข์ทรมานจาก ความหลากหลาย ที่สมบูรณ์แบบ กล่าวอีกนัยหนึ่ง พวกมันจะมีความสัมพันธ์กันอย่างสมบูรณ์ ซึ่งส่งผลให้การคำนวณค่าสัมประสิทธิ์การถดถอยและค่า p ที่สอดคล้องกันไม่ถูกต้อง
กับดักตัวแปรจำลอง: เมื่อจำนวนตัวแปรจำลองที่สร้างขึ้นเท่ากับจำนวนค่า ค่าหมวดหมู่ที่สามารถรับได้ สิ่งนี้นำไปสู่ความเป็นหลายเส้นตรง ซึ่งส่งผลให้การคำนวณค่าสัมประสิทธิ์การถดถอยและค่า p ไม่ถูกต้อง
ตัวอย่างเช่น สมมติว่าเราแปลง สถานภาพการสมรส เป็นตัวแปรจำลองต่อไปนี้:
ในกรณีนี้ โสด และ แต่งงานแล้ว มีความสัมพันธ์กันอย่างสมบูรณ์และมีค่าสัมประสิทธิ์สหสัมพันธ์เป็น -1
ดังนั้นเมื่อเราทำการถดถอยเชิงเส้นหลายครั้ง การคำนวณค่าสัมประสิทธิ์การถดถอยจะไม่ถูกต้อง
วิธีหลีกเลี่ยงกับดักตัวแปรจำลอง
คุณเพียงแค่ต้องจำกฎหนึ่งข้อเพื่อหลีกเลี่ยงกับดักของตัวแปรจำลอง:
หากตัวแปรเชิงหมวดหมู่สามารถรับค่าที่ต่างกัน k ค่าได้ คุณควรสร้างเฉพาะตัวแปรจำลอง k-1 เพื่อใช้ในรูปแบบการถดถอย
ตัวอย่างเช่น สมมติว่าคุณต้องการแปลงตัวแปรหมวดหมู่ “ปีการศึกษา” เป็นตัวแปรจำลอง สมมติว่าตัวแปรนี้รับค่าต่อไปนี้:
- นักศึกษาปีแรก
- นักศึกษาปีสอง
- จูเนียร์
- อาวุโส
เนื่องจากตัวแปรนี้สามารถรับค่าที่แตกต่างกันได้ 4 ค่า เราจะสร้างตัวแปรจำลองเพียง 3 ตัวเท่านั้น ตัวอย่างเช่น ตัวแปรจำลองของเราอาจเป็น:
- X 1 = 1 ถ้าเป็นนักศึกษาปีสอง; 0 มิฉะนั้น
- X 2 = 1 ถ้ารุ่นจูเนียร์; 0 มิฉะนั้น
- X 3 = 1 ผู้อาวุโส; 0 มิฉะนั้น
เนื่องจากจำนวนตัวแปรจำลองนั้นน้อยกว่าจำนวนค่าที่ “ปีการศึกษา” สามารถรับได้หนึ่งตัว เราจึงสามารถหลีกเลี่ยงกับดักตัวแปรจำลองและปัญหาพหุคอลลิเนียริตี้ได้
แหล่งข้อมูลเพิ่มเติม
วิธีใช้ตัวแปรจำลองในการวิเคราะห์การถดถอย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
คู่มือ Multicollinearity ในการถดถอย