วิธีใช้ตัวแปรจำลองในการวิเคราะห์การถดถอย


การถดถอยเชิงเส้น เป็นวิธีการที่เราสามารถใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง

โดยทั่วไปเราใช้การถดถอยเชิงเส้นกับ ตัวแปรเชิงปริมาณ บางครั้งเรียกว่าตัวแปร “ตัวเลข” ซึ่งเป็นตัวแปรที่แสดงถึงปริมาณที่วัดได้ ตัวอย่างได้แก่:

  • จำนวนตารางฟุตในบ้าน
  • ขนาดประชากรของเมือง
  • อายุของแต่ละบุคคล

อย่างไรก็ตาม บางครั้งเราต้องการใช้ตัวแปรเชิงหมวดหมู่เป็นตัวแปรทำนาย เหล่านี้เป็นตัวแปรที่ใช้ชื่อหรือป้ายกำกับและสามารถจัดเป็นหมวดหมู่ได้ ตัวอย่างได้แก่:

  • สีตา (เช่น “สีฟ้า”, “สีเขียว”, “สีน้ำตาล”)
  • เพศ (เช่น “ผู้ชาย” “ผู้หญิง”)
  • สถานภาพการสมรส (เช่น “แต่งงานแล้ว” “โสด” “หย่าร้าง”)

เมื่อใช้ตัวแปรเด็ดขาด มันไม่สมเหตุสมผลเลยที่จะกำหนดค่าเช่น 1, 2, 3 ให้กับค่าเช่น “สีน้ำเงิน”, “สีเขียว” และ “สีน้ำตาล” เพราะมันไม่เหมาะสมที่จะพูด สีเขียวนั้นเป็นสองเท่า สีสันอย่างสีน้ำเงินหรือสีน้ำตาลก็มีสีสันมากกว่าสีน้ำเงินถึงสามเท่า

วิธีแก้ไขคือใช้ ตัวแปรจำลองแทน ตัวแปรเหล่านี้เป็นตัวแปรที่เราสร้างขึ้นโดยเฉพาะสำหรับการวิเคราะห์การถดถอย และใช้ค่าใดค่าหนึ่งจากสองค่า: ศูนย์หรือหนึ่งค่า

ตัวแปรจำลอง: ตัวแปรตัวเลขที่ใช้ในการวิเคราะห์การถดถอยเพื่อแสดงข้อมูลเชิงหมวดหมู่ที่สามารถรับได้เพียงค่าใดค่าหนึ่งจากสองค่าเท่านั้น: ศูนย์หรือหนึ่งค่า

จำนวนตัวแปรจำลองที่เราต้องสร้างมีค่าเท่ากับ k -1 โดยที่ k คือจำนวนค่าต่างๆ ที่ตัวแปรหมวดหมู่สามารถรับได้

ตัวอย่างต่อไปนี้แสดงวิธีสร้างตัวแปรจำลองสำหรับชุดข้อมูลต่างๆ

ตัวอย่างที่ 1: สร้างตัวแปรจำลองโดยมีค่าเพียงสองค่าเท่านั้น

สมมติว่าเรามีชุดข้อมูลต่อไปนี้และต้องการใช้ เพศ และ อายุ เพื่อทำนาย รายได้ :

หากต้องการใช้ เพศ เป็นตัวแปรทำนายในแบบจำลองการถดถอย เราจำเป็นต้องแปลงให้เป็นตัวแปรจำลอง

เนื่องจากปัจจุบันนี้เป็นตัวแปรเด็ดขาดที่สามารถรับค่าที่แตกต่างกันได้สองค่า (“ชาย” หรือ “หญิง”) เราเพียงสร้างตัวแปรจำลอง k -1 = 2-1 = 1 ตัว

ในการสร้างตัวแปรจำลองนี้ เราสามารถเลือกค่าใดค่าหนึ่ง (“ชาย” หรือ “หญิง”) เพื่อแทน 0 และอีกค่าหนึ่งแทน 1

โดยทั่วไป เรามักจะแสดงค่าที่พบบ่อยที่สุดด้วย 0 ซึ่งจะเป็น “Male” ในชุดข้อมูลนี้

ต่อไปนี้เป็นวิธีแปลง เพศ ให้เป็นตัวแปรจำลอง:

ตัวอย่างตัวแปรจำลอง

จากนั้นเราสามารถใช้ Age และ Gender_Dummy เป็นตัวแปรทำนายในแบบจำลองการถดถอย

ตัวอย่างที่ 2: สร้างตัวแปรจำลองที่มีหลายค่า

สมมติว่าเรามีชุดข้อมูลต่อไปนี้และต้องการใช้ สถานภาพสมรส และ อายุ เพื่อทำนาย รายได้ :

หากต้องการใช้ สถานภาพการสมรส เป็นตัวแปรทำนายในแบบจำลองการถดถอย เราจำเป็นต้องแปลงให้เป็นตัวแปรจำลอง

เนื่องจากปัจจุบันนี้เป็นตัวแปรเด็ดขาดที่สามารถรับค่าที่แตกต่างกันได้สามค่า (“โสด”, “แต่งงานแล้ว” หรือ “หย่าร้าง”) เราจึงต้องสร้างตัวแปรจำลอง k -1 = 3-1 = 2 ตัว

ในการสร้างตัวแปรจำลองนี้ เราสามารถปล่อยให้ “เดี่ยว” เป็นค่าฐานได้เนื่องจากปรากฏบ่อยที่สุด ต่อไปนี้คือวิธีที่เราจะแปลง สถานภาพการสมรส เป็นตัวแปรจำลอง:

ตัวแปรจำลองที่มีสามค่า

จากนั้นเราสามารถใช้ Age , Married and Divorced เป็นตัวแปรทำนายในแบบจำลองการถดถอย

วิธีการตีความเอาต์พุตการถดถอยด้วยตัวแปรจำลอง

สมมติว่าเราปรับโมเดล การถดถอยเชิงเส้นพหุคูณ โดยใช้ชุดข้อมูลจากตัวอย่างก่อนหน้านี้ โดยมีตัวแปรตัวทำนายคือ Age , Married และ Divorced และ Income เป็นตัวแปรการตอบสนอง

นี่คือผลลัพธ์ของการถดถอย:

วิธีการตีความตัวแปรจำลองในเอาต์พุตการถดถอย

เส้นการถดถอยที่ติดตั้งถูกกำหนดเป็น:

รายได้ = 14,276.21 + 1,471.67*(อายุ) + 2,479.75*(แต่งงานแล้ว) – 8,397.40*(หย่าร้าง)

เราสามารถใช้สมการนี้เพื่อค้นหารายได้โดยประมาณของแต่ละบุคคลโดยพิจารณาจากอายุและสถานภาพการสมรส ตัวอย่างเช่น บุคคลที่อายุ 35 ปีและแต่งงานแล้วจะมีรายได้ประมาณ $68,264 :

รายได้ = 14,276.21 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = 68,264 ดอลลาร์

ต่อไปนี้เป็นวิธีการตีความค่าสัมประสิทธิ์การถดถอยในตาราง:

  • การสกัดกั้น: การสกัดกั้นแสดงถึงรายได้เฉลี่ยของบุคคลคนเดียวที่มีอายุเป็นศูนย์ แน่นอนว่าคุณไม่สามารถมีปีเป็นศูนย์ได้ ดังนั้นจึงไม่มีเหตุผลที่จะตีความค่าตัดแกนด้วยตัวเองในแบบจำลองการถดถอยเฉพาะนี้
  • อายุ: อายุที่เพิ่มขึ้นในแต่ละปีสัมพันธ์กับรายได้ที่เพิ่มขึ้นโดยเฉลี่ย 1,471.67 ดอลลาร์ เนื่องจากค่า p (0.00) น้อยกว่า 0.05 อายุจึงเป็นตัวทำนายรายได้ที่มีนัยสำคัญทางสถิติ
  • แต่งงานแล้ว: คนที่แต่งงานแล้วมีรายได้เฉลี่ยมากกว่า 2,479.75 ดอลลาร์สหรัฐฯ มากกว่าคนเดียว เนื่องจากค่า p (0.80) ไม่น้อยกว่า 0.05 ความแตกต่างนี้จึงไม่มีนัยสำคัญทางสถิติ
  • หย่าร้าง: บุคคลที่หย่าร้างมีรายได้โดยเฉลี่ย 8,397.40 ดอลลาร์น้อยกว่าบุคคลเดียว เนื่องจากค่า p (0.53) ไม่น้อยกว่า 0.05 ความแตกต่างนี้จึงไม่มีนัยสำคัญทางสถิติ

เนื่องจากตัวแปรจำลองทั้งสองไม่มีนัยสำคัญทางสถิติ เราจึงสามารถลบ สถานภาพการสมรส ซึ่งเป็นตัวทำนายออกจากแบบจำลองได้ เนื่องจากดูเหมือนว่าจะไม่เพิ่มมูลค่าเชิงทำนายให้กับรายได้

แหล่งข้อมูลเพิ่มเติม

ตัวแปรเชิงคุณภาพและเชิงปริมาณ
กับดักตัวแปรจำลอง
วิธีอ่านและตีความตารางการถดถอย
คำอธิบายค่า P และนัยสำคัญทางสถิติ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *