วิธีทำนายด้วยการถดถอยเชิงเส้น


การถดถอยเชิงเส้น เป็นวิธีการที่เราสามารถใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง

สาเหตุที่พบบ่อยที่สุดประการหนึ่งสำหรับการปรับแบบจำลองการถดถอยให้เหมาะสมคือการใช้แบบจำลองเพื่อทำนายค่าของการสังเกตใหม่

เราใช้ขั้นตอนต่อไปนี้เพื่อคาดการณ์ด้วยแบบจำลองการถดถอย:

  • ขั้นตอนที่ 1: รวบรวมข้อมูล
  • ขั้นตอนที่ 2: ใส่แบบจำลองการถดถอยกับข้อมูล
  • ขั้นตอนที่ 3: ตรวจสอบว่าแบบจำลองเหมาะสมกับข้อมูล
  • ขั้นตอนที่ 4: ใช้สมการถดถอยที่ติดตั้งเพื่อทำนายค่าของการสังเกตใหม่

ตัวอย่างต่อไปนี้แสดงวิธีใช้แบบจำลองการถดถอยเพื่อคาดการณ์

ตัวอย่างที่ 1: การทำนายด้วยแบบจำลองการถดถอยเชิงเส้นอย่างง่าย

สมมติว่าแพทย์รวบรวมข้อมูลส่วนสูง (เป็นนิ้ว) และน้ำหนัก (เป็นปอนด์) ของผู้ป่วย 50 คน

จากนั้นจึงปรับโมเดลการถดถอยเชิงเส้นอย่างง่ายโดยใช้ “น้ำหนัก” เป็นตัวแปรทำนายและ “ความสูง” เป็นตัวแปรตอบสนอง

สมการถดถอยที่ติดตั้งคือ:

ขนาด = 32.7830 + 0.2001*(น้ำหนัก)

หลังจากตรวจสอบว่าเป็นไปตาม สมมติฐาน ของแบบจำลองการถดถอยเชิงเส้นแล้ว แพทย์จะสรุปว่าแบบจำลองนั้นเหมาะสมกับข้อมูลเป็นอย่างดี

จากนั้นจึงใช้แบบจำลองเพื่อทำนายส่วนสูงของผู้ป่วยรายใหม่ตามน้ำหนักของพวกเขา

ตัวอย่างเช่น สมมติว่าคนไข้รายใหม่หนัก 170 ปอนด์ จากแบบจำลองนี้ เราจะคาดการณ์ว่าคนไข้รายนี้จะมีความสูง 66.8 นิ้ว:

ความสูง = 32.7830 + 0.2001*(170) = 66.8 นิ้ว

ตัวอย่างที่ 2: การทำนายด้วยแบบจำลองการถดถอยเชิงเส้นหลายตัว

สมมติว่านักเศรษฐศาสตร์รวบรวมข้อมูลเกี่ยวกับจำนวนปีการศึกษา ชั่วโมงทำงานรายสัปดาห์ และรายได้ต่อปีจำนวน 30 คน

จากนั้นจึงปรับโมเดลการถดถอยเชิงเส้นพหุคูณโดยใช้ “จำนวนปีการศึกษาทั้งหมด” และ “ชั่วโมงทำงานรายสัปดาห์” เป็นตัวแปรทำนาย และ “รายได้ต่อปี” เป็นตัวแปรตอบสนอง

สมการถดถอยที่ติดตั้งคือ:

รายได้ = 1,342.29 + 3,324.33*(จำนวนปีการศึกษา) + 765.88*(ชั่วโมงทำงานต่อสัปดาห์)

หลังจากตรวจสอบว่าเป็นไปตาม สมมติฐาน ของแบบจำลองการถดถอยเชิงเส้นแล้ว นักเศรษฐศาสตร์จึงสรุปว่าแบบจำลองนี้เหมาะสมกับข้อมูลเป็นอย่างดี

จากนั้นจึงใช้แบบจำลองเพื่อทำนายรายได้ต่อปีของบุคคลใหม่โดยพิจารณาจากจำนวนปีการศึกษาและจำนวนชั่วโมงทำงานต่อสัปดาห์

ตัวอย่างเช่น สมมติว่าบุคคลใหม่มีการศึกษาทั้งหมด 16 ปี และทำงานเฉลี่ย 40 ชั่วโมงต่อสัปดาห์ จากแบบจำลองนี้ เราจะคาดการณ์ว่าบุคคลนี้จะมีรายได้ต่อปี 85,166.77 ดอลลาร์:

รายได้ = 1,342.29 + 3,324.33*(16) + 765.88*(45) = 85,166.77 ดอลลาร์

เรื่องการใช้ช่วงความเชื่อมั่น

เมื่อคุณใช้แบบจำลองการถดถอยเพื่อคาดการณ์เกี่ยวกับการสังเกตใหม่ ค่าที่คาดการณ์โดยแบบจำลองการถดถอยจะเรียกว่า การประมาณค่าแบบจุด

แม้ว่าการประมาณการแบบจุดจะแสดงการประมาณค่าของการสังเกตใหม่ที่ดีที่สุด แต่ก็ไม่น่าจะ ตรง กับค่าของการสังเกตใหม่ทุกประการ

ดังนั้น เพื่อจับความไม่แน่นอนนี้ เราสามารถสร้าง ช่วงความเชื่อมั่น ซึ่งเป็นช่วงของค่าที่น่าจะประกอบด้วยพารามิเตอร์ประชากรที่มีระดับความเชื่อมั่นที่แน่นอน

ตัวอย่างเช่น แทนที่จะทำนายว่าคนใหม่จะสูง 66.8 นิ้ว เราสามารถสร้างช่วงความเชื่อมั่นต่อไปนี้:

ช่วงความเชื่อมั่น 95% = [64.8 นิ้ว, 68.8 นิ้ว]

เราจะตีความช่วงเวลานี้หมายความว่าเรามั่นใจ 95% ว่าความสูงที่แท้จริงของบุคคลนี้อยู่ระหว่าง 64.8 นิ้วถึง 68.8 นิ้ว

ข้อควรระวังในการทำนาย

โปรดคำนึงถึงประเด็นต่อไปนี้เมื่อใช้แบบจำลองการถดถอยเพื่อคาดการณ์:

1. ใช้แบบจำลองเพื่อคาดการณ์ภายในช่วงข้อมูลที่ใช้ในการประมาณแบบจำลองการถดถอยเท่านั้น

ตัวอย่างเช่น สมมติว่าเราปรับแบบจำลองการถดถอยโดยใช้ตัวแปรทำนาย “น้ำหนัก” และน้ำหนักของบุคคลในกลุ่มตัวอย่างที่เราใช้ในการประมาณแบบจำลองนั้นอยู่ระหว่าง 120 ถึง 180 ปอนด์

การใช้แบบจำลองนี้ในการประมาณความสูงของบุคคลที่มีน้ำหนัก 200 ปอนด์นั้นไม่ถูกต้อง เนื่องจากอยู่นอกช่วงของตัวแปรทำนายที่เราใช้ในการประมาณแบบจำลอง

เป็นไปได้ว่าความสัมพันธ์ระหว่างน้ำหนักและส่วนสูงจะแตกต่างกันนอกช่วง 120 ถึง 180 ปอนด์ ดังนั้นเราจึงไม่ควรใช้แบบจำลองนี้ในการประมาณส่วนสูงของบุคคลที่มีน้ำหนัก 200 ปอนด์

2. ใช้แบบจำลองเพื่อคาดการณ์ประชากรที่คุณสุ่มตัวอย่างเท่านั้น

ตัวอย่างเช่น สมมติว่าประชากรที่นักเศรษฐศาสตร์ดึงมาจากกลุ่มตัวอย่างทุกคนที่อาศัยอยู่ในเมืองหนึ่งๆ

เราควรใช้แบบจำลองการถดถอยแบบพอดีเพื่อทำนายรายได้ต่อปีของบุคคลในเมืองนี้เท่านั้น เนื่องจากกลุ่มตัวอย่างทั้งหมดที่ใช้เพื่อให้เหมาะกับแบบจำลองนั้นอาศัยอยู่ในเมืองนี้

แหล่งข้อมูลเพิ่มเติม

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
ข้อมูลเบื้องต้นเกี่ยวกับช่วงความเชื่อมั่น
สมมติฐานสี่ประการของการถดถอยเชิงเส้น

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *