วิธีทำนายด้วยการถดถอยเชิงเส้น
การถดถอยเชิงเส้น เป็นวิธีการที่เราสามารถใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง
สาเหตุที่พบบ่อยที่สุดประการหนึ่งสำหรับการปรับแบบจำลองการถดถอยให้เหมาะสมคือการใช้แบบจำลองเพื่อทำนายค่าของการสังเกตใหม่
เราใช้ขั้นตอนต่อไปนี้เพื่อคาดการณ์ด้วยแบบจำลองการถดถอย:
- ขั้นตอนที่ 1: รวบรวมข้อมูล
- ขั้นตอนที่ 2: ใส่แบบจำลองการถดถอยกับข้อมูล
- ขั้นตอนที่ 3: ตรวจสอบว่าแบบจำลองเหมาะสมกับข้อมูล
- ขั้นตอนที่ 4: ใช้สมการถดถอยที่ติดตั้งเพื่อทำนายค่าของการสังเกตใหม่
ตัวอย่างต่อไปนี้แสดงวิธีใช้แบบจำลองการถดถอยเพื่อคาดการณ์
ตัวอย่างที่ 1: การทำนายด้วยแบบจำลองการถดถอยเชิงเส้นอย่างง่าย
สมมติว่าแพทย์รวบรวมข้อมูลส่วนสูง (เป็นนิ้ว) และน้ำหนัก (เป็นปอนด์) ของผู้ป่วย 50 คน
จากนั้นจึงปรับโมเดลการถดถอยเชิงเส้นอย่างง่ายโดยใช้ “น้ำหนัก” เป็นตัวแปรทำนายและ “ความสูง” เป็นตัวแปรตอบสนอง
สมการถดถอยที่ติดตั้งคือ:
ขนาด = 32.7830 + 0.2001*(น้ำหนัก)
หลังจากตรวจสอบว่าเป็นไปตาม สมมติฐาน ของแบบจำลองการถดถอยเชิงเส้นแล้ว แพทย์จะสรุปว่าแบบจำลองนั้นเหมาะสมกับข้อมูลเป็นอย่างดี
จากนั้นจึงใช้แบบจำลองเพื่อทำนายส่วนสูงของผู้ป่วยรายใหม่ตามน้ำหนักของพวกเขา
ตัวอย่างเช่น สมมติว่าคนไข้รายใหม่หนัก 170 ปอนด์ จากแบบจำลองนี้ เราจะคาดการณ์ว่าคนไข้รายนี้จะมีความสูง 66.8 นิ้ว:
ความสูง = 32.7830 + 0.2001*(170) = 66.8 นิ้ว
ตัวอย่างที่ 2: การทำนายด้วยแบบจำลองการถดถอยเชิงเส้นหลายตัว
สมมติว่านักเศรษฐศาสตร์รวบรวมข้อมูลเกี่ยวกับจำนวนปีการศึกษา ชั่วโมงทำงานรายสัปดาห์ และรายได้ต่อปีจำนวน 30 คน
จากนั้นจึงปรับโมเดลการถดถอยเชิงเส้นพหุคูณโดยใช้ “จำนวนปีการศึกษาทั้งหมด” และ “ชั่วโมงทำงานรายสัปดาห์” เป็นตัวแปรทำนาย และ “รายได้ต่อปี” เป็นตัวแปรตอบสนอง
สมการถดถอยที่ติดตั้งคือ:
รายได้ = 1,342.29 + 3,324.33*(จำนวนปีการศึกษา) + 765.88*(ชั่วโมงทำงานต่อสัปดาห์)
หลังจากตรวจสอบว่าเป็นไปตาม สมมติฐาน ของแบบจำลองการถดถอยเชิงเส้นแล้ว นักเศรษฐศาสตร์จึงสรุปว่าแบบจำลองนี้เหมาะสมกับข้อมูลเป็นอย่างดี
จากนั้นจึงใช้แบบจำลองเพื่อทำนายรายได้ต่อปีของบุคคลใหม่โดยพิจารณาจากจำนวนปีการศึกษาและจำนวนชั่วโมงทำงานต่อสัปดาห์
ตัวอย่างเช่น สมมติว่าบุคคลใหม่มีการศึกษาทั้งหมด 16 ปี และทำงานเฉลี่ย 40 ชั่วโมงต่อสัปดาห์ จากแบบจำลองนี้ เราจะคาดการณ์ว่าบุคคลนี้จะมีรายได้ต่อปี 85,166.77 ดอลลาร์:
รายได้ = 1,342.29 + 3,324.33*(16) + 765.88*(45) = 85,166.77 ดอลลาร์
เรื่องการใช้ช่วงความเชื่อมั่น
เมื่อคุณใช้แบบจำลองการถดถอยเพื่อคาดการณ์เกี่ยวกับการสังเกตใหม่ ค่าที่คาดการณ์โดยแบบจำลองการถดถอยจะเรียกว่า การประมาณค่าแบบจุด
แม้ว่าการประมาณการแบบจุดจะแสดงการประมาณค่าของการสังเกตใหม่ที่ดีที่สุด แต่ก็ไม่น่าจะ ตรง กับค่าของการสังเกตใหม่ทุกประการ
ดังนั้น เพื่อจับความไม่แน่นอนนี้ เราสามารถสร้าง ช่วงความเชื่อมั่น ซึ่งเป็นช่วงของค่าที่น่าจะประกอบด้วยพารามิเตอร์ประชากรที่มีระดับความเชื่อมั่นที่แน่นอน
ตัวอย่างเช่น แทนที่จะทำนายว่าคนใหม่จะสูง 66.8 นิ้ว เราสามารถสร้างช่วงความเชื่อมั่นต่อไปนี้:
ช่วงความเชื่อมั่น 95% = [64.8 นิ้ว, 68.8 นิ้ว]
เราจะตีความช่วงเวลานี้หมายความว่าเรามั่นใจ 95% ว่าความสูงที่แท้จริงของบุคคลนี้อยู่ระหว่าง 64.8 นิ้วถึง 68.8 นิ้ว
ข้อควรระวังในการทำนาย
โปรดคำนึงถึงประเด็นต่อไปนี้เมื่อใช้แบบจำลองการถดถอยเพื่อคาดการณ์:
1. ใช้แบบจำลองเพื่อคาดการณ์ภายในช่วงข้อมูลที่ใช้ในการประมาณแบบจำลองการถดถอยเท่านั้น
ตัวอย่างเช่น สมมติว่าเราปรับแบบจำลองการถดถอยโดยใช้ตัวแปรทำนาย “น้ำหนัก” และน้ำหนักของบุคคลในกลุ่มตัวอย่างที่เราใช้ในการประมาณแบบจำลองนั้นอยู่ระหว่าง 120 ถึง 180 ปอนด์
การใช้แบบจำลองนี้ในการประมาณความสูงของบุคคลที่มีน้ำหนัก 200 ปอนด์นั้นไม่ถูกต้อง เนื่องจากอยู่นอกช่วงของตัวแปรทำนายที่เราใช้ในการประมาณแบบจำลอง
เป็นไปได้ว่าความสัมพันธ์ระหว่างน้ำหนักและส่วนสูงจะแตกต่างกันนอกช่วง 120 ถึง 180 ปอนด์ ดังนั้นเราจึงไม่ควรใช้แบบจำลองนี้ในการประมาณส่วนสูงของบุคคลที่มีน้ำหนัก 200 ปอนด์
2. ใช้แบบจำลองเพื่อคาดการณ์ประชากรที่คุณสุ่มตัวอย่างเท่านั้น
ตัวอย่างเช่น สมมติว่าประชากรที่นักเศรษฐศาสตร์ดึงมาจากกลุ่มตัวอย่างทุกคนที่อาศัยอยู่ในเมืองหนึ่งๆ
เราควรใช้แบบจำลองการถดถอยแบบพอดีเพื่อทำนายรายได้ต่อปีของบุคคลในเมืองนี้เท่านั้น เนื่องจากกลุ่มตัวอย่างทั้งหมดที่ใช้เพื่อให้เหมาะกับแบบจำลองนั้นอาศัยอยู่ในเมืองนี้
แหล่งข้อมูลเพิ่มเติม
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
ข้อมูลเบื้องต้นเกี่ยวกับช่วงความเชื่อมั่น
สมมติฐานสี่ประการของการถดถอยเชิงเส้น