การถดถอยเชิงเส้น
บทความนี้จะอธิบายว่าการถดถอยเชิงเส้นคืออะไร และใช้เพื่ออะไรในสถิติ นอกจากนี้ คุณจะสามารถดูวิธีการคำนวณการถดถอยเชิงเส้นสองประเภท ได้แก่ การถดถอยเชิงเส้นอย่างง่าย และการถดถอยเชิงเส้นพหุคูณ
การถดถอยเชิงเส้นคืออะไร?
การถดถอยเชิงเส้น เป็นแบบจำลองทางสถิติที่เกี่ยวข้องกับตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตาม พูดง่ายๆ ก็คือ การถดถอยเชิงเส้นเป็นเทคนิคที่ใช้ในการค้นหาสมการที่ประมาณความสัมพันธ์ระหว่างตัวแปรอธิบายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง
ตัวอย่างเช่น สมการ y=2+5x 1 -3x 2 +8x 3 เป็นแบบจำลองการถดถอยเชิงเส้น เนื่องจากสมการนี้เชื่อมโยงตัวแปรอิสระสามตัวทางคณิตศาสตร์ (x 1 , x 2 , x 3 ) กับตัวแปรตาม (y) และยิ่งไปกว่านั้น ความสัมพันธ์ระหว่างตัวแปรเป็นแบบเส้นตรง
ประเภทของการถดถอยเชิงเส้น
การถดถอยเชิงเส้นมีสองประเภท :
- การถดถอยเชิงเส้นอย่างง่าย : ตัวแปรอิสระตัวเดียวเชื่อมโยงกับตัวแปรตาม สมการสำหรับแบบจำลองการถดถอยเชิงเส้นประเภทนี้จึงอยู่ในรูปแบบ y=β 0 +β 1 x 1
- การถดถอยเชิงเส้นพหุคูณ : โมเดลการถดถอยมีตัวแปรอธิบายหลายตัวและตัวแปรตอบสนอง ดังนั้น สมการของตัวแบบการถดถอยเชิงเส้นประเภทนี้จึงอยู่ในรูปแบบ y=β 0 +β 1 x 1 +β 2 x 2 …+β m x m
การถดถอยเชิงเส้นอย่างง่าย
การถดถอยเชิงเส้นอย่างง่าย ใช้เพื่อเชื่อมโยงตัวแปรอิสระหนึ่งตัวกับตัวแปรทั้งสอง
สมการของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายนั้นเป็นเส้นตรง ดังนั้นจึงประกอบด้วยค่าสัมประสิทธิ์ 2 ค่า คือ ค่าคงที่ของสมการ (β 0 ) และค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรทั้งสอง (β 1 ) ดังนั้น สมการสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายคือ y=β 0 +β 1 x
สูตรในการคำนวณค่าสัมประสิทธิ์การถดถอยเชิงเส้นอย่างง่าย มีดังนี้:
ทอง:
-
คือค่าคงที่ของเส้นถดถอย
-
คือความชันของเส้นถดถอย
-
คือค่าของตัวแปรอิสระ X ของข้อมูล i
-
คือค่าของตัวแปรตาม Y ของข้อมูล i
-
คือค่าเฉลี่ยของค่าของตัวแปรอิสระ
-
คือค่าเฉลี่ยของค่าของตัวแปรตาม Y
การถดถอยเชิงเส้นพหุคูณ
ในแบบจำลอง การถดถอยเชิงเส้นพหุคูณ มีตัวแปรอิสระอย่างน้อยสองตัวรวมอยู่ด้วย กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นพหุคูณช่วยให้ตัวแปรอธิบายหลายตัวเชื่อมโยงเชิงเส้นตรงกับตัวแปรตอบสนองได้
สมการสำหรับแบบจำลองการถดถอยเชิงเส้นพหุคูณคือ y=β 0 +β 1 x 1 +β 2 x 2 +…+β m x m +ε
ทอง:
-
เป็นตัวแปรตาม
-
คือตัวแปรอิสระ i
-
คือค่าคงที่ของสมการการถดถอยเชิงเส้นพหุคูณ
-
คือค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปร
.
-
คือข้อผิดพลาดหรือค่าตกค้าง กล่าวคือ ความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่ประเมินโดยแบบจำลอง
-
คือจำนวนตัวแปรทั้งหมดในโมเดล
แล้วถ้าเรามีตัวอย่างที่มีผลรวมเป็น
จากการสังเกต เราสามารถวางโมเดลการถดถอยเชิงเส้นพหุคูณในรูปแบบเมทริกซ์ได้:
นิพจน์เมทริกซ์ด้านบนสามารถเขียนใหม่ได้โดยกำหนดตัวอักษรให้กับแต่ละเมทริกซ์:
ดังนั้น เมื่อใช้เกณฑ์กำลังสองน้อยที่สุด เราจะได้ สูตรเพื่อประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยเชิงเส้นพหุคูณ :
อย่างไรก็ตาม การใช้สูตรนี้ต้องใช้ความพยายามมากและใช้เวลานาน ซึ่งเป็นเหตุผลว่าทำไมในทางปฏิบัติจึงแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ (เช่น Minitab หรือ Excel) ซึ่งช่วยให้การสร้างแบบจำลองการถดถอยพหุคูณทำได้รวดเร็วยิ่งขึ้น
สมมติฐานการถดถอยเชิงเส้น
ในแบบจำลองการถดถอยเชิงเส้น จะต้องตรงตามเงื่อนไขต่อไปนี้เพื่อให้แบบจำลองถูกต้อง:
- ความเป็นอิสระ : สิ่งตกค้างจะต้องเป็นอิสระจากกัน วิธีทั่วไปในการตรวจสอบความเป็นอิสระของโมเดลคือการเพิ่มการสุ่มให้กับกระบวนการสุ่มตัวอย่าง
- Homoscedasticity : ความแปรปรวนของสารตกค้างจะต้องมีความสม่ำเสมอ กล่าวคือ ความแปรปรวนของสารตกค้างจะต้องคงที่
- Non-multicollinearity : ตัวแปรอธิบายที่รวมอยู่ในแบบจำลองไม่สามารถเชื่อมโยงถึงกันได้ หรืออย่างน้อย ความสัมพันธ์ของพวกมันจะต้องอ่อนแอมาก
- ภาวะปกติ : ส่วนที่เหลือจะต้องกระจายตามปกติ หรืออีกนัยหนึ่ง จะต้องเป็นไปตามการแจกแจงแบบปกติด้วยค่าเฉลี่ย 0
- ความเป็นเส้นตรง : สันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรอธิบายนั้นเป็นเส้นตรง
การถดถอยเชิงเส้นใช้ทำอะไร?
โดยทั่วไปการถดถอยเชิงเส้นมีประโยชน์สองประการ: การถดถอยเชิงเส้นใช้เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง และในทำนองเดียวกัน การถดถอยเชิงเส้นใช้เพื่อทำนายค่าของตัวแปรตามสำหรับการสังเกตใหม่
เมื่อได้รับสมการของแบบจำลองการถดถอยเชิงเส้น เราสามารถรู้ได้ว่าตัวแปรในแบบจำลองมีความสัมพันธ์แบบใด หากค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระเป็นบวก ตัวแปรตามจะเพิ่มขึ้นเมื่อเพิ่มขึ้น ในขณะที่ถ้าค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระเป็นลบ ตัวแปรตามจะลดลงเมื่อเพิ่มขึ้น
ในทางกลับกัน สมการที่คำนวณในการถดถอยเชิงเส้นยังทำให้สามารถคาดการณ์ค่าได้ ดังนั้นโดยการแนะนำค่าของตัวแปรอธิบายลงในสมการโมเดล เราสามารถคำนวณค่าของตัวแปรตามสำหรับข้อมูลชิ้นใหม่ได้