การถดถอยเชิงเส้นพหุคูณ
บทความนี้จะอธิบายว่าการถดถอยเชิงเส้นพหุคูณในสถิติคืออะไร นอกจากนี้ คุณจะได้เรียนรู้วิธีการสร้างแบบจำลองการถดถอยเชิงเส้นพหุคูณและวิธีการตีความแบบจำลองดังกล่าว
การถดถอยเชิงเส้นพหุคูณคืออะไร?
การถดถอยเชิงเส้นพหุคูณ คือแบบจำลองการถดถอยซึ่งมีตัวแปรอิสระสองตัวขึ้นไปรวมอยู่ด้วย กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นพหุคูณเป็นแบบจำลองทางสถิติที่ช่วยให้ตัวแปรอธิบายหลายตัวเชื่อมโยงกับตัวแปรตอบสนองเชิงเส้นตรงได้
ดังนั้นจึงใช้แบบจำลองการถดถอยเชิงเส้นหลายตัวเพื่อค้นหาสมการที่เกี่ยวข้องกับตัวแปรอิสระตั้งแต่สองตัวขึ้นไปกับตัวแปรตาม ดังนั้น โดยการแทนที่ค่าของตัวแปรอิสระแต่ละตัว จะได้ค่าประมาณของตัวแปรตาม
ตัวอย่างเช่น สมการ y=3+6x 1 -4x 2 +7x 3 เป็นแบบจำลองการถดถอยเชิงเส้นพหุคูณ เนื่องจากสมการนี้เชื่อมโยงตัวแปรอิสระสามตัวทางคณิตศาสตร์ (x 1 , x 2 , x 3 ) กับตัวแปรตามหนึ่งตัว (y) เส้นทางค่าเชิงเส้น .
สูตรการถดถอยเชิงเส้นพหุคูณ
สมการสำหรับแบบจำลองการถดถอยเชิงเส้นพหุคูณคือ y=β 0 +β 1 x 1 +β 2 x 2 +…+β m x m +ε
ทอง:
-
เป็นตัวแปรตาม
-
คือตัวแปรอิสระ i
-
คือค่าคงที่ของสมการการถดถอยเชิงเส้นพหุคูณ
-
คือค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปร
.
-
นี่คือข้อผิดพลาดหรือค่าตกค้าง ซึ่งหมายถึงความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่ประเมินโดยแบบจำลอง
-
คือจำนวนตัวแปรทั้งหมดในโมเดล
แล้วถ้าเรามีตัวอย่างที่มีผลรวมเป็น
จากการสังเกต เราสามารถเสนอแบบจำลองการถดถอยเชิงเส้นพหุคูณในรูปแบบเมทริกซ์ได้:
นิพจน์อาร์เรย์ด้านบนสามารถเขียนใหม่ได้โดยการกำหนดตัวอักษรให้กับแต่ละอาร์เรย์:
ดังนั้น ด้วยการใช้เกณฑ์กำลังสองน้อยที่สุด จึงเป็นไปได้ที่จะได้ สูตรสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยเชิงเส้นพหุคูณ :
อย่างไรก็ตาม การใช้สูตรนี้ต้องใช้ความพยายามมากและใช้เวลานาน ดังนั้นในทางปฏิบัติ ขอแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ (เช่น Minitab หรือ Excel) ที่ช่วยให้รันโมเดลการถดถอยทวีคูณได้รวดเร็วยิ่งขึ้น
สมมติฐานการถดถอยเชิงเส้นพหุคูณ
ในโมเดลการถดถอยเชิงเส้นพหุคูณ ต้องตรงตามเงื่อนไขต่อไปนี้เพื่อให้โมเดลใช้งานได้:
- ความเป็นอิสระ : สิ่งตกค้างจะต้องเป็นอิสระจากกัน วิธีทั่วไปในการตรวจสอบความเป็นอิสระของโมเดลคือการเพิ่มการสุ่มให้กับกระบวนการสุ่มตัวอย่าง
- Homoscedasticity : ความแปรปรวนของสารตกค้างจะต้องมีความสม่ำเสมอ กล่าวคือ ความแปรปรวนของสารตกค้างจะต้องคงที่
- Non-multicollinearity : ตัวแปรอธิบายที่รวมอยู่ในแบบจำลองไม่สามารถเชื่อมโยงถึงกันได้ หรืออย่างน้อย ความสัมพันธ์ของพวกมันจะต้องอ่อนแอมาก
- ภาวะปกติ : ส่วนที่เหลือจะต้องกระจายตามปกติ หรืออีกนัยหนึ่ง จะต้องเป็นไปตามการแจกแจงแบบปกติด้วยค่าเฉลี่ย 0
- ความเป็นเส้นตรง : สันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรอธิบายนั้นเป็นเส้นตรง
การตีความแบบจำลองการถดถอยเชิงเส้นพหุคูณ
ในการตีความแบบจำลองการถดถอยเชิงเส้นพหุคูณ เราต้องดูค่าสัมประสิทธิ์การกำหนด (R กำลังสอง) ซึ่งแสดงเปอร์เซ็นต์ที่อธิบายโดยแบบจำลองการถดถอย ดังนั้น ยิ่งค่าสัมประสิทธิ์การกำหนดสูงเท่าใด โมเดลก็จะยิ่งถูกปรับให้เข้ากับตัวอย่างข้อมูลที่ศึกษามากขึ้นเท่านั้น
อย่างไรก็ตาม ความพอดีของแบบจำลองทางสถิติอาจทำให้เข้าใจผิด โดยเฉพาะในแบบจำลองการถดถอยเชิงเส้นหลายตัว เพราะเมื่อเพิ่มตัวแปรให้กับโมเดล ค่าสัมประสิทธิ์การกำหนดจะเพิ่มขึ้นแม้ว่าตัวแปรจะไม่มีนัยสำคัญก็ตาม อย่างไรก็ตาม จำเป็นต้องเพิ่มค่าสัมประสิทธิ์การกำหนดให้สูงสุดโดยพยายามลดจำนวนตัวแปรให้เหลือน้อยที่สุด เนื่องจากแบบจำลองมีความซับซ้อนน้อยกว่าและตีความได้ง่ายกว่า
เพื่อแก้ไขปัญหานี้ จำเป็นต้องคำนวณค่าสัมประสิทธิ์การกำหนดที่ปรับแล้ว (R ที่ปรับแล้วกำลังสอง) ซึ่งเป็นค่าสัมประสิทธิ์ทางสถิติที่ใช้วัดคุณภาพของความพอดีของแบบจำลองการถดถอย ซึ่งจะลงโทษแต่ละตัวแปรที่เพิ่มลงในแบบจำลอง ซึ่งแตกต่างจากค่าสัมประสิทธิ์ที่ยังไม่ได้ปรับ ของความมุ่งมั่น สิ่งนี้ไม่ได้คำนึงถึงจำนวนตัวแปรในโมเดล
ดังนั้น ค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วช่วยให้เราสามารถเปรียบเทียบความพอดีของแบบจำลองทั้งสองกับตัวแปรจำนวนที่แตกต่างกันได้ โดยหลักการแล้ว ควรเลือกแบบจำลองที่มีค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วสูงกว่า แต่หากทั้งสองแบบจำลองมีค่าใกล้เคียงกันมาก ควรเลือกแบบจำลองที่มีตัวแปรน้อยกว่าเพราะง่ายต่อการตีความ
ในทางตรงกันข้าม ค่าสัมประสิทธิ์การถดถอยบ่งชี้ความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง หากค่าสัมประสิทธิ์การถดถอยเป็นบวก ตัวแปรการตอบสนองจะเพิ่มขึ้นเมื่อตัวแปรอธิบายเพิ่มขึ้น ในขณะที่ถ้าค่าสัมประสิทธิ์การถดถอยเป็นลบ ตัวแปรตอบสนองจะลดลงเมื่อตัวแปรอธิบายเพิ่มขึ้น
ตามตรรกะ เพื่อให้ตรงตามเงื่อนไขก่อนหน้า ตัวแปรอื่นๆ จะต้องคงที่ นี่คือเหตุผลว่าทำไมจึงเป็นสิ่งสำคัญที่จะต้องไม่มี multicollinearity ระหว่างตัวแปรอธิบายที่แตกต่างกันของแบบจำลอง คุณสามารถดูวิธีศึกษาความเป็นหลายคอลลิเนียร์ของโมเดลได้โดยค้นหาบทความที่เกี่ยวข้องในเว็บไซต์ของเรา
การถดถอยเชิงเส้นพหุคูณและอย่างง่าย
สุดท้าย เราจะดูว่าอะไรคือความแตกต่างระหว่างแบบจำลองการถดถอยเชิงเส้นอย่างง่ายและแบบจำลองการถดถอยเชิงเส้นพหุคูณ เนื่องจากแบบจำลองเหล่านี้เป็นแบบจำลองการถดถอยสองแบบที่ใช้กันอย่างแพร่หลายในสถิติ
การถดถอยเชิงเส้นอย่างง่าย คือแบบจำลองการถดถอยที่ใช้เพื่อสร้างความสัมพันธ์ของตัวแปรอิสระ ดังนั้นสมการของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายจึงเป็นดังนี้:
ดังนั้น ความแตกต่างระหว่างการถดถอยเชิงเส้นพหุคูณและการถดถอยเชิงเส้นอย่างง่าย จึงอยู่ที่จำนวนตัวแปรอธิบาย ตัวแบบการถดถอยเชิงเส้นหลายตัวมีตัวแปรอธิบายตั้งแต่สองตัวขึ้นไป ในขณะที่ตัวแบบการถดถอยเชิงเส้นอย่างง่ายมีตัวแปรอธิบายเพียงตัวเดียวเท่านั้น
โดยสรุป การถดถอยเชิงเส้นพหุคูณเป็นส่วนขยายของการถดถอยเชิงเส้นอย่างง่าย เนื่องจากมีการเพิ่มตัวแปรที่อธิบายมากขึ้นและค่าสัมประสิทธิ์การถดถอยตามลำดับ อย่างไรก็ตาม ค่าสัมประสิทธิ์การถดถอยได้รับการคำนวณแตกต่างออกไป หากต้องการดูวิธีการคลิกที่นี่: