การถดถอยเชิงเส้นพหุคูณ

โดย ดร.เบนจามิน แอนเดอร์สัน สิงหาคม 2, 2023 สถิติ 0 ความคิดเห็น

บทความนี้จะอธิบายว่าการถดถอยเชิงเส้นพหุคูณในสถิติคืออะไร นอกจากนี้ คุณจะได้เรียนรู้วิธีการสร้างแบบจำลองการถดถอยเชิงเส้นพหุคูณและวิธีการตีความแบบจำลองดังกล่าว

การถดถอยเชิงเส้นพหุคูณคืออะไร?

การถดถอยเชิงเส้นพหุคูณ คือแบบจำลองการถดถอยซึ่งมีตัวแปรอิสระสองตัวขึ้นไปรวมอยู่ด้วย กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นพหุคูณเป็นแบบจำลองทางสถิติที่ช่วยให้ตัวแปรอธิบายหลายตัวเชื่อมโยงกับตัวแปรตอบสนองเชิงเส้นตรงได้

ดังนั้นจึงใช้แบบจำลองการถดถอยเชิงเส้นหลายตัวเพื่อค้นหาสมการที่เกี่ยวข้องกับตัวแปรอิสระตั้งแต่สองตัวขึ้นไปกับตัวแปรตาม ดังนั้น โดยการแทนที่ค่าของตัวแปรอิสระแต่ละตัว จะได้ค่าประมาณของตัวแปรตาม

ตัวอย่างเช่น สมการ y=3+6x ₁ -4x ₂ +7x ₃ เป็นแบบจำลองการถดถอยเชิงเส้นพหุคูณ เนื่องจากสมการนี้เชื่อมโยงตัวแปรอิสระสามตัวทางคณิตศาสตร์ (x ₁ , x ₂ , x ₃ ) กับตัวแปรตามหนึ่งตัว (y) เส้นทางค่าเชิงเส้น .

สูตรการถดถอยเชิงเส้นพหุคูณ

สมการสำหรับแบบจำลองการถดถอยเชิงเส้นพหุคูณคือ y=β ₀ +β ₁ x ₁ +β ₂ x ₂ +…+β _m x _m +ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

ทอง:

$y$

เป็นตัวแปรตาม
$x_i$

คือตัวแปรอิสระ i
$\beta_0$

คือค่าคงที่ของสมการการถดถอยเชิงเส้นพหุคูณ
$\beta_i$

คือค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปร

$x_i$

.
$\bm{\varepsilon}$

นี่คือข้อผิดพลาดหรือค่าตกค้าง ซึ่งหมายถึงความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่ประเมินโดยแบบจำลอง
$m$

คือจำนวนตัวแปรทั้งหมดในโมเดล

แล้วถ้าเรามีตัวอย่างที่มีผลรวมเป็น

$n$

จากการสังเกต เราสามารถเสนอแบบจำลองการถดถอยเชิงเส้นพหุคูณในรูปแบบเมทริกซ์ได้:

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

นิพจน์อาร์เรย์ด้านบนสามารถเขียนใหม่ได้โดยการกำหนดตัวอักษรให้กับแต่ละอาร์เรย์:

$Y=X\beta+\varepsilon$

ดังนั้น ด้วยการใช้เกณฑ์กำลังสองน้อยที่สุด จึงเป็นไปได้ที่จะได้ สูตรสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยเชิงเส้นพหุคูณ :

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

อย่างไรก็ตาม การใช้สูตรนี้ต้องใช้ความพยายามมากและใช้เวลานาน ดังนั้นในทางปฏิบัติ ขอแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ (เช่น Minitab หรือ Excel) ที่ช่วยให้รันโมเดลการถดถอยทวีคูณได้รวดเร็วยิ่งขึ้น

สมมติฐานการถดถอยเชิงเส้นพหุคูณ

ในโมเดลการถดถอยเชิงเส้นพหุคูณ ต้องตรงตามเงื่อนไขต่อไปนี้เพื่อให้โมเดลใช้งานได้:

ความเป็นอิสระ : สิ่งตกค้างจะต้องเป็นอิสระจากกัน วิธีทั่วไปในการตรวจสอบความเป็นอิสระของโมเดลคือการเพิ่มการสุ่มให้กับกระบวนการสุ่มตัวอย่าง
Homoscedasticity : ความแปรปรวนของสารตกค้างจะต้องมีความสม่ำเสมอ กล่าวคือ ความแปรปรวนของสารตกค้างจะต้องคงที่
Non-multicollinearity : ตัวแปรอธิบายที่รวมอยู่ในแบบจำลองไม่สามารถเชื่อมโยงถึงกันได้ หรืออย่างน้อย ความสัมพันธ์ของพวกมันจะต้องอ่อนแอมาก
ภาวะปกติ : ส่วนที่เหลือจะต้องกระจายตามปกติ หรืออีกนัยหนึ่ง จะต้องเป็นไปตามการแจกแจงแบบปกติด้วยค่าเฉลี่ย 0
ความเป็นเส้นตรง : สันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรอธิบายนั้นเป็นเส้นตรง

การตีความแบบจำลองการถดถอยเชิงเส้นพหุคูณ

ในการตีความแบบจำลองการถดถอยเชิงเส้นพหุคูณ เราต้องดูค่าสัมประสิทธิ์การกำหนด (R กำลังสอง) ซึ่งแสดงเปอร์เซ็นต์ที่อธิบายโดยแบบจำลองการถดถอย ดังนั้น ยิ่งค่าสัมประสิทธิ์การกำหนดสูงเท่าใด โมเดลก็จะยิ่งถูกปรับให้เข้ากับตัวอย่างข้อมูลที่ศึกษามากขึ้นเท่านั้น

➤ ดู: สัมประสิทธิ์การตัดสินใจ (R กำลังสอง)

อย่างไรก็ตาม ความพอดีของแบบจำลองทางสถิติอาจทำให้เข้าใจผิด โดยเฉพาะในแบบจำลองการถดถอยเชิงเส้นหลายตัว เพราะเมื่อเพิ่มตัวแปรให้กับโมเดล ค่าสัมประสิทธิ์การกำหนดจะเพิ่มขึ้นแม้ว่าตัวแปรจะไม่มีนัยสำคัญก็ตาม อย่างไรก็ตาม จำเป็นต้องเพิ่มค่าสัมประสิทธิ์การกำหนดให้สูงสุดโดยพยายามลดจำนวนตัวแปรให้เหลือน้อยที่สุด เนื่องจากแบบจำลองมีความซับซ้อนน้อยกว่าและตีความได้ง่ายกว่า

เพื่อแก้ไขปัญหานี้ จำเป็นต้องคำนวณค่าสัมประสิทธิ์การกำหนดที่ปรับแล้ว (R ที่ปรับแล้วกำลังสอง) ซึ่งเป็นค่าสัมประสิทธิ์ทางสถิติที่ใช้วัดคุณภาพของความพอดีของแบบจำลองการถดถอย ซึ่งจะลงโทษแต่ละตัวแปรที่เพิ่มลงในแบบจำลอง ซึ่งแตกต่างจากค่าสัมประสิทธิ์ที่ยังไม่ได้ปรับ ของความมุ่งมั่น สิ่งนี้ไม่ได้คำนึงถึงจำนวนตัวแปรในโมเดล

ดังนั้น ค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วช่วยให้เราสามารถเปรียบเทียบความพอดีของแบบจำลองทั้งสองกับตัวแปรจำนวนที่แตกต่างกันได้ โดยหลักการแล้ว ควรเลือกแบบจำลองที่มีค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วสูงกว่า แต่หากทั้งสองแบบจำลองมีค่าใกล้เคียงกันมาก ควรเลือกแบบจำลองที่มีตัวแปรน้อยกว่าเพราะง่ายต่อการตีความ

➤ ดู: ปรับค่าสัมประสิทธิ์การกำหนด (ปรับ R-squared)

ในทางตรงกันข้าม ค่าสัมประสิทธิ์การถดถอยบ่งชี้ความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง หากค่าสัมประสิทธิ์การถดถอยเป็นบวก ตัวแปรการตอบสนองจะเพิ่มขึ้นเมื่อตัวแปรอธิบายเพิ่มขึ้น ในขณะที่ถ้าค่าสัมประสิทธิ์การถดถอยเป็นลบ ตัวแปรตอบสนองจะลดลงเมื่อตัวแปรอธิบายเพิ่มขึ้น

ตามตรรกะ เพื่อให้ตรงตามเงื่อนไขก่อนหน้า ตัวแปรอื่นๆ จะต้องคงที่ นี่คือเหตุผลว่าทำไมจึงเป็นสิ่งสำคัญที่จะต้องไม่มี multicollinearity ระหว่างตัวแปรอธิบายที่แตกต่างกันของแบบจำลอง คุณสามารถดูวิธีศึกษาความเป็นหลายคอลลิเนียร์ของโมเดลได้โดยค้นหาบทความที่เกี่ยวข้องในเว็บไซต์ของเรา

การถดถอยเชิงเส้นพหุคูณและอย่างง่าย

สุดท้าย เราจะดูว่าอะไรคือความแตกต่างระหว่างแบบจำลองการถดถอยเชิงเส้นอย่างง่ายและแบบจำลองการถดถอยเชิงเส้นพหุคูณ เนื่องจากแบบจำลองเหล่านี้เป็นแบบจำลองการถดถอยสองแบบที่ใช้กันอย่างแพร่หลายในสถิติ

การถดถอยเชิงเส้นอย่างง่าย คือแบบจำลองการถดถอยที่ใช้เพื่อสร้างความสัมพันธ์ของตัวแปรอิสระ ดังนั้นสมการของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายจึงเป็นดังนี้:

$y=\beta_0+\beta_1x_1+\varepsilon$

ดังนั้น ความแตกต่างระหว่างการถดถอยเชิงเส้นพหุคูณและการถดถอยเชิงเส้นอย่างง่าย จึงอยู่ที่จำนวนตัวแปรอธิบาย ตัวแบบการถดถอยเชิงเส้นหลายตัวมีตัวแปรอธิบายตั้งแต่สองตัวขึ้นไป ในขณะที่ตัวแบบการถดถอยเชิงเส้นอย่างง่ายมีตัวแปรอธิบายเพียงตัวเดียวเท่านั้น

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

โดยสรุป การถดถอยเชิงเส้นพหุคูณเป็นส่วนขยายของการถดถอยเชิงเส้นอย่างง่าย เนื่องจากมีการเพิ่มตัวแปรที่อธิบายมากขึ้นและค่าสัมประสิทธิ์การถดถอยตามลำดับ อย่างไรก็ตาม ค่าสัมประสิทธิ์การถดถอยได้รับการคำนวณแตกต่างออกไป หากต้องการดูวิธีการคลิกที่นี่:

➤ ดูที่: การถดถอยเชิงเส้นอย่างง่าย

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม