การถดถอยเชิงเส้นพหุคูณ

บทความนี้จะอธิบายว่าการถดถอยเชิงเส้นพหุคูณในสถิติคืออะไร นอกจากนี้ คุณจะได้เรียนรู้วิธีการสร้างแบบจำลองการถดถอยเชิงเส้นพหุคูณและวิธีการตีความแบบจำลองดังกล่าว

การถดถอยเชิงเส้นพหุคูณคืออะไร?

การถดถอยเชิงเส้นพหุคูณ คือแบบจำลองการถดถอยซึ่งมีตัวแปรอิสระสองตัวขึ้นไปรวมอยู่ด้วย กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นพหุคูณเป็นแบบจำลองทางสถิติที่ช่วยให้ตัวแปรอธิบายหลายตัวเชื่อมโยงกับตัวแปรตอบสนองเชิงเส้นตรงได้

ดังนั้นจึงใช้แบบจำลองการถดถอยเชิงเส้นหลายตัวเพื่อค้นหาสมการที่เกี่ยวข้องกับตัวแปรอิสระตั้งแต่สองตัวขึ้นไปกับตัวแปรตาม ดังนั้น โดยการแทนที่ค่าของตัวแปรอิสระแต่ละตัว จะได้ค่าประมาณของตัวแปรตาม

ตัวอย่างเช่น สมการ y=3+6x 1 -4x 2 +7x 3 เป็นแบบจำลองการถดถอยเชิงเส้นพหุคูณ เนื่องจากสมการนี้เชื่อมโยงตัวแปรอิสระสามตัวทางคณิตศาสตร์ (x 1 , x 2 , x 3 ) กับตัวแปรตามหนึ่งตัว (y) เส้นทางค่าเชิงเส้น .

สูตรการถดถอยเชิงเส้นพหุคูณ

สมการสำหรับแบบจำลองการถดถอยเชิงเส้นพหุคูณคือ y=β 01 x 12 x 2 +…+β m x m

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

ทอง:

  • y

    เป็นตัวแปรตาม

  • x_i

    คือตัวแปรอิสระ i

  • \beta_0

    คือค่าคงที่ของสมการการถดถอยเชิงเส้นพหุคูณ

  • \beta_i

    คือค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปร

    x_i

    .

  • \bm{\varepsilon}

    นี่คือข้อผิดพลาดหรือค่าตกค้าง ซึ่งหมายถึงความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่ประเมินโดยแบบจำลอง

  • m

    คือจำนวนตัวแปรทั้งหมดในโมเดล

แล้วถ้าเรามีตัวอย่างที่มีผลรวมเป็น

n

จากการสังเกต เราสามารถเสนอแบบจำลองการถดถอยเชิงเส้นพหุคูณในรูปแบบเมทริกซ์ได้:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

นิพจน์อาร์เรย์ด้านบนสามารถเขียนใหม่ได้โดยการกำหนดตัวอักษรให้กับแต่ละอาร์เรย์:

Y=X\beta+\varepsilon

ดังนั้น ด้วยการใช้เกณฑ์กำลังสองน้อยที่สุด จึงเป็นไปได้ที่จะได้ สูตรสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยเชิงเส้นพหุคูณ :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

อย่างไรก็ตาม การใช้สูตรนี้ต้องใช้ความพยายามมากและใช้เวลานาน ดังนั้นในทางปฏิบัติ ขอแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ (เช่น Minitab หรือ Excel) ที่ช่วยให้รันโมเดลการถดถอยทวีคูณได้รวดเร็วยิ่งขึ้น

สมมติฐานการถดถอยเชิงเส้นพหุคูณ

ในโมเดลการถดถอยเชิงเส้นพหุคูณ ต้องตรงตามเงื่อนไขต่อไปนี้เพื่อให้โมเดลใช้งานได้:

  • ความเป็นอิสระ : สิ่งตกค้างจะต้องเป็นอิสระจากกัน วิธีทั่วไปในการตรวจสอบความเป็นอิสระของโมเดลคือการเพิ่มการสุ่มให้กับกระบวนการสุ่มตัวอย่าง
  • Homoscedasticity : ความแปรปรวนของสารตกค้างจะต้องมีความสม่ำเสมอ กล่าวคือ ความแปรปรวนของสารตกค้างจะต้องคงที่
  • Non-multicollinearity : ตัวแปรอธิบายที่รวมอยู่ในแบบจำลองไม่สามารถเชื่อมโยงถึงกันได้ หรืออย่างน้อย ความสัมพันธ์ของพวกมันจะต้องอ่อนแอมาก
  • ภาวะปกติ : ส่วนที่เหลือจะต้องกระจายตามปกติ หรืออีกนัยหนึ่ง จะต้องเป็นไปตามการแจกแจงแบบปกติด้วยค่าเฉลี่ย 0
  • ความเป็นเส้นตรง : สันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรอธิบายนั้นเป็นเส้นตรง

การตีความแบบจำลองการถดถอยเชิงเส้นพหุคูณ

ในการตีความแบบจำลองการถดถอยเชิงเส้นพหุคูณ เราต้องดูค่าสัมประสิทธิ์การกำหนด (R กำลังสอง) ซึ่งแสดงเปอร์เซ็นต์ที่อธิบายโดยแบบจำลองการถดถอย ดังนั้น ยิ่งค่าสัมประสิทธิ์การกำหนดสูงเท่าใด โมเดลก็จะยิ่งถูกปรับให้เข้ากับตัวอย่างข้อมูลที่ศึกษามากขึ้นเท่านั้น

อย่างไรก็ตาม ความพอดีของแบบจำลองทางสถิติอาจทำให้เข้าใจผิด โดยเฉพาะในแบบจำลองการถดถอยเชิงเส้นหลายตัว เพราะเมื่อเพิ่มตัวแปรให้กับโมเดล ค่าสัมประสิทธิ์การกำหนดจะเพิ่มขึ้นแม้ว่าตัวแปรจะไม่มีนัยสำคัญก็ตาม อย่างไรก็ตาม จำเป็นต้องเพิ่มค่าสัมประสิทธิ์การกำหนดให้สูงสุดโดยพยายามลดจำนวนตัวแปรให้เหลือน้อยที่สุด เนื่องจากแบบจำลองมีความซับซ้อนน้อยกว่าและตีความได้ง่ายกว่า

เพื่อแก้ไขปัญหานี้ จำเป็นต้องคำนวณค่าสัมประสิทธิ์การกำหนดที่ปรับแล้ว (R ที่ปรับแล้วกำลังสอง) ซึ่งเป็นค่าสัมประสิทธิ์ทางสถิติที่ใช้วัดคุณภาพของความพอดีของแบบจำลองการถดถอย ซึ่งจะลงโทษแต่ละตัวแปรที่เพิ่มลงในแบบจำลอง ซึ่งแตกต่างจากค่าสัมประสิทธิ์ที่ยังไม่ได้ปรับ ของความมุ่งมั่น สิ่งนี้ไม่ได้คำนึงถึงจำนวนตัวแปรในโมเดล

ดังนั้น ค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วช่วยให้เราสามารถเปรียบเทียบความพอดีของแบบจำลองทั้งสองกับตัวแปรจำนวนที่แตกต่างกันได้ โดยหลักการแล้ว ควรเลือกแบบจำลองที่มีค่าสัมประสิทธิ์การตัดสินใจที่ปรับแล้วสูงกว่า แต่หากทั้งสองแบบจำลองมีค่าใกล้เคียงกันมาก ควรเลือกแบบจำลองที่มีตัวแปรน้อยกว่าเพราะง่ายต่อการตีความ

ในทางตรงกันข้าม ค่าสัมประสิทธิ์การถดถอยบ่งชี้ความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง หากค่าสัมประสิทธิ์การถดถอยเป็นบวก ตัวแปรการตอบสนองจะเพิ่มขึ้นเมื่อตัวแปรอธิบายเพิ่มขึ้น ในขณะที่ถ้าค่าสัมประสิทธิ์การถดถอยเป็นลบ ตัวแปรตอบสนองจะลดลงเมื่อตัวแปรอธิบายเพิ่มขึ้น

ตามตรรกะ เพื่อให้ตรงตามเงื่อนไขก่อนหน้า ตัวแปรอื่นๆ จะต้องคงที่ นี่คือเหตุผลว่าทำไมจึงเป็นสิ่งสำคัญที่จะต้องไม่มี multicollinearity ระหว่างตัวแปรอธิบายที่แตกต่างกันของแบบจำลอง คุณสามารถดูวิธีศึกษาความเป็นหลายคอลลิเนียร์ของโมเดลได้โดยค้นหาบทความที่เกี่ยวข้องในเว็บไซต์ของเรา

การถดถอยเชิงเส้นพหุคูณและอย่างง่าย

สุดท้าย เราจะดูว่าอะไรคือความแตกต่างระหว่างแบบจำลองการถดถอยเชิงเส้นอย่างง่ายและแบบจำลองการถดถอยเชิงเส้นพหุคูณ เนื่องจากแบบจำลองเหล่านี้เป็นแบบจำลองการถดถอยสองแบบที่ใช้กันอย่างแพร่หลายในสถิติ

การถดถอยเชิงเส้นอย่างง่าย คือแบบจำลองการถดถอยที่ใช้เพื่อสร้างความสัมพันธ์ของตัวแปรอิสระ ดังนั้นสมการของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายจึงเป็นดังนี้:

y=\beta_0+\beta_1x_1+\varepsilon

ดังนั้น ความแตกต่างระหว่างการถดถอยเชิงเส้นพหุคูณและการถดถอยเชิงเส้นอย่างง่าย จึงอยู่ที่จำนวนตัวแปรอธิบาย ตัวแบบการถดถอยเชิงเส้นหลายตัวมีตัวแปรอธิบายตั้งแต่สองตัวขึ้นไป ในขณะที่ตัวแบบการถดถอยเชิงเส้นอย่างง่ายมีตัวแปรอธิบายเพียงตัวเดียวเท่านั้น

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

โดยสรุป การถดถอยเชิงเส้นพหุคูณเป็นส่วนขยายของการถดถอยเชิงเส้นอย่างง่าย เนื่องจากมีการเพิ่มตัวแปรที่อธิบายมากขึ้นและค่าสัมประสิทธิ์การถดถอยตามลำดับ อย่างไรก็ตาม ค่าสัมประสิทธิ์การถดถอยได้รับการคำนวณแตกต่างออกไป หากต้องการดูวิธีการคลิกที่นี่:

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *