การถดถอยเชิงเส้น

บทความนี้จะอธิบายว่าการถดถอยเชิงเส้นคืออะไร และใช้เพื่ออะไรในสถิติ นอกจากนี้ คุณจะสามารถดูวิธีการคำนวณการถดถอยเชิงเส้นสองประเภท ได้แก่ การถดถอยเชิงเส้นอย่างง่าย และการถดถอยเชิงเส้นพหุคูณ

การถดถอยเชิงเส้นคืออะไร?

การถดถอยเชิงเส้น เป็นแบบจำลองทางสถิติที่เกี่ยวข้องกับตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตาม พูดง่ายๆ ก็คือ การถดถอยเชิงเส้นเป็นเทคนิคที่ใช้ในการค้นหาสมการที่ประมาณความสัมพันธ์ระหว่างตัวแปรอธิบายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง

ตัวอย่างเช่น สมการ y=2+5x 1 -3x 2 +8x 3 เป็นแบบจำลองการถดถอยเชิงเส้น เนื่องจากสมการนี้เชื่อมโยงตัวแปรอิสระสามตัวทางคณิตศาสตร์ (x 1 , x 2 , x 3 ) กับตัวแปรตาม (y) และยิ่งไปกว่านั้น ความสัมพันธ์ระหว่างตัวแปรเป็นแบบเส้นตรง

ประเภทของการถดถอยเชิงเส้น

การถดถอยเชิงเส้นมีสองประเภท :

  • การถดถอยเชิงเส้นอย่างง่าย : ตัวแปรอิสระตัวเดียวเชื่อมโยงกับตัวแปรตาม สมการสำหรับแบบจำลองการถดถอยเชิงเส้นประเภทนี้จึงอยู่ในรูปแบบ y=β 01 x 1
  • การถดถอยเชิงเส้นพหุคูณ : โมเดลการถดถอยมีตัวแปรอธิบายหลายตัวและตัวแปรตอบสนอง ดังนั้น สมการของตัวแบบการถดถอยเชิงเส้นประเภทนี้จึงอยู่ในรูปแบบ y=β 01 x 12 x 2 …+β m x m

การถดถอยเชิงเส้นอย่างง่าย

การถดถอยเชิงเส้นอย่างง่าย ใช้เพื่อเชื่อมโยงตัวแปรอิสระหนึ่งตัวกับตัวแปรทั้งสอง

สมการของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายนั้นเป็นเส้นตรง ดังนั้นจึงประกอบด้วยค่าสัมประสิทธิ์ 2 ค่า คือ ค่าคงที่ของสมการ (β 0 ) และค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรทั้งสอง (β 1 ) ดังนั้น สมการสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายคือ y=β 01 x

y=\beta_0+\beta_1x

สูตรในการคำนวณค่าสัมประสิทธิ์การถดถอยเชิงเส้นอย่างง่าย มีดังนี้:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

ทอง:

  • \beta_0

    คือค่าคงที่ของเส้นถดถอย

  • \beta_1

    คือความชันของเส้นถดถอย

  • x_i

    คือค่าของตัวแปรอิสระ X ของข้อมูล i

  • y_i

    คือค่าของตัวแปรตาม Y ของข้อมูล i

  • \overline{x}

    คือค่าเฉลี่ยของค่าของตัวแปรอิสระ

  • \overline{y}

    คือค่าเฉลี่ยของค่าของตัวแปรตาม Y

การถดถอยเชิงเส้นพหุคูณ

ในแบบจำลอง การถดถอยเชิงเส้นพหุคูณ มีตัวแปรอิสระอย่างน้อยสองตัวรวมอยู่ด้วย กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นพหุคูณช่วยให้ตัวแปรอธิบายหลายตัวเชื่อมโยงเชิงเส้นตรงกับตัวแปรตอบสนองได้

สมการสำหรับแบบจำลองการถดถอยเชิงเส้นพหุคูณคือ y=β 01 x 12 x 2 +…+β m x m

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

ทอง:

  • y

    เป็นตัวแปรตาม

  • x_i

    คือตัวแปรอิสระ i

  • \beta_0

    คือค่าคงที่ของสมการการถดถอยเชิงเส้นพหุคูณ

  • \beta_i

    คือค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปร

    x_i

    .

  • \bm{\varepsilon}

    คือข้อผิดพลาดหรือค่าตกค้าง กล่าวคือ ความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่ประเมินโดยแบบจำลอง

  • m

    คือจำนวนตัวแปรทั้งหมดในโมเดล

แล้วถ้าเรามีตัวอย่างที่มีผลรวมเป็น

n

จากการสังเกต เราสามารถวางโมเดลการถดถอยเชิงเส้นพหุคูณในรูปแบบเมทริกซ์ได้:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

นิพจน์เมทริกซ์ด้านบนสามารถเขียนใหม่ได้โดยกำหนดตัวอักษรให้กับแต่ละเมทริกซ์:

Y=X\beta+\varepsilon

ดังนั้น เมื่อใช้เกณฑ์กำลังสองน้อยที่สุด เราจะได้ สูตรเพื่อประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยเชิงเส้นพหุคูณ :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

อย่างไรก็ตาม การใช้สูตรนี้ต้องใช้ความพยายามมากและใช้เวลานาน ซึ่งเป็นเหตุผลว่าทำไมในทางปฏิบัติจึงแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ (เช่น Minitab หรือ Excel) ซึ่งช่วยให้การสร้างแบบจำลองการถดถอยพหุคูณทำได้รวดเร็วยิ่งขึ้น

สมมติฐานการถดถอยเชิงเส้น

ในแบบจำลองการถดถอยเชิงเส้น จะต้องตรงตามเงื่อนไขต่อไปนี้เพื่อให้แบบจำลองถูกต้อง:

  • ความเป็นอิสระ : สิ่งตกค้างจะต้องเป็นอิสระจากกัน วิธีทั่วไปในการตรวจสอบความเป็นอิสระของโมเดลคือการเพิ่มการสุ่มให้กับกระบวนการสุ่มตัวอย่าง
  • Homoscedasticity : ความแปรปรวนของสารตกค้างจะต้องมีความสม่ำเสมอ กล่าวคือ ความแปรปรวนของสารตกค้างจะต้องคงที่
  • Non-multicollinearity : ตัวแปรอธิบายที่รวมอยู่ในแบบจำลองไม่สามารถเชื่อมโยงถึงกันได้ หรืออย่างน้อย ความสัมพันธ์ของพวกมันจะต้องอ่อนแอมาก
  • ภาวะปกติ : ส่วนที่เหลือจะต้องกระจายตามปกติ หรืออีกนัยหนึ่ง จะต้องเป็นไปตามการแจกแจงแบบปกติด้วยค่าเฉลี่ย 0
  • ความเป็นเส้นตรง : สันนิษฐานว่าความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรอธิบายนั้นเป็นเส้นตรง

การถดถอยเชิงเส้นใช้ทำอะไร?

โดยทั่วไปการถดถอยเชิงเส้นมีประโยชน์สองประการ: การถดถอยเชิงเส้นใช้เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง และในทำนองเดียวกัน การถดถอยเชิงเส้นใช้เพื่อทำนายค่าของตัวแปรตามสำหรับการสังเกตใหม่

เมื่อได้รับสมการของแบบจำลองการถดถอยเชิงเส้น เราสามารถรู้ได้ว่าตัวแปรในแบบจำลองมีความสัมพันธ์แบบใด หากค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระเป็นบวก ตัวแปรตามจะเพิ่มขึ้นเมื่อเพิ่มขึ้น ในขณะที่ถ้าค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระเป็นลบ ตัวแปรตามจะลดลงเมื่อเพิ่มขึ้น

ในทางกลับกัน สมการที่คำนวณในการถดถอยเชิงเส้นยังทำให้สามารถคาดการณ์ค่าได้ ดังนั้นโดยการแนะนำค่าของตัวแปรอธิบายลงในสมการโมเดล เราสามารถคำนวณค่าของตัวแปรตามสำหรับข้อมูลชิ้นใหม่ได้

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *