การวิเคราะห์การถดถอย

บทความนี้จะอธิบายว่าการวิเคราะห์การถดถอยคืออะไร และใช้เพื่ออะไรในสถิติ นอกจากนี้ คุณจะสามารถดูได้ว่าการวิเคราะห์การถดถอยประเภทต่างๆ คืออะไร

การวิเคราะห์การถดถอยคืออะไร?

ในสถิติ การวิเคราะห์การถดถอย เป็นกระบวนการที่มีการศึกษาความสัมพันธ์ระหว่างตัวแปรตั้งแต่สองตัวขึ้นไป โดยเฉพาะอย่างยิ่ง การวิเคราะห์การถดถอยเกี่ยวข้องกับการคำนวณสมการที่เกี่ยวข้องกับตัวแปรในการศึกษาทางคณิตศาสตร์

แบบจำลองที่สร้างขึ้นในการวิเคราะห์การถดถอยเรียกว่าแบบจำลองการถดถอย ในขณะที่สมการที่เกี่ยวข้องกับตัวแปรที่ศึกษาเรียกว่าสมการการถดถอย

ตัวอย่างเช่น หากคุณต้องการศึกษาความสัมพันธ์ระหว่างอัตราเงินเฟ้อของประเทศกับ GDP ของประเทศ คุณสามารถดำเนินการวิเคราะห์การถดถอยเพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรทั้งสองได้ ในกรณีนี้สมการที่ได้จากการวิเคราะห์การถดถอยจะเป็นเส้นการถดถอย

การวิเคราะห์การถดถอย

ดังนั้น การวิเคราะห์การถดถอยประกอบด้วยการรวบรวมตัวอย่างข้อมูล และจากข้อมูลที่รวบรวมมา จะมีการคำนวณสมการซึ่งช่วยให้ตัวแปรที่ศึกษามีความสัมพันธ์กันทางคณิตศาสตร์

ในการวิเคราะห์การถดถอย สิ่งสำคัญคือต้องแยกแยะระหว่างตัวแปรสองประเภทที่สามารถรวมไว้ในแบบจำลองการถดถอย:

  • ตัวแปรตาม (หรือตัวแปรตอบสนอง) : นี่คือปัจจัยที่เราต้องการวิเคราะห์ ดังนั้นจึงจะสร้างแบบจำลองการถดถอยขึ้นเพื่อดูว่าค่าของตัวแปรนี้จะแปรผันอย่างไรขึ้นอยู่กับค่าของตัวแปรอื่นๆ
  • ตัวแปรอิสระ (หรือตัวแปรอธิบาย) : เป็นปัจจัยที่เราพิจารณาว่ามีแนวโน้มที่จะมีอิทธิพลต่อตัวแปรที่เราต้องการวิเคราะห์ นั่นคือค่าของตัวแปรอิสระส่งผลต่อค่าของตัวแปรตาม

ประเภทของการวิเคราะห์การถดถอย

โดยพื้นฐานแล้ว การวิเคราะห์การถดถอยมีสามประเภท :

  • การวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย : แบบจำลองการถดถอยมีตัวแปรอิสระและตัวแปรตามและมีความสัมพันธ์กันเชิงเส้น
  • การวิเคราะห์การถดถอยเชิงเส้นหลายตัว : ตัวแปรอิสระสองตัวขึ้นไปมีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตาม
  • การวิเคราะห์การถดถอยแบบไม่เชิงเส้น : ความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามถูกจำลองโดยใช้ฟังก์ชันไม่เชิงเส้น

การวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย

การถดถอยเชิงเส้นอย่างง่าย ใช้เพื่อเชื่อมโยงตัวแปรอิสระกับตัวแปรทั้งสองโดยใช้สมการเชิงเส้น

สมการของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายนั้นเป็นเส้นตรง ดังนั้นจึงประกอบด้วยค่าสัมประสิทธิ์ 2 ค่า คือ ค่าคงที่ของสมการ (β 0 ) และค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรทั้งสอง (β 1 ) ดังนั้น สมการสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายคือ y=β 01 x

y=\beta_0+\beta_1x

สูตรการคำนวณค่าสัมประสิทธิ์ของการถดถอยเชิงเส้นอย่างง่าย มีดังนี้:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

ทอง:

  • \beta_0

    คือค่าคงที่ของเส้นถดถอย

  • \beta_1

    คือความชันของเส้นถดถอย

  • x_i

    คือค่าของตัวแปรอิสระ X ของข้อมูล i

  • y_i

    คือค่าของตัวแปรตาม Y ของข้อมูล i

  • \overline{x}

    คือค่าเฉลี่ยของค่าของตัวแปรอิสระ

  • \overline{y}

    คือค่าเฉลี่ยของค่าของตัวแปรตาม Y

การวิเคราะห์การถดถอยเชิงเส้นพหุคูณ

ในแบบจำลอง การถดถอยเชิงเส้นพหุคูณ มีตัวแปรอิสระอย่างน้อยสองตัวรวมอยู่ด้วย กล่าวอีกนัยหนึ่ง การถดถอยเชิงเส้นพหุคูณช่วยให้ตัวแปรอธิบายหลายตัวเชื่อมโยงเชิงเส้นตรงกับตัวแปรตอบสนองได้ ดังนั้น สมการสำหรับแบบจำลองการถดถอยเชิงเส้นพหุคูณคือ:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

ทอง:

  • y

    เป็นตัวแปรตาม

  • x_i

    คือตัวแปรอิสระ i

  • \beta_0

    คือค่าคงที่ของสมการการถดถอยเชิงเส้นพหุคูณ

  • \beta_i

    คือค่าสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปร

    x_i

    .

  • \bm{\varepsilon}

    คือข้อผิดพลาดหรือค่าตกค้าง กล่าวคือ ความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่ประเมินโดยแบบจำลอง

  • m

    คือจำนวนตัวแปรทั้งหมดในโมเดล

แล้วถ้าเรามีตัวอย่างที่มีผลรวมเป็น

n

จากการสังเกต เราสามารถวางโมเดลการถดถอยเชิงเส้นพหุคูณในรูปแบบเมทริกซ์ได้:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

นิพจน์เมทริกซ์ด้านบนสามารถเขียนใหม่ได้โดยกำหนดตัวอักษรให้กับแต่ละเมทริกซ์:

Y=X\beta+\varepsilon

ดังนั้น เมื่อใช้เกณฑ์กำลังสองน้อยที่สุด เราจะได้ สูตรเพื่อประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอยเชิงเส้นพหุคูณ :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

อย่างไรก็ตาม การใช้สูตรนี้ต้องใช้ความพยายามมากและใช้เวลานาน ซึ่งเป็นเหตุผลว่าทำไมในทางปฏิบัติจึงแนะนำให้ใช้ซอฟต์แวร์คอมพิวเตอร์ (เช่น Minitab หรือ Excel) ซึ่งช่วยให้การสร้างแบบจำลองการถดถอยพหุคูณทำได้รวดเร็วยิ่งขึ้น

การวิเคราะห์การถดถอยแบบไม่เชิงเส้น

ในสถิติ การถดถอยแบบไม่เชิงเส้น เป็นรูปแบบหนึ่งของการถดถอยที่ใช้ฟังก์ชันไม่เชิงเส้นเป็นแบบจำลองของสมการถดถอย ดังนั้นสมการของแบบจำลองการถดถอยแบบไม่เชิงเส้นจึงเป็นฟังก์ชันที่ไม่เชิงเส้น

ตามตรรกะแล้ว การถดถอยแบบไม่เชิงเส้นจะใช้เพื่อเชื่อมโยงตัวแปรอิสระกับตัวแปรตาม เมื่อความสัมพันธ์ระหว่างตัวแปรทั้งสองไม่เป็นเชิงเส้น ดังนั้น หากเมื่อสร้างกราฟข้อมูลตัวอย่าง เราสังเกตว่าข้อมูลเหล่านั้นไม่มีความสัมพันธ์เชิงเส้น กล่าวคือ ข้อมูลเหล่านั้นไม่ได้สร้างเป็นเส้นตรงโดยประมาณ ควรใช้แบบจำลองการถดถอยแบบไม่เชิงเส้นจะดีกว่า

ตัวอย่างเช่น สมการ y=3-5x-8x 2 +x 3 เป็นแบบจำลองการถดถอยแบบไม่เชิงเส้น เนื่องจากสมการนี้เชื่อมโยงตัวแปรอิสระ X ในทางคณิตศาสตร์กับตัวแปรตาม Y ผ่านฟังก์ชันลูกบาศก์

การถดถอยแบบไม่เชิงเส้นมีสามประเภท หลักๆ :

  • การถดถอยพหุนาม – การถดถอยแบบไม่เชิงเส้นซึ่งมีสมการอยู่ในรูปของพหุนาม
  • y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m

  • การถดถอยลอการิทึม – การถดถอยแบบไม่เชิงเส้นซึ่งมีตัวแปรอิสระเป็นลอการิทึม
  • y=\beta_0+\beta_1\cdot \ln(x)

  • การถดถอยเอ็กซ์โปเนนเชียล – การถดถอยแบบไม่เชิงเส้นซึ่งมีตัวแปรอิสระอยู่ในเลขชี้กำลังของสมการ
  • y=\beta_0\cdot e^{\beta_1\cdot x}

การวิเคราะห์การถดถอยใช้ทำอะไร?

โดยพื้นฐานแล้ว การวิเคราะห์การถดถอยมีประโยชน์สองประการ: การวิเคราะห์การถดถอยใช้เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง และในทำนองเดียวกัน การวิเคราะห์การถดถอยใช้ในการทำนายค่าของตัวแปรตามสำหรับการสังเกตใหม่

เมื่อได้สมการของแบบจำลองการถดถอย เราก็สามารถรู้ได้ว่าตัวแปรในแบบจำลองมีความสัมพันธ์แบบใด หากค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระเป็นบวก ตัวแปรตามจะเพิ่มขึ้นเมื่อเพิ่มขึ้น ในขณะที่ถ้าค่าสัมประสิทธิ์การถดถอยของตัวแปรอิสระเป็นลบ ตัวแปรตามจะลดลงเมื่อเพิ่มขึ้น

ในทางกลับกัน สมการทางคณิตศาสตร์ที่ได้จากการวิเคราะห์การถดถอยยังช่วยให้เราสามารถทำนายค่าได้อีกด้วย ดังนั้นโดยการแนะนำค่าของตัวแปรอธิบายลงในสมการของแบบจำลองการถดถอย เราสามารถคำนวณค่าของตัวแปรตามสำหรับข้อมูลชิ้นใหม่ได้

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *