回归方程

本文解释了什么是回归方程以及它的用途。同样,您将学习如何找到回归方程、解决练习,最后使用在线计算器来计算任何数据集的回归方程。

回归方程是什么?

回归方程是最适合点图的方程,即回归方程是一组数据的最佳近似。

回归方程的形式为 y=β 01 x,其中 β 0是方程的常数,β 1是方程的斜率。

y=\beta_0+\beta_1x

如果你看一下回归方程,它就是一条直线的方程。这意味着自变量 X 和因变量 Y 之间的关系被建模为线性关系,因为该线代表线性关系。

因此,回归方程允许我们在数学上将数据集的自变量和因变量联系起来。尽管回归方程通常不能精确确定每个观测值,但它仍然可以用来获得其值的近似值。

回归方程

正如您在上图中看到的,回归方程帮助我们了解数据集的趋势以及自变量和因变量之间存在什么类型的关系。

如何计算回归方程

一元线性回归方程系数的计算公式如下:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

金子:

  • \beta_0

    是回归方程的常数。

  • \beta_1

    是回归方程的斜率。

  • x_i

    是数据 i 的自变量 X 的值。

  • y_i

    是数据 i 的因变量 Y 的值。

  • \overline{x}

    是自变量值的平均值

  • \overline{y}

    是因变量 Y 值的平均值。

计算回归方程的示例

  • 在参加统计考试后,五名学生被问及他们在考试上花费了多少时间,数据如下表所示。根据收集的统计数据计算回归方程,将学习时间与获得的成绩线性相关。接下来,确定学习 8 小时的学生将获得什么成绩。

为了找到样本数据的回归方程,我们需要确定方程的系数 b 0和 b 1 ,为此,我们需要使用上一节中看到的公式。

然而,为了应用线性回归方程的公式,我们必须首先计算自变量的均值和因变量的均值:

\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}

现在我们知道了变量的均值,我们使用相应的公式计算模型的系数 β 1

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] \beta_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]\beta_1=0,4412\end{array}

最后,我们使用相应的公式计算模型的系数β 0

\begin{array}{l}\beta_0=\overline{y}-\beta_1\overline{x}\\[3ex]\beta_0=6-0,4412\cdot 9 \\[3ex]\beta_0=2,0294\end{array}

简而言之,问题的线性回归线方程如下:

y=2,0294+0,4412x

下面您可以看到样本数据的图形表示以及简单的线性回归模型方程:

线性回归线示例

一旦我们计算出回归方程,要预测学习 8 小时的学生将获得的成绩,只需将该值代入所得回归方程即可:

y=2,0294+0,4412\cdot 8=5,56

因此,根据所进行的线性回归模型,如果一个学生学习了八个小时,他的考试成绩将为5.56。

回归方程计算器

将示例数据插入下面的计算器以计算回归方程。您需要分离数据对,以便第一个框中只有自变量 X 的值,第二个框中只有因变量 Y 的值。

数据必须用空格分隔,并使用句点作为小数点分隔符输入。

  • 自变量

  • 因变量 Y:

多元线性回归方程

我们刚刚看到了什么是简单线性回归方程,但是,回归模型也可以是多元线性回归模型,其中包含两个或多个自变量。因此,多元线性回归使得将多个解释变量与响应变量线性联系起来成为可能。

多元线性回归模型的方程为:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

金子:

  • y

    是因变量。

  • x_i

    是自变量 i。

  • \beta_0

    是多元线性回归方程的常数。

  • \beta_i

    是与变量相关的回归系数

    x_i

  • \bm{\varepsilon}

    是误差或残差,即观测值与模型估计值之间的差异。

  • m

    是模型中变量的总数。

所以如果我们有一个样本总共

n

观察,我们可以以矩阵形式提出多元线性回归模型:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

上面的矩阵表达式可以通过为每个矩阵分配一个字母来重写:

Y=X\beta+\varepsilon

因此,通过应用最小二乘准则,我们可以得出估计多元线性回归方程系数的公式

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

然而,该公式的应用非常费力且耗时,这就是为什么在实践中建议使用计算机软件(例如Minitab或Excel),它可以更快地创建多元回归模型。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注