回归分析

经过本杰明·安德森博 8月 2, 2023 统计数据 0 条评论

本文解释了什么是回归分析以及它在统计学中的用途。此外，您将能够了解回归分析的不同类型。

什么是回归分析？

在统计学中，回归分析是研究两个或多个变量之间关系的过程。更具体地说，回归分析涉及计算一个方程，该方程以数学方式关联研究中的变量。

在回归分析中建立的模型称为回归模型，而将研究变量联系起来的方程称为回归方程。

例如，如果要研究一个国家的通货膨胀与其GDP之间的关系，可以进行回归分析来分析两个变量之间的关系。在这种情况下，从回归分析获得的方程将是回归线。

因此，回归分析包括收集数据样本，并根据收集的数据计算方程，使所研究的变量在数学上相关。

在回归分析中，区分回归模型中可以包含的两类变量非常重要：

因变量（或响应变量） ：这是我们要分析的因素，因此将建立回归模型来查看该变量的值如何根据其他变量的值而变化。
自变量（或解释变量） ：我们认为可能影响我们希望分析的变量的因素。也就是说，自变量的值影响因变量的值。

回归分析的类型

基本上，回归分析分为三种类型：

简单线性回归分析：回归模型有一个自变量和一个因变量，它们呈线性相关。
多元线性回归分析：两个或多个自变量与因变量线性相关。
非线性回归分析：使用非线性函数对自变量和因变量之间的关系进行建模。

简单线性回归分析

简单线性回归用于使用线性方程将自变量与两个变量相关联。

简单线性回归模型的方程是一条直线，因此它由两个系数组成：方程常数（β ₀ ）和两个变量之间的相关系数（β ₁ ）。因此，简单线性回归模型的方程为 y=β ₀ +β ₁ x。

$y=\beta_0+\beta_1x$

简单线性回归系数的计算公式如下：

$\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}$

金子：

$\beta_0$

是回归线的常数。
$\beta_1$

是回归线的斜率。
$x_i$

是数据 i 的自变量 X 的值。
$y_i$

是数据 i 的因变量 Y 的值。
$\overline{x}$

是自变量值的平均值
$\overline{y}$

是因变量 Y 值的平均值。

➤请参阅：简单线性回归

多元线性回归分析

在多元线性回归模型中，至少包含两个自变量。换句话说，多元线性回归允许多个解释变量与响应变量线性相关。因此，多元线性回归模型的方程为：

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

金子：

$y$

是因变量。
$x_i$

是自变量 i。
$\beta_0$

是多元线性回归方程的常数。
$\beta_i$

是与变量相关的回归系数

$x_i$

。
$\bm{\varepsilon}$

是误差或残差，即观测值与模型估计值之间的差异。
$m$

是模型中变量的总数。

所以如果我们有一个样本总共

$n$

观察，我们可以以矩阵形式提出多元线性回归模型：

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

上面的矩阵表达式可以通过为每个矩阵分配一个字母来重写：

$Y=X\beta+\varepsilon$

因此，通过应用最小二乘准则，我们可以得出估计多元线性回归模型系数的公式：

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

然而，该公式的应用非常费力且耗时，这就是为什么在实践中建议使用计算机软件（例如Minitab或Excel），它可以更快地创建多元回归模型。

➤请参阅：多元线性回归

非线性回归分析

在统计学中，非线性回归是一种使用非线性函数作为回归方程模型的回归。因此，非线性回归模型的方程是非线性函数。

从逻辑上讲，当两个变量之间的关系不是线性时，非线性回归用于将自变量与因变量相关联。因此，如果在绘制样本数据图表时我们观察到它们不具有线性关系，即它们不近似形成一条直线，那么最好“使用非线性回归模型”。

例如，方程 y=3-5x-8x ² +x ³是一个非线性回归模型，因为它通过三次函数在数学上将自变量 X 与因变量 Y 相关联。

非线性回归主要有三种类型：

多项式回归– 非线性回归，其方程采用多项式形式。

$y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m$

对数回归– 自变量对数化的非线性回归。

$y=\beta_0+\beta_1\cdot \ln(x)$

指数回归——非线性回归，其中自变量位于方程的指数中。

$y=\beta_0\cdot e^{\beta_1\cdot x}$

➤请参阅：非线性回归

回归分析有什么用？

回归分析基本上有两个用途：回归分析用于解释解释变量和响应变量之间的关系，类似地，回归分析用于预测新观测值的因变量值。

通过得到回归模型的方程，我们可以知道模型中的变量之间存在什么类型的关系。如果自变量的回归系数为正，则因变量随其增大而增大。如果自变量的回归系数为负，则因变量增大则减小。

另一方面，回归分析得到的数学方程也可以让我们进行价值预测。这样，通过将解释变量的值引入到回归模型的方程中，我们就可以计算出一条新数据的因变量的值。

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多