多元线性回归简介
当我们想要了解单个预测变量和响应变量之间的关系时,我们经常使用简单线性回归。
但是,如果我们想了解多个预测变量和响应变量之间的关系,我们可以使用多元线性回归。
如果我们有p 个预测变量,则多元线性回归模型采用以下形式:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
金子:
- Y :响应变量
- X j :第 j个预测变量
- β j :在保持所有其他预测变量不变的情况下,X j增加 1 个单位对 Y 的平均影响
- ε :误差项
β 0 , β 1 , B 2 , …, β p的值使用最小二乘法选择,该方法最小化残差平方和 (RSS):
RSS = Σ(y i – ŷ i ) 2
金子:
- Σ :希腊符号,意思是和
- y i :第 i 个观测值的实际响应值
- ŷ i :基于多元线性回归模型的预测响应值
用于查找与矩阵代数相关的这些系数估计的方法,我们不会在这里详细介绍。幸运的是,任何统计软件都可以为您计算这些系数。
如何解释多元线性回归输出
假设我们使用预测变量、学习时间和参加的准备考试以及答案变量考试分数来拟合多元线性回归模型。
以下屏幕截图显示了该模型的多元线性回归结果可能是什么样子:
注意:下面的屏幕截图显示了Excel 的多元线性回归输出,但输出中显示的数字是您使用任何统计软件看到的典型回归输出。
根据模型结果,系数使我们能够形成估计的多元线性回归模型:
考试成绩 = 67.67 + 5.56*(小时) – 0.60*(预备考试)
解释系数的方法如下:
- 假设练习考试保持不变,学习时间每增加一个单位,考试成绩平均就会增加5.56分。
- 假设学习时数保持不变,准备考试每增加一个单位,考试成绩就会平均下降0.60分。
我们还可以使用此模型根据学习的总时数和参加的准备考试来确定学生将获得的预期考试成绩。例如,学习 4 小时并参加 1 次预备考试的学生应获得89.31的考试成绩:
考试成绩 = 67.67 + 5.56*(4) -0.60*(1) = 89.31
以下是解释模型结果的其余部分的方法:
- R 方:这称为决定系数。它是响应变量的方差可以被解释变量解释的比例。在此示例中,73.4% 的考试成绩差异是由学习时数和参加的准备考试次数来解释的。
- 标准误差:这是观测值与回归线之间的平均距离。在此示例中,观测值与回归线平均偏差 5,366 个单位。
- F:这是回归模型的总体 F 统计量,计算方式为回归 MS/残差 MS。
- F 含义:这是与总体 F 统计量相关的 p 值。这告诉我们回归模型作为一个整体是否具有统计显着性。换句话说,它告诉我们两个解释变量的组合是否与响应变量具有统计上显着的关联。在这种情况下,p 值小于 0.05,表明解释变量、学习时间和参加的准备考试相结合,与考试结果具有统计显着相关性。
- 系数的P值。各个 p 值告诉我们每个解释变量是否具有统计显着性。我们可以看到,学习时间具有统计显着性 (p = 0.00),而参加的预备考试 (p = 0.52) 在 α = 0.05 时不具有统计显着性。由于过去的预备考试在统计上不显着,我们最终可能决定将其从模型中删除。
如何评估多元线性回归模型的拟合度
通常使用两个数字来评估多元线性回归模型“拟合”数据集的程度:
1. R 平方:这是响应变量中可由预测变量解释的方差的比例。
R 平方值的范围为 0 到 1。值 0 表示响应变量根本无法由预测变量解释。值为 1 表示响应变量可以由预测变量完美解释,没有错误。
模型的 R 方越高,模型就越能拟合数据。
2.标准误差:这是观测值与回归线之间的平均距离。标准误差越小,模型就越能拟合数据。
如果我们想使用回归模型进行预测,回归的标准误差可能是比 R 平方更有用的指标,因为它让我们了解我们的预测在单位方面的准确性。
有关使用 R 平方与标准误差来评估模型拟合的优缺点的完整说明,请参阅以下文章:
多元线性回归假设
多元线性回归对数据做出四个关键假设:
1.线性关系:自变量x和因变量y之间存在线性关系。
2. 独立性:残差是独立的。特别是,时间序列数据中的连续残差之间不存在相关性。
3.同方差性:残差在x的每个水平上具有恒定的方差。
4. 正态性:模型残差呈正态分布。
有关如何检验这些假设的完整说明,请参阅 本文。
使用软件进行多元线性回归
以下教程提供了有关如何使用不同统计软件执行多元线性回归的分步示例:
如何在 R 中执行多元线性回归
如何在 Python 中执行多元线性回归
如何在 Excel 中执行多元线性回归
如何在 SPSS 中执行多元线性回归
如何在Stata中进行多元线性回归
如何在 Google 表格中执行线性回归