如何阅读和解释回归表
在统计学中, 回归是一种可用于分析预测变量和响应变量之间关系的技术。
当您使用软件(如 R、SAS、SPSS 等)执行回归分析时,您将收到总结回归结果的回归表作为输出。了解如何阅读此表非常重要,这样您才能了解回归分析的结果。
本教程展示了回归分析的示例,并详细说明了如何读取和解释回归表的结果。
回归的例子
假设我们有以下数据集,显示 12 名不同学生的学习总时数、参加的预科考试总数以及期末考试成绩:
为了分析学习时间和准备考试与学生获得的期末考试成绩之间的关系,我们使用学习时间和准备考试作为预测变量,并将最终考试成绩作为响应变量进行多元线性回归。
我们收到以下结果:
检查模型拟合
第一部分显示了衡量回归模型拟合度的几个不同数字,即回归模型能够“拟合”数据集的程度。
以下是如何解释本节中的每个数字:
几卢比
这就是相关系数。它衡量预测变量和响应变量之间线性关系的强度。 R 倍数为 1 表示完美线性关系,而 R 倍数为 0 表示没有线性关系。 R 的倍数是 R 平方的平方根(见下文)。
在此示例中,倍数 R 为 0.72855 ,这表明预测变量的学习时间和准备考试与响应变量的期末考试成绩之间存在相当强的线性关系。
R平方
这通常写为r2 ,也称为决定系数。这是响应变量中可由预测变量解释的方差比例。
R 平方值的范围为 0 到 1。值 0 表示响应变量根本无法由预测变量解释。值为 1 表示响应变量可以由预测变量完美解释,没有错误。
在此示例中, R 平方为 0.5307 ,这表明期末考试成绩中 53.07% 的差异可以通过学习时数和过去模拟考试的次数来解释。
相关: 什么是好的 R 平方值?
调整后的 R 平方
这是 R 平方的修改版本,已根据模型中预测变量的数量进行了调整。它总是小于 R 平方。调整后的 R 平方可用于比较不同回归模型之间的拟合度。
在此示例中,调整后的 R 平方为 0.4265。
回归的标准误差
回归的标准误差是观测值与回归线之间的平均距离。在本例中,观测值与回归线平均偏差 7.3267 个单位。
相关: 了解回归的标准误差
评论
这只是我们数据集中的观察数量。在此示例中,观测值总数为 12 。
检验回归模型的整体显着性
以下部分显示回归模型的自由度、平方和、均方、F 统计量和整体显着性。
以下是如何解释本节中的每个数字:
回归自由度
这个数字等于:回归系数的数量 – 1。在这个例子中,我们有一个原始项和两个预测变量,所以我们总共有三个回归系数,这意味着回归的自由度是 3 – 1 = 2 。
总自由度
该数字等于:观测值数量 – 1。在本示例中,我们有 12 个观测值,因此自由度总数为 12 – 1 = 11 。
剩余自由度
该数字等于:总 df – 回归 df。在此示例中,剩余自由度为11 – 2 = 9 。
均方
回归均方通过 SS 回归/df 回归计算。在此示例中,回归 MS = 546.53308 / 2 = 273.2665 。
残差均方通过残差 SS/残差 df 计算。在此示例中,残余 MS = 483.1335 / 9 = 53.68151 。
F统计量
f 统计量计算为 MS 回归/MS 残差。该统计数据表明回归模型是否比不包含自变量的模型更适合数据。
本质上,它测试整个回归模型是否有用。一般来说,如果模型中的预测变量均不具有统计显着性,则总体 F 统计量也不具有统计显着性。
在此示例中, F 统计量为 273.2665 / 53.68151 = 5.09 。
F的重要性(P值)
表中的最后一个值是与 F 统计量相关的 p 值。要查看整体回归模型是否显着,您可以将 p 值与显着性水平进行比较;常见选择为 0.01、0.05 和 0.10。
如果 p 值低于显着性水平,则有足够的证据可以得出结论,回归模型比没有预测变量的模型更好地拟合数据。这个结果是积极的,因为它意味着模型的预测变量实际上改善了模型的拟合度。
在此示例中, p 值为 0.033 ,低于常见显着性水平 0.05。这表明回归模型作为一个整体具有统计显着性,即该模型比没有预测变量的模型更好地拟合数据。
检验回归模型的整体显着性
最后部分介绍回归模型中每一项的系数估计值、估计值的标准误差、t 统计量、p 值和置信区间。
以下是如何解释本节中的每个数字:
系数
这些系数为我们提供了编写估计回归方程所需的数字:
y帽子= b 0 + b 1 x 1 + b 2 x 2 。
在本例中,估计回归方程为:
期末考试成绩=66.99+1.299(学习时间)+1.117(预备考试)
假设所有其他预测变量保持不变,每个单独的系数都被解释为给定预测变量每增加一个单位,响应变量的平均增量。例如,假设准备考试的数量保持不变,每多学习一小时,期末考试分数的预期平均增长为 1,299 分。
截距被解释为零学时且不参加预科考试的学生期末考试的预期平均成绩。在此示例中,如果学生学习时间为零且不参加任何准备考试,则预计得分为 66.99。解释回归结果的截距时要小心,因为这样做并不总是有意义。
例如,在某些情况下,截距可能会变成负数,这通常没有明显的解释。这并不意味着模型是错误的,它只是意味着拦截本身不应该被解释为任何含义。
标准误差、t 统计量和 p 值
标准误差是对每个变量的系数估计的不确定性的度量。
t-stat 只是系数除以标准误差。例如,学习时间的 t 统计量为 1.299 / 0.417 = 3.117。
下一列显示与 t 统计相关的 p 值。这个数字告诉我们给定的响应变量在模型中是否显着。在此示例中,我们看到学习时间的 p 值为 0.012,准备考试的 p 值为 0.304。这表明,与练习考试不同,学习时间是期末考试成绩的重要预测因素。
系数估计的置信区间
表的最后两列提供了系数估计值的 95% 置信区间的下限和上限。
例如,学习时间的系数估计值为 1.299,但该估计值存在一些不确定性。我们永远无法确定这是否是准确的系数。因此,95% 的置信区间为我们提供了真实系数的一系列可能值。
在本例中,学习时间的 95% 置信区间为 (0.356, 2.24)。请注意,这个置信区间不包含数字“0”,这意味着我们完全确定学习时间系数的真实值不为零,即正数。
相比之下,预备考试的 95% 置信区间为 (-1.201, 3.436)。请注意,该置信区间包含数字“0”,这意味着预科考试的系数的真实值可能为零,即对期末考试的结果预测不显着。