如何测试回归斜率的显着性


假设我们有以下数据集,显示 12 套不同房屋的面积和价格:

简单线性回归示例

我们想知道平方英尺和价格之间是否存在显着关系。

为了了解数据的样子,我们首先创建一个散点图,其中 x 轴为平方英尺,y 轴为价格

简单线性回归散点图

我们可以清楚地看到面积和价格之间存在正相关关系。随着面积的增加,房屋的价格也趋于上涨。

然而,为了找出平方英尺和价格之间是否存在统计上显着的关系,我们需要运行一个简单的线性回归。

因此,我们使用平方英尺作为预测变量,使用价格作为响应来运行简单的线性回归,并得到以下结果:

简单线性回归输出

无论您在 Excel、SPSS、R 还是任何其他软件中运行简单线性回归,您都会得到与上图类似的结果。

请记住,简单的线性回归将产生最佳拟合线,这是最“拟合”散点图中数据的线的方程。这条最佳拟合线定义为:

ŷ = b 0 + b 1 x

其中 ŷ 是响应变量的预测值,b 0是截距,b 1是回归系数,x 是预测变量的值。

b 0的值由原点系数给出,即47588.70。

b 1的值由预测变量Square Feet的系数给出,即93.57。

所以本例中的最佳拟合线是ŷ = 47588.70+ 93.57x

以下是如何解释这条最佳拟合线:

  • b 0当平方英尺的值为零时,预期平均价格值为 47,588.70 美元。 (在这种情况下,解释截距实际上没有意义,因为房子永远不可能有零平方英尺)
  • b 1每增加一平方英尺,平均预期价格上涨为 93.57 美元。

因此,我们现在知道,每增加一平方英尺,平均预期价格上涨为 93.57 美元。

要了解这种增加是否具有统计显着性,我们需要对 B 1进行假设检验或构建 B 1的置信区间。

注意:假设检验和置信区间总是给出相同的结果。

构建回归斜率的置信区间

为了构建回归斜率的置信区间,我们使用以下公式:

置信区间 = b 1 +/- (t 1-∝/2, n-2 ) * (b 1的标准误差)

金子:

  • b 1是回归结果中给出的斜率系数
  • (t 1-∝/2, n-2 ) 是具有 n-2 自由度的 1-∝ 置信水平的临界 t 值,其中n是数据集中的观测总数
  • (b 1的标准误差) 是回归结果中给出的 b 1的标准误差

对于我们的示例,以下是如何构建 B 1的 95% 置信区间:

  • 回归输出的 b 1为 93.57。
  • 由于我们使用 95% 置信区间,∝ = 0.05 且 n-2 = 12-2 = 10,因此根据 t 分布表,t 0.975, 10为 2.228
  • b1的标准误差)是回归输出的 11.45

因此,B 1的 95% 置信区间为:

93.57 +/- (2.228) * (11.45) = (68.06, 119.08)

这意味着我们有 95% 的信心认为每增加平方英尺的真实平均价格涨幅在 68.06 美元至 119.08 美元之间。

请注意,0 美元不在此区间内,因此平方英尺和价格之间的关系在 95% 置信水平下具有统计显着性。

对回归斜率执行假设检验

要对回归斜率进行假设检验,我们遵循任何假设检验的五个标准步骤

步骤 1. 陈述假设。

原假设 (H0):B 1 = 0

备择假设:(Ha):B 1 ≠ 0

步骤 2. 确定要使用的显着性水平。

由于我们在上一个示例中构建了 95% 置信区间,因此我们将在此处使用等效方法并选择使用 0.05 的显着性水平。

步骤 3. 查找检验统计量和相应的 p 值。

在这种情况下,检验统计量为t = b 1的系数 / b 1的标准误差(具有 n-2 自由度)。我们可以从回归结果中找到这些值:

简单线性回归输出
因此,检验统计量t = 92.89 / 13.88 = 6.69。

使用分数为 6.69、自由度为 10 且双尾检验T 分数到 P 值计算器,p 值 = 0.000 。

步骤 4. 拒绝或不拒绝原假设。

由于 p 值低于显着性水平 0.05,因此我们拒绝原假设。

步骤 5. 解释结果。

由于我们拒绝了零假设,因此我们有足够的证据表明,每增加平方英尺的真实平均价格涨幅不为零。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注