如何在 excel 中创建虚拟变量(分步)


虚拟变量是我们在回归分析中创建的一种变量,以便我们可以将分类变量表示为采用两个值之一的数值变量:零或一。

例如,假设我们有以下数据集,并希望使用年龄婚姻状况来预测收入

要将婚姻状况用作回归模型中的预测变量,我们需要将其转换为虚拟变量。

由于目前这是一个可以采用三个不同值(“单身”、“已婚”或“离婚”)的分类变量,因此我们需要创建k -1 = 3-1 = 2 个虚拟变量。

要创建这个虚拟变量,我们可以将“Single”保留为基值,因为它最常出现。以下是我们如何将婚姻状况转换为虚拟变量:

本教程提供了一个分步示例,说明如何在 Excel 中为此精确数据集创建虚拟变量,然后使用这些虚拟变量作为预测变量执行回归分析。

第 1 步:创建数据

首先,我们在 Excel 中创建数据集:

第 2 步:创建虚拟变量

接下来,我们可以将A列和B列的值复制到E列和F列中,然后使用Excel中的IF()函数定义两个新的虚拟变量:Married和Divorced。

Excel 中的虚拟变量

这是我们在单元格G2中使用的公式,我们将其复制到 G 列中的其余单元格:

 = IF (C2 = "Married", 1, 0)

这是我们在单元格H2中使用的公式,我们将其复制到 H 列中的其余单元格:

 = IF (C2 = "Divorced", 1, 0)

然后我们可以在回归模型中使用这些虚拟变量来预测收入。

步骤 3:执行线性回归

要执行多元线性回归,我们需要单击顶部功能区的“数据”选项卡,然后单击“分析”部分中的“数据分析”:

如果此选项不可用,您必须首先加载分析工具库

在出现的窗口中,单击回归,然后单击确定

接下来,填写以下信息并单击“确定”

Excel 中的回归虚拟变量

这会产生以下结果:

Excel 中的虚拟变量回归

从结果中我们可以看出拟合的回归线为:

收入 = 14,276.12 + 1,471.67*(年龄) + 2,479.75*(已婚) – 8,397.40*(离婚)

我们可以使用这个方程根据个人的年龄和婚姻状况找到其估计收入。例如,一个 35 岁已婚人士的估计收入为68,264 美元

收入 = 14,276.12 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264

以下是如何解释表中的回归系数:

  • 截距:截距代表零岁单身人士的平均收入。由于个体不可能为零岁,因此在这个特定的回归模型中单独解释截距本身是没有意义的。
  • 年龄:年龄每增加一年,收入平均增加 1,471.67 美元。由于 p 值 (0.004) 小于 0.05,因此年龄是统计上显着的收入预测因子。
  • 已婚:已婚人士的平均收入比单身人士多 2,479.75 美元。由于 p 值 (0.800) 不小于 0.05,因此这种差异在统计上不显着。
  • 离婚:离婚者的平均收入比单身者少 8,397.40 美元。由于 p 值 (0.532) 不小于 0.05,因此这种差异在统计上不显着。

由于这两个虚拟变量在统计上都不显着,因此我们可以从模型中删除婚姻状况作为预测因子,因为它似乎不会增加收入的预测价值。

其他资源

如何在 Excel 中执行简单线性回归
如何在 Excel 中计算残差平方和
如何在 Excel 中执行多项式回归
如何在 Excel 中创建残差图

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注