如何在 excel 中创建虚拟变量(分步)
虚拟变量是我们在回归分析中创建的一种变量,以便我们可以将分类变量表示为采用两个值之一的数值变量:零或一。
例如,假设我们有以下数据集,并希望使用年龄和婚姻状况来预测收入:
要将婚姻状况用作回归模型中的预测变量,我们需要将其转换为虚拟变量。
由于目前这是一个可以采用三个不同值(“单身”、“已婚”或“离婚”)的分类变量,因此我们需要创建k -1 = 3-1 = 2 个虚拟变量。
要创建这个虚拟变量,我们可以将“Single”保留为基值,因为它最常出现。以下是我们如何将婚姻状况转换为虚拟变量:
本教程提供了一个分步示例,说明如何在 Excel 中为此精确数据集创建虚拟变量,然后使用这些虚拟变量作为预测变量执行回归分析。
第 1 步:创建数据
首先,我们在 Excel 中创建数据集:
第 2 步:创建虚拟变量
接下来,我们可以将A列和B列的值复制到E列和F列中,然后使用Excel中的IF()函数定义两个新的虚拟变量:Married和Divorced。
这是我们在单元格G2中使用的公式,我们将其复制到 G 列中的其余单元格:
= IF (C2 = "Married", 1, 0)
这是我们在单元格H2中使用的公式,我们将其复制到 H 列中的其余单元格:
= IF (C2 = "Divorced", 1, 0)
然后我们可以在回归模型中使用这些虚拟变量来预测收入。
步骤 3:执行线性回归
要执行多元线性回归,我们需要单击顶部功能区的“数据”选项卡,然后单击“分析”部分中的“数据分析”:
如果此选项不可用,您必须首先加载分析工具库。
在出现的窗口中,单击回归,然后单击确定。
接下来,填写以下信息并单击“确定” 。
这会产生以下结果:
从结果中我们可以看出拟合的回归线为:
收入 = 14,276.12 + 1,471.67*(年龄) + 2,479.75*(已婚) – 8,397.40*(离婚)
我们可以使用这个方程根据个人的年龄和婚姻状况找到其估计收入。例如,一个 35 岁已婚人士的估计收入为68,264 美元:
收入 = 14,276.12 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264
以下是如何解释表中的回归系数:
- 截距:截距代表零岁单身人士的平均收入。由于个体不可能为零岁,因此在这个特定的回归模型中单独解释截距本身是没有意义的。
- 年龄:年龄每增加一年,收入平均增加 1,471.67 美元。由于 p 值 (0.004) 小于 0.05,因此年龄是统计上显着的收入预测因子。
- 已婚:已婚人士的平均收入比单身人士多 2,479.75 美元。由于 p 值 (0.800) 不小于 0.05,因此这种差异在统计上不显着。
- 离婚:离婚者的平均收入比单身者少 8,397.40 美元。由于 p 值 (0.532) 不小于 0.05,因此这种差异在统计上不显着。
由于这两个虚拟变量在统计上都不显着,因此我们可以从模型中删除婚姻状况作为预测因子,因为它似乎不会增加收入的预测价值。
其他资源
如何在 Excel 中执行简单线性回归
如何在 Excel 中计算残差平方和
如何在 Excel 中执行多项式回归
如何在 Excel 中创建残差图