如何使用线性回归进行预测
线性回归是一种可以用来量化一个或多个预测变量与响应变量之间关系的方法。
拟合回归模型的最常见原因之一是使用模型来预测新观测值。
我们使用以下步骤通过回归模型进行预测:
- 第 1 步:收集数据。
- 步骤 2:将回归模型拟合到数据。
- 步骤 3:验证模型是否适合数据。
- 步骤4:使用拟合的回归方程来预测新观测值的值。
以下示例展示了如何使用回归模型进行预测。
示例 1:使用简单的线性回归模型进行预测
假设一名医生收集了 50 名患者的身高(英寸)和体重(磅)数据。
然后,它使用“体重”作为预测变量,“身高”作为响应变量来拟合一个简单的线性回归模型。
拟合的回归方程为:
尺寸 = 32.7830 + 0.2001*(重量)
在验证线性回归模型的假设得到满足后,医生得出结论,该模型与数据拟合良好。
然后,它可以使用该模型根据新患者的体重来预测他们的身高。
例如,假设一名新患者体重 170 磅。使用该模型,我们预测该患者的身高为 66.8 英寸:
高度 = 32.7830 + 0.2001*(170) = 66.8 英寸
示例 2:使用多元线性回归模型进行预测
假设一位经济学家收集 30 人的总受教育年限、每周工作时间和年收入数据。
然后,使用“总受教育年限”和“每周工作时间”作为预测变量,“年收入”作为响应变量,拟合多元线性回归模型。
拟合的回归方程为:
收入 = 1,342.29 + 3,324.33*(受教育年限)+ 765.88*(每周工作时间)
在验证线性回归模型的假设得到满足后,经济学家得出结论,该模型与数据拟合良好。
然后,它可以使用该模型根据新个人的总教育年限和每周工作时间来预测新个人的年收入。
例如,假设一个新人总共受过 16 年的教育,平均每周工作 40 小时。使用该模型,我们预测此人的年收入为 85,166.77 美元:
收入 = 1,342.29 + 3,324.33*(16) + 765.88*(45) = $85,166.77
关于置信区间的使用
当您使用回归模型对新观测值进行预测时,回归模型预测的值称为点估计。
尽管点估计代表了我们对新观测值的最佳估计,但它不太可能与新观测值完全匹配。
因此,为了捕捉这种不确定性,我们可以创建一个置信区间——可能包含具有一定置信水平的总体参数的一系列值。
例如,我们可以创建以下置信区间,而不是预测一个新个体的身高为 66.8 英寸:
95% 置信区间 = [64.8 英寸, 68.8 英寸]
我们将此区间解释为意味着我们 95% 确定此人的实际身高在 64.8 英寸到 68.8 英寸之间。
进行预测时应采取的预防措施
使用回归模型进行预测时请记住以下几点:
1. 仅使用模型在用于估计回归模型的数据范围内进行预测。
例如,假设我们使用预测变量“体重”拟合回归模型,并且我们用于估计模型的样本中个体的体重在 120 到 180 磅之间。
使用该模型来估计体重 200 磅的个体的身高是无效的,因为这超出了我们用于估计模型的预测变量的范围。
在 120 至 180 磅范围之外,体重和身高之间的关系可能会有所不同。因此,我们不应该使用该模型来估计体重 200 磅的人的身高。
2. 仅使用模型对您抽样的总体进行预测。
例如,假设经济学家从居住在特定城市的所有人的样本中抽取人口。
我们应该只使用拟合回归模型来预测该城市个人的年收入,因为用于拟合模型的整个样本都居住在该城市。