7 种常见的回归类型(以及何时使用它们)
回归分析是统计学中最常用的技术之一。
回归分析的基本目标是拟合一个最能描述一个或多个预测变量与响应变量之间关系的模型。
在本文中,我们分享了现实生活中 7 种最常用的回归模型,以及何时使用每种类型的回归。
1. 线性回归
线性回归用于拟合描述一个或多个预测变量与数值响应变量之间关系的回归模型。
使用时:
- 预测变量和响应变量之间的关系相当线性。
- 响应变量是连续数值变量。
示例:零售公司可以使用广告支出拟合线性回归模型来预测总销售额。
由于这两个变量之间的关系可能是线性的(花在广告上的钱通常会带来更多的销售额),并且响应变量(总销售额)是连续数值变量,因此调整线性回归模型是有意义的。
资源:多元线性回归简介
2.逻辑回归
逻辑回归用于拟合描述一个或多个预测变量与二元响应变量之间关系的回归模型。
使用时:
- 响应变量是二进制的:它只能采用两个值。
示例:医学研究人员可以使用运动和吸烟习惯拟合逻辑回归模型来预测个人心脏病发作的可能性。
由于响应变量(心脏病发作)是二元的(个体要么经历心脏病发作,要么没有心脏病发作),因此适合拟合逻辑回归模型。
资源:逻辑回归简介
3. 多项式回归
多项式回归用于拟合描述一个或多个预测变量与数值响应变量之间关系的回归模型。
使用时:
- 预测变量和响应变量之间的关系是非线性的。
- 响应变量是连续数值变量。
示例:心理学家可以使用“工作时间”拟合多项式回归来预测某个行业员工的“整体幸福感”。
这两个变量之间的关系可能是非线性的。也就是说,随着工作时间的增加,个人可能会报告更大的幸福感,但超过一定的工作时间后,整体幸福感可能会下降。由于预测变量和响应变量之间的关系是非线性的,因此拟合多项式回归模型是有意义的。
资源:多项式回归简介
4.岭回归
岭回归用于拟合描述一个或多个预测变量与数值响应变量之间关系的回归模型。
使用时:
- 预测变量高度相关, 多重共线性成为一个问题。
- 响应变量是连续数值变量。
示例:篮球数据科学家可能会使用得分、助攻和篮板等预测变量来拟合岭回归模型,以预测球员的薪资。
预测变量可能是高度相关的,因为更好的球员往往有更多的得分、助攻和篮板。因此,多重共线性很可能是一个问题,因此我们可以通过使用岭回归来最小化这个问题。
资源:岭回归简介
5. 套索回归
Lasso 回归与 Ridge 回归非常相似,用于拟合描述一个或多个预测变量与数值响应变量之间关系的回归模型。
使用时:
- 预测变量高度相关, 多重共线性成为一个问题。
- 响应变量是连续数值变量。
示例:经济学家可能会使用总受教育年限、工作时间和生活成本等预测变量来拟合套索回归模型来预测家庭收入。
预测变量可能高度相关,因为受教育程度较高的人也往往生活在生活成本较高的城市,工作时间也较长。因此,多重共线性很可能是一个问题,因此我们可以通过使用套索回归来最小化这个问题。
请注意,Lasso 回归和 Ridge 回归非常相似。当数据集中存在多重共线性问题时,建议同时拟合 Lasso 和 Ridge 回归模型,看看哪个模型效果最好。
资源:套索回归简介
6.泊松回归
泊松回归用于拟合描述一个或多个预测变量与响应变量之间关系的回归模型。
使用时:
- 响应变量是“计数”数据——例如每周晴天数、每年道路事故数量、每天拨打的电话数量等。
示例:大学可以使用泊松回归,根据进入特定大学课程时的 GPA 和性别来检查从特定大学课程毕业的学生人数。
在这种情况下,由于响应变量是计数数据(我们可以“统计”毕业学生的数量——200、250、300、413等),因此使用泊松回归是合适的。
资源:泊松回归简介
7. 分位数回归
分位数回归用于拟合描述一个或多个预测变量与响应变量之间关系的回归模型。
使用时:
- 我们想要估计响应变量的特定分位数或百分位数 – 例如第 90 个百分位数、第 95 个百分位数等。
示例:教授可以使用分位数回归根据学习小时数来预测预期的 90% 考试成绩:
在这种情况下,由于教授想要预测响应变量(考试分数)的特定百分位数,因此使用分位数回归是合适的。
资源:分位数回归简介
其他资源
现实生活中使用线性回归的 4 个示例
现实生活中使用逻辑回归的 4 个示例
方差分析与回归:有什么区别?
完整指南:如何报告回归结果