什么是简约模型?
简约模型是使用尽可能少的解释变量来达到所需拟合水平的模型。
此类模型背后的推理源于 奥卡姆剃刀的思想(有时称为“简约原则”),该思想认为最简单的解释可能是正确的。
应用于统计学时,参数较少但拟合程度令人满意的模型应该优于参数较多且拟合程度稍高的模型。
有两个原因:
1.简约模型更容易解释和理解。参数较少的模型更容易理解和解释。
2. 简约模型往往具有更强的预测能力。参数较少的模型在应用于新数据时往往表现更好。
考虑以下两个例子来说明这些想法。
示例 1:简约模型 = 易于解释
假设我们想要使用一组与房地产相关的解释变量构建一个模型来预测房地产价格。考虑以下两个模型及其调整后的 R 平方:
型号1:
- 公式:房价 = 8,830 + 81*(平方英尺)
- 调整后的R2 : 0.7734
型号2:
- 公式:房价 = 8,921 + 77*(平方英尺)+ 7*(平方英尺) 2 – 9*(年龄)+ 600*(卧室)+ 38*(浴室)
- 调整后的R2 : 0.7823
第一个模型只有一个解释变量,调整后的R2为 0.7734,而第二个模型有五个解释变量,调整后的R2略高。
基于简约原则,我们更倾向于使用第一个模型,因为每个模型对房价变化的解释能力大致相同,但第一个模型更容易理解和解释。
例如,在第一个模型中,我们知道房屋面积增加一个单位与平均房价上涨 81 美元相关。很容易理解和解释。
然而,在第二个示例中,系数估计值更难以解释。例如,假设面积、房屋年龄和浴室数量保持不变,房屋中增加一个房间与房价平均上涨 600 美元相关。理解和解释要困难得多。
示例 2:简约模型 = 更好的预测
简约模型还倾向于对新数据集做出更准确的预测,因为它们不太可能过度拟合原始数据集。
一般来说,参数较多的模型会比参数较少的模型产生更紧的拟合和更高的 R 2值。不幸的是,在模型中包含太多参数可能会导致模型根据数据的噪声(或“随机性”)进行调整,而不是解释变量之间真正的潜在关系。和响应变量。
这意味着与参数较少的简单模型相比,具有许多参数的非常复杂的模型可能在以前从未见过的新数据集上表现不佳。
如何选择简约型号
可能有一整门课程专门讨论模型选择的主题,但本质上,选择简约模型意味着选择根据指标表现最佳的模型。
根据模型在训练数据集上的性能及其参数数量来评估模型的常用指标包括:
1. 赤池信息准则(AIC)
模型的 AIC 可以计算如下:
AIC = -2/n * LL + 2 * k/n
金子:
- n:训练数据集中的观测值数量。
- LL:训练数据集上模型的对数似然。
- k:模型中参数的数量。
使用这种方法,您可以计算每个模型的AIC,然后选择AIC值最低的模型作为最佳模型。
与下一种方法 BIC 相比,这种方法倾向于更复杂的模型。
2.贝叶斯信息准则(BIC)
模型的 BIC 可以计算如下:
BIC = -2 * LL + log(n) * k
金子:
- n:训练数据集中的观测值数量。
- log:自然对数(以 e 为底)
- LL:训练数据集上模型的对数似然。
- k:模型中参数的数量。
使用此方法,您可以计算每个模型的 BIC,然后选择 BIC 值最低的模型作为最佳模型。
与 AIC 方法相比,这种方法倾向于使用参数较少的模型。
3. 最小描述长度(MDL)
MDL 是一种评估信息论领域模型的方法。可以按下式计算:
MDL = L(h) + L(D | h)
金子:
- h:模型。
- D:模型做出的预测。
- L(h):表示模型所需的位数。
- L(D | h):表示模型对训练数据的预测所需的位数。
使用这种方法,您可以计算每个模型的MDL,然后选择MDL值最低的模型作为最佳模型。
根据您正在处理的问题类型,在选择简约模型时,可能会优先选择其中一种方法(AIC、BIC 或 MDL)。