新闻统计数据是什么?
在统计学中,我们拟合回归模型有两个原因:
(2)根据一个或多个解释变量的值预测响应变量的值。
当我们的目标是(2)预测响应变量的值时,我们希望确保使用尽可能最佳的回归模型来执行此操作。
我们可以用来找到对新数据做出最佳预测的回归模型的一个指标是PRESS 统计量,它代表“预测残差平方和” 。
计算方法如下:
压力 = Σ(e i / (1-h ii )) 2
金子:
- e i :第 i个残基。
- h ii :第 i 个观测值对模型拟合的影响(也称为“杠杆”)的度量。
给定多个回归模型,应选择 PRESS 最低的模型作为在新数据集上表现最佳的模型。
以下示例演示如何计算 R 中三种不同线性回归模型的 PRESS 统计量。
示例:PRESS 统计数据的计算
假设我们有一个包含三个解释变量x1 、 x2和x3以及一个响应变量 y 的数据集:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
以下代码展示了如何使用lm()函数将三种不同的回归模型拟合到该数据集:
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
以下代码显示如何计算每个模型的 PRESS 统计量。
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
事实证明,PRESS 统计量最低的模型是模型 2,其 PRESS 统计量为519.6435 。因此,我们会选择最适合对新数据集进行预测的模型。