如何解释 r 中的回归输出
为了在 R 中拟合 线性回归模型,我们可以使用lm()命令。
为了显示回归模型的输出,我们可以使用summary()命令。
本教程解释如何解释 R 中回归输出的每个值。
示例:解释 R 中的回归输出
以下代码显示了如何使用hp 、 drat和wt作为预测变量以及mpg作为响应变量,将多元线性回归模型与集成mtcars数据集进行拟合:
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
以下是解释输出中每个值的方法:
称呼
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
本节让我们想起了回归模型中使用的公式。我们可以看到,我们使用mpg作为响应变量,使用hp 、 drat和wt作为预测变量。每个变量都来自名为mtcars的数据集。
残留物
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
本部分显示回归模型残差分布的摘要。回想一下,残差是回归模型的观测值和预测值之间的差。
最小残差为-3.3598 ,中位残差为-0.5099 ,最大残差为5.7078 。
系数
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
此部分显示回归模型的估计系数。我们可以使用这些系数来形成以下估计回归方程:
英里/加仑 = 29.39 – 0.03*hp + 1.62*drat – 3.23*重量
对于每个预测变量,我们收到以下值:
估计:估计系数。这告诉我们,假设所有其他预测变量保持不变,则与预测变量增加一单位相关的响应变量的平均增加量。
标准。误差:这是系数的标准误差。这是我们对系数估计的不确定性的衡量。
t 值:这是预测变量的 t 统计量,计算公式为(估计值)/(标准误差)。
Pr(>|t|):这是对应于 t 统计量的 p 值。如果该值低于某个 alpha 水平(例如 0.05),则认为预测变量具有统计显着性。
如果我们使用 α = 0.05 的 alpha 水平来确定哪些预测变量在此回归模型中显着,我们会说hp和wt是统计上显着的预测变量,而drat则不是。
模型充分性评估
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
最后一部分显示了各种数字,可帮助我们评估回归模型与数据集的拟合程度。
残差标准误差:这告诉我们观测值与回归线之间的平均距离。值越小,回归模型对数据的拟合效果越好。
自由度计算为 nk-1,其中 n = 观测值总数,k = 预测变量数。在此示例中,mtcars 有 32 个观测值,我们在回归模型中使用了 3 个预测变量,因此自由度为 32 – 3 – 1 = 28。
多重 R 平方:这称为决定系数。它告诉我们响应变量中的方差有多少可以由预测变量来解释。
该值的范围从 0 到 1。越接近 1,预测变量就越能够预测响应变量的值。
调整后的 R 平方:这是 R 平方的修改版本,已根据模型中预测变量的数量进行了调整。它总是小于 R 平方。
调整后的 R 平方可用于比较使用不同数量的预测变量的不同回归模型的拟合度。
F 统计量:指示回归模型是否比不包含自变量的模型更适合数据。本质上,它测试整个回归模型是否有用。
p 值:这是对应于 F 统计量的 p 值。如果该值低于一定的显着性水平(例如 0.05),则回归模型比没有预测变量的模型更适合数据。
在构建回归模型时,我们希望该 p 值低于一定的显着性水平,因为它表明预测变量实际上可用于预测响应变量的值。