如何解释 r 中的回归输出


为了在 R 中拟合 线性回归模型,我们可以使用lm()命令。

为了显示回归模型的输出,我们可以使用summary()命令。

本教程解释如何解释 R 中回归输出的每个值。

示例:解释 R 中的回归输出

以下代码显示了如何使用hpdratwt作为预测变量以及mpg作为响应变量,将多元线性回归模型与集成mtcars数据集进行拟合:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

以下是解释输出中每个值的方法:

称呼

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

本节让我们想起了回归模型中使用的公式。我们可以看到,我们使用mpg作为响应变量,使用hpdratwt作为预测变量。每个变量都来自名为mtcars的数据集。

残留物

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

本部分显示回归模型残差分布的摘要。回想一下,残差是回归模型的观测值和预测值之间的差。

最小残差为-3.3598 ,中位残差为-0.5099 ,最大残差为5.7078

系数

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

此部分显示回归模型的估计系数。我们可以使用这些系数来形成以下估计回归方程:

英里/加仑 = 29.39 – 0.03*hp + 1.62*drat – 3.23*重量

对于每个预测变量,我们收到以下值:

估计:估计系数。这告诉我们,假设所有其他预测变量保持不变,则与预测变量增加一单位相关的响应变量的平均增加量。

标准。误差:这是系数的标准误差。这是我们对系数估计的不确定性的衡量。

t 值:这是预测变量的 t 统计量,计算公式为(估计值)/(标准误差)。

Pr(>|t|):这是对应于 t 统计量的 p 值。如果该值低于某个 alpha 水平(例如 0.05),则认为预测变量具有统计显着性。

如果我们使用 α = 0.05 的 alpha 水平来确定哪些预测变量在此回归模型中显着,我们会说hpwt是统计上显着的预测变量,而drat则不是。

模型充分性评估

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

最后一部分显示了各种数字,可帮助我们评估回归模型与数据集的拟合程度。

残差标准误差:这告诉我们观测值与回归线之间的平均距离。值越小,回归模型对数据的拟合效果越好。

自由度计算为 nk-1,其中 n = 观测值总数,k = 预测变量数。在此示例中,mtcars 有 32 个观测值,我们在回归模型中使用了 3 个预测变量,因此自由度为 32 – 3 – 1 = 28。

多重 R 平方:这称为决定系数。它告诉我们响应变量中的方差有多少可以由预测变量来解释。

该值的范围从 0 到 1。越接近 1,预测变量就越能够预测响应变量的值。

调整后的 R 平方:这是 R 平方的修改版本,已根据模型中预测变量的数量进行了调整。它总是小于 R 平方。

调整后的 R 平方可用于比较使用不同数量的预测变量的不同回归模型的拟合度。

F 统计量:指示回归模型是否比不包含自变量的模型更适合数据。本质上,它测试整个回归模型是否有用。

p 值:这是对应于 F 统计量的 p 值。如果该值低于一定的显着性水平(例如 0.05),则回归模型比没有预测变量的模型更适合数据。

在构建回归模型时,我们希望该 p 值低于一定的显着性水平,因为它表明预测变量实际上可用于预测响应变量的值。

其他资源

如何在 R 中执行简单线性回归
如何在 R 中执行多元线性回归
什么是好的 R 平方值?

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注