如何解释 r 中的回归输出

经过本杰明·安德森博 27 7 月, 2023 指导 0 条评论

为了在 R 中拟合线性回归模型，我们可以使用lm()命令。

为了显示回归模型的输出，我们可以使用summary()命令。

本教程解释如何解释 R 中回归输出的每个值。

示例：解释 R 中的回归输出

以下代码显示了如何使用hp 、 drat和wt作为预测变量以及mpg作为响应变量，将多元线性回归模型与集成mtcars数据集进行拟合：

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

以下是解释输出中每个值的方法：

称呼

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

本节让我们想起了回归模型中使用的公式。我们可以看到，我们使用mpg作为响应变量，使用hp 、 drat和wt作为预测变量。每个变量都来自名为mtcars的数据集。

残留物

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078

本部分显示回归模型残差分布的摘要。回想一下，残差是回归模型的观测值和预测值之间的差。

最小残差为-3.3598 ，中位残差为-0.5099 ，最大残差为5.7078 。

系数

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

此部分显示回归模型的估计系数。我们可以使用这些系数来形成以下估计回归方程：

英里/加仑 = 29.39 – 0.03*hp + 1.62*drat – 3.23*重量

对于每个预测变量，我们收到以下值：

估计：估计系数。这告诉我们，假设所有其他预测变量保持不变，则与预测变量增加一单位相关的响应变量的平均增加量。

标准。误差：这是系数的标准误差。这是我们对系数估计的不确定性的衡量。

t 值：这是预测变量的 t 统计量，计算公式为（估计值）/（标准误差）。

Pr(>|t|)：这是对应于 t 统计量的 p 值。如果该值低于某个 alpha 水平（例如 0.05），则认为预测变量具有统计显着性。

如果我们使用 α = 0.05 的 alpha 水平来确定哪些预测变量在此回归模型中显着，我们会说hp和wt是统计上显着的预测变量，而drat则不是。

模型充分性评估

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

最后一部分显示了各种数字，可帮助我们评估回归模型与数据集的拟合程度。

残差标准误差：这告诉我们观测值与回归线之间的平均距离。值越小，回归模型对数据的拟合效果越好。

自由度计算为 nk-1，其中 n = 观测值总数，k = 预测变量数。在此示例中，mtcars 有 32 个观测值，我们在回归模型中使用了 3 个预测变量，因此自由度为 32 – 3 – 1 = 28。

多重 R 平方：这称为决定系数。它告诉我们响应变量中的方差有多少可以由预测变量来解释。

该值的范围从 0 到 1。越接近 1，预测变量就越能够预测响应变量的值。

调整后的 R 平方：这是 R 平方的修改版本，已根据模型中预测变量的数量进行了调整。它总是小于 R 平方。

调整后的 R 平方可用于比较使用不同数量的预测变量的不同回归模型的拟合度。

F 统计量：指示回归模型是否比不包含自变量的模型更适合数据。本质上，它测试整个回归模型是否有用。

p 值：这是对应于 F 统计量的 p 值。如果该值低于一定的显着性水平（例如 0.05），则回归模型比没有预测变量的模型更适合数据。

在构建回归模型时，我们希望该 p 值低于一定的显着性水平，因为它表明预测变量实际上可用于预测响应变量的值。

其他资源

如何在 R 中执行简单线性回归
 如何在 R 中执行多元线性回归
 什么是好的 R 平方值？

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

示例：解释 R 中的回归输出

称呼

残留物

系数

模型充分性评估

其他资源

关于作者

本杰明·安德森博

添加评论