Как интерпретировать результаты регрессии в r


Чтобы подогнать модель линейной регрессии в R, мы можем использовать команду lm() .

Чтобы отобразить выходные данные модели регрессии, мы можем использовать команду summary() .

В этом руководстве объясняется, как интерпретировать каждое значение выходных данных регрессии в R.

Пример. Интерпретация результатов регрессии в R

В следующем коде показано, как согласовать модель множественной линейной регрессии с интегрированным набором данных mtcars , используя hp , drat и wt в качестве переменных-предикторов и миль на галлон в качестве переменной ответа:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Вот как интерпретировать каждое значение в выводе:

Вызов

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Этот раздел напоминает нам формулу, которую мы использовали в нашей регрессионной модели. Мы видим, что мы использовали миль на галлон в качестве переменной ответа и hp , drat и wt в качестве переменных-предсказателей. Каждая переменная взята из набора данных mtcars .

Остатки

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

В этом разделе отображается сводная информация о распределении остатков регрессионной модели. Напомним, что остаток — это разница между наблюдаемым значением и прогнозируемым значением регрессионной модели.

Минимальный остаток составил -3,3598 , средний остаток -0,5099 , а максимальный остаток — 5,7078 .

Коэффициенты

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

В этом разделе отображаются расчетные коэффициенты регрессионной модели. Мы можем использовать эти коэффициенты для формирования следующего расчетного уравнения регрессии:

миль на галлон = 29,39 – 0,03*л.с. + 1,62*драт – 3,23*вес

Для каждой переменной-предиктора мы получаем следующие значения:

Оценка: расчетный коэффициент. Это говорит нам о среднем увеличении переменной ответа, связанном с увеличением переменной-предиктора на одну единицу, при условии, что все остальные переменные-предикторы остаются постоянными.

Стандарт. Ошибка : это стандартная ошибка коэффициента. Это мера неопределенности нашей оценки коэффициента.

Значение t: это t-статистика для переменной-предиктора, рассчитанная как (оценка) / (стандартная ошибка).

Pr(>|t|): это значение p, соответствующее статистике t. Если это значение ниже определенного альфа-уровня (например, 0,05), прогнозируемая переменная считается статистически значимой.

Если бы мы использовали уровень альфа α = 0,05, чтобы определить, какие предикторы были значимыми в этой регрессионной модели, мы бы сказали, что hp и wt являются статистически значимыми предикторами, а drat — нет.

Оценка адекватности модели

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

В этом последнем разделе представлены различные числа, которые помогают нам оценить, насколько хорошо модель регрессии соответствует нашему набору данных.

Остаточная стандартная ошибка: сообщает нам среднее расстояние между наблюдаемыми значениями и линией регрессии. Чем меньше значение, тем лучше регрессионная модель может соответствовать данным.

Степени свободы рассчитываются как nk-1, где n = общее количество наблюдений и k = количество предикторов. В этом примере mtcars имеет 32 наблюдения, и мы использовали 3 предиктора в модели регрессии, поэтому степени свободы составляют 32 – 3 – 1 = 28.

Множественный R-квадрат: это называется коэффициентом детерминации. Он говорит нам, какая часть дисперсии переменной ответа может быть объяснена переменными-предикторами.

Это значение варьируется от 0 до 1. Чем ближе оно к 1, тем больше переменных-предикторов способны предсказать значение переменной отклика.

Скорректированный R-квадрат: это модифицированная версия R-квадрата, скорректированная в зависимости от количества предикторов в модели. Оно всегда меньше R в квадрате.

Скорректированный R-квадрат может быть полезен для сравнения соответствия различных моделей регрессии, которые используют разное количество переменных-предикторов.

F-статистика: указывает, обеспечивает ли регрессионная модель лучшее соответствие данным, чем модель, не содержащая независимых переменных. По сути, он проверяет, полезна ли регрессионная модель в целом.

p-значение: это p-значение, соответствующее статистике F. Если это значение ниже определенного уровня значимости (например, 0,05), то модель регрессии лучше соответствует данным, чем модель без предикторов.

При построении регрессионных моделей мы надеемся, что это значение p ниже определенного уровня значимости, поскольку оно указывает на то, что переменные-предикторы действительно полезны для прогнозирования значения переменной ответа.

Дополнительные ресурсы

Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Что такое хорошее значение R-квадрата?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *