Як інтерпретувати результат регресії в r


Щоб підігнати модель лінійної регресії в R, ми можемо використати команду lm() .

Щоб відобразити результат регресійної моделі, ми можемо використати команду summary() .

У цьому посібнику пояснюється, як інтерпретувати кожне значення результату регресії в R.

Приклад: інтерпретація результату регресії в R

У наведеному нижче коді показано, як узгодити модель множинної лінійної регресії з інтегрованим набором даних mtcars , використовуючи hp , drat і wt як змінні прогнозу та mpg як змінну відповіді:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Ось як інтерпретувати кожне значення у виводі:

Телефонуйте

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Цей розділ нагадує нам формулу, яку ми використовували в нашій моделі регресії. Ми бачимо, що ми використовували mpg як змінну відповіді та hp , drat і wt як змінні прогнозу. Кожна змінна походить із набору даних під назвою mtcars .

Залишок

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

У цьому розділі відображається зведення розподілу залишків регресійної моделі. Пам’ятайте, що залишок – це різниця між спостережуваним значенням і прогнозованим значенням регресійної моделі.

Мінімальний залишок становив -3,3598 , середній залишок становив -0,5099 , а максимальний залишок становив 5,7078 .

Коефіцієнти

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

У цьому розділі відображаються оцінені коефіцієнти регресійної моделі. Ми можемо використати ці коефіцієнти, щоб сформувати наступне розрахункове рівняння регресії:

mpg = 29,39 – 0,03*к.с. + 1,62*драт – 3,23*вага

Для кожної змінної предиктора ми отримуємо такі значення:

Оцінка: розрахунковий коефіц. Це говорить нам про середнє збільшення змінної відповіді, пов’язане зі збільшенням на одну одиницю змінної предиктора, припускаючи, що всі інші змінні предиктора залишаються постійними.

Стандартний. Помилка : це стандартна похибка коефіцієнта. Це міра невизначеності нашої оцінки коефіцієнта.

t-значення: це t-статистика для змінної предиктора, розрахована як (Оцінка) / (Стандартна помилка).

Pr(>|t|): це значення p, яке відповідає статистиці t. Якщо це значення нижче певного рівня альфа (наприклад, 0,05), прогностична змінна вважається статистично значущою.

Якби ми використовували альфа-рівень α = 0,05, щоб визначити, які предиктори були значущими в цій регресійній моделі, ми б сказали, що hp і wt є статистично значущими предикторами, а drat – ні.

Оцінка адекватності моделі

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

У цьому останньому розділі показано різні числа, які допомагають нам оцінити, наскільки регресійна модель відповідає нашому набору даних.

Залишкова стандартна помилка: це вказує нам середню відстань між спостережуваними значеннями та лінією регресії. Чим менше значення, тим краще регресійна модель відповідає даним.

Ступені свободи обчислюються як nk-1, де n = загальна кількість спостережень і k = кількість предикторів. У цьому прикладі mtcars має 32 спостереження, і ми використали 3 предиктори в регресійній моделі, тому ступені свободи становлять 32 – 3 – 1 = 28.

Кратний R-квадрат: це називається коефіцієнтом детермінації. Він говорить нам, яку частину дисперсії у змінній відповіді можна пояснити змінними предикторами.

Це значення коливається від 0 до 1. Чим ближче воно до 1, тим більше змінні предиктора здатні передбачити значення змінної відповіді.

Скоригований R-квадрат: це модифікована версія R-квадрату, яка була скоригована на основі кількості предикторів у моделі. Воно завжди менше R в квадраті.

Скоригований R-квадрат може бути корисним для порівняння відповідності різних регресійних моделей, які використовують різну кількість змінних предиктора.

F-статистика: вказує, чи регресійна модель забезпечує кращу відповідність даним, ніж модель, яка не містить незалежних змінних. По суті, він перевіряє, чи є регресійна модель у цілому корисною.

p-value: це p-value, що відповідає статистиці F. Якщо це значення нижче певного рівня значущості (наприклад, 0,05), то регресійна модель краще відповідає даним, ніж модель без предикторів.

Під час побудови регресійних моделей ми сподіваємося, що це значення p є нижчим за певний рівень значущості, оскільки це вказує на те, що змінні предиктора дійсно корисні для прогнозування значення змінної відповіді.

Додаткові ресурси

Як виконати просту лінійну регресію в R
Як виконати множинну лінійну регресію в R
Що таке хороше значення R-квадрат?

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *