Як інтерпретувати результат регресії в excel
Множинна лінійна регресія є одним із найбільш часто використовуваних методів у всій статистиці.
У цьому підручнику пояснюється, як інтерпретувати кожне значення в результатах моделі множинної лінійної регресії в Excel.
Приклад: інтерпретація вихідних даних регресії в Excel
Припустімо, ми хочемо знати, чи впливає кількість годин, витрачених на навчання, і кількість складених підготовчих іспитів на оцінку, яку отримує студент на певному вступному іспиті до коледжу.
Щоб дослідити цей зв’язок, ми можемо виконати множинну лінійну регресію, використовуючи вивчені години та підготовчі іспити як змінні прогностики та оцінки за іспит як змінну відповіді.
На наступному знімку екрана показано результат регресії цієї моделі в Excel:
Ось як інтерпретувати найбільші значення у виводі:
Кратний R: 0,857 . Це являє собою множинну кореляцію між змінною відповіді та двома змінними предиктора.
Квадрат R: 0,734 . Це називається коефіцієнтом детермінації. Це частка дисперсії змінної відповіді, яку можна пояснити пояснювальними змінними. У цьому прикладі 73,4% розбіжностей в результатах іспитів пояснюється кількістю вивчених годин і кількістю складених підготовчих іспитів.
Скоригований квадрат R: 0,703 . Це значення R Square, скориговане на кількість змінних предиктора в моделі . Це значення також буде нижчим за значення квадрата R і буде карати моделі, які використовують занадто багато змінних предиктора в моделі.
Стандартна похибка: 5,366 . Це середня відстань між спостережуваними значеннями та лінією регресії. У цьому прикладі спостережувані значення відхиляються в середньому на 5366 одиниць від лінії регресії.
Коментарі: 20 . Загальний розмір вибірки набору даних, використаного для створення регресійної моделі.
П: 23:46 Це загальна F-статистика для регресійної моделі, розрахована як регресійна MS/залишкова MS.
Значення F: 0,0000 . Це p-значення, пов’язане із загальною статистикою F. Це говорить нам про те, чи є модель регресії в цілому статистично значущою чи ні.
У цьому випадку p-значення менше 0,05, що вказує на те, що пояснювальні змінні , години навчання та підготовчі іспити разом узяті , мають статистично значущий зв’язок із результатом іспиту .
Коефіцієнти: Коефіцієнти кожної пояснювальної змінної повідомляють нам очікувану середню зміну змінної відповіді, припускаючи, що інша пояснювальна змінна залишається постійною.
Наприклад, за кожну додаткову годину, витрачену на навчання, очікується, що середній бал іспиту збільшиться на 5,56 , припускаючи, що складені практичні іспити залишаються незмінними.
Ми інтерпретуємо коефіцієнт перехоплення так, що очікуваний іспитовий бал для студента, який навчається без годин і не складає підготовчих іспитів, становить 67,67 .
Р-значення. Індивідуальні p-значення говорять нам, чи є кожна пояснювальна змінна статистично значущою чи ні. Ми бачимо, що години навчання є статистично значущими (p = 0,00), тоді як складені підготовчі іспити (p = 0,52) не є статистично значущими при α = 0,05.
Як написати розрахункове рівняння регресії
Ми можемо використати коефіцієнти з вихідних даних моделі, щоб створити наступне оцінюване рівняння регресії:
Екзамен = 67,67 + 5,56*(годин) – 0,60*(підготовчі іспити)
Ми можемо використати це розраховане рівняння регресії, щоб обчислити очікуваний іспитовий бал для студента на основі кількості годин навчання та кількості практичних іспитів, які він складає.
Наприклад, студент, який займається три години і складає підготовчий іспит, повинен отримати оцінку 83,75 :
Бал іспиту = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Майте на увазі, що оскільки попередні підготовчі іспити не були статистично значущими (p=0,52), ми можемо вирішити їх видалити, оскільки вони не покращують загальну модель.
У цьому випадку ми могли б виконати просту лінійну регресію, використовуючи лише досліджувані години як пояснювальну змінну.
Додаткові ресурси
Вступ до простої лінійної регресії
Вступ до множинної лінійної регресії