Вступ до множинної лінійної регресії
Коли ми хочемо зрозуміти зв’язок між окремою змінною предиктором і змінною відповіді, ми часто використовуємо просту лінійну регресію .
Однак, якщо ми хочемо зрозуміти зв’язок між декількома змінними предикторів і змінною відповіді, ми можемо використати множинну лінійну регресію .
Якщо у нас є p змінних предикторів, то модель множинної лінійної регресії набуває вигляду:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
золото:
- Y : змінна відповіді
- X j : j- та прогнозна змінна
- β j : середній вплив на Y від збільшення X j на одну одиницю, утримуючи всі інші предиктори фіксованими
- ε : термін помилки
Значення β 0 , β 1 , B 2 , …, β p вибираються методом найменших квадратів , який мінімізує суму квадратів нев’язок (RSS):
RSS = Σ(y i – ŷ i ) 2
золото:
- Σ : грецький символ, що означає суму
- y i : фактичне значення відповіді для i-го спостереження
- ŷ i : прогнозоване значення відповіді на основі моделі множинної лінійної регресії
Метод, використаний для знаходження цих оцінок коефіцієнтів, пов’язаний на матричній алгебрі, і ми не будемо вдаватися в деталі тут. На щастя, будь-яке статистичне програмне забезпечення може розрахувати ці коефіцієнти за вас.
Як інтерпретувати результат множинної лінійної регресії
Припустімо, що ми підбираємо модель множинної лінійної регресії, використовуючи змінні-прогнози , кількість вивчених годин і складені підготовчі іспити , а також оцінку іспиту за змінною відповіді.
На наступному знімку екрана показано, як може виглядати результат множинної лінійної регресії для цієї моделі:
Примітка. На знімку екрана нижче показано вихідні дані множинної лінійної регресії для Excel , але цифри, показані у вихідних даних, є типовими для вихідних даних регресії, які ви побачите за допомогою будь-якого статистичного програмного забезпечення.
З результатів моделі коефіцієнти дозволяють нам сформувати оцінену модель множинної лінійної регресії:
Екзамен = 67,67 + 5,56*(годин) – 0,60*(підготовчі іспити)
Спосіб інтерпретації коефіцієнтів такий:
- Кожне додаткове збільшення кількості вивчених годин на одну одиницю пов’язане із середнім збільшенням оцінки іспиту на 5,56 балів, якщо припустити, що практичні іспити залишаються незмінними.
- Кожне додаткове збільшення кількості складених підготовчих іспитів на одну одиницю пов’язане зі зниженням оцінки іспиту в середньому на 0,60 бала, якщо припустити, що кількість вивчених годин залишається постійною.
Ми також можемо використовувати цю модель, щоб визначити очікувану оцінку іспиту, яку отримає студент на основі загальної кількості вивчених годин і складених підготовчих іспитів. Наприклад, студент, який навчається 4 години і складає 1 підготовчий іспит, повинен набрати іспитовий бал 89,31 :
Бал іспиту = 67,67 + 5,56*(4) -0,60*(1) = 89,31
Ось як інтерпретувати решту результатів моделі:
- R-квадрат: це називається коефіцієнтом детермінації. Це частка дисперсії змінної відповіді, яку можна пояснити пояснювальними змінними. У цьому прикладі 73,4% розбіжностей в результатах іспитів пояснюється кількістю вивчених годин і кількістю складених підготовчих іспитів.
- Стандартна похибка: це середня відстань між спостережуваними значеннями та лінією регресії. У цьому прикладі спостережувані значення відхиляються в середньому на 5366 одиниць від лінії регресії.
- F: це загальна F-статистика для моделі регресії, розрахована як MS регресії/залишкова MS.
- Значення F: це p-значення, пов’язане із загальною статистикою F. Це говорить нам про те, чи є модель регресії в цілому статистично значущою чи ні. Іншими словами, це повідомляє нам, чи дві пояснювальні змінні разом мають статистично значущий зв’язок зі змінною відповіді. У цьому випадку p-значення менше 0,05, що вказує на те, що пояснювальні змінні, вивчені години та складені підготовчі іспити разом мають статистично значущий зв’язок із результатом іспиту.
- P значення коефіцієнта. Індивідуальні p-значення говорять нам, чи є кожна пояснювальна змінна статистично значущою чи ні. Ми бачимо, що години навчання є статистично значущими (p = 0,00), тоді як складені підготовчі іспити (p = 0,52) не є статистично значущими при α = 0,05. Оскільки минулі підготовчі іспити не є статистично значущими, ми можемо вирішити видалити їх із моделі.
Як оцінити відповідність моделі множинної лінійної регресії
Зазвичай використовуються два числа, щоб оцінити, наскільки модель множинної лінійної регресії «відповідає» набору даних:
1. R-квадрат: це частка дисперсії у змінній відповіді , яку можна пояснити змінними предиктора.
Значення R-квадрат може коливатися від 0 до 1. Значення 0 вказує на те, що змінна відповіді взагалі не може бути пояснена змінною предиктора. Значення 1 вказує на те, що змінна відповіді може бути ідеально пояснена безпомилково змінною предиктора.
Чим вищий R-квадрат моделі, тим краще модель відповідає даним.
2. Стандартна похибка: це середня відстань між спостережуваними значеннями та лінією регресії. Чим менша стандартна помилка, тим краще модель відповідає даним.
Якщо ми хочемо робити прогнози за допомогою регресійної моделі, стандартну помилку регресії може бути більш корисним показником, ніж R-квадрат, оскільки він дає нам уявлення про те, наскільки точні наші прогнози в одиницях вимірювання.
Щоб отримати повне пояснення плюсів і мінусів використання R-квадрат порівняно зі стандартною помилкою для оцінки відповідності моделі, перегляньте наступні статті:
Припущення множинної лінійної регресії
Множинна лінійна регресія робить чотири ключові припущення щодо даних:
1. Лінійний зв’язок: існує лінійний зв’язок між незалежною змінною x і залежною змінною y.
2. Незалежність: Залишки є незалежними. Зокрема, немає кореляції між послідовними залишками в даних часових рядів.
3. Гомоскедастичність: залишки мають постійну дисперсію на кожному рівні x.
4. Нормальність: модельні залишки розподілені нормально.
Щоб отримати повне пояснення того, як перевірити ці гіпотези, перегляньте цю статтю .
Множинна лінійна регресія з використанням програмного забезпечення
У наступних посібниках наведено покрокові приклади виконання множинної лінійної регресії за допомогою різного статистичного програмного забезпечення:
Як виконати множинну лінійну регресію в R
Як виконати множинну лінійну регресію в Python
Як виконати множинну лінійну регресію в Excel
Як виконати множинну лінійну регресію в SPSS
Як виконати множинну лінійну регресію в Stata
Як виконати лінійну регресію в Google Таблицях