Як визначити значущі змінні в регресійних моделях
Одне з головних питань, яке ви поставите собі після підгонки моделі множинної лінійної регресії : які змінні є значущими?
Є два методи , якими не слід користуватися для визначення значення змінної:
1. Значення коефіцієнтів регресії
Коефіцієнт регресії для даної змінної предиктора повідомляє вам про середню зміну змінної відповіді, пов’язану зі збільшенням на одну одиницю цієї змінної предиктора.
Однак кожна змінна предиктора в моделі зазвичай вимірюється в іншому масштабі. Тому немає сенсу порівнювати абсолютні значення коефіцієнтів регресії, щоб визначити, які змінні є найбільш важливими.
2. p-значення коефіцієнтів регресії
P-значення коефіцієнтів регресії можуть сказати вам, чи має дана змінна предиктора статистично значущий зв’язок зі змінною відповіді, але вони не можуть сказати вам, чи дана змінна предиктора є практично значущою в реальному світі.
Значення P також можуть бути низькими через великий розмір вибірки або низьку варіабельність, що насправді не говорить нам про те, чи є дана змінна предиктора значущою на практиці.
Однак є два методи , які слід використовувати для визначення значення змінних:
1. Стандартизовані коефіцієнти регресії
Як правило, коли ми виконуємо множинну лінійну регресію, отримані коефіцієнти регресії в результатах моделі не є стандартизованими , тобто вони використовують необроблені дані для пошуку найкращої лінії.
Однак можна стандартизувати кожну змінну предиктора та змінну відповіді (шляхом віднімання середнього значення кожної змінної з вихідних значень, а потім розділивши його на стандартне відхилення змінних), а потім запустити регресію, яка призводить до стандартизовані коефіцієнти регресії .
Стандартизуючи кожну змінну в моделі, кожна змінна вимірюється в одній шкалі. Тому має сенс порівняти абсолютні значення коефіцієнтів регресії в результатах, щоб зрозуміти, які змінні мають найбільший вплив на змінну відповіді.
2. Предметна експертиза
Хоча p-значення можуть сказати вам, чи існує статистично значущий ефект між даною змінною предиктором і змінною відповіді, необхідна експертиза предмета, щоб підтвердити, чи змінна предиктора є справді релевантною та чи її дійсно потрібно включити в модель.
У наступному прикладі показано, як на практиці визначати значущі змінні в регресійній моделі.
Приклад: як визначити значущі змінні в регресійній моделі
Припустімо, що ми маємо наступний набір даних, що містить інформацію про вік, квадратні метри та ціну продажу 12 будинків:
Припустімо, що потім ми виконуємо множинну лінійну регресію, використовуючи вік і квадратний фут як змінні прогностики та ціну як змінну відповіді.
Отримуємо такий результат:
Коефіцієнти регресії в цій таблиці не стандартизовані , тобто вони використовували необроблені дані, щоб відповідати цій моделі регресії.
На перший погляд здається, що вік має набагато більший вплив на ціну нерухомості, оскільки його коефіцієнт у таблиці регресії дорівнює -409,833 порівняно з лише 100,866 для змінної прогнозу квадратних метрів .
Однак стандартна похибка набагато більша для віку, ніж для квадратних метрів, тому відповідне p-значення насправді велике для віку (p = 0,520) і мале для квадратних метрів (p = 0,000).
Причина екстремальних відмінностей у коефіцієнтах регресії полягає в екстремальних відмінностях у шкалах для двох змінних:
- Значення для віку коливаються від 4 до 44 років.
- Значення квадратних метрів коливаються від 1200 до 2800.
Припустімо, замість цього ми нормалізуємо необроблені дані:
Якщо ми потім виконаємо множинну лінійну регресію, використовуючи стандартизовані дані, ми отримаємо такий результат регресії:
Коефіцієнти регресії в цій таблиці стандартизовані , тобто вони використовували стандартизовані дані, щоб відповідати цій моделі регресії.
Спосіб інтерпретації коефіцієнтів у таблиці такий:
- Збільшення віку на одне стандартне відхилення пов’язане зі зниженням ціни на житло на 0,092 стандартного відхилення, припускаючи, що квадратні метри залишаються незмінними.
- Збільшення квадратних метрів на одне стандартне відхилення пов’язане зі збільшенням ціни будинку на 0,885 стандартного відхилення, якщо припустити, що вік залишається постійним.
Тепер ми бачимо, що площа має набагато більший вплив на ціни на житло, ніж вік.
Примітка : P-значення для кожної змінної предиктора точно такі ж, як і в попередній моделі регресії.
Вирішуючи, яку остаточну модель використовувати, ми тепер знаємо, що квадратні метри набагато важливіші для прогнозування ціни будинку, ніж його вік .
Зрештою, нам потрібно буде використати наш предметний досвід, щоб визначити, які змінні включити в остаточну модель на основі наявних знань про ціни на житло та нерухомість.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про регресійні моделі:
Як читати та інтерпретувати таблицю регресії
Як інтерпретувати коефіцієнти регресії
Як інтерпретувати значення P у лінійній регресії