Стандартизовані та нестандартизовані коефіцієнти регресії
Множинна лінійна регресія є корисним способом кількісного визначення зв’язку між двома чи більше змінними предикторами та змінною відповіді .
Як правило, коли ми виконуємо множинну лінійну регресію, отримані коефіцієнти регресії не є стандартизованими , тобто вони використовують необроблені дані для пошуку найкращої лінії.
Однак, коли прогностичні змінні вимірюються в радикально різних масштабах, може бути корисним виконати множинну лінійну регресію з використанням стандартизованих даних, що призводить до стандартизованих коефіцієнтів.
Щоб допомогти вам зрозуміти цю ідею, розглянемо простий приклад.
Приклад: стандартизовані та нестандартизовані коефіцієнти регресії
Припустімо, що ми маємо наступний набір даних, що містить інформацію про вік, квадратні метри та ціну продажу 12 будинків:
Припустімо, що потім ми виконуємо множинну лінійну регресію, використовуючи вік і квадратний фут як змінні прогностики та ціну як змінну відповіді.
Ось результат регресії :
Коефіцієнти регресії в цій таблиці не стандартизовані , тобто вони використовували необроблені дані, щоб відповідати цій моделі регресії. На перший погляд здається, що вік має набагато більший вплив на ціну нерухомості, оскільки його коефіцієнт у таблиці регресії дорівнює -409,833 порівняно з лише 100,866 для змінної прогнозу квадратних метрів .
Однак стандартна похибка набагато більша для віку, ніж для квадратних метрів, тому відповідне p-значення насправді велике для віку (p = 0,520) і мале для квадратних метрів (p = 0,000).
Причина екстремальних відмінностей у коефіцієнтах регресії полягає в екстремальних відмінностях у шкалах для двох змінних:
- Значення для віку коливаються від 4 до 44 років.
- Значення квадратних метрів коливаються від 1200 до 2800.
Припустімо, замість цього ми нормалізуємо вихідні необроблені дані, перетворивши кожне вихідне значення даних у z-показник:
Якщо ми потім виконаємо множинну лінійну регресію, використовуючи стандартизовані дані, ми отримаємо такий результат регресії:
Коефіцієнти регресії в цій таблиці стандартизовані , тобто вони використовували стандартизовані дані, щоб відповідати цій моделі регресії. Спосіб інтерпретації коефіцієнтів у таблиці такий:
- Збільшення віку на одне стандартне відхилення пов’язане зі зниженням ціни на житло на 0,092 стандартного відхилення, припускаючи, що квадратні метри залишаються незмінними.
- Збільшення квадратних метрів на одне стандартне відхилення пов’язане зі збільшенням ціни будинку на 0,885 стандартного відхилення, якщо припустити, що вік залишається постійним.
Одразу бачимо, що площа має набагато сильніший вплив на ціни нерухомості, ніж вік. Також зауважте, що p-значення для кожної змінної предиктора точно такі ж, як і в попередній моделі регресії.
Пов’язане:Як обчислити Z-оцінки в Excel
Коли використовувати стандартизовані чи нестандартизовані коефіцієнти регресії
Залежно від ситуації можуть бути корисними як стандартизовані, так і нестандартизовані коефіцієнти регресії. Особливо:
Нестандартизовані коефіцієнти регресії корисні, коли ви хочете інтерпретувати вплив зміни змінної предиктора на одну одиницю на змінну відповіді. У наведеному вище прикладі ми могли б використати нестандартизовані коефіцієнти регресії з першої регресії, щоб зрозуміти точний зв’язок між змінними предиктора та змінною відповіді:
- Збільшення віку на одну одиницю було пов’язане зі зниженням ціни будинку в середньому на 409 доларів , припускаючи, що квадратні метри залишаються незмінними. Цей коефіцієнт виявився статистично не значущим (р=0,520).
- Збільшення квадратних метрів на одну одиницю було пов’язане із середнім зростанням цін на житло на 100 доларів , припускаючи, що вік залишається незмінним. Цей коефіцієнт також виявився статистично значущим (p=0,000).
Стандартизовані коефіцієнти регресії корисні, коли ви хочете порівняти вплив різних змінних предиктора на змінну відповіді. Оскільки кожна змінна стандартизована, ви можете побачити, яка змінна має найбільший вплив на змінну відповіді.
Недоліком стандартизованих коефіцієнтів регресії є те, що їх трохи складніше інтерпретувати. Наприклад, легше зрозуміти вплив збільшення на одну одиницю віку на ціну нерухомості, ніж вплив збільшення на одне стандартне відхилення на ціну нерухомості.
Додаткові ресурси
Як читати та інтерпретувати таблицю регресії
Як інтерпретувати коефіцієнти регресії
Як виконати множинну лінійну регресію в Excel