Зміщення пропущеної змінної: визначення та приклади
Зміщення пропущеної змінної виникає, коли відповідна пояснювальна змінна не включена в регресійну модель , що може призвести до зміщення в коефіцієнті однієї або кількох пояснювальних змінних у моделі.
Пропущена змінна часто виключається з моделі регресії з однієї з двох причин:
1. Дані для змінної просто недоступні.
2. Вплив пояснювальної змінної на змінну відповіді невідомий.
Щоб пропущена змінна фактично спотворювала коефіцієнти моделі, мають бути виконані такі дві умови:
1. Пропущена змінна повинна бути співвіднесена з однією або декількома пояснювальними змінними в моделі.
2. Пропущена змінна повинна бути співвіднесена зі змінною відповіді в моделі.
Ефекти зміщення пропущеної змінної
Припустімо, що ми маємо дві пояснювальні змінні, A і B, і змінну відгуку, Y. Припустімо, що ми підходимо до моделі простої лінійної регресії з A як єдиною пояснювальною змінною та залишаємо B поза моделлю.
Якщо B корелює з A і корелює з Y, це призведе до зміщення в оцінці коефіцієнта A. Наступна діаграма показує, наскільки зміщеною буде оцінка коефіцієнта A, залежно від характеру зв’язку з B:
Приклад: зсув пропущеної змінної
Припустімо, що ми хочемо вивчити вплив квадратних метрів на ціну нерухомості, і тому ми застосовуємо таку просту модель лінійної регресії:
Ціна будинку = B 0 + B 1 (квадратна площа)
Припустимо, що оцінена модель є:
Ціна будинку = 40 203,91 + 118,31 (площа)
Те, як ми інтерпретуємо коефіцієнт квадратних метрів, полягає в тому, що кожне додаткове збільшення однієї одиниці квадратних метрів пов’язане зі зростанням ціни будинку в середньому на 118,31 доларів США.
Однак припустімо, що ми не використовуємо пояснювальну змінну вік , яка виявляється сильно негативно корельованою з квадратними метрами та сильно негативно корелює з ціною нерухомості. Ця змінна повинна бути в моделі, але її немає. Таким чином, оцінка коефіцієнта для квадратних метрів, ймовірно, необ’єктивна.
Оскільки вік негативно корелює як з пояснювальною змінною, так і зі змінною відповіді в моделі, ми очікуємо, що оцінка коефіцієнта для квадратних метрів буде позитивно зміщеною:
Припустимо, ми знаходимо дані про вік житла, а потім включаємо їх у модель. Тоді модель стає:
Ціна будинку = B 0 + B 1 (площа) + B 2 (вік)
Припустимо, що оцінена модель є:
Ціна будинку = 123 426,20 + 81,06 (квадратна площа) – 1 291,04 (вік)
Зверніть увагу, що оцінка коефіцієнта для квадратних метрів значно зменшилася, тобто вона була позитивно зміщеною в попередній моделі.
Спосіб інтерпретації коефіцієнта квадратних метрів у цій моделі полягає в тому, що кожне додаткове збільшення на одну одиницю квадратних метрів пов’язане із зростанням середньої ціни будинку на 81,06 доларів США, припускаючи, що вік залишається незмінним.
Що робити з упередженням пропущеної змінної
На жаль, зміщення пропущеної змінної часто трапляється в реальному світі, оскільки певні змінні, як правило, повинні бути включені в регресійну модель, але це не так, оскільки дані для них недоступні або зв’язок між ними та змінною відповіді невідомий.
Якщо можливо, вам слід спробувати включити всі відповідні пояснювальні змінні в регресійну модель, щоб ви могли зрозуміти справжній зв’язок між пояснювальними змінними та змінною відповіді.
Виключення відповідних пояснювальних змінних з моделі може значно вплинути на інтерпретацію моделі, як ми бачили в попередньому прикладі з цінами на нерухомість.