Зміщення пропущеної змінної: визначення та приклади


Зміщення пропущеної змінної виникає, коли відповідна пояснювальна змінна не включена в регресійну модель , що може призвести до зміщення в коефіцієнті однієї або кількох пояснювальних змінних у моделі.

Пропущена змінна часто виключається з моделі регресії з однієї з двох причин:

1. Дані для змінної просто недоступні.

2. Вплив пояснювальної змінної на змінну відповіді невідомий.

Щоб пропущена змінна фактично спотворювала коефіцієнти моделі, мають бути виконані такі дві умови:

1. Пропущена змінна повинна бути співвіднесена з однією або декількома пояснювальними змінними в моделі.

2. Пропущена змінна повинна бути співвіднесена зі змінною відповіді в моделі.

Ефекти зміщення пропущеної змінної

Припустімо, що ми маємо дві пояснювальні змінні, A і B, і змінну відгуку, Y. Припустімо, що ми підходимо до моделі простої лінійної регресії з A як єдиною пояснювальною змінною та залишаємо B поза моделлю.

Якщо B корелює з A і корелює з Y, це призведе до зміщення в оцінці коефіцієнта A. Наступна діаграма показує, наскільки зміщеною буде оцінка коефіцієнта A, залежно від характеру зв’язку з B:

Пропущене змінне зміщення

Приклад: зсув пропущеної змінної

Припустімо, що ми хочемо вивчити вплив квадратних метрів на ціну нерухомості, і тому ми застосовуємо таку просту модель лінійної регресії:

Ціна будинку = B 0 + B 1 (квадратна площа)

Припустимо, що оцінена модель є:

Ціна будинку = 40 203,91 + 118,31 (площа)

Те, як ми інтерпретуємо коефіцієнт квадратних метрів, полягає в тому, що кожне додаткове збільшення однієї одиниці квадратних метрів пов’язане зі зростанням ціни будинку в середньому на 118,31 доларів США.

Однак припустімо, що ми не використовуємо пояснювальну змінну вік , яка виявляється сильно негативно корельованою з квадратними метрами та сильно негативно корелює з ціною нерухомості. Ця змінна повинна бути в моделі, але її немає. Таким чином, оцінка коефіцієнта для квадратних метрів, ймовірно, необ’єктивна.

Оскільки вік негативно корелює як з пояснювальною змінною, так і зі змінною відповіді в моделі, ми очікуємо, що оцінка коефіцієнта для квадратних метрів буде позитивно зміщеною:

Позитивне зміщення з пропущеним змінним зміщенням

Припустимо, ми знаходимо дані про вік житла, а потім включаємо їх у модель. Тоді модель стає:

Ціна будинку = B 0 + B 1 (площа) + B 2 (вік)

Припустимо, що оцінена модель є:

Ціна будинку = 123 426,20 + 81,06 (квадратна площа) – 1 291,04 (вік)

Зверніть увагу, що оцінка коефіцієнта для квадратних метрів значно зменшилася, тобто вона була позитивно зміщеною в попередній моделі.

Спосіб інтерпретації коефіцієнта квадратних метрів у цій моделі полягає в тому, що кожне додаткове збільшення на одну одиницю квадратних метрів пов’язане із зростанням середньої ціни будинку на 81,06 доларів США, припускаючи, що вік залишається незмінним.

Що робити з упередженням пропущеної змінної

На жаль, зміщення пропущеної змінної часто трапляється в реальному світі, оскільки певні змінні, як правило, повинні бути включені в регресійну модель, але це не так, оскільки дані для них недоступні або зв’язок між ними та змінною відповіді невідомий.

Якщо можливо, вам слід спробувати включити всі відповідні пояснювальні змінні в регресійну модель, щоб ви могли зрозуміти справжній зв’язок між пояснювальними змінними та змінною відповіді.

Виключення відповідних пояснювальних змінних з моделі може значно вплинути на інтерпретацію моделі, як ми бачили в попередньому прикладі з цінами на нерухомість.

Додаткові ресурси

Що таке прихована змінна?
Що таке незрозуміла змінна?

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *