Смещение пропущенной переменной: определение и примеры


Смещение пропущенной переменной возникает, когда соответствующая объясняющая переменная не включена в регрессионную модель , что может привести к смещению коэффициента одной или нескольких объясняющих переменных в модели.

Пропущенная переменная часто исключается из регрессионной модели по одной из двух причин:

1. Данных по переменной просто нет.

2. Влияние объясняющей переменной на переменную ответа неизвестно.

Чтобы пропущенная переменная действительно исказила коэффициенты модели, должны быть выполнены следующие два условия:

1. Пропущенная переменная должна быть коррелирована с одной или несколькими объясняющими переменными в модели.

2. Пропущенная переменная должна быть коррелирована с переменной ответа в модели.

Эффекты смещения пропущенной переменной

Предположим, у нас есть две объясняющие переменные, A и B, и переменная отклика, Y. Предположим, мы подгоняем простую модель линейной регрессии с A в качестве единственной объясняющей переменной и исключаем B из модели.

Если B коррелирует с A и коррелирует с Y, это приведет к смещению оценки коэффициента A. На следующей диаграмме показано, насколько будет смещена оценка коэффициента A в зависимости от характера связи с Б:

Смещение пропущенной переменной

Пример: смещение пропущенной переменной

Предположим, мы хотим изучить влияние площади в квадратных метрах на цену недвижимости и поэтому применяем следующую простую модель линейной регрессии:

Цена дома = B 0 + B 1 (площадь)

Предположим, мы обнаружили, что предполагаемая модель:

Цена дома = 40 203,91 + 118,31 (площадь квадрата)

Мы интерпретируем коэффициент площади в квадратных футах следующим образом: каждое дополнительное увеличение площади на одну единицу площади связано с увеличением цены дома в среднем на 118,31 доллара.

Однако предположим, что мы не учитываем объясняющую переменную возраста , которая, как оказалось, сильно отрицательно коррелирует с площадью в квадратных метрах и сильно отрицательно коррелирует с ценой на недвижимость. Эта переменная должна быть в модели, но ее нет. Таким образом, оценка коэффициента для площади в квадратных футах, скорее всего, необъективна.

Поскольку возраст отрицательно коррелирует как с объясняющей переменной, так и с переменной ответа в модели, мы ожидаем, что оценка коэффициента для площади в квадратных футах будет положительно смещена:

Положительное смещение с смещением пропущенной переменной

Предположим, мы находим данные о возрасте жилища и затем включаем их в модель. Тогда модель становится:

Цена дома = B 0 + B 1 (площадь) + B 2 (возраст)

Предположим, мы обнаружили, что предполагаемая модель:

Цена дома = 123 426,20 + 81,06 (площадь) – 1 291,04 (возраст)

Обратите внимание, что оценка коэффициента для площади в квадратных футах значительно уменьшилась, то есть в предыдущей модели она имела положительное смещение.

Мы интерпретируем коэффициент площади в этой модели следующим образом: каждое дополнительное увеличение площади на одну единицу площади связано с увеличением средней цены дома на 81,06 доллара, при условии, что возраст остается постоянным.

Что делать с смещением пропущенной переменной

К сожалению, смещение пропущенных переменных часто возникает в реальном мире, потому что определенные переменные обычно должны быть включены в регрессионную модель, но не потому, что данные для них недоступны или взаимосвязь между ними и переменной ответа неизвестна.

Если возможно, вам следует попытаться включить все соответствующие объясняющие переменные в регрессионную модель, чтобы вы могли понять истинную взаимосвязь между объясняющими переменными и переменной отклика.

Исключение соответствующих независимых переменных из модели может существенно повлиять на интерпретацию модели, как мы видели в предыдущем примере с ценами на недвижимость.

Дополнительные ресурсы

Что такое скрытая переменная?
Что такое сбивающая с толку переменная?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *