Смещение пропущенной переменной: определение и примеры
Смещение пропущенной переменной возникает, когда соответствующая объясняющая переменная не включена в регрессионную модель , что может привести к смещению коэффициента одной или нескольких объясняющих переменных в модели.
Пропущенная переменная часто исключается из регрессионной модели по одной из двух причин:
1. Данных по переменной просто нет.
2. Влияние объясняющей переменной на переменную ответа неизвестно.
Чтобы пропущенная переменная действительно исказила коэффициенты модели, должны быть выполнены следующие два условия:
1. Пропущенная переменная должна быть коррелирована с одной или несколькими объясняющими переменными в модели.
2. Пропущенная переменная должна быть коррелирована с переменной ответа в модели.
Эффекты смещения пропущенной переменной
Предположим, у нас есть две объясняющие переменные, A и B, и переменная отклика, Y. Предположим, мы подгоняем простую модель линейной регрессии с A в качестве единственной объясняющей переменной и исключаем B из модели.
Если B коррелирует с A и коррелирует с Y, это приведет к смещению оценки коэффициента A. На следующей диаграмме показано, насколько будет смещена оценка коэффициента A в зависимости от характера связи с Б:
Пример: смещение пропущенной переменной
Предположим, мы хотим изучить влияние площади в квадратных метрах на цену недвижимости и поэтому применяем следующую простую модель линейной регрессии:
Цена дома = B 0 + B 1 (площадь)
Предположим, мы обнаружили, что предполагаемая модель:
Цена дома = 40 203,91 + 118,31 (площадь квадрата)
Мы интерпретируем коэффициент площади в квадратных футах следующим образом: каждое дополнительное увеличение площади на одну единицу площади связано с увеличением цены дома в среднем на 118,31 доллара.
Однако предположим, что мы не учитываем объясняющую переменную возраста , которая, как оказалось, сильно отрицательно коррелирует с площадью в квадратных метрах и сильно отрицательно коррелирует с ценой на недвижимость. Эта переменная должна быть в модели, но ее нет. Таким образом, оценка коэффициента для площади в квадратных футах, скорее всего, необъективна.
Поскольку возраст отрицательно коррелирует как с объясняющей переменной, так и с переменной ответа в модели, мы ожидаем, что оценка коэффициента для площади в квадратных футах будет положительно смещена:
Предположим, мы находим данные о возрасте жилища и затем включаем их в модель. Тогда модель становится:
Цена дома = B 0 + B 1 (площадь) + B 2 (возраст)
Предположим, мы обнаружили, что предполагаемая модель:
Цена дома = 123 426,20 + 81,06 (площадь) – 1 291,04 (возраст)
Обратите внимание, что оценка коэффициента для площади в квадратных футах значительно уменьшилась, то есть в предыдущей модели она имела положительное смещение.
Мы интерпретируем коэффициент площади в этой модели следующим образом: каждое дополнительное увеличение площади на одну единицу площади связано с увеличением средней цены дома на 81,06 доллара, при условии, что возраст остается постоянным.
Что делать с смещением пропущенной переменной
К сожалению, смещение пропущенных переменных часто возникает в реальном мире, потому что определенные переменные обычно должны быть включены в регрессионную модель, но не потому, что данные для них недоступны или взаимосвязь между ними и переменной ответа неизвестна.
Если возможно, вам следует попытаться включить все соответствующие объясняющие переменные в регрессионную модель, чтобы вы могли понять истинную взаимосвязь между объясняющими переменными и переменной отклика.
Исключение соответствующих независимых переменных из модели может существенно повлиять на интерпретацию модели, как мы видели в предыдущем примере с ценами на недвижимость.
Дополнительные ресурсы
Что такое скрытая переменная?
Что такое сбивающая с толку переменная?