Инструментальные переменные: определение и примеры
Часто в статистике мы стремимся оценить влияние одной переменной на другую. Например, мы можем захотеть узнать:
- Как время, потраченное на учебу, влияет на результаты экзаменов?
- Как определенные лекарства влияют на артериальное давление?
- Как стресс влияет на частоту сердечных сокращений?
В каждом сценарии мы хотим понять, влияет ли переменная-предиктор на переменную ответа . Однако часто существуют и другие переменные, влияющие на взаимосвязь между двумя переменными.
Например, предположим, что мы используем определенное лекарство в качестве предикторной переменной, а кровяное давление — в качестве переменной отклика. Нас интересует только влияние препарата на артериальное давление:
Однако другие переменные, такие как время, потраченное на тренировки, общий рацион питания и уровень стресса, также влияют на артериальное давление:
Таким образом, если мы выполним простую линейную регрессию , используя препарат в качестве предикторной переменной и артериальное давление в качестве переменной отклика, мы не можем быть уверены, что коэффициенты регрессии точно отразят влияние препарата на артериальное давление, поскольку внешние факторы (упражнения, диета, стресс и т. д.) также могут сыграть свою роль.
Один из потенциальных способов обойти эту проблему — использовать инструментальную переменную .
Что такое инструментальная переменная?
Инструментальная переменная — это третья переменная, введенная в регрессионный анализ, которая коррелирует с переменной-предиктором, но не коррелирует с переменной-ответом. Используя эту переменную, становится возможным оценить истинное причинное влияние, которое переменная-предиктор оказывает на переменную отклика.
Например, предположим, что мы хотим оценить влияние определенного лекарства на артериальное давление:
Примером инструментальной переменной, которую мы можем использовать в этом регрессионном анализе, является близость человека к аптеке.
Эта переменная «близости», вероятно, будет сильно коррелировать с тем, принимает ли человек рассматриваемое лекарство или нет, поскольку человек вообще не сможет получить его, если не живет рядом с аптекой.
Однако переменная «близость» не должна иметь никакой корреляции с артериальным давлением. Единственная связь, которую он может иметь с артериальным давлением, — это переменная-предиктор.
На самом деле мы используем инструментальную переменную с помощью регрессии инструментальной переменной, иногда называемой двухэтапной регрессией наименьших квадратов .
Регрессия инструментальных переменных
Регрессия инструментальных переменных (или двухэтапная регрессия наименьших квадратов) использует следующий подход для оценки влияния переменной-предиктора на переменную ответа:
Шаг 1. Подберите модель регрессии, используя инструментальную переменную в качестве предикторной переменной.
В нашем конкретном примере мы сначала подошли бы к следующей модели регрессии:
Некоторые лекарства = B 0 + B 1 (близость)
Тогда у нас останутся прогнозируемые значения для определенных лекарств (cd), которые мы назовем cd Hat .
Шаг 2. Подберите вторую модель регрессии, используя прогнозируемые значения для cd Hat .
Далее мы подойдем к следующей регрессионной модели:
Артериальное давление = B 0 + B 1 (cd шляпа )
Если коэффициент регрессии cd Hat окажется статистически значимым, то можно будет говорить о причинном влиянии препарата на артериальное давление.
Причина, по которой мы можем так сказать, заключается в том, что мы использовали термин «близость» только для создания CD Hat и знаем, что близость не должна коррелировать с артериальным давлением; любая значительная корреляция на второй стадии регрессии может быть связана с определенным лекарственным средством.
Меры предосторожности при использовании инструментальных переменных
Инструментальную переменную следует использовать только в том случае, если она соответствует следующим критериям:
- Это сильно коррелирует с прогностической переменной.
- Он не коррелирует с переменной ответа.
- Он не коррелирует с другими переменными, исключенными из модели (например, близость не коррелирует с физическими упражнениями, диетой или стрессом).
Если инструментальная переменная не соответствует этому критерию, ее не следует использовать в регрессионной модели, поскольку она, скорее всего, приведет к ненадежным и систематическим результатам.