Инструментальные переменные: определение и примеры


Часто в статистике мы стремимся оценить влияние одной переменной на другую. Например, мы можем захотеть узнать:

  • Как время, потраченное на учебу, влияет на результаты экзаменов?
  • Как определенные лекарства влияют на артериальное давление?
  • Как стресс влияет на частоту сердечных сокращений?

В каждом сценарии мы хотим понять, влияет ли переменная-предиктор на переменную ответа . Однако часто существуют и другие переменные, влияющие на взаимосвязь между двумя переменными.

Например, предположим, что мы используем определенное лекарство в качестве предикторной переменной, а кровяное давление — в качестве переменной отклика. Нас интересует только влияние препарата на артериальное давление:

Однако другие переменные, такие как время, потраченное на тренировки, общий рацион питания и уровень стресса, также влияют на артериальное давление:

Таким образом, если мы выполним простую линейную регрессию , используя препарат в качестве предикторной переменной и артериальное давление в качестве переменной отклика, мы не можем быть уверены, что коэффициенты регрессии точно отразят влияние препарата на артериальное давление, поскольку внешние факторы (упражнения, диета, стресс и т. д.) также могут сыграть свою роль.

Один из потенциальных способов обойти эту проблему — использовать инструментальную переменную .

Что такое инструментальная переменная?

Инструментальная переменная — это третья переменная, введенная в регрессионный анализ, которая коррелирует с переменной-предиктором, но не коррелирует с переменной-ответом. Используя эту переменную, становится возможным оценить истинное причинное влияние, которое переменная-предиктор оказывает на переменную отклика.

Например, предположим, что мы хотим оценить влияние определенного лекарства на артериальное давление:

Примером инструментальной переменной, которую мы можем использовать в этом регрессионном анализе, является близость человека к аптеке.

Эта переменная «близости», вероятно, будет сильно коррелировать с тем, принимает ли человек рассматриваемое лекарство или нет, поскольку человек вообще не сможет получить его, если не живет рядом с аптекой.

Однако переменная «близость» не должна иметь никакой корреляции с артериальным давлением. Единственная связь, которую он может иметь с артериальным давлением, — это переменная-предиктор.

Переменный инструментал

На самом деле мы используем инструментальную переменную с помощью регрессии инструментальной переменной, иногда называемой двухэтапной регрессией наименьших квадратов .

Регрессия инструментальных переменных

Регрессия инструментальных переменных (или двухэтапная регрессия наименьших квадратов) использует следующий подход для оценки влияния переменной-предиктора на переменную ответа:

Шаг 1. Подберите модель регрессии, используя инструментальную переменную в качестве предикторной переменной.

В нашем конкретном примере мы сначала подошли бы к следующей модели регрессии:

Некоторые лекарства = B 0 + B 1 (близость)

Тогда у нас останутся прогнозируемые значения для определенных лекарств (cd), которые мы назовем cd Hat .

Шаг 2. Подберите вторую модель регрессии, используя прогнозируемые значения для cd Hat .

Далее мы подойдем к следующей регрессионной модели:

Артериальное давление = B 0 + B 1 (cd шляпа )

Если коэффициент регрессии cd Hat окажется статистически значимым, то можно будет говорить о причинном влиянии препарата на артериальное давление.

Причина, по которой мы можем так сказать, заключается в том, что мы использовали термин «близость» только для создания CD Hat и знаем, что близость не должна коррелировать с артериальным давлением; любая значительная корреляция на второй стадии регрессии может быть связана с определенным лекарственным средством.

Меры предосторожности при использовании инструментальных переменных

Инструментальную переменную следует использовать только в том случае, если она соответствует следующим критериям:

  • Это сильно коррелирует с прогностической переменной.
  • Он не коррелирует с переменной ответа.
  • Он не коррелирует с другими переменными, исключенными из модели (например, близость не коррелирует с физическими упражнениями, диетой или стрессом).

Если инструментальная переменная не соответствует этому критерию, ее не следует использовать в регрессионной модели, поскольку она, скорее всего, приведет к ненадежным и систематическим результатам.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *