Понимание гетероскедастичности в регрессионном анализе


В регрессионном анализе гетероскедастичность (иногда называемая гетероскедастичностью) относится к неравной дисперсии остатков или ошибок. Точнее, это тот случай, когда происходит систематическое изменение распределения остатков по диапазону измеряемых величин.

Гетероскедастичность является проблемой, поскольку обычная регрессия наименьших квадратов (OLS) предполагает, что остатки происходят из совокупности, которая имеет гомоскедастичность , что означает постоянную дисперсию.

Когда в регрессионном анализе присутствует гетероскедастичность, в результаты анализа становится трудно поверить. В частности, гетероскедастичность увеличивает дисперсию оценок коэффициента регрессии, но модель регрессии ее не учитывает.

Это значительно повышает вероятность того, что регрессионная модель будет утверждать, что термин в модели является статистически значимым, хотя на самом деле это не так.

В этом руководстве объясняется, как обнаружить гетероскедастичность, причины гетероскедастичности и потенциальные способы решения проблемы гетероскедастичности.

Как обнаружить гетероскедастичность

Самый простой способ обнаружить гетероскедастичность — использовать график подобранных значений/остатков .

После того как вы подгоните линию регрессии к набору данных, вы сможете создать диаграмму рассеяния, которая покажет подобранные значения модели в сравнении с остатками этих подобранных значений.

На диаграмме рассеяния ниже показан типичный график подобранного значения в зависимости от остатка, в котором присутствует гетероскедастичность.

Обратите внимание, как остатки распределяются все больше и больше по мере увеличения подобранных значений. Эта форма «конуса» является явным признаком гетероскедастичности.

Каковы причины гетероскедастичности?

Гетероскедастичность естественным образом возникает в наборах данных, где существует широкий диапазон наблюдаемых значений данных. Например:

  • Рассмотрим набор данных, включающий годовые доходы и расходы 100 000 человек в Соединенных Штатах. Для людей с более низкими доходами изменчивость соответствующих расходов будет ниже, поскольку у этих людей, скорее всего, будет достаточно денег только для оплаты предметов первой необходимости. У людей с более высокими доходами вариативность соответствующих расходов будет большей, поскольку у этих людей будет больше денег, которые они смогут потратить, если захотят. Некоторые люди с более высокими доходами предпочтут тратить большую часть своего дохода, в то время как другие предпочтут быть бережливыми и тратить только часть. Таким образом, изменчивость расходов среди этих людей с более высокими доходами будет по своей сути выше.
  • Рассмотрим набор данных, включающий население и количество флористов в 1000 различных городах США. В малонаселенных городах обычно присутствует только один или два флориста. Но в более густонаселенных городах количество флористов будет гораздо более изменчивым. В этих городах может быть от 10 до 100 магазинов. Это означает, что когда мы создадим регрессионный анализ и используем население для прогнозирования количества флористов, по сути, будет большая изменчивость остатков для более густонаселенных городов.

Некоторые наборы данных просто более склонны к гетероскедастичности, чем другие.

Как исправить гетероскедастичность

Существует три распространенных способа коррекции гетероскедастичности:

1. Преобразуйте зависимую переменную

Один из способов исправить гетероскедастичность — каким-либо образом преобразовать зависимую переменную. Обычное преобразование заключается в простом получении журнала зависимой переменной.

Например, если мы используем численность населения (независимую переменную) для прогнозирования количества флористов в городе (зависимая переменная), вместо этого мы можем попытаться использовать численность населения для прогнозирования логарифма количества флористов в городе.

Использование журнала зависимой переменной, а не исходной зависимой переменной, часто приводит к исчезновению гетероскедастичности.

2. Переопределите зависимую переменную

Другой способ исправить гетероскедастичность — переопределить зависимую переменную. Распространенный способ сделать это — использовать скорость для зависимой переменной, а не исходного значения.

Например, вместо того, чтобы использовать размер населения для прогнозирования количества флористов в городе, мы можем использовать размер населения для прогнозирования количества флористов на душу населения.

В большинстве случаев это уменьшает изменчивость, которая естественным образом возникает в больших популяциях, поскольку мы измеряем количество флористов на человека, а не количество флористов само по себе.

3. Используйте взвешенную регрессию

Другой способ исправить гетероскедастичность — использовать взвешенную регрессию. Этот тип регрессии присваивает вес каждой точке данных на основе дисперсии ее подобранного значения.

По сути, это придает низкий вес точкам данных с более высокими дисперсиями, уменьшая их остаточные квадраты. Использование соответствующих весов позволяет устранить проблему гетероскедастичности.

Заключение

Гетероскедастичность — довольно распространенная проблема, когда дело доходит до регрессионного анализа, поскольку многие наборы данных по своей сути подвержены непостоянной дисперсии.

Однако, используя график подобранных значений в сравнении с графиком остатков , можно довольно легко обнаружить гетероскедастичность.

А путем преобразования зависимой переменной, переопределения зависимой переменной или использования взвешенной регрессии проблему гетероскедастичности часто можно устранить.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *