Гипотеза постоянной дисперсии: определение и пример


Линейная регрессия — это метод, который мы используем для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Одним из ключевых предположений линейной регрессии является то, что остатки имеют постоянную дисперсию на каждом уровне предикторной переменной (переменных).

Если это предположение не будет проверено, остатки будут страдать от гетероскедастичности . Когда это происходит, оценки коэффициентов модели становятся ненадежными.

Как оценить постоянную дисперсию

Самый распространенный способ определить, имеют ли остатки регрессионной модели постоянную дисперсию, — это построить график сопоставления подобранных значений с остатками .

Это тип графика, который отображает подобранные значения модели регрессии по оси X и остатки этих значений, расположенные по оси Y.

Если распределение остатков примерно одинаково на каждом уровне подобранных значений, мы говорим, что предположение о постоянной дисперсии удовлетворено.

В противном случае, если дисперсия остатков систематически увеличивается или уменьшается, это предположение, скорее всего, нарушается.

Примечание . График этого типа можно создать только после подгонки модели регрессии к набору данных.

На следующей диаграмме показан пример графика подобранных значений в зависимости от остатков, который отображает постоянную дисперсию :

Обратите внимание, как остатки случайным образом разбросаны вокруг нуля, без какой-либо конкретной закономерности, с примерно постоянной дисперсией на каждом уровне подобранных значений.

На следующей диаграмме показан пример графика подобранных значений в зависимости от остатков, который отображает непостоянную дисперсию :

Обратите внимание, что распределение остатков становится больше по мере увеличения подобранных значений. Это типичный признак непостоянной дисперсии.

Это говорит нам о том, что наша регрессионная модель страдает от непостоянной дисперсии остатков и, следовательно, оценки коэффициентов модели ненадежны.

Как исправить нарушение постоянной дисперсии

Если предположение о постоянной дисперсии нарушается, наиболее распространенным способом решения этой проблемы является преобразование переменной отклика с помощью одного из трех преобразований:

1. Преобразование журнала: преобразуйте переменную ответа из y в log(y).

2. Преобразование квадратного корня: преобразуйте переменную отклика из y в √y.

3. Преобразование корня куба: преобразуйте переменную ответа из y в y 1/3.

Выполняя эти преобразования, проблема непостоянной дисперсии обычно исчезает.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о линейной регрессии и анализе остатков:

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Четыре предположения линейной регрессии
Что такое остатки в статистике?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *