Четыре предположения линейной регрессии


Линейная регрессия — полезный статистический метод, который мы можем использовать, чтобы понять взаимосвязь между двумя переменными, x и y. Однако прежде чем выполнять линейную регрессию, мы должны сначала убедиться, что выполняются четыре предположения:

1. Линейная связь. Между независимой переменной x и зависимой переменной y существует линейная связь.

2. Независимость: остатки независимы. В частности, нет корреляции между последовательными остатками в данных временных рядов.

3. Гомоскедастичность: остатки имеют постоянную дисперсию на каждом уровне x.

4. Нормальность: остатки модели имеют нормальное распределение.

Если одно или несколько из этих предположений не выполняются, то результаты нашей линейной регрессии могут быть ненадежными или даже вводящими в заблуждение.

В этой статье мы даем объяснение каждому предположению, как определить, выполняется ли предположение, и что делать, если предположение не выполняется.

Гипотеза 1: Линейная зависимость

Объяснение

Первое предположение линейной регрессии заключается в том, что существует линейная связь между независимой переменной x и независимой переменной y.

Как определить, выполняется ли это предположение

Самый простой способ определить, выполняется ли это предположение, — создать диаграмму рассеяния x и y. Это позволяет визуально увидеть, существует ли линейная связь между двумя переменными. Если окажется, что точки на графике могут лежать вдоль прямой линии, то между двумя переменными существует некоторая линейная связь, и это предположение выполняется.

Например, точки на графике ниже кажутся расположенными на прямой линии, что указывает на линейную зависимость между x и y:

Однако на графике ниже не наблюдается линейной зависимости между x и y:

И на этом графике, кажется, существует четкая связь между x и y, но не линейная зависимость :

Что делать, если это предположение не соблюдается

Если вы создадите диаграмму рассеяния значений x и y и обнаружите, что между двумя переменными нет линейной зависимости, у вас есть несколько вариантов:

1. Примените нелинейное преобразование к независимой и/или зависимой переменной. Общие примеры включают использование логарифма, квадратного корня или обратной величины независимой и/или зависимой переменной.

2. Добавьте в модель еще одну независимую переменную. Например, если график зависимости x от y имеет параболическую форму, возможно, имеет смысл добавить X 2 в качестве дополнительной независимой переменной в модели.

Гипотеза 2: Независимость

Объяснение

Следующее предположение линейной регрессии заключается в том, что остатки независимы. Это особенно актуально при работе с данными временных рядов. В идеале мы не хотим, чтобы среди последовательных остатков наблюдалась тенденция. Например, остатки не должны постоянно увеличиваться с течением времени.

Как определить, выполняется ли это предположение

Самый простой способ проверить, справедливо ли это предположение, — посмотреть на график временных рядов остатков, который представляет собой график зависимости остатков от времени. В идеале большинство остаточных автокорреляций должны находиться в пределах 95%-ного доверительного интервала около нуля, который находится примерно на +/- 2 от квадратного корня из n , где n — размер выборки. Вы также можете формально проверить, выполняется ли это предположение, с помощью теста Дурбина-Ватсона .

Что делать, если это предположение не соблюдается

В зависимости от того, насколько это предположение нарушается, у вас есть несколько вариантов:

  • Для положительной серийной корреляции рассмотрите возможность добавления в модель лагов зависимой и/или независимой переменной.
  • Для отрицательной последовательной корреляции убедитесь, что ни одна из ваших переменных не имеет чрезмерной задержки .
  • Для сезонной корреляции рассмотрите возможность добавления в модель сезонных переменных.

Гипотеза 3: Гомоскедастичность

Объяснение

Следующее предположение линейной регрессии заключается в том, что остатки имеют постоянную дисперсию на каждом уровне x. Это называется гомоскедастичностью . Когда это не так, остатки страдают от гетероскедастичности .

Когда в регрессионном анализе присутствует гетероскедастичность, в результаты анализа становится трудно поверить. В частности, гетероскедастичность увеличивает дисперсию оценок коэффициента регрессии, но модель регрессии ее не учитывает. Это значительно повышает вероятность того, что регрессионная модель будет утверждать, что термин в модели является статистически значимым, хотя на самом деле это не так.

Как определить, выполняется ли это предположение

Самый простой способ обнаружить гетероскедастичность — создать график подобранного значения/остатка .

После того как вы подгоните линию регрессии к набору данных, вы сможете создать диаграмму рассеяния, которая покажет подобранные значения модели в сравнении с остатками этих подобранных значений. На диаграмме рассеяния ниже показан типичный график подобранного значения в зависимости от остатка, в котором присутствует гетероскедастичность.

Обратите внимание, как остатки распределяются все больше и больше по мере увеличения подобранных значений. Эта форма «конуса» является классическим признаком гетероскедастичности:

Что делать, если это предположение не соблюдается

Существует три распространенных способа коррекции гетероскедастичности:

1. Преобразуйте зависимую переменную. Обычное преобразование заключается в простом получении журнала зависимой переменной. Например, если мы используем численность населения (независимую переменную) для прогнозирования количества флористов в городе (зависимая переменная), вместо этого мы можем попытаться использовать численность населения для прогнозирования логарифма количества флористов в городе. Использование журнала зависимой переменной, а не исходной зависимой переменной, часто приводит к исчезновению гетероскедастичности.

2. Переопределите зависимую переменную. Распространенный способ переопределить зависимую переменную — использовать скорость , а не необработанное значение. Например, вместо того, чтобы использовать размер населения для прогнозирования количества флористов в городе, мы можем использовать размер населения для прогнозирования количества флористов на душу населения. В большинстве случаев это уменьшает изменчивость, которая естественным образом возникает в больших популяциях, поскольку мы измеряем количество флористов на человека, а не количество флористов само по себе.

3. Используйте взвешенную регрессию. Другой способ исправить гетероскедастичность — использовать взвешенную регрессию. Этот тип регрессии присваивает вес каждой точке данных на основе дисперсии ее подобранного значения. По сути, это придает низкий вес точкам данных с более высокими дисперсиями, уменьшая их остаточные квадраты. Использование соответствующих весов позволяет устранить проблему гетероскедастичности.

Гипотеза 4: нормальность

Объяснение

Следующее предположение линейной регрессии заключается в том, что остатки имеют нормальное распределение.

Как определить, выполняется ли это предположение

Есть два распространенных способа проверить, выполняется ли это предположение:

1. Визуально проверьте гипотезу, используя графики QQ .

График QQ, сокращение от графика квантиль-квантиль, — это тип графика, который мы можем использовать, чтобы определить, соответствуют ли остатки модели нормальному распределению. Если точки на графике примерно образуют прямую диагональную линию, то предположение о нормальности выполнено.

На следующем графике QQ показан пример остатков, который примерно соответствует нормальному распределению:

Однако график QQ ниже показывает пример случая, когда остатки явно отклоняются от прямой диагональной линии, что указывает на то, что они не соответствуют нормальному распределению:

2. Вы также можете проверить предположение о нормальности, используя формальные статистические тесты, такие как Шапиро-Уилк, Колмогоров-Смиронов, Жарк-Барре или Д’Агостино-Пирсон. Однако имейте в виду, что эти тесты чувствительны к большим размерам выборки — то есть они часто приходят к выводу, что остатки не являются нормальными, когда размер выборки велик. Вот почему для проверки этой гипотезы зачастую проще просто использовать графические методы, такие как график QQ.

Что делать, если это предположение не соблюдается

Если предположение о нормальности не выполняется, у вас есть несколько вариантов:

  • Во-первых, убедитесь, что выбросы не оказывают большого влияния на распределение. Если есть какие-либо выбросы, убедитесь, что это реальные значения, а не ошибки ввода данных.
  • Затем вы можете применить нелинейное преобразование к независимой и/или зависимой переменной. Общие примеры включают использование логарифма, квадратного корня или обратной величины независимой и/или зависимой переменной.

Дальнейшее чтение:

Введение в простую линейную регрессию
Понимание гетероскедастичности в регрессионном анализе
Как создать и интерпретировать график QQ в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *