Когда следует использовать полиномиальную регрессию?


Полиномиальная регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда связь между переменными-предикторами и переменной ответа является нелинейной.

Модель полиномиальной регрессии принимает следующую форму:

Y = β 0 + β 1 X + β 2 X 2 + … + β h

На практике существует три простых способа определить, следует ли вам использовать полиномиальную регрессию по сравнению с более простой моделью, такой как линейная регрессия .

1. Создайте диаграмму рассеяния переменной-предиктора и переменной ответа.

Самый простой способ определить, следует ли использовать полиномиальную регрессию, — это создать простую диаграмму рассеяния переменной-предиктора и переменной отклика.

Например, предположим, что мы хотим использовать переменную-предиктор «учебные часы», чтобы спрогнозировать оценку, которую студент получит на выпускном экзамене.

Прежде чем подобрать регрессионную модель, мы можем сначала построить диаграмму рассеяния изученных часов в зависимости от результатов экзамена. Предположим, что наша диаграмма рассеяния выглядит так:

Связь между учебными часами и результатами экзаменов кажется линейной , поэтому имело бы смысл подогнать к этому набору данных простую модель линейной регрессии.

Однако давайте предположим, что диаграмма рассеяния на самом деле выглядит следующим образом:

Эта зависимость кажется немного более нелинейной , что говорит нам о том, что вместо этого, возможно, было бы разумно использовать модель полиномиальной регрессии.

2. Создайте график подобранных и остаточных значений.

Другой способ определить, следует ли вам использовать полиномиальную регрессию, — это подогнать модель линейной регрессии к набору данных, а затем создать график сопоставления подобранных значений с остатками модели.

Если в остатках наблюдается явная нелинейная тенденция, это указывает на то, что полиномиальная регрессия может обеспечить лучшее соответствие данным.

Например, предположим, что мы подгоняем модель линейной регрессии, используя часы обучения в качестве предикторной переменной и оценку экзамена в качестве переменной ответа, а затем создаем следующий график подобранных значений в зависимости от остатков:

Остатки случайным образом разбросаны вокруг нуля без четкой закономерности, что указывает на то, что линейная модель обеспечивает подходящее соответствие данным.

Однако давайте предположим, что наш график подобранных значений в зависимости от остатков на самом деле выглядит следующим образом:

На графике мы видим, что в остатках наблюдается явная нелинейная закономерность – остатки имеют U-образную форму.

Это говорит нам о том, что линейная модель не подходит для этих конкретных данных и что вместо этого было бы разумно использовать модель полиномиальной регрессии.

3. Рассчитайте скорректированное значение R-квадрата модели.

Другой способ определить, следует ли вам использовать полиномиальную регрессию, — это подогнать как модель линейной регрессии, так и модель полиномиальной регрессии, и вычислить подобранные значения R-квадрата для обеих моделей.

Скорректированный R-квадрат представляет собой долю дисперсии переменной ответа, которую можно объяснить переменными-предикторами в модели, с поправкой на количество переменных-предикторов в модели.

Модель с наибольшим скорректированным R-квадратом представляет собой модель, которая лучше всего может использовать предикторную переменную (переменные) для объяснения изменений переменной отклика.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнить полиномиальную регрессию с использованием различного статистического программного обеспечения:

Введение в полиномиальную регрессию
Как выполнить полиномиальную регрессию в R
Как выполнить полиномиальную регрессию в Python
Как выполнить полиномиальную регрессию в Excel

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *