7 распространенных типов регрессии (и когда их использовать)
Регрессионный анализ является одним из наиболее часто используемых методов в статистике.
Основная цель регрессионного анализа — подобрать модель, которая лучше всего описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной отклика .
В этой статье мы расскажем о 7 наиболее часто используемых моделях регрессии в реальной жизни, а также о том, когда использовать каждый тип регрессии.
1. Линейная регрессия
Линейная регрессия используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной числового отклика.
Используйте, когда:
- Связь между переменной-предиктором и переменной отклика достаточно линейна.
- Переменная ответа представляет собой непрерывную числовую переменную.
Пример: компания розничной торговли может использовать модель линейной регрессии, используя расходы на рекламу, для прогнозирования общего объема продаж.
Поскольку связь между этими двумя переменными, скорее всего, линейна (больше денег, потраченных на рекламу, обычно приводит к увеличению продаж), а переменная ответа (общий объем продаж) является непрерывной числовой переменной, имеет смысл скорректировать модель линейной регрессии.
Ресурс: Введение в множественную линейную регрессию
2. Логистическая регрессия
Логистическая регрессия используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной двоичного ответа.
Используйте, когда:
- Переменная ответа является двоичной: она может принимать только два значения.
Пример: Исследователи-медики могут использовать модель логистической регрессии, используя физические упражнения и привычки курения, чтобы предсказать вероятность сердечного приступа у человека.
Поскольку переменная ответа (сердечный приступ) является бинарной (у человека либо случается сердечный приступ, либо нет), целесообразно использовать модель логистической регрессии.
Ресурс: Введение в логистическую регрессию
3. Полиномиальная регрессия
Полиномиальная регрессия используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной числового отклика.
Используйте, когда:
- Взаимосвязь между переменной(ями)-предиктором и переменной ответа является нелинейной.
- Переменная ответа представляет собой непрерывную числовую переменную.
Пример: Психологи могут построить полиномиальную регрессию, используя «отработанные часы», чтобы предсказать «общее счастье» сотрудников в определенной отрасли.
Связь между этими двумя переменными, вероятно, нелинейная. То есть по мере увеличения количества отработанных часов человек может сообщать о большем счастье, но после определенного количества отработанных часов общее счастье, скорее всего, уменьшится. Поскольку эта связь между переменной-предиктором и переменной ответа является нелинейной, имеет смысл использовать модель полиномиальной регрессии.
Ресурс: Введение в полиномиальную регрессию
4. Ридж-регрессия
Ридж-регрессия используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной числового отклика.
Используйте, когда:
- Переменные-предикторы сильно коррелируют, и мультиколлинеарность становится проблемой.
- Переменная ответа представляет собой непрерывную числовую переменную.
Пример. Специалист по баскетбольным данным может использовать модель ридж-регрессии, используя переменные-предсказатели, такие как очки, передачи и подборы, для прогнозирования зарплат игроков.
Переменные-предсказатели, вероятно, будут сильно коррелировать, поскольку лучшие игроки, как правило, набирают больше очков, передач и подборов. Таким образом, мультиколлинеарность, вероятно, будет проблемой, поэтому мы можем минимизировать эту проблему, используя регрессию гребня.
Ресурс:Введение в ридж-регрессию
5. Лассо-регрессия
Регрессия Лассо очень похожа на регрессию Риджа и используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной числового ответа.
Используйте, когда:
- Переменные-предикторы сильно коррелируют, и мультиколлинеарность становится проблемой.
- Переменная ответа представляет собой непрерывную числовую переменную.
Пример: экономист может использовать модель лассо-регрессии, используя переменные-предикторы, такие как общее количество лет обучения, отработанное время и стоимость жизни, для прогнозирования дохода семьи.
Переменные-предикторы, вероятно, сильно коррелируют, поскольку более образованные люди также, как правило, живут в городах с более высокой стоимостью жизни и работают больше часов. Таким образом, мультиколлинеарность, вероятно, будет проблемой, поэтому мы можем минимизировать эту проблему, используя лассо-регрессию.
Обратите внимание, что регрессия Лассо и регрессия Риджа очень похожи. Если мультиколлинеарность является проблемой в наборе данных, рекомендуется использовать модели регрессии Лассо и Риджа, чтобы увидеть, какая модель работает лучше всего.
Ресурс: Введение в лассо-регрессию
6. Регрессия Пуассона
Регрессия Пуассона используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной ответа.
Используйте, когда:
- Переменной ответа являются данные «подсчета» — например, количество солнечных дней в неделю, количество дорожно-транспортных происшествий в году, количество звонков в день и т. д.
Пример: университет может использовать регрессию Пуассона для изучения количества студентов, окончивших конкретную программу колледжа, на основе их среднего балла на момент поступления на программу и их пола.
В этом случае, поскольку переменной ответа являются данные подсчета (мы можем «посчитать» количество выпускников – 200, 250, 300, 413 и т. д.), целесообразно использовать регрессию Пуассона.
Ресурс:Введение в регрессию Пуассона.
7. Квантильная регрессия
Квантильная регрессия используется для соответствия модели регрессии, которая описывает взаимосвязь между одной или несколькими переменными-предикторами и переменной ответа.
Используйте, когда:
- Мы хотели бы оценить конкретный квантиль или процентиль переменной ответа – например, 90-й процентиль, 95-й процентиль и т. д.
Пример. Профессор может использовать квантильную регрессию, чтобы спрогнозировать ожидаемый 90-й процентиль результатов экзамена на основе количества изученных часов:
В этом случае, поскольку профессор хочет спрогнозировать конкретный процентиль переменной ответа (баллы на экзамене), уместно использовать квантильную регрессию.
Ресурс: Введение в квантильную регрессию
Дополнительные ресурсы
4 примера использования линейной регрессии в реальной жизни
4 примера использования логистической регрессии в реальной жизни
ANOVA против регрессии: в чем разница?
Полное руководство: как сообщить о результатах регрессии