7 поширених типів регресії (і коли їх використовувати)


Регресійний аналіз є одним із найбільш часто використовуваних методів у статистиці.

Основна мета регресійного аналізу полягає в тому, щоб підібрати модель, яка найкраще описує зв’язок між однією або декількома змінними предикторів і змінною відповіді .

У цій статті ми розповідаємо про 7 моделей регресії, які найчастіше використовуються в реальному житті, а також про те, коли використовувати кожен тип регресії.

1. Лінійна регресія

Лінійна регресія використовується для підгонки регресійної моделі, яка описує зв’язок між однією або декількома змінними предиктора та змінною числової відповіді.

Використовуйте, коли:

  • Зв’язок між змінною(ями) предиктора та змінною відповіді досить лінійний.
  • Змінна відповіді є безперервною числовою змінною.

Приклад: роздрібна компанія може застосувати модель лінійної регресії, використовуючи витрати на рекламу для прогнозування загального обсягу продажів.

Оскільки зв’язок між цими двома змінними, ймовірно, є лінійним (більше грошей, витрачених на рекламу, як правило, призводить до збільшення продажів), а змінна відповіді (загальний обсяг продажів) є безперервною числовою змінною, має сенс скоригувати модель лінійної регресії.

Ресурс: Вступ до множинної лінійної регресії

2. Логістична регресія

Логістична регресія використовується для підгонки моделі регресії, яка описує зв’язок між однією або декількома змінними предиктора та змінною двійкової відповіді.

Використовуйте, коли:

  • Змінна відповіді є двійковою: вона може приймати лише два значення.

Приклад: медичні дослідники можуть підібрати модель логістичної регресії, використовуючи фізичні вправи та звички куріння, щоб передбачити ймовірність серцевого нападу в людини.

Оскільки змінна відповіді (серцевий напад) є двійковою – людина або переживає серцевий напад, або ні, доцільно застосувати модель логістичної регресії.

Ресурс: Вступ до логістичної регресії

3. Поліноміальна регресія

Поліноміальна регресія використовується для підгонки регресійної моделі, яка описує зв’язок між однією або декількома змінними предиктора та змінною числової відповіді.

Використовуйте, коли:

  • Зв’язок між змінною(ями) предиктора та змінною відповіді є нелінійним.
  • Змінна відповіді є безперервною числовою змінною.

Приклад: психологи можуть підібрати поліноміальну регресію, використовуючи «відпрацьовані години», щоб передбачити «загальне щастя» працівників у певній галузі.

Зв’язок між цими двома змінними, ймовірно, нелінійний. Тобто, коли кількість годин збільшується, людина може повідомляти про більше щастя, але після певної кількості відпрацьованих годин загальне щастя, ймовірно, зменшиться. Оскільки цей зв’язок між змінною предиктором і змінною відповіді є нелінійним, має сенс застосувати модель поліноміальної регресії.

Ресурс: Вступ до поліноміальної регресії

4. Хребтова регресія

Ридж-регресія використовується для підгонки регресійної моделі, яка описує зв’язок між однією або декількома змінними предиктора та змінною числової відповіді.

Використовуйте, коли:

  • Прогностичні змінні сильно корельовані, і мультиколінеарність стає проблемою.
  • Змінна відповіді є безперервною числовою змінною.

Приклад: фахівець з баскетбольних даних може підібрати регресійну модель хребта, використовуючи передбачувані змінні, такі як очки, результативні передачі та підбирання, щоб передбачити зарплати гравців.

Прогностичні змінні, ймовірно, будуть сильно корельовані, оскільки кращі гравці, як правило, мають більше очок, передач і підбирань. Таким чином, мультиколінеарність, ймовірно, буде проблемою, тому ми можемо мінімізувати цю проблему за допомогою хребтової регресії.

Ресурс: Вступ до хребтової регресії

5. Регресія ласо

Ласо-регресія дуже схожа на регресію Ріджа та використовується для підгонки регресійної моделі, яка описує зв’язок між однією або декількома змінними предиктора та змінною числової відповіді.

Використовуйте, коли:

  • Прогностичні змінні сильно корельовані, і мультиколінеарність стає проблемою.
  • Змінна відповіді є безперервною числовою змінною.

Приклад. Економіст може підібрати регресійну модель ласо, використовуючи передбачувані змінні, такі як загальна кількість років навчання, відпрацьовані години та вартість життя, щоб передбачити дохід домогосподарства.

Прогностичні змінні, ймовірно, сильно корелюють, оскільки більш освічені люди також, як правило, живуть у містах з вищою вартістю життя та працюють більше годин. Отже, мультиколінеарність, ймовірно, буде проблемою, тому ми можемо мінімізувати цю проблему, використовуючи ласо-регресію.

Зауважте, що регресія Ласо та регресія Ріджа досить схожі. Якщо мультиколінеарність є проблемою в наборі даних, рекомендується підібрати регресійну модель Ласо та модель Ріджа, щоб побачити, яка модель працює найкраще.

Ресурс: Вступ до регресії ласо

6. Регресія Пуассона

Регресія Пуассона використовується для підгонки регресійної моделі, яка описує зв’язок між однією або декількома змінними предиктора та змінною відповіді.

Використовуйте, коли:

  • Змінна відповіді — це дані «підрахунку» — наприклад, кількість сонячних днів на тиждень, кількість дорожньо-транспортних пригод на рік, кількість дзвінків, здійснених за день, тощо.

Приклад: Університет може використовувати регресію Пуассона, щоб перевірити кількість студентів, які закінчили певну програму коледжу, на основі їх середнього балу на момент вступу на програму та їхньої статі.

У цьому випадку, оскільки змінна відповіді є даними підрахунку (ми можемо «підрахувати» кількість випускників – 200, 250, 300, 413 і т.д.), доцільно використовувати регресію Пуассона.

Ресурс: Вступ до регресії Пуассона

7. Квантильна регресія

Квантильна регресія використовується для відповідності регресійній моделі, яка описує зв’язок між однією або декількома змінними предиктора та змінною відповіді.

Використовуйте, коли:

  • Ми хотіли б оцінити певний квантиль або процентиль змінної відповіді – наприклад, 90-й процентиль, 95-й процентиль тощо.

Приклад: професор може використовувати квантильну регресію, щоб передбачити очікуваний 90-й процентиль балів на іспитах на основі кількості вивчених годин:

У цьому випадку, оскільки професор хоче передбачити певний процентиль змінної відповіді (оцінки іспиту), доцільно використовувати квантильну регресію.

Ресурс: Вступ до квантильної регресії

Додаткові ресурси

4 приклади використання лінійної регресії в реальному житті
4 приклади використання логістичної регресії в реальному житті
ANOVA проти регресії: у чому різниця?
Повний посібник: як звітувати про результати регресії

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *