6 гіпотез логістичної регресії (з прикладами)


Логістична регресія – це метод, який ми можемо використати для підгонки моделі регресії, коли змінна відповіді є двійковою.

Перед підгонкою моделі до набору даних логістична регресія робить такі припущення:

Припущення №1: змінна відповіді є двійковою

Логістична регресія передбачає, що змінна відповіді має лише два можливі результати. Ось кілька прикладів:

  • так або ні
  • Чоловік чи жінка
  • Успіх чи невдача
  • Письмовий чи неписаний
  • Злоякісний або доброякісний

Як перевірити це припущення: просто підрахуйте кількість унікальних результатів, які виникають у змінній відповіді. Якщо існує більше двох можливих результатів, замість цього вам потрібно буде виконати порядкову регресію .

Гіпотеза №2: спостереження є незалежними

Логістична регресія передбачає, що спостереження в наборі даних не залежать одне від одного. Тобто спостереження не повинні походити від повторних вимірювань однієї особи або будь-яким чином пов’язані одне з одним.

Як перевірити цю гіпотезу. Найпростіший спосіб перевірити цю гіпотезу — створити графік залежності залишків від часу (тобто порядок спостережень) і спостерігати, чи існує випадкова тенденція. Якщо випадкового шаблону немає , це припущення може бути порушено.

Гіпотеза №3: серед пояснювальних змінних немає мультиколінеарності

Логістична регресія передбачає відсутність серйозної мультиколінеарності між пояснювальними змінними .

Мультиколінеарність виникає, коли дві або більше пояснювальних змінних сильно корельовані одна з одною, так що вони не надають унікальної чи незалежної інформації в регресійній моделі. Якщо ступінь кореляції між змінними досить високий, це може спричинити проблеми під час підгонки та інтерпретації моделі.

Наприклад, припустімо, що ви хочете виконати логістичну регресію, використовуючи максимальний вертикальний стрибок як змінну відповіді та наступні змінні як пояснювальні змінні:

  • Розмір гравця
  • Розмір гравця
  • Години, витрачені на практику в день

У цьому випадку зріст і розмір взуття , ймовірно, сильно корелюють, оскільки високі люди, як правило, мають більший розмір взуття. Це означає, що мультиколінеарність, імовірно, буде проблемою, якщо ми використовуємо ці дві змінні в регресії.

Як перевірити це припущення. Найпоширенішим способом виявлення мультиколінеарності є використання фактора інфляції дисперсії (VIF), який вимірює кореляцію та силу кореляції між змінними-прогнозами в регресійній моделі. Ознайомтеся з цим підручником , щоб отримати детальне пояснення того, як обчислити та інтерпретувати значення VIF.

Припущення №4: екстремальних викидів немає

Логістична регресія передбачає, що в наборі даних немає екстремальних викидів або впливових спостережень.

Як перевірити це припущення. Найпоширенішим способом перевірки екстремальних викидів і впливових спостережень у наборі даних є обчислення відстані Кука для кожного спостереження. Якщо дійсно є викиди, ви можете вибрати (1) видалити їх, (2) замінити значенням, наприклад середнім або медіаною, або (3) просто зберегти їх у моделі, але взяти до уваги під час звітування про регресію. . результати.

Гіпотеза №5: існує лінійна залежність між пояснювальними змінними та логітом змінної відповіді

Логістична регресія припускає, що існує лінійна залежність між кожною пояснювальною змінною та логітом змінної відповіді. Нагадаємо, що логіт визначається як:

Logit(p) = log(p / (1-p)), де p — імовірність позитивного результату.

Як перевірити цю гіпотезу: найпростіший спосіб перевірити, чи вірна ця гіпотеза, — це використати тест Бокса-Тідвелла.

Припущення №6: розмір вибірки достатньо великий

Логістична регресія припускає, що розмір вибірки набору даних достатньо великий, щоб зробити дійсні висновки з підігнаної моделі логістичної регресії.

Як перевірити цю гіпотезу: як правило, ви повинні мати щонайменше 10 випадків із найменш частим результатом для кожної пояснювальної змінної. Наприклад, якщо у вас є 3 пояснювальні змінні, а очікувана ймовірність найменш частого результату становить 0,20, тоді ви повинні мати розмір вибірки принаймні (10*3) / 0,20 = 150 .

Припущення логістичної регресії проти Лінійна регресія

На відміну від лінійної регресії, логістична регресія не вимагає:

  • Лінійний зв’язок між пояснювальною змінною (змінними) та змінною відповіді.
  • Залишки моделі мають бути розподілені нормально.
  • Залишки повинні мати постійну дисперсію, також відому як гомоскедастичність .

За темою: Чотири припущення лінійної регресії

Додаткові ресурси

4 приклади використання логістичної регресії в реальному житті
Як виконати логістичну регресію в SPSS
Як виконати логістичну регресію в Excel
Як виконати логістичну регресію в Stata

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *