6 гипотез логистической регрессии (с примерами)


Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.

Прежде чем адаптировать модель к набору данных, логистическая регрессия делает следующие предположения:

Предположение №1: переменная ответа является двоичной.

Логистическая регрессия предполагает, что переменная ответа имеет только два возможных результата. Вот некоторые примеры:

  • Да или нет
  • Мужчина или женщина
  • Успех или провал
  • Письменное или неписаное
  • Злокачественный или доброкачественный

Как проверить это предположение: просто подсчитайте количество уникальных результатов, встречающихся в переменной ответа. Если возможных результатов более двух, вместо этого вам потребуется выполнить порядковую регрессию .

Гипотеза №2: наблюдения независимы

Логистическая регрессия предполагает, что наблюдения в наборе данных независимы друг от друга. То есть наблюдения не должны основываться на повторных измерениях одного и того же человека или каким-либо образом быть связаны друг с другом.

Как проверить эту гипотезу: Самый простой способ проверить эту гипотезу — построить график зависимости остатков от времени (т. е. порядка наблюдений) и наблюдать, существует ли случайная тенденция. Если случайной закономерности нет , это предположение может быть нарушено.

Гипотеза №3: между объясняющими переменными нет мультиколлинеарности.

Логистическая регрессия предполагает отсутствие серьезной мультиколлинеарности между объясняющими переменными .

Мультиколлинеарность возникает, когда две или более объясняющих переменных сильно коррелируют друг с другом, поэтому они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подборе и интерпретации модели.

Например, предположим, что вы хотите выполнить логистическую регрессию, используя максимальный вертикальный скачок в качестве переменной ответа и следующие переменные в качестве объясняющих переменных:

  • Размер игрока
  • Размер игрока
  • Часов, потраченных на тренировки в день

В этом случае рост и размер обуви , вероятно, сильно коррелируют, поскольку более высокие люди, как правило, имеют обувь большего размера. Это означает, что мультиколлинеарность, скорее всего, станет проблемой, если мы будем использовать эти две переменные в регрессии.

Как проверить это предположение: Самый распространенный способ обнаружить мультиколлинеарность — использовать коэффициент инфляции дисперсии (VIF), который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели. Ознакомьтесь с этим руководством , чтобы получить подробное объяснение того, как рассчитывать и интерпретировать значения VIF.

Предположение № 4: Экстремальных выбросов нет.

Логистическая регрессия предполагает, что в наборе данных нет экстремальных выбросов или влиятельных наблюдений.

Как проверить это предположение: Самый распространенный способ проверить наличие экстремальных выбросов и влиятельных наблюдений в наборе данных — вычислить расстояние Кука для каждого наблюдения. Если выбросы действительно есть, вы можете (1) удалить их, (2) заменить их таким значением, как среднее или медиана, или (3) просто сохранить их в модели, но принять к сведению при составлении отчета о регрессии. . Результаты.

Гипотеза №5: Существует линейная зависимость между объясняющими переменными и логитом переменной отклика.

Логистическая регрессия предполагает, что существует линейная связь между каждой объясняющей переменной и логитом переменной ответа. Напомним, что логит определяется как:

Logit(p) = log(p / (1-p)), где p — вероятность положительного результата.

Как проверить эту гипотезу: Самый простой способ проверить, верна ли эта гипотеза, — использовать тест Бокса-Тидвелла.

Предположение №6: Размер выборки достаточно велик.

Логистическая регрессия предполагает, что размер выборки набора данных достаточно велик, чтобы сделать обоснованные выводы на основе подобранной модели логистической регрессии.

Как проверить эту гипотезу: Как правило, у вас должно быть минимум 10 случаев с наименее частым исходом для каждой объясняющей переменной. Например, если у вас есть 3 объясняющие переменные и ожидаемая вероятность наименее частого результата равна 0,20, то размер выборки должен быть не менее (10*3)/0,20 = 150 .

Предположения логистической регрессии против. Линейная регрессия

В отличие от линейной регрессии, логистическая регрессия не требует:

  • Линейная связь между объясняющими переменными и переменной отклика.
  • Остатки модели должны быть распределены нормально.
  • Остатки должны иметь постоянную дисперсию, также известную как гомоскедастичность .

Связанный: Четыре предположения линейной регрессии

Дополнительные ресурсы

4 примера использования логистической регрессии в реальной жизни
Как выполнить логистическую регрессию в SPSS
Как выполнить логистическую регрессию в Excel
Как выполнить логистическую регрессию в Stata

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *