6 гипотез логистической регрессии (с примерами)
Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.
Прежде чем адаптировать модель к набору данных, логистическая регрессия делает следующие предположения:
Предположение №1: переменная ответа является двоичной.
Логистическая регрессия предполагает, что переменная ответа имеет только два возможных результата. Вот некоторые примеры:
- Да или нет
- Мужчина или женщина
- Успех или провал
- Письменное или неписаное
- Злокачественный или доброкачественный
Как проверить это предположение: просто подсчитайте количество уникальных результатов, встречающихся в переменной ответа. Если возможных результатов более двух, вместо этого вам потребуется выполнить порядковую регрессию .
Гипотеза №2: наблюдения независимы
Логистическая регрессия предполагает, что наблюдения в наборе данных независимы друг от друга. То есть наблюдения не должны основываться на повторных измерениях одного и того же человека или каким-либо образом быть связаны друг с другом.
Как проверить эту гипотезу: Самый простой способ проверить эту гипотезу — построить график зависимости остатков от времени (т. е. порядка наблюдений) и наблюдать, существует ли случайная тенденция. Если случайной закономерности нет , это предположение может быть нарушено.
Гипотеза №3: между объясняющими переменными нет мультиколлинеарности.
Логистическая регрессия предполагает отсутствие серьезной мультиколлинеарности между объясняющими переменными .
Мультиколлинеарность возникает, когда две или более объясняющих переменных сильно коррелируют друг с другом, поэтому они не предоставляют уникальную или независимую информацию в регрессионной модели. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подборе и интерпретации модели.
Например, предположим, что вы хотите выполнить логистическую регрессию, используя максимальный вертикальный скачок в качестве переменной ответа и следующие переменные в качестве объясняющих переменных:
- Размер игрока
- Размер игрока
- Часов, потраченных на тренировки в день
В этом случае рост и размер обуви , вероятно, сильно коррелируют, поскольку более высокие люди, как правило, имеют обувь большего размера. Это означает, что мультиколлинеарность, скорее всего, станет проблемой, если мы будем использовать эти две переменные в регрессии.
Как проверить это предположение: Самый распространенный способ обнаружить мультиколлинеарность — использовать коэффициент инфляции дисперсии (VIF), который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели. Ознакомьтесь с этим руководством , чтобы получить подробное объяснение того, как рассчитывать и интерпретировать значения VIF.
Предположение № 4: Экстремальных выбросов нет.
Логистическая регрессия предполагает, что в наборе данных нет экстремальных выбросов или влиятельных наблюдений.
Как проверить это предположение: Самый распространенный способ проверить наличие экстремальных выбросов и влиятельных наблюдений в наборе данных — вычислить расстояние Кука для каждого наблюдения. Если выбросы действительно есть, вы можете (1) удалить их, (2) заменить их таким значением, как среднее или медиана, или (3) просто сохранить их в модели, но принять к сведению при составлении отчета о регрессии. . Результаты.
Гипотеза №5: Существует линейная зависимость между объясняющими переменными и логитом переменной отклика.
Логистическая регрессия предполагает, что существует линейная связь между каждой объясняющей переменной и логитом переменной ответа. Напомним, что логит определяется как:
Logit(p) = log(p / (1-p)), где p — вероятность положительного результата.
Как проверить эту гипотезу: Самый простой способ проверить, верна ли эта гипотеза, — использовать тест Бокса-Тидвелла.
Предположение №6: Размер выборки достаточно велик.
Логистическая регрессия предполагает, что размер выборки набора данных достаточно велик, чтобы сделать обоснованные выводы на основе подобранной модели логистической регрессии.
Как проверить эту гипотезу: Как правило, у вас должно быть минимум 10 случаев с наименее частым исходом для каждой объясняющей переменной. Например, если у вас есть 3 объясняющие переменные и ожидаемая вероятность наименее частого результата равна 0,20, то размер выборки должен быть не менее (10*3)/0,20 = 150 .
Предположения логистической регрессии против. Линейная регрессия
В отличие от линейной регрессии, логистическая регрессия не требует:
- Линейная связь между объясняющими переменными и переменной отклика.
- Остатки модели должны быть распределены нормально.
- Остатки должны иметь постоянную дисперсию, также известную как гомоскедастичность .
Связанный: Четыре предположения линейной регрессии
Дополнительные ресурсы
4 примера использования логистической регрессии в реальной жизни
Как выполнить логистическую регрессию в SPSS
Как выполнить логистическую регрессию в Excel
Как выполнить логистическую регрессию в Stata