Полное руководство: как сообщить о результатах логистической регрессии
Логистическая регрессия — это тип регрессионного анализа, который мы используем, когда переменная ответа является двоичной.
Мы можем использовать следующий общий формат для сообщения о результатах модели логистической регрессии:
Логистическая регрессия использовалась для анализа взаимосвязи между [переменной-предиктором 1], [переменной-предиктором 2],… [переменной-предиктором n ] и [переменной-ответом].
Было обнаружено, что, если все остальные переменные-предикторы остаются постоянными, вероятность появления [переменной ответа] [увеличивается или уменьшается] на [несколько процентов] (95% ДИ [нижний предел, верхний предел]) для увеличения на одну единицу в [предикторная переменная 1].
Было обнаружено, что, если все остальные переменные-предикторы остаются постоянными, вероятность появления [переменной ответа] [увеличивается или уменьшается] на [несколько процентов] (95% ДИ [нижний предел, верхний предел]) для увеличения на одну единицу в [переменная-предиктор 2].
…
Мы можем использовать этот базовый синтаксис для сообщения об отношениях шансов и соответствующем 95% доверительном интервале для отношений шансов каждой предикторной переменной в модели.
В следующем примере показано, как на практике сообщить о результатах модели логистической регрессии.
Пример. Отчет о результатах логистической регрессии
Предположим, профессор хочет понять, влияют ли две разные программы обучения (Программа А и Программа Б) и количество изучаемых часов на вероятность того, что студент сдаст выпускной экзамен своего класса.
Он соответствует модели логистической регрессии, использующей часы обучения и программу обучения в качестве переменных-предсказателей, а результат экзамена (сдал или не сдал) в качестве переменной ответа.
Следующий вывод показывает результаты модели логистической регрессии:
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.415 0.623 -3.876 <0.000 program_A 0.344 0.156 2.205 0.027 hours 0.006 0.002 3.000 0.003
Прежде чем сообщать о результатах модели логистической регрессии, мы должны сначала рассчитать отношение шансов для каждой переменной-предиктора, используя формулу e β .
Например, вот как вычислить отношение шансов для каждой переменной-предиктора:
- Отношение шансов программы: e 0,344 = 1,41.
- Отношение шансов часов: e 0,006 = 1,006
Нам также необходимо рассчитать 95% доверительный интервал для отношения шансов каждой переменной-предиктора, используя формулу e (β +/- 1,96 * стандартная ошибка) .
Например, вот как вычислить отношение шансов для каждой переменной-предиктора:
- 95% ДИ для отношения шансов программы: e 0,344 +/- 1,96*0,156 = [1,04, 1,92]
- 95% ДИ для отношения шансов часов: e 0,006 +/- 1,96*0,002 = [1,002, 1,009]
Теперь, когда мы рассчитали отношение шансов и соответствующий доверительный интервал для каждой предикторной переменной, мы можем сообщить о результатах модели следующим образом:
Логистическая регрессия использовалась для анализа взаимосвязи между учебной программой и количеством изученных часов с вероятностью сдачи выпускного экзамена.
Было обнаружено, что при постоянном количестве учебных часов шансы сдать выпускной экзамен увеличились на 41% (95% ДИ [0,04, 0,92]) для студентов, которые использовали учебную программу А, по сравнению с учебной программой Б.
Также было обнаружено, что при неизменной программе обучения шансы сдать выпускной экзамен увеличивались на 0,6% (95% ДИ [0,002, 0,009]) за каждый дополнительный учебный час.
Обратите внимание, что мы сообщили об отношениях шансов для переменных-предикторов, а не о значениях бета модели, поскольку отношения шансов легче интерпретировать и понимать.
Дополнительные ресурсы
Следующие руководства предоставляют дополнительную информацию о логистической регрессии:
Введение в логистическую регрессию
Как выполнить логистическую регрессию в R
Как выполнить логистическую регрессию в Python
4 примера использования логистической регрессии в реальной жизни