Как выполнить логистическую регрессию в stata


Логистическая регрессия — это метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Вот несколько примеров использования логистической регрессии:

  • Мы хотим знать, как физические упражнения, диета и вес влияют на вероятность сердечного приступа. Переменной ответа является сердечный приступ , и он имеет два потенциальных результата: сердечный приступ произойдет или не произойдет.
  • Мы хотим знать, как средний балл, балл ACT и количество пройденных курсов AP влияют на вероятность поступления в конкретный университет. Переменной ответа является принятие , и она имеет два потенциальных результата: принято или не принято.
  • Мы хотим знать, влияет ли количество слов и заголовок электронного письма на вероятность того, что электронное письмо является спамом. Переменной ответа является спам , и она имеет два потенциальных результата: спам или не спам.

В этом руководстве объясняется, как выполнить логистическую регрессию в Stata.

Пример: логистическая регрессия в Stata

Предположим, мы хотим понять, влияют ли возраст матери и привычка курить на вероятность рождения ребенка с низкой массой тела.

Чтобы изучить это, мы можем выполнить логистическую регрессию, используя возраст и курение (да или нет) в качестве объясняющих переменных, а низкий вес при рождении (да или нет) в качестве переменной ответа. Поскольку переменная ответа является двоичной (есть только два возможных результата), следует использовать логистическую регрессию.

Выполните следующие шаги в Stata, чтобы выполнить логистическую регрессию, используя набор данных под названием lbw , который содержит данные о 189 различных матерях.

Шаг 1: Загрузите данные.

Загрузите данные, введя в поле команды следующее:

используйте https://www.stata-press.com/data/r13/lbw

Шаг 2. Получите сводку данных.

Получите быстрое представление о данных, с которыми вы работаете, введя следующее в поле «Команда»:

обобщить

Набор данных о низкой массе тела при рождении в Stata

Мы видим, что в наборе данных 11 различных переменных, но нас интересуют только три:

  • низкий – имеет ли ребенок низкий вес при рождении. 1 = да, 0 = нет.
  • age – возраст матери.
  • курение – курила ли мать во время беременности. 1 = да, 0 = нет.

Шаг 3: Выполните логистическую регрессию.

Введите следующую команду в поле команды, чтобы выполнить логистическую регрессию, используя возраст и дым в качестве объясняющих переменных и низкий уровень в качестве переменной ответа.

курение в юном возрасте логит

Выходные данные логистической регрессии в Stata

Вот как интерпретировать наиболее интересные цифры в результате:

Коэффициент (возраст): -.0497792. При постоянном курении каждый год увеличения возраста связан с увеличением exp(-0,0497792) = 0,951 вероятности рождения ребенка с низким весом. Если это число меньше 1, это означает, что увеличение возраста на самом деле связано с уменьшением вероятности рождения ребенка с низкой массой тела.

Например, предположим, что Мать А и Мать Б курят. Если мать А на год старше матери Б, то вероятность того, что у матери А родится ребенок с низкой массой тела, составляет всего 95,1% от вероятности того, что у матери Б родится ребенок с низкой массой тела. рождение.

P>|z| (возраст): 0,119. Это значение p, связанное со статистикой теста для возраста . Поскольку это значение не менее 0,05, возраст не является статистически значимым предиктором низкой массы тела при рождении.

Отношение шансов (дым): 0,6918486. При неизменном возрасте мать, которая курит во время беременности, имеет более высокую вероятность exp(0,6918486) = 1,997 родить ребенка с низкой массой тела при рождении, чем мать, которая не курит во время беременности.

Например, предположим, что матери А и матери Б по 30 лет. Если мать А курит во время беременности, а мать Б не курит, то шансы того, что у матери А родится ребенок с низкой массой тела, на 99,7% выше, чем шансы матери Б родить ребенка с низкой массой тела.

P>|z| (дым): 0,032. Это значение p, связанное со статистикой теста для дыма . Поскольку это значение меньше 0,05, курение является статистически значимым предиктором низкой массы тела при рождении.

Шаг 4: Сообщите о результатах.

Наконец, мы хотели бы сообщить о результатах нашей логистической регрессии. Вот пример того, как это сделать:

Логистическая регрессия была проведена, чтобы определить, влияют ли возраст матери и привычка к курению на вероятность рождения ребенка с низкой массой тела при рождении. В анализе была использована выборка из 189 матерей.

Результаты показали, что существует статистически значимая связь между курением и вероятностью низкой массы тела при рождении (z = 2,15, p = 0,032), в то время как не было статистически значимой связи между возрастом и вероятностью низкой массы тела при рождении (z = -1,56). , р = 0,032). 119).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *