Как выполнить логистическую регрессию в stata
Логистическая регрессия — это метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Вот несколько примеров использования логистической регрессии:
- Мы хотим знать, как физические упражнения, диета и вес влияют на вероятность сердечного приступа. Переменной ответа является сердечный приступ , и он имеет два потенциальных результата: сердечный приступ произойдет или не произойдет.
- Мы хотим знать, как средний балл, балл ACT и количество пройденных курсов AP влияют на вероятность поступления в конкретный университет. Переменной ответа является принятие , и она имеет два потенциальных результата: принято или не принято.
- Мы хотим знать, влияет ли количество слов и заголовок электронного письма на вероятность того, что электронное письмо является спамом. Переменной ответа является спам , и она имеет два потенциальных результата: спам или не спам.
В этом руководстве объясняется, как выполнить логистическую регрессию в Stata.
Пример: логистическая регрессия в Stata
Предположим, мы хотим понять, влияют ли возраст матери и привычка курить на вероятность рождения ребенка с низкой массой тела.
Чтобы изучить это, мы можем выполнить логистическую регрессию, используя возраст и курение (да или нет) в качестве объясняющих переменных, а низкий вес при рождении (да или нет) в качестве переменной ответа. Поскольку переменная ответа является двоичной (есть только два возможных результата), следует использовать логистическую регрессию.
Выполните следующие шаги в Stata, чтобы выполнить логистическую регрессию, используя набор данных под названием lbw , который содержит данные о 189 различных матерях.
Шаг 1: Загрузите данные.
Загрузите данные, введя в поле команды следующее:
используйте https://www.stata-press.com/data/r13/lbw
Шаг 2. Получите сводку данных.
Получите быстрое представление о данных, с которыми вы работаете, введя следующее в поле «Команда»:
обобщить
Мы видим, что в наборе данных 11 различных переменных, но нас интересуют только три:
- низкий – имеет ли ребенок низкий вес при рождении. 1 = да, 0 = нет.
- age – возраст матери.
- курение – курила ли мать во время беременности. 1 = да, 0 = нет.
Шаг 3: Выполните логистическую регрессию.
Введите следующую команду в поле команды, чтобы выполнить логистическую регрессию, используя возраст и дым в качестве объясняющих переменных и низкий уровень в качестве переменной ответа.
курение в юном возрасте логит
Вот как интерпретировать наиболее интересные цифры в результате:
Коэффициент (возраст): -.0497792. При постоянном курении каждый год увеличения возраста связан с увеличением exp(-0,0497792) = 0,951 вероятности рождения ребенка с низким весом. Если это число меньше 1, это означает, что увеличение возраста на самом деле связано с уменьшением вероятности рождения ребенка с низкой массой тела.
Например, предположим, что Мать А и Мать Б курят. Если мать А на год старше матери Б, то вероятность того, что у матери А родится ребенок с низкой массой тела, составляет всего 95,1% от вероятности того, что у матери Б родится ребенок с низкой массой тела. рождение.
P>|z| (возраст): 0,119. Это значение p, связанное со статистикой теста для возраста . Поскольку это значение не менее 0,05, возраст не является статистически значимым предиктором низкой массы тела при рождении.
Отношение шансов (дым): 0,6918486. При неизменном возрасте мать, которая курит во время беременности, имеет более высокую вероятность exp(0,6918486) = 1,997 родить ребенка с низкой массой тела при рождении, чем мать, которая не курит во время беременности.
Например, предположим, что матери А и матери Б по 30 лет. Если мать А курит во время беременности, а мать Б не курит, то шансы того, что у матери А родится ребенок с низкой массой тела, на 99,7% выше, чем шансы матери Б родить ребенка с низкой массой тела.
P>|z| (дым): 0,032. Это значение p, связанное со статистикой теста для дыма . Поскольку это значение меньше 0,05, курение является статистически значимым предиктором низкой массы тела при рождении.
Шаг 4: Сообщите о результатах.
Наконец, мы хотели бы сообщить о результатах нашей логистической регрессии. Вот пример того, как это сделать:
Логистическая регрессия была проведена, чтобы определить, влияют ли возраст матери и привычка к курению на вероятность рождения ребенка с низкой массой тела при рождении. В анализе была использована выборка из 189 матерей.
Результаты показали, что существует статистически значимая связь между курением и вероятностью низкой массы тела при рождении (z = 2,15, p = 0,032), в то время как не было статистически значимой связи между возрастом и вероятностью низкой массы тела при рождении (z = -1,56). , р = 0,032). 119).