Як виконати логістичну регресію в stata
Логістична регресія – це метод, який ми використовуємо для підгонки моделі регресії, коли змінна відповіді є двійковою. Ось кілька прикладів використання логістичної регресії:
- Ми хочемо знати, як фізичні вправи, дієта та вага впливають на ймовірність серцевого нападу. Змінною відповіддю є серцевий напад , і він має два потенційних наслідки: серцевий напад відбувається або його не відбувається.
- Ми хочемо знати, як середній бал, бал ACT і кількість пройдених курсів AP впливають на ймовірність бути прийнятим до певного університету. Змінною відповіддю є прийняття , і воно має два потенційних результати: прийнято або не прийнято.
- Ми хочемо знати, чи впливають кількість слів і назва електронного листа на ймовірність того, що електронний лист є спамом. Змінна відповіді є спамом і має два потенційні результати: спам або не спам.
Цей посібник пояснює, як виконувати логістичну регресію в Stata.
Приклад: логістична регресія в Stata
Припустімо, ми хочемо зрозуміти, чи впливають вік матері та її звичка до куріння на ймовірність народження дитини з низькою вагою.
Щоб дослідити це, ми можемо виконати логістичну регресію, використовуючи вік і куріння (так чи ні) як пояснювальні змінні та низьку вагу при народженні (так чи ні) як змінну відповіді. Оскільки змінна відповіді є двійковою (є лише два можливі результати), слід використовувати логістичну регресію.
Виконайте наступні кроки в Stata, щоб виконати логістичну регресію за допомогою набору даних під назвою lbw , який містить дані про 189 різних матерів.
Крок 1. Завантажте дані.
Завантажте дані, ввівши наступне в полі команди:
використовуйте https://www.stata-press.com/data/r13/lbw
Крок 2. Отримайте зведення даних.
Отримайте швидке розуміння даних, з якими ви працюєте, ввівши наступне в поле команди:
узагальнити
Ми бачимо, що в наборі даних є 11 різних змінних, але нас цікавлять лише три:
- низька – незалежно від того, чи має дитина низьку вагу при народженні. 1 = так, 0 = ні.
- вік – вік матері.
- палити – чи курила мати під час вагітності. 1 = так, 0 = ні.
Крок 3: Виконайте логістичну регресію.
Введіть наступне у полі команди, щоб виконати логістичну регресію, використовуючи вік і дим як пояснювальні змінні та низький як змінну відповіді.
низький вік диму logit
Ось як інтерпретувати найцікавіші числа в результаті:
Коефіцієнт (вік): -.0497792. Утримуючи дим незмінним, кожен рік збільшення віку пов’язаний зі збільшенням exp(-0,0497792) = 0,951 шансів народження дитини з низькою вагою. Якщо це число менше 1, це означає, що збільшення віку фактично пов’язане зі зниженням шансів народження дитини з низькою вагою.
Наприклад, припустимо, що мати А і мати Б обидві курять. Якщо мати А на один рік старша за матір Б, то ймовірність того, що мати А народить дитину з низькою вагою, становить лише 95,1% від ймовірності того, що мати Б народить дитину з низькою вагою. народження.
P>|z| (вік): 0,119. Це p-значення, пов’язане зі статистикою тесту для віку . Оскільки це значення не менше 0,05, вік не є статистично значущим предиктором низької ваги при народженні.
Коефіцієнт шансів (дим): 0,6918486. Утримуючи вік незмінним, мати, яка курить під час вагітності, має вищу ймовірність exp(.6918486) = 1,997 народження дитини з низькою вагою, ніж мати, яка не курить під час вагітності.
Наприклад, припустимо, що матері А і матері Б обом по 30 років. Якщо мати А курить під час вагітності, а мати Б не палить, то шанси матері А народити дитину з низькою вагою на 99,7% вищі, ніж шанси матері Б народити дитину з низькою вагою.
P>|z| (дим): 0,032. Це p-значення, пов’язане зі статистикою тесту для диму . Оскільки це значення менше 0,05, куріння є статистично значущим предиктором низької ваги при народженні.
Крок 4: Повідомте про результати.
Нарешті, ми хотіли б повідомити про результати нашої логістичної регресії. Ось приклад того, як це зробити:
Була проведена логістична регресія, щоб визначити, чи впливають вік матері та її звички до куріння на ймовірність народження дитини з низькою вагою. Для аналізу було використано вибірку з 189 матерів.
Результати показали, що існував статистично значущий зв’язок між курінням і ймовірністю низької ваги при народженні (z = 2,15, p = 0,032), тоді як не було статистично значущого зв’язку між віком і ймовірністю низької ваги при народженні (z = -1,56). , p = 0,032). 119).