Stata에서 로지스틱 회귀를 수행하는 방법
로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 방법입니다. 다음은 로지스틱 회귀를 사용하는 몇 가지 예입니다.
- 우리는 운동, 식이요법 및 체중이 심장마비 발생 가능성에 어떤 영향을 미치는지 알고 싶습니다. 반응 변수는 심장마비 이며 두 가지 잠재적인 결과가 있습니다. 즉, 심장마비가 발생하거나 발생하지 않습니다.
- 우리는 GPA, ACT 점수, AP 과정 수강 횟수가 특정 대학에 합격할 가능성에 어떤 영향을 미치는지 알고 싶습니다. 반응 변수는 수용 이며 수용 또는 수용되지 않음이라는 두 가지 잠재적 결과를 갖습니다.
- 단어 수와 이메일 제목이 이메일이 스팸일 가능성에 영향을 미치는지 알고 싶습니다. 응답 변수는 스팸 이며 스팸 또는 스팸 아님이라는 두 가지 잠재적 결과가 있습니다.
이 튜토리얼에서는 Stata에서 로지스틱 회귀를 수행하는 방법을 설명합니다.
예: Stata의 로지스틱 회귀
산모의 나이와 흡연 습관이 저체중아 출산 가능성에 영향을 미치는지 알고 싶다고 가정해 보겠습니다.
이를 탐색하기 위해 설명 변수로 연령과 흡연(예 또는 아니오)을 사용하고 응답 변수로 저체중 출생(예 또는 아니오)을 사용하여 로지스틱 회귀 분석을 수행할 수 있습니다. 응답 변수는 이진이므로 가능한 결과는 두 가지뿐입니다. 로지스틱 회귀를 사용해야 합니다.
189명의 서로 다른 산모에 대한 데이터가 포함된 lbw 데이터 세트를 사용하여 로지스틱 회귀를 수행하려면 Stata에서 다음 단계를 완료하세요.
1단계: 데이터를 로드합니다.
명령 상자에 다음을 입력하여 데이터를 로드합니다.
https://www.stata-press.com/data/r13/lbw를 사용하세요.
2단계: 데이터 요약을 가져옵니다.
명령 상자에 다음을 입력하여 작업 중인 데이터를 빠르게 이해하세요.
요약
데이터세트에 11개의 서로 다른 변수가 있음을 알 수 있지만 우리가 관심을 갖는 변수는 다음 세 개뿐입니다.
- 저체중 – 아기의 출생 시 저체중 여부. 1 = 예, 0 = 아니요.
- 나이 – 어머니의 나이.
- 연기 – 산모가 임신 중에 담배를 피웠는지 여부. 1 = 예, 0 = 아니요.
3단계: 로지스틱 회귀를 수행합니다.
설명 변수로 나이 와 연기를 사용하고 반응 변수로 low를 사용하여 로지스틱 회귀를 수행하려면 명령 상자에 다음을 입력합니다.
저연령 연기 로짓
결과에서 가장 흥미로운 숫자를 해석하는 방법은 다음과 같습니다.
계수(연령): -.0497792. 연기를 일정하게 유지하면 연령이 매년 증가할 때마다 저체중 출생 아기의 확률은 exp(-0.0497792) = 0.951 증가합니다. 이 숫자가 1보다 작다는 것은 연령 증가가 실제로 저체중아 출산 가능성 감소와 관련이 있음을 의미합니다.
예를 들어 어머니 A와 어머니 B가 모두 담배를 피우고 있다고 가정해 보겠습니다. 엄마 A가 엄마 B보다 한 살 더 많다면, 엄마 A가 저체중아를 낳을 확률은 엄마 B가 저체중아를 낳을 확률의 95.1%에 불과하다. 탄생.
피>|z| (연령): 0.119. 이는 연령 에 대한 검정 통계량과 연관된 p-값입니다. 이 값은 0.05 이상이므로 연령은 저체중 출생의 통계적으로 유의미한 예측 변수가 아닙니다.
승산비(연기): 0.6918486. 연령을 일정하게 유지하면 임신 중에 담배를 피우는 엄마는 임신 중에 담배를 피우지 않는 엄마보다 저체중아를 낳을 확률 exp(.6918486) = 1.997이 더 높습니다.
예를 들어 어머니 A와 어머니 B가 모두 30세라고 가정해 보겠습니다. 엄마 A가 임신 중에 담배를 피우고 엄마 B는 담배를 피우지 않는다면, 엄마 A가 저체중아를 출산할 확률은 엄마 B가 저체중아를 출산할 확률보다 99.7% 더 높습니다.
피>|z| (연기): 0.032. 이는 연기 에 대한 검정 통계량과 연관된 p-값입니다. 이 값은 0.05보다 작으므로 흡연은 저체중아 출생을 예측하는 통계적으로 유의미한 인자입니다.
4단계: 결과를 보고합니다.
마지막으로 로지스틱 회귀 분석 결과를 보고하고자 합니다. 이를 수행하는 방법의 예는 다음과 같습니다.
산모의 나이와 흡연 습관이 저체중아 출산 가능성에 영향을 미치는지 알아보기 위해 로지스틱 회귀분석을 실시했습니다. 분석에는 189명의 어머니 샘플이 사용되었습니다.
그 결과, 흡연과 저체중아 출생 확률(z = 2.15, p = 0.032) 사이에는 통계적으로 유의한 관계가 있었던 반면, 연령과 저체중아 출생 확률(z = -1.56) 사이에는 통계적으로 유의한 관계가 없는 것으로 나타났습니다. , p = 0.032). 119).