Sas에서 로지스틱 회귀를 수행하는 방법


로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용할 수 있는 방법입니다.

로지스틱 회귀 분석에서는 최대 우도 추정 이라는 방법을 사용하여 다음 형식의 방정식을 찾습니다.

로그[p(X) / (1 p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p

금:

  • X j : j 번째 예측변수
  • β j : j 번째 예측변수에 대한 계수 추정

방정식 오른쪽의 공식은 응답 변수가 값 1을 취할 로그 확률을 예측합니다.

다음 단계별 예에서는 SAS에서 로지스틱 회귀 모델을 피팅하는 방법을 보여줍니다.

1단계: 데이터세트 만들기

먼저, 18명의 학생에 대해 다음 세 가지 변수에 대한 정보가 포함된 데이터세트를 만듭니다.

  • 특정 대학 입학 (1 = 예, 0 = 아니요)
  • GPA(1~4등급)
  • ACT 점수(1~36점)
 /*create dataset*/
data my_data;
    input acceptance gpa act;
    datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

/*view dataset*/
proc print data =my_data;

2단계: 로지스틱 회귀 모델 적합

다음으로, 반응 변수로 “acceptance”를 사용하고 예측 변수로 “gpa”와 “act”를 사용하여 로지스틱 회귀 모델을 맞추기 위해 proc Logistics를 사용할 것입니다.

참고 : SAS가 응답 변수의 값이 1일 확률을 예측하려면 감소를 지정해야 합니다. 기본적으로 SAS는 응답 변수의 값이 0일 확률을 예측합니다.

 /*fit logistic regression model*/
proc logistic data =my_data descending ;
  model acceptance = gpa act;
run ;

관심 있는 첫 번째 테이블의 제목은 Model Fit Statistics 입니다.

이 표에서 모델의 AIC 값을 볼 수 있으며 이는 16.595 로 나타납니다. AIC 값이 낮을수록 모델이 데이터를 더 잘 적합할 수 있습니다.

그러나 “양호한” AIC 값으로 간주되는 기준은 없습니다. 오히려 AIC를 사용하여 여러 모델의 적합성을 동일한 데이터 세트에 비교합니다. AIC 값이 가장 낮은 모델이 일반적으로 가장 좋은 모델로 간주됩니다.

다음 관심 표의 제목은 전역 귀무 가설 테스트: BETA=0 입니다.

이 표에서 우도비 카이제곱 값은 13.4620 이고 해당 p-값은 0.0012 입니다.

이 p-값은 0.05보다 작으므로 로지스틱 회귀 모델이 전체적으로 통계적으로 유의하다는 것을 알 수 있습니다.

다음으로, 최대 우도 추정치 분석이라는 제목의 표에서 계수 추정치를 분석할 수 있습니다.

이 표에서 우리는 gpa와 act에 대한 계수를 볼 수 있는데, 이는 각 변수가 1단위 증가할 때 대학에 합격할 로그 확률의 평균 변화를 나타냅니다.

예를 들어:

  • GPA 값이 1단위 증가하면 대학에 합격할 확률이 평균 2.9665 증가합니다.
  • ACT 점수가 1단위 증가하면 대학에 합격할 확률이 평균 0.1145 감소 합니다.

결과의 해당 p-값은 각 예측 변수가 승인 가능성을 예측하는 데 얼마나 효과적인지에 대한 아이디어도 제공합니다.

  • GPA P-값: 0.0679
  • ACT P-값: 0.6289

이는 GPA가 대학 합격에 대한 통계적으로 유의미한 예측 변수인 반면 ACT 점수는 통계적으로 유의미하지 않은 것으로 나타남을 의미합니다.

추가 리소스

다음 튜토리얼에서는 SAS에서 다른 회귀 모델을 맞추는 방법을 설명합니다.

SAS에서 단순 선형 회귀를 수행하는 방법
SAS에서 다중 선형 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다