Sas에서 단계적 회귀를 수행하는 방법(예제 포함)


단계적 회귀는 더 이상 입력하거나 입력할 통계적으로 유효한 이유가 없을 때까지 모델에서 단계별 방식으로 예측 변수를 입력하고 제거하여 일련의 예측 변수에서 회귀 모델을 구축하는 데 사용할 수 있는 절차입니다. 더 삭제하세요.

단계적 회귀 분석의 목표는 반응 변수와 통계적으로 유의하게 관련된 모든 예측 변수를 포함하는 회귀 모델을 만드는 것입니다.

SAS에서 단계적 회귀를 수행하려면 SELECTION 문과 함께 PROC REG를 사용할 수 있습니다.

다음 예에서는 실제로 SAS에서 단계별 회귀를 수행하는 방법을 보여줍니다.

예: SAS에서 단계별 회귀 수행

SAS에 4개의 예측 변수(x1, x2, x3, x4)와 1개의 응답 변수(y)가 포함된 다음 데이터 세트가 있다고 가정합니다.

 /*create dataset*/
data my_data;
    input x1 x2 x3 x4 y;
    datalines ;
1 4 10 13 78
2 4 12 14 81
5 3 7 10 75
8 2 13 9 97
10 5 12 5 95
14 7 8 6 90
17 8 10 6 86 
19 5 15 5 90
20 5 12 4 93
21 4 10 3 95
;
run ;

/*view dataset*/
proc print data =my_data;

이제 어떤 예측 변수 조합이 최상의 다중 선형 회귀 모델을 생성할지 결정한다고 가정해 보겠습니다.

“최고의” 회귀 모델에 대해 이야기할 때 특정 측정값을 최대화하거나 최소화하는 모델을 의미합니다.

잠재적 모델 그룹 중에서 어떤 회귀 모델이 가장 좋은지 평가하기 위해 일반적으로 사용하는 두 가지 측정항목이 있습니다.

1. 조정된 R-제곱 : 조정된 R-제곱 값은 모델의 예측 변수 수에 따라 조정된 모델의 유용성을 알려줍니다. 수정된 R-제곱 값이 가장 높은 모델이 가장 좋은 모델로 간주됩니다.

2. AIC : AIC( Akaike Information Criterion )는 다양한 회귀 모델의 적합성을 비교하는 데 사용되는 측정항목입니다. AIC 값이 가장 낮은 모델이 가장 좋은 모델로 간주됩니다.

다행스럽게도 SELECTION 문과 함께 PROC REG를 사용하여 SAS의 회귀 모델에 맞는 R-제곱 및 AIC 값을 모두 계산할 수 있습니다.

다음 코드는 이를 수행하는 방법을 보여줍니다.

 /*perform stepwise multiple linear regression*/
proc reg data =my_data outest =est;
    model y=x1 x2 x3 x4 / selection=adjrsq aic ;
    output out =out p=pr=r;
run ;
quit ; 

SAS의 단계별 회귀

출력에는 가능한 각 다중 선형 회귀 모델에 대해 적합 R-제곱 및 AIC 값이 표시됩니다.

그 결과, 수정된 R 제곱값이 가장 크고 AIC 값이 가장 낮은 값이 x3과 x4만을 예측변수로 사용한 회귀모델임을 알 수 있다.

따라서 우리는 가능한 모든 모델 중에서 다음 모델이 “최고”임을 선언합니다.

y = b0 + b1 (x3) + b2 (x4)

이 특정 회귀 모델에는 다음과 같은 측정항목이 있습니다.

  • 조정된 R 제곱 값: 0.5923
  • AIC: 34.2921

“최상의” 회귀 모델 선택에 대한 참고 사항

수정된 R-제곱 값이 가장 높은 모델이 항상 AIC 값이 가장 낮은 것은 아닙니다.

어떤 회귀 모델이 가장 좋은지 결정할 때 조정된 R-제곱 및 AIC가 제안 역할을 하지만 실제로는 어떤 모델이 가장 좋은지 결정하기 위해 도메인 전문 지식을 사용해야 할 수도 있습니다.

또한 간결한 모델 , 즉 가능한 적은 수의 예측 변수를 사용하여 원하는 수준의 적합도를 달성하는 모델을 선택하는 것이 현명할 수도 있습니다.

이러한 유형의 모델 뒤에 있는 추론은 가장 간단한 설명이 아마도 정확할 것이라고 말하는 오캄의 면도날 (때때로 “절약 원칙”이라고도 함) 아이디어에서 비롯됩니다.

통계에 적용하면 매개변수가 적지만 만족스러운 수준의 적합도를 달성하는 모델이 매개변수가 많고 약간 더 높은 수준의 적합도를 달성하는 모델보다 선호되어야 합니다.

추가 리소스

다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

SAS에서 단순 선형 회귀를 수행하는 방법
SAS에서 다중 선형 회귀를 수행하는 방법
SAS에서 다항식 회귀를 수행하는 방법
SAS에서 로지스틱 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다