Sas에서 다중 선형 회귀를 수행하는 방법


다중 선형 회귀는 둘 이상의 예측 변수와 반응 변수 간의 관계를 이해하는 데 사용할 수 있는 방법입니다.

이 튜토리얼에서는 SAS에서 다중 선형 회귀를 수행하는 방법을 설명합니다.

1단계: 데이터 생성

학생의 최종 시험 성적을 예측하기 위해 공부한 시간과 치른 연습 시험 횟수를 사용하는 다중 선형 회귀 모델을 적합화한다고 가정해 보겠습니다.

시험 점수 = β 0 + β 1 (시간) + β 2 (준비 시험)

먼저 다음 코드를 사용하여 학생 20명에 대한 이 정보가 포함된 데이터세트를 만듭니다.

 /*create dataset*/
data exam_data;
    input hours prep_exams score;
    datalines ;
1 1 76
2 3 78
2 3 85
4 5 88
2 2 72
1 2 69
5 1 94
4 1 94
2 0 88
4 3 92
4 4 90
3 3 75
6 2 96
5 4 90
3 4 82
4 4 85
6 5 99
2 1 83
1 0 62
2 1 76
;
run ;

2단계: 다중 선형 회귀 수행

다음으로 proc reg를 사용하여 다중 선형 회귀 모델을 데이터에 맞춥니다.

 /*fit multiple linear regression model*/
proc reg data =exam_data;
    model score = hours prep_exams;
run ; 

각 표에서 가장 관련성이 높은 숫자를 해석하는 방법은 다음과 같습니다.

격차 분석표:

회귀 모델의 전체 F-값23.46 이고 해당 p-값은 <0.0001 입니다.

이 p-값은 0.05보다 작으므로 회귀 모델 전체가 통계적으로 유의하다는 결론을 내립니다.

모델 맞춤 테이블:

R-Square 값은 공부한 시간과 응시한 준비 시험 횟수로 설명할 수 있는 시험 점수의 변동 비율을 알려줍니다.

일반적으로 회귀 모델의 R 제곱 값이 클수록 예측 변수가 응답 변수 값을 더 잘 예측합니다.

이 경우 시험점수 변동의 73.4% 는 공부시간과 준비시험 횟수로 설명할 수 있다.

루트 MSE 값도 알아두면 유용합니다. 이는 관측값과 회귀선 사이의 평균 거리를 나타냅니다.

이 회귀 모델에서 관측값은 회귀선에서 평균 5.3657 단위만큼 벗어납니다.

모수 추정치 표:

이 표의 모수 추정값을 사용하여 적합 회귀 방정식을 작성할 수 있습니다.

시험 점수 = 67.674 + 5.556*(시간) – 0.602*(prep_exams)

우리는 이 방정식을 사용하여 학습 시간 수와 응시한 연습 시험 수를 기반으로 학생의 예상 시험 점수를 찾을 수 있습니다.

예를 들어, 3시간 동안 공부하고 2개의 준비 시험을 치른 학생은 시험 점수 83.1 을 받아야 합니다.

예상 시험 점수 = 67.674 + 5.556*(3) – 0.602*(2) = 83.1

시간에 대한 p-값(<0.0001)은 0.05보다 작습니다. 이는 시험 결과와 통계적으로 유의미한 연관성이 있음을 의미합니다.

그러나 예비시험의 p값(0.5193)은 0.05 이상으로 시험결과와 통계적으로 유의미한 연관성이 없음을 의미한다.

통계적으로 유의미하지 않은 준비 시험을 모델에서 제거하고 대신 연구 시간을 유일한 예측 변수로 사용하여 단순 선형 회귀를 수행하기로 결정할 수도 있습니다.

추가 리소스

다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

SAS에서 상관관계를 계산하는 방법
SAS에서 단순 선형 회귀를 수행하는 방법
SAS에서 일원 분산 분석을 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다