Sas에서 단순 선형 회귀를 수행하는 방법
단순 선형 회귀는 예측 변수와 반응 변수 사이의 관계를 이해하는 데 사용할 수 있는 기술입니다.
이 기술은 데이터에 가장 잘 맞는 선을 찾고 다음 형식을 취합니다.
ŷ = b0 + b1x
금:
- ŷ : 예상된 반응값
- b 0 : 회귀선의 원점
- b 1 : 회귀선의 기울기
이 방정식은 예측 변수와 반응 변수 간의 관계를 이해하는 데 도움이 됩니다.
다음 단계별 예에서는 SAS에서 단순 선형 회귀를 수행하는 방법을 보여줍니다.
1단계: 데이터 생성
이 예에서는 15명의 학생의 총 학습 시간과 최종 시험 성적이 포함된 데이터 세트를 생성합니다.
우리는 시간을 예측 변수로 사용하고 점수를 응답 변수로 사용하여 간단한 선형 회귀 모델을 적합화할 것입니다.
다음 코드는 SAS에서 이 데이터 세트를 생성하는 방법을 보여줍니다.
/*create dataset*/ data exam_data; input hours score; datalines ; 1 64 2 66 4 76 5 73 5 74 6 81 6 83 7 82 8 80 10 88 11 84 11 82 12 91 12 93 14 89 ; run ; /*view dataset*/ proc print data =exam_data;
2단계: 단순 선형 회귀 모델 피팅
다음으로, 단순 선형 회귀 모델을 맞추기 위해 proc reg를 사용할 것입니다:
/*fit simple linear regression model*/ proc reg data =exam_data; model score = hours; run ;
결과의 각 테이블에서 가장 중요한 값을 해석하는 방법은 다음과 같습니다.
격차 분석표:
회귀 모델의 전체 F-값 은 63.91 이고 해당 p-값은 <0.0001 입니다.
이 p-값은 0.05보다 작으므로 회귀 모델 전체가 통계적으로 유의하다는 결론을 내립니다. 즉, 시간은 시험 결과를 예측하는 데 유용한 변수입니다.
모델 맞춤 테이블:
R-Square 값은 공부한 시간으로 설명할 수 있는 시험 점수의 변동 비율을 알려줍니다.
일반적으로 회귀 모델의 R 제곱 값이 클수록 예측 변수가 응답 변수 값을 더 잘 예측합니다.
이 경우 시험점수 변동의 83.1% 는 공부시간으로 설명할 수 있다. 이 값은 상당히 높은 수치로, 공부시간이 시험 결과를 예측하는 데 매우 유용한 변수임을 나타냅니다.
모수 추정치 표:
이 표에서 적합 회귀 방정식을 볼 수 있습니다.
점수 = 65.33 + 1.98*(시간)
우리는 이것을 공부한 시간이 추가될 때마다 시험 점수가 평균 1.98점 증가한다는 의미로 해석합니다.
원래 값은 0시간 동안 공부하는 학생의 평균 시험 점수가 65.33 임을 알려줍니다.
또한 이 방정식을 사용하여 학생이 공부하는 시간을 기준으로 예상 시험 점수를 찾을 수도 있습니다.
예를 들어, 10시간 동안 공부한 학생은 시험 점수 85.13 을 달성해야 합니다.
점수 = 65.33 + 1.98*(10) = 85.13
이 표에서는 시간 에 대한 p-값(<0.0001)이 0.05보다 작으므로 이것이 통계적으로 유의미한 예측 변수라는 결론을 내립니다.
3단계: 잔차 그림 분석
단순 선형 회귀는 모델 잔차 에 대해 두 가지 중요한 가정을 합니다.
- 잔차는 정규 분포를 따릅니다.
- 잔차는 예측 변수의 각 수준에서 등분산(“동분 산성 “)을 갖습니다.
이러한 가정이 충족되지 않으면 회귀 모델의 결과가 신뢰할 수 없을 수 있습니다.
이러한 가정이 충족되는지 확인하기 위해 SAS가 출력에 자동으로 표시하는 잔차 그림을 분석할 수 있습니다.
잔차가 정규 분포를 따르는지 확인하기 위해 x축을 따라 “분위수”를, y축을 따라 “잔차”를 사용하여 중간선의 왼쪽 위치에서 플롯을 분석할 수 있습니다.
이 플롯은 “분위수-분위수”의 약자인 QQ 플롯 이라고 하며 데이터가 정규 분포를 따르는지 여부를 결정하는 데 사용됩니다. 데이터가 정규 분포를 따르는 경우 QQ 플롯의 점은 직선 대각선에 놓이게 됩니다.
그래프에서 점들이 대략 직선 대각선을 따라 놓여 있음을 볼 수 있으므로 잔차가 정규 분포를 따른다고 가정할 수 있습니다.
다음으로, 잔차가 등분산적 인지 확인하기 위해 x축에 “예측 값”이 있고 y축에 “잔차”가 있는 첫 번째 행의 왼쪽 위치에 있는 플롯을 볼 수 있습니다.
플롯 포인트가 명확한 패턴 없이 0 주위에 무작위로 흩어져 있으면 잔차가 등분산적이라고 가정할 수 있습니다.
플롯에서 점들이 플롯 전체의 각 수준에서 대략 동일한 분산으로 무작위로 0 주위에 흩어져 있음을 볼 수 있으므로 잔차가 등분산적이라고 가정할 수 있습니다.
두 가지 가정이 모두 충족되므로 단순선형회귀모델의 결과를 신뢰할 수 있다고 가정할 수 있습니다.
추가 리소스
다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
SAS에서 일원 분산 분석을 수행하는 방법
SAS에서 양방향 ANOVA를 수행하는 방법
SAS에서 상관관계를 계산하는 방법