Sas에서 단순 선형 회귀를 수행하는 방법

에 의해 벤자민 앤더슨 7월 21, 2023 가이드 댓글 0개

단순 선형 회귀는 예측 변수와 반응 변수 사이의 관계를 이해하는 데 사용할 수 있는 기술입니다.

이 기술은 데이터에 가장 잘 맞는 선을 찾고 다음 형식을 취합니다.

ŷ = _b0 + _b1x

금:

ŷ : 예상된 반응값
b ₀ : 회귀선의 원점
b ₁ : 회귀선의 기울기

이 방정식은 예측 변수와 반응 변수 간의 관계를 이해하는 데 도움이 됩니다.

다음 단계별 예에서는 SAS에서 단순 선형 회귀를 수행하는 방법을 보여줍니다.

1단계: 데이터 생성

이 예에서는 15명의 학생의 총 학습 시간과 최종 시험 성적이 포함된 데이터 세트를 생성합니다.

우리는 시간을 예측 변수로 사용하고 점수를 응답 변수로 사용하여 간단한 선형 회귀 모델을 적합화할 것입니다.

다음 코드는 SAS에서 이 데이터 세트를 생성하는 방법을 보여줍니다.

 /*create dataset*/
data exam_data;
    input hours score;
    datalines ;
1 64
2 66
4 76
5 73
5 74
6 81
6 83
7 82
8 80
10 88
11 84
11 82
12 91
12 93
14 89
;
run ;

/*view dataset*/
proc print data =exam_data;

2단계: 단순 선형 회귀 모델 피팅

다음으로, 단순 선형 회귀 모델을 맞추기 위해 proc reg를 사용할 것입니다:

 /*fit simple linear regression model*/
proc reg data =exam_data;
   model score = hours;
run ;

SAS의 단순 선형 회귀 출력

결과의 각 테이블에서 가장 중요한 값을 해석하는 방법은 다음과 같습니다.

격차 분석표:

회귀 모델의 전체 F-값 은 63.91 이고 해당 p-값은 <0.0001 입니다.

이 p-값은 0.05보다 작으므로 회귀 모델 전체가 통계적으로 유의하다는 결론을 내립니다. 즉, 시간은 시험 결과를 예측하는 데 유용한 변수입니다.

모델 맞춤 테이블:

R-Square 값은 공부한 시간으로 설명할 수 있는 시험 점수의 변동 비율을 알려줍니다.

일반적으로 회귀 모델의 R 제곱 값이 클수록 예측 변수가 응답 변수 값을 더 잘 예측합니다.

이 경우 시험점수 변동의 83.1% 는 공부시간으로 설명할 수 있다. 이 값은 상당히 높은 수치로, 공부시간이 시험 결과를 예측하는 데 매우 유용한 변수임을 나타냅니다.

모수 추정치 표:

이 표에서 적합 회귀 방정식을 볼 수 있습니다.

점수 = 65.33 + 1.98*(시간)

우리는 이것을 공부한 시간이 추가될 때마다 시험 점수가 평균 1.98점 증가한다는 의미로 해석합니다.

원래 값은 0시간 동안 공부하는 학생의 평균 시험 점수가 65.33 임을 알려줍니다.

또한 이 방정식을 사용하여 학생이 공부하는 시간을 기준으로 예상 시험 점수를 찾을 수도 있습니다.

예를 들어, 10시간 동안 공부한 학생은 시험 점수 85.13 을 달성해야 합니다.

점수 = 65.33 + 1.98*(10) = 85.13

이 표에서는 시간 에 대한 p-값(<0.0001)이 0.05보다 작으므로 이것이 통계적으로 유의미한 예측 변수라는 결론을 내립니다.

3단계: 잔차 그림 분석

단순 선형 회귀는 모델 잔차 에 대해 두 가지 중요한 가정을 합니다.

잔차는 정규 분포를 따릅니다.
잔차는 예측 변수의 각 수준에서 등분산(“동분 산성 “)을 갖습니다.

이러한 가정이 충족되지 않으면 회귀 모델의 결과가 신뢰할 수 없을 수 있습니다.

이러한 가정이 충족되는지 확인하기 위해 SAS가 출력에 자동으로 표시하는 잔차 그림을 분석할 수 있습니다.

잔차가 정규 분포를 따르는지 확인하기 위해 x축을 따라 “분위수”를, y축을 따라 “잔차”를 사용하여 중간선의 왼쪽 위치에서 플롯을 분석할 수 있습니다.

이 플롯은 “분위수-분위수”의 약자인 QQ 플롯 이라고 하며 데이터가 정규 분포를 따르는지 여부를 결정하는 데 사용됩니다. 데이터가 정규 분포를 따르는 경우 QQ 플롯의 점은 직선 대각선에 놓이게 됩니다.

그래프에서 점들이 대략 직선 대각선을 따라 놓여 있음을 볼 수 있으므로 잔차가 정규 분포를 따른다고 가정할 수 있습니다.

다음으로, 잔차가 등분산적 인지 확인하기 위해 x축에 “예측 값”이 있고 y축에 “잔차”가 있는 첫 번째 행의 왼쪽 위치에 있는 플롯을 볼 수 있습니다.

플롯 포인트가 명확한 패턴 없이 0 주위에 무작위로 흩어져 있으면 잔차가 등분산적이라고 가정할 수 있습니다.

플롯에서 점들이 플롯 전체의 각 수준에서 대략 동일한 분산으로 무작위로 0 주위에 흩어져 있음을 볼 수 있으므로 잔차가 등분산적이라고 가정할 수 있습니다.

두 가지 가정이 모두 충족되므로 단순선형회귀모델의 결과를 신뢰할 수 있다고 가정할 수 있습니다.

추가 리소스

다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

SAS에서 일원 분산 분석을 수행하는 방법
SAS에서 양방향 ANOVA를 수행하는 방법
SAS에서 상관관계를 계산하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기