제곱합에 대한 친절한 안내: sst, ssr, sse
선형 회귀는 데이터 집합에 가장 잘 맞는 선을 찾는 데 사용됩니다.
우리는 회귀선이 실제로 데이터에 얼마나 잘 맞는지 측정하기 위해 세 가지 다른 제곱합 값을 사용하는 경우가 많습니다.
1. 총 제곱합(SST) – 개별 데이터 포인트(y i )와 응답 변수의 평균( y ) 간의 차이의 제곱합입니다.
- SST = Σ(y i – y ) 2
2. SSR(제곱합 회귀) – 예측된 데이터 포인트(ŷ i )와 응답 변수의 평균( y ) 간의 차이의 제곱합입니다.
- SSR = Σ(ŷ i – y ) 2
3. 제곱합 오류(SSE) – 예측된 데이터 포인트(ŷ i )와 관찰된 데이터 포인트(y i ) 간의 차이의 제곱의 합입니다.
- SSE = Σ(ŷ i – y i ) 2
이 세 가지 측정값 사이에는 다음과 같은 관계가 존재합니다.
SST = SSR + SSE
따라서 이러한 측정값 중 두 가지를 알고 있으면 간단한 대수학을 사용하여 세 번째 값을 계산할 수 있습니다.
SSR, SST 및 R-스퀘어
결정계수라고도 불리는 R-제곱은 선형 회귀 모델이 데이터 세트에 얼마나 잘 맞는지를 나타내는 척도입니다. 이는 예측 변수로 설명할 수 있는 반응 변수 의 분산 비율을 나타냅니다.
R-제곱 값의 범위는 0에서 1까지입니다. 값 0은 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다. 값 1은 반응 변수가 예측 변수에 의해 오류 없이 완벽하게 설명될 수 있음을 나타냅니다.
SSR과 SST를 사용하면 다음과 같이 R 제곱을 계산할 수 있습니다.
R 제곱 = SSR / SST
예를 들어 특정 회귀 모델의 SSR이 137.5이고 SST가 156인 경우 R 제곱은 다음과 같이 계산됩니다.
R 제곱 = 137.5 / 156 = 0.8814
이는 반응 변수 변동의 88.14%가 예측 변수에 의해 설명될 수 있음을 나타냅니다.
SST, SSR, SSE 계산: 단계별 예
6명의 학생이 공부한 시간과 최종 시험 점수를 보여주는 다음 데이터 세트가 있다고 가정합니다.
일부 통계 소프트웨어(예: R , Excel , Python )를 사용하거나 심지어 직접 사용해도 가장 적합한 선은 다음과 같습니다.
점수 = 66.615 + 5.0769*(시간)
가장 적합한 방정식의 라인을 알고 나면 다음 단계를 사용하여 SST, SSR 및 SSE를 계산할 수 있습니다.
1단계: 반응 변수의 평균을 계산합니다.
응답 변수( y )의 평균은 81 로 나타났습니다.
2단계: 각 관측값에 대한 예측값을 계산합니다.
그런 다음 가장 적합한 방정식의 선을 사용하여 각 학생의 예상 시험 점수()를 계산할 수 있습니다.
예를 들어, 한 시간 공부한 학생의 예상 시험 성적은 다음과 같습니다.
점수 = 66.615 + 5.0769*(1) = 71.69 .
동일한 접근 방식을 사용하여 각 학생의 예측 점수를 찾을 수 있습니다.
3단계: 총 제곱합(SST)을 계산합니다.
그런 다음 전체 제곱의 합을 계산할 수 있습니다.
예를 들어, 첫 번째 학생의 총 제곱합은 다음과 같습니다.
(y i – y ) 2 = (68 – 81) 2 = 169 .
동일한 접근 방식을 사용하여 각 학생의 총 제곱합을 구할 수 있습니다.
총 제곱합은 316 입니다.
4단계: 제곱합 회귀(SSR)를 계산합니다.
그러면 제곱합 회귀를 계산할 수 있습니다.
예를 들어, 첫 번째 학생에 대한 제곱합 회귀는 다음과 같습니다.
( ŷi – y ) 2 = (71.69 – 81) 2 = 86.64 .
동일한 접근 방식을 사용하여 각 학생의 제곱합 회귀를 찾을 수 있습니다.
제곱합 회귀의 결과는 279.23 입니다.
5단계: SSE(제곱합 오류)를 계산합니다.
그런 다음 제곱합의 오류를 계산할 수 있습니다.
예를 들어, 첫 번째 학생의 제곱합 오류는 다음과 같습니다.
(ŷ i – y i ) 2 = (71.69 – 68) 2 = 13.63 .
동일한 접근 방식을 사용하여 각 학생의 제곱합 오류를 찾을 수 있습니다.
SST = SSR + SSE임을 확인할 수 있습니다.
- SST = SSR + SSE
- 316 = 279.23 + 36.77
다음 방정식을 사용하여 회귀 모델의 R 제곱을 계산할 수도 있습니다.
- R 제곱 = SSR / SST
- R 제곱 = 279.23 / 316
- R 제곱 = 0.8836
이는 시험 점수 변동의 88.36%가 공부 시간에 의해 설명될 수 있음을 말해줍니다.
추가 리소스
다음 계산기를 사용하여 단순 선형 회귀선에 대한 SST, SSR 및 SSE를 자동으로 계산할 수 있습니다.
SST 계산기
RSS 계산기
ESS 계산기