회귀의 표준 오류 이해


회귀 모델을 데이터 세트에 맞출 때 회귀 모델이 데이터 세트에 얼마나 잘 “맞는지”에 관심이 있는 경우가 많습니다. 적합도를 측정하기 위해 일반적으로 사용되는 두 가지 측정항목으로는 R 제곱 ( R2 )과 회귀 표준 오차 ( 종종 S 로 표시됨)가 있습니다.

이 튜토리얼에서는 회귀 표준 오차(S)를 해석하는 방법과 이것이 R 2 보다 더 유용한 정보를 제공할 수 있는 이유를 설명합니다.

회귀 분석에서 표준 오차 대 R-제곱

중요한 시험을 앞두고 12명의 학생이 한 달 동안 하루에 공부한 시간과 시험 점수를 보여주는 간단한 데이터 세트가 있다고 가정해 보겠습니다.

Excel에서 이 데이터세트에 단순 선형 회귀 모델을 적용하면 다음과 같은 결과를 얻습니다.

R 제곱은 예측 변수로 설명할 수 있는 반응 변수의 분산 비율입니다. 이 경우 시험점수 변동의 65.76% 는 공부시간으로 설명할 수 있다.

회귀의 표준 오차는 관찰된 값과 회귀선 사이의 평균 거리입니다. 이 경우 관측값은 회귀선에서 평균 4.89 단위만큼 벗어납니다.

회귀선을 사용하여 실제 데이터 포인트를 플롯하면 이를 더 명확하게 볼 수 있습니다.

일부 관측치는 회귀선에 매우 가깝지만 다른 관측치는 그렇지 않습니다. 그러나 평균적으로 관측값은 회귀선에서 4.19 단위 만큼 벗어납니다.

회귀의 표준 오차는 예측의 정확성을 평가하는 데 사용될 수 있기 때문에 특히 유용합니다. 관측치의 약 95%는 회귀의 +/- 2 표준 오류 내에 속해야 하며, 이는 95% 예측 구간의 빠른 근사치입니다.

회귀 모델을 사용하여 예측을 하고 싶다면 회귀의 표준 오차가 R-제곱보다 더 유용한 척도가 될 수 있습니다. 왜냐하면 예측이 단위 측면에서 얼마나 정확한지에 대한 아이디어를 제공하기 때문입니다.

회귀의 표준 오차가 모델의 “적합”을 평가하는 데 더 유용한 척도일 수 있는 이유를 설명하기 위해 중요한 시험 전 한 달 동안 12명의 학생이 하루에 몇 시간 공부했는지를 보여주는 또 다른 예제 데이터 세트를 고려해 보겠습니다. 시험 결과:

이는 모든 s 값이 절반으로 줄어든다 는 점을 제외하면 이전과 완전히 동일한 데이터 세트입니다. 따라서 이 데이터세트의 학생들은 이전 데이터세트의 학생들보다 정확히 절반의 시간을 공부했고 정확히 절반의 시험 성적을 받았습니다.

Excel에서 이 데이터세트에 단순 선형 회귀 모델을 적용하면 다음과 같은 결과를 얻습니다.

65.76% 의 R 제곱은 이전 예와 정확히 동일합니다.

그러나 회귀의 표준 오류는 2.095 이며 이는 이전 예의 회귀 표준 오류의 정확히 절반입니다.

회귀선을 사용하여 실제 데이터 포인트를 플롯하면 이를 더 명확하게 볼 수 있습니다.

관측치가 회귀선 주위에 어떻게 훨씬 더 가깝게 밀집되어 있는지 확인하세요. 평균적으로 관측값은 회귀선에서 2,095단위 떨어진 곳에 위치합니다.

따라서 두 회귀 모델 모두 R-제곱이 65.76% 임에도 불구하고 두 번째 모델의 회귀 표준 오차가 더 낮기 때문에 더 정확한 예측을 제공할 수 있다는 것을 알 수 있습니다.

표준 오류 사용의 이점

회귀 분석의 표준 오차(S)는 실제 단위를 제공하므로 모델의 R 제곱보다 아는 것이 더 유용한 경우가 많습니다. 회귀 모델을 사용하여 예측을 생성하려는 경우 S는 모델이 예측 목적으로 사용할 수 있을 만큼 정확한지 여부를 매우 쉽게 알려줄 수 있습니다.

예를 들어, 시험 점수를 실제 점수의 6점 이내로 예측할 수 있는 95% 예측 구간을 생성한다고 가정합니다.

첫 번째 모델의 R-제곱은 65.76%이지만 이는 예측 구간의 정확성에 대해 아무 것도 알려주지 않습니다. 다행히 첫 번째 모델의 S가 4.19라는 것도 알고 있습니다. 이는 95% 예측 구간의 폭이 대략 2*4.19 = +/- 8.38 단위가 된다는 것을 의미하며, 이는 예측 구간에 비해 너무 넓습니다.

두 번째 모델도 R-제곱이 65.76%이지만 이는 예측 구간의 정확성에 대해서는 아무 것도 알려주지 않습니다. 그러나 우리는 두 번째 모델의 S가 2.095라는 것을 알고 있습니다. 이는 95% 예측 구간이 대략 2*2.095 = +/- 4.19 단위 폭이 된다는 것을 의미하며, 이는 6보다 작으므로 예측 구간을 생성하는 데 사용할 수 있을 만큼 정확합니다.

추가 읽기

단순 선형 회귀 소개
좋은 R 제곱 값이란 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다