낮은 사각형

이 문서에서는 통계에서 최소 제곱이 무엇인지, 최소 제곱 방법이 무엇인지, 회귀 모델이 최소 제곱 기준에 맞춰지는 방법에 대해 설명합니다.

최소제곱법이란 무엇입니까?

최소 제곱법은 회귀 방정식을 결정하는 데 사용되는 통계적 방법입니다. 즉, 최소자승법은 회귀식을 계산할 때 얻는 오차를 최소화하기 위해 회귀모델에서 사용하는 기준이다.

구체적으로 최소자승법은 잔차의 제곱합을 최소화하는 방식, 즉 회귀모델에서 예측한 값과 관측값의 차이의 제곱합을 최소화하는 방식을 기반으로 한다. . . 아래에서는 회귀 모델이 최소 제곱 기준에 어떻게 맞춰지는지 자세히 살펴보겠습니다.

최소제곱법의 주요 특징은 관측값과 회귀함수 사이의 가장 긴 거리가 최소화된다는 것입니다. 다른 회귀분석 기준과 달리 최소제곱법은 큰 수의 제곱이 작은 수의 제곱보다 훨씬 크기 때문에 작은 잔차보다 큰 잔차를 최소화하는 것이 더 중요하다고 간주합니다. 숫자.

추정 오류

최소 제곱의 개념을 완전히 이해하려면 먼저 회귀 모델의 잔차가 무엇인지 명확히 해야 합니다. 따라서 추정 오류가 무엇인지, 어떻게 계산되는지 아래에서 살펴보겠습니다.

통계에서 잔차 라고도 하는 추정 오류는 실제 값과 회귀 모델에 의해 맞춰진 값의 차이입니다. 따라서 통계적 잔차는 다음과 같이 계산됩니다.

e_i=y_i-\widehat{y}_i

금:

  • e_i

    데이터 i의 잔차입니다.

  • y_i

    데이터의 실제 가치입니다. i.

  • \widehat{y}_i

    데이터 i에 대한 회귀 모델에서 제공되는 값입니다.

따라서 데이터 조각의 잔차가 클수록 회귀 모델이 이 데이터 조각에 더 잘 적용되지 않습니다. 따라서 잔차가 작을수록 실제 값과 예측 값 사이의 거리가 더 작아집니다.

마찬가지로, 데이터 조각의 잔차가 양수이면 회귀 모델이 실제 값보다 낮은 값을 예측한다는 의미입니다. 반면 잔차가 음수이면 예측 값이 실제 값보다 크다는 의미입니다.

오류 제곱 최소화

이제 통계에서 잔차가 무엇인지 알았으므로 오차 제곱이 최소화되는 방법을 더 쉽게 이해할 수 있습니다.

오류의 제곱은 잔차의 제곱이므로 오류의 제곱은 실제 값과 2의 거듭제곱으로 제곱된 회귀 모델에 의해 맞춰진 값의 차이와 같습니다.

e_i^2=(y_i-\widehat{y}_i)^2

금:

  • e_i^2

    는 데이터 i의 잔차의 제곱입니다.

  • y_i

    데이터의 실제 가치입니다. i.

  • \widehat{y}_i

    데이터 i에 대한 회귀 모델에서 제공되는 값입니다.

따라서 최소제곱법은 오류의 제곱합을 최소화하여 회귀 모델을 만드는 것으로 구성됩니다. 따라서 최소 제곱 기준은 다음 표현식의 최소화를 기반으로 합니다.

 \begin{array}{l} [MIN] \ \displaystyle \sum_{i=1}^ne_i^2\\[4ex][MIN] \ \displaystyle \sum_{i=1}^n(y_i-\widehat{y}_i)^2\end{array}

이것이 최소 제곱 기준을 최소 제곱 기준이라고도 부르는 이유입니다.

이전 공식에서 볼 수 있듯이 최소 제곱 기준은 작은 잔차보다 큰 잔차를 최소화하는 데 더 중요합니다. 예를 들어, 한 잔기가 3이고 다른 잔기가 5인 경우 그 제곱은 각각 9와 25이므로 최소 제곱 기준은 첫 번째 잔기보다 두 번째 잔기를 최소화하는 데 우선순위를 둡니다.

최소제곱 조정

최소 제곱 기준을 사용하여 회귀 모델을 피팅하는 것은 잔차의 제곱을 최소화하는 회귀 모델을 찾는 것으로 구성됩니다. 따라서 회귀 모델에서 얻은 방정식은 관측값과 적합값 간의 차이의 제곱이 최소가 되는 방정식이 됩니다.

다음 예에서는 회귀 모델을 생성하기 위한 더 많은 기준이 있으며 선택한 기준에 따라 회귀 방정식이 다르다는 점에 유의하세요.

최소 제곱법, 최소 제곱 조정

이전 예에서 볼 수 있듯이 동일한 데이터 세트에 대한 선형 회귀 모델에서 얻은 선은 선택한 기준에 따라 달라집니다. 일반적으로 회귀 모델에는 최소 제곱 기준이 사용됩니다.

통계학에서 가장 널리 사용되는 회귀모형은 단순선형회귀모형으로, 독립변수 X와 종속변수 Y 간의 관계를 직선으로 근사화한 것이다.

y=b_0+b_1x

따라서 데이터 세트를 단순 선형 회귀 모델에 맞추는 공식은 다음과 같습니다.

b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}

b_0=\overline{y}-b_1\overline{x}

다음 링크를 클릭하면 최소 제곱 기준을 사용하여 단순 선형 회귀 모델을 계산하는 방법의 예를 볼 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다