선형 회귀

이 기사에서는 선형 회귀가 무엇인지, 통계에서 어떤 용도로 사용되는지 설명합니다. 또한 단순 선형 회귀와 다중 선형 회귀라는 두 가지 유형의 선형 회귀가 계산되는 방법을 확인할 수 있습니다.

선형 회귀란 무엇입니까?

선형 회귀는 하나 이상의 독립 변수를 종속 변수와 연관시키는 통계 모델입니다. 간단히 말해서, 선형 회귀는 하나 이상의 설명 변수와 응답 변수 간의 관계를 근사화하는 방정식을 찾는 데 사용되는 기술입니다.

예를 들어, 방정식 y=2+5x 1 -3x 2 +8x 3은 3개의 독립 변수(x 1 , x 2 , x 3 )와 종속 변수(y)를 수학적으로 연관시키기 때문에 선형 회귀 모델입니다. 변수 간의 관계는 선형입니다.

선형 회귀 유형

선형 회귀에는 두 가지 유형이 있습니다.

  • 단순 선형 회귀 : 단일 독립 변수가 종속 변수에 연결됩니다. 따라서 이러한 유형의 선형 회귀 모델에 대한 방정식은 y=β 01 x 1 형식입니다.
  • 다중 선형 회귀 : 회귀 모델에는 여러 설명 변수와 응답 변수가 있습니다. 따라서 이러한 유형의 선형 회귀 모델에 대한 방정식은 y=β 01 x 12 x 2 …+β m x m 형식입니다.

단순 선형 회귀

단순 선형 회귀는 하나의 독립 변수를 두 변수에 연결하는 데 사용됩니다.

단순 선형 회귀 모델의 방정식은 직선이므로 방정식의 상수(β 0 )와 두 변수 사이의 상관 계수(β 1 )라는 두 가지 계수로 구성됩니다. 따라서 단순 선형 회귀 모델의 방정식은 y=β 01 x 입니다.

y=\beta_0+\beta_1x

단순선형회귀계수를 계산하는 공식은 다음과 같습니다.

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

금:

  • \beta_0

    회귀선의 상수입니다.

  • \beta_1

    회귀선의 기울기입니다.

  • x_i

    데이터 i의 독립변수 X의 값입니다.

  • y_i

    데이터 i의 종속변수 Y의 값입니다.

  • \overline{x}

    독립 변수 값의 평균입니다.

  • \overline{y}

    종속 변수 Y 값의 평균입니다.

다중 선형 회귀

다중선형회귀 모델에는 최소 2개의 독립변수가 포함됩니다. 즉, 다중 선형 회귀를 사용하면 여러 설명 변수를 응답 변수에 선형으로 연결할 수 있습니다.

다중 선형 회귀 모델의 방정식은 y=β 01 x 12 x 2 +…+β m x m +ε입니다.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

금:

  • y

    종속변수입니다.

  • x_i

    는 독립변수 i입니다.

  • \beta_0

    다중 선형 회귀 방정식의 상수입니다.

  • \beta_i

    변수와 관련된 회귀 계수입니다.

    x_i

    .

  • \bm{\varepsilon}

    오류 또는 잔차, 즉 관측된 값과 모델에 의해 추정된 값 간의 차이입니다.

  • m

    모델의 총 변수 수입니다.

따라서 총 샘플이 있는 경우

n

관찰을 통해 다중 선형 회귀 모델을 행렬 형식으로 만들 수 있습니다.

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

위의 행렬 표현식은 각 행렬에 문자를 할당하여 다시 작성할 수 있습니다.

Y=X\beta+\varepsilon

따라서 최소 제곱 기준을 적용하면 다중 선형 회귀 모델의 계수를 추정하는 공식 에 도달할 수 있습니다.

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

그러나 이 공식을 적용하는 것은 매우 힘들고 시간이 많이 걸리기 때문에 실제로는 다중 회귀 모델을 훨씬 더 빠르게 생성할 수 있는 컴퓨터 소프트웨어(예: Minitab 또는 Excel)를 사용하는 것이 좋습니다.

선형 회귀 가정

선형 회귀 모델에서 모델이 유효하려면 다음 조건이 충족되어야 합니다.

  • 독립성 : 잔기는 서로 독립이어야 합니다. 모델 독립성을 보장하는 일반적인 방법은 샘플링 프로세스에 무작위성을 추가하는 것입니다.
  • 동분산성(homoscedasticity) : 잔차의 분산에는 동질성이 있어야 합니다. 즉, 잔차의 변동성이 일정해야 합니다.
  • 비다중공선성 : 모형에 포함된 설명변수는 서로 연결될 수 없거나 적어도 관계가 매우 약해야 합니다.
  • 정규성 : 잔차는 정규 분포를 따라야 합니다. 즉, 평균이 0인 정규 분포를 따라야 합니다.
  • 선형성 : 반응변수와 설명변수의 관계가 선형이라고 가정합니다.

선형 회귀는 무엇에 사용되나요?

선형 회귀에는 기본적으로 두 가지 용도가 있습니다. 선형 회귀는 설명 변수와 응답 변수 간의 관계를 설명하는 데 사용되며 마찬가지로 선형 회귀는 새로운 관찰에 대한 종속 변수의 값을 예측하는 데 사용됩니다.

선형회귀모델의 방정식을 구하면 모델 내 변수들 사이에 어떤 관계가 존재하는지 알 수 있다. 독립변수의 회귀계수가 양수인 경우 종속변수가 증가하면 종속변수도 증가합니다. 반면 독립변수의 회귀계수가 음수이면 종속변수는 증가할수록 감소합니다.

반면 선형 회귀로 계산된 방정식을 사용하면 값 예측도 가능합니다. 따라서 설명변수의 값을 모델 방정식에 도입함으로써 새로운 데이터에 대한 종속변수의 값을 계산할 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다