다중 선형 회귀

이 기사에서는 통계에서 다중 선형 회귀가 무엇인지 설명합니다. 또한 다중 선형 회귀 모델을 생성하는 방법과 모델이 해석되는 방법을 배우게 됩니다.

다중 선형 회귀란 무엇입니까?

다중선형회귀는 두 개 이상의 독립변수를 포함하는 회귀모형이다. 즉, 다중선형회귀는 여러 설명변수를 하나의 반응변수에 선형적으로 연결할 수 있는 통계모델이다.

따라서 다중선형회귀모형은 2개 이상의 독립변수를 종속변수에 연결하는 방정식을 찾는 데 사용됩니다. 따라서 각 독립변수의 값을 대입하면 종속변수의 값에 대한 근사치가 얻어집니다.

예를 들어, 방정식 y=3+6x 1 -4x 2 +7x 3 은 세 개의 독립 변수(x 1 , x 2 , x 3 )와 하나의 종속 변수(y) 선형 값 경로를 수학적으로 연관시키기 때문에 다중 선형 회귀 모델입니다. .

다중 선형 회귀 공식

다중 선형 회귀 모델의 방정식은 y=β 01 x 12 x 2 +…+β m x m +ε입니다.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

금:

  • y

    종속변수입니다.

  • x_i

    는 독립변수 i입니다.

  • \beta_0

    다중 선형 회귀 방정식의 상수입니다.

  • \beta_i

    변수와 관련된 회귀 계수입니다.

    x_i

    .

  • \bm{\varepsilon}

    이는 오류 또는 잔차, 즉 관찰된 값과 모델에 의해 추정된 값 간의 차이입니다.

  • m

    모델의 총 변수 수입니다.

따라서 총 샘플이 있는 경우

n

관찰을 통해 행렬 형태의 다중 선형 회귀 모델을 제안할 수 있습니다.

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

위의 배열 표현식은 각 배열에 문자를 할당하여 다시 작성할 수 있습니다.

Y=X\beta+\varepsilon

따라서 최소 제곱 기준을 적용하면 다중 선형 회귀 모델의 계수를 추정하는 공식을 얻을 수 있습니다.

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

그러나 이 공식을 적용하는 것은 매우 힘들고 시간이 많이 걸리므로 실제로는 회귀 모델을 훨씬 더 빠르게 여러 번 실행할 수 있는 컴퓨터 소프트웨어(예: Minitab 또는 Excel)를 사용하는 것이 좋습니다.

다중 선형 회귀 가정

다중 선형 회귀 모델에서 모델이 유효하려면 다음 조건이 충족되어야 합니다.

  • 독립성 : 잔기가 서로 독립이어야 합니다. 모델 독립성을 보장하는 일반적인 방법은 샘플링 프로세스에 무작위성을 추가하는 것입니다.
  • 동분산성(homoscedasticity) : 잔차의 분산에는 동질성이 있어야 합니다. 즉, 잔차의 변동성이 일정해야 합니다.
  • 비다중공선성 : 모형에 포함된 설명변수는 서로 연결될 수 없거나 적어도 관계가 매우 약해야 합니다.
  • 정규성 : 잔차는 정규 분포를 따라야 합니다. 즉, 평균이 0인 정규 분포를 따라야 합니다.
  • 선형성 : 반응변수와 설명변수의 관계가 선형이라고 가정합니다.

다중 선형 회귀 모델 해석

다중 선형 회귀 모델을 해석하려면 회귀 모델이 설명하는 백분율을 나타내는 결정 계수(R 제곱)를 살펴봐야 합니다. 따라서 결정 계수가 높을수록 연구된 데이터 샘플에 맞게 모델이 더 많이 조정됩니다.

그러나 통계 모델의 적합도는 특히 다중 선형 회귀 모델에서 오해의 소지가 있을 수 있습니다. 모델에 변수를 추가하면 변수가 중요하지 않더라도 결정계수가 증가하기 때문입니다. 그러나 모형이 덜 복잡하고 해석하기 쉽기 때문에 변수의 수를 최소화하여 결정계수를 최대화하는 것이 필요합니다.

이러한 문제를 해결하기 위해서는 회귀모형의 적합도를 측정하는 통계계수인 수정결정계수(adjusted R squared)를 계산해야 하며, 이는 수정되지 않은 계수와 달리 모델에 추가된 각 변수에 대해 페널티를 부여하는 것입니다. 결심의. 이는 모델의 변수 수를 고려하지 않습니다.

따라서 조정된 결정 계수를 사용하면 변수 수가 다른 두 모델의 적합도를 비교할 수 있습니다. 원칙적으로는 수정결정계수가 높은 모형을 선택해야 하지만, 두 모형의 값이 매우 유사한 경우에는 변수가 적은 모형을 선택하는 것이 해석하기 쉽기 때문에 더 좋습니다.

이와 대조적으로 회귀 계수는 설명 변수와 반응 변수 간의 관계를 나타냅니다. 회귀계수가 양수이면 설명변수가 증가함에 따라 반응변수도 증가합니다. 반면 회귀 계수가 음수이면 설명 변수가 증가하면 응답 변수가 감소합니다.

논리적으로 이전 조건이 충족되려면 다른 변수가 일정하게 유지되어야 합니다. 이것이 모델의 다양한 설명 변수 사이에 다중 공선성이 없는 것이 중요한 이유입니다. 당사 웹사이트에서 해당 기사를 검색하면 모델의 다중 공선성이 어떻게 연구되는지 확인할 수 있습니다.

다중 및 단순 선형 회귀

마지막으로 단순 선형 회귀 모델과 다중 선형 회귀 모델은 통계에서 널리 사용되는 두 가지 회귀 모델이므로 차이점이 무엇인지 살펴보겠습니다.

단순 선형 회귀는 독립 변수를 연관시키는 데 사용되는 회귀 모델입니다. 따라서 단순 선형 회귀 모델의 방정식은 다음과 같습니다.

y=\beta_0+\beta_1x_1+\varepsilon

따라서 다중선형회귀와 단순선형회귀의 차이점은 설명변수의 개수에 있습니다. 다중 선형 회귀 모델에는 두 개 이상의 설명 변수가 있는 반면 단순 선형 회귀 모델에는 설명 변수가 하나만 있습니다.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

결론적으로 다중선형회귀는 단순선형회귀를 확장한 것으로 더 많은 설명변수와 각각의 회귀계수를 단순히 추가하기만 하면 된다. 그러나 회귀 계수는 다르게 계산됩니다. 계산 방법을 보려면 여기를 클릭하세요.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다