회귀 분석

이 기사에서는 회귀 분석이 무엇인지, 통계에서 어떤 용도로 사용되는지 설명합니다. 또한 다양한 유형의 회귀 분석이 무엇인지 확인할 수 있습니다.

회귀 분석이란 무엇입니까?

통계에서 회귀 분석은 둘 이상의 변수 간의 관계를 연구하는 프로세스입니다. 보다 구체적으로 회귀 분석에는 연구의 변수를 수학적으로 연관시키는 방정식을 계산하는 작업이 포함됩니다.

회귀 분석에 구축된 모델을 회귀 모델이라고 하며, 연구된 변수와 관련된 방정식을 회귀 방정식이라고 합니다.

예를 들어, 한 국가의 인플레이션과 GDP 간의 관계를 연구하려는 경우 회귀 분석을 수행하여 두 변수 간의 관계를 분석할 수 있습니다. 이 경우 회귀 분석에서 얻은 방정식은 회귀선이 됩니다.

회귀 분석

따라서 회귀 분석은 데이터 샘플을 수집하고 수집된 데이터로부터 연구된 변수를 수학적으로 연관시킬 수 있는 방정식을 계산하는 것으로 구성됩니다.

회귀 분석에서는 회귀 모델에 포함될 수 있는 두 가지 유형의 변수를 구별하는 것이 중요합니다.

  • 종속변수(또는 반응변수) : 분석하고자 하는 요소이므로, 이 변수의 값이 다른 변수의 값에 따라 어떻게 변하는지 알아보기 위해 회귀모델을 구축하게 됩니다.
  • 독립변수(또는 설명변수) : 분석하고자 하는 변수에 영향을 미칠 가능성이 있다고 판단되는 요소이다. 즉, 독립변수의 값이 종속변수의 값에 영향을 미칩니다.

회귀 분석 유형

기본적으로 회귀 분석에는 세 가지 유형이 있습니다.

  • 단순선형회귀분석 : 회귀모형은 독립변수와 종속변수를 가지며 선형적으로 연관되어 있다.
  • 다중선형회귀분석 : 두 개 이상의 독립변수가 하나의 종속변수와 선형적으로 연관되어 있습니다.
  • 비선형 회귀 분석 : 독립 변수와 종속 변수 간의 관계를 비선형 함수를 사용하여 모델링합니다.

단순 선형 회귀 분석

단순 선형 회귀는 선형 방정식을 사용하여 독립 변수를 두 변수에 연결하는 데 사용됩니다.

단순 선형 회귀 모델의 방정식은 직선이므로 방정식의 상수(β 0 )와 두 변수 사이의 상관 계수(β 1 )라는 두 가지 계수로 구성됩니다. 따라서 단순 선형 회귀 모델의 방정식은 y=β 01 x 입니다.

y=\beta_0+\beta_1x

단순 선형 회귀 계수를 계산하는 공식은 다음과 같습니다.

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

금:

  • \beta_0

    회귀선의 상수입니다.

  • \beta_1

    회귀선의 기울기입니다.

  • x_i

    데이터 i의 독립변수 X의 값입니다.

  • y_i

    데이터 i의 종속변수 Y의 값입니다.

  • \overline{x}

    독립 변수 값의 평균입니다.

  • \overline{y}

    종속 변수 Y 값의 평균입니다.

참고: 단순 선형 회귀

다중 선형 회귀 분석

다중선형회귀 모델에는 최소 2개의 독립변수가 포함됩니다. 즉, 다중 선형 회귀를 사용하면 여러 설명 변수를 응답 변수에 선형으로 연결할 수 있습니다. 따라서 다중 선형 회귀 모델의 방정식은 다음과 같습니다.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

금:

  • y

    종속변수입니다.

  • x_i

    는 독립변수 i입니다.

  • \beta_0

    다중 선형 회귀 방정식의 상수입니다.

  • \beta_i

    변수와 관련된 회귀 계수입니다.

    x_i

    .

  • \bm{\varepsilon}

    오류 또는 잔차, 즉 관측된 값과 모델에 의해 추정된 값 간의 차이입니다.

  • m

    모델의 총 변수 수입니다.

따라서 총 샘플이 있는 경우

n

관찰을 통해 다중 선형 회귀 모델을 행렬 형식으로 만들 수 있습니다.

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

위의 행렬 표현식은 각 행렬에 문자를 할당하여 다시 작성할 수 있습니다.

Y=X\beta+\varepsilon

따라서 최소 제곱 기준을 적용하면 다중 선형 회귀 모델의 계수를 추정하는 공식 에 도달할 수 있습니다.

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

그러나 이 공식을 적용하는 것은 매우 힘들고 시간이 많이 걸리기 때문에 실제로는 다중 회귀 모델을 훨씬 더 빠르게 생성할 수 있는 컴퓨터 소프트웨어(예: Minitab 또는 Excel)를 사용하는 것이 좋습니다.

참고: 다중 선형 회귀

비선형 회귀 분석

통계에서 비선형 회귀는 비선형 함수가 회귀 방정식의 모델로 사용되는 회귀 유형입니다. 따라서 비선형 회귀 모델의 방정식은 비선형 함수입니다.

논리적으로 비선형 회귀 분석은 두 변수 간의 관계가 선형이 아닌 경우 독립 변수를 종속 변수에 연결하는 데 사용됩니다. 따라서 표본 데이터를 그래프로 그릴 때 선형 관계가 없는, 즉 대략적인 직선을 형성하지 않는 것으로 관찰되면 ‘비선형 회귀 모델을 사용하는 것이 좋습니다.

예를 들어, 방정식 y=3-5x-8x 2 +x 3 은 3차 함수를 통해 독립 변수 X를 종속 변수 Y에 수학적으로 연결하기 때문에 비선형 회귀 모델입니다.

비선형 회귀에는 주로 세 가지 유형이 있습니다.

  • 다항식 회귀 – 방정식이 다항식 형태인 비선형 회귀입니다.
  • y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m

  • 로그 회귀 – 독립 변수가 로그화되는 비선형 회귀입니다.
  • y=\beta_0+\beta_1\cdot \ln(x)

  • 지수 회귀 – 독립 변수가 방정식의 지수에 존재하는 비선형 회귀입니다.
  • y=\beta_0\cdot e^{\beta_1\cdot x}

참고: 비선형 회귀

회귀 분석은 무엇에 사용됩니까?

회귀 분석에는 기본적으로 두 가지 용도가 있습니다. 회귀 분석은 설명 변수와 응답 변수 간의 관계를 설명하는 데 사용되며 마찬가지로 회귀 분석은 새로운 관찰에 대한 종속 변수의 값을 예측하는 데 사용됩니다.

회귀모델의 방정식을 구하면 모델 내 변수들 사이에 어떤 관계가 존재하는지 알 수 있다. 독립변수의 회귀계수가 양수인 경우 종속변수가 증가하면 종속변수도 증가합니다. 반면 독립변수의 회귀계수가 음수이면 종속변수는 증가할수록 감소합니다.

한편, 회귀 분석을 통해 얻은 수학 방정식을 사용하면 가치 예측도 가능합니다. 따라서 회귀모델의 방정식에 설명변수의 값을 도입함으로써 새로운 데이터에 대한 종속변수의 값을 계산할 수 있다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다