로지스틱 회귀

이 기사에서는 통계에서 로지스틱 회귀가 무엇인지 설명합니다. 마찬가지로 로지스틱 회귀 공식, 다양한 유형의 로지스틱 회귀 및 해결된 로지스틱 회귀 연습도 확인할 수 있습니다.

로지스틱 회귀란 무엇입니까?

통계에서 로지스틱 회귀는 범주형 변수 의 결과를 예측하는 데 사용되는 일종의 회귀 모델입니다. 즉, 로지스틱 회귀는 범주형 변수가 독립변수를 기반으로 특정 값을 취할 확률을 모델링하는 데 사용됩니다.

가장 일반적인 로지스틱 회귀 모델은 이진 로지스틱 회귀이며, 여기서는 “실패” 또는 “성공”( 베르누이 분포 )이라는 두 가지 가능한 결과만 있습니다. “실패”는 값 0으로 표시되고 “성공”은 값 1로 표시됩니다.

예를 들어, 학생이 공부한 시간을 기준으로 시험에 합격할 확률은 로지스틱 회귀 모델을 사용하여 연구할 수 있습니다. 이 경우 실패는 ‘실패’의 결과이고, 성공은 ‘성공’의 결과입니다.

로지스틱 회귀 공식

로지스틱 회귀 모델의 방정식은 다음과 같습니다.

\displaystyle \ln \left(\frac{p}{1-p}\right) =\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_ix_i

따라서 로지스틱 회귀 모델에서 “성공” 결과를 얻을 확률, 즉 종속변수가 1의 값을 가질 확률은 다음 공식으로 계산됩니다.

p=\cfrac{1}{1+e^{-(\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_ix_i)}}

금:

  • p

    종속변수가 1일 확률입니다.

  • \beta_0

    로지스틱 회귀 모델의 상수입니다.

  • \beta_i

    변수 i의 회귀계수입니다.

  • x_i

    변수 i의 값입니다.

로지스틱 회귀 모델 예

이제 로지스틱 회귀의 정의를 알았으므로 이러한 유형의 회귀 모델을 만드는 방법에 대한 구체적인 예를 살펴보겠습니다.

  • 다음 표에는 각 학생의 학습 시간 및 통계 시험 합격 여부와 관련된 일련의 20개 데이터가 수집되어 있습니다. 로지스틱 회귀 모델을 실행하고 학생이 4시간 동안 공부한 경우 합격할 확률을 계산합니다.

이 경우 설명 변수는 학습 시간이고 응답 변수는 학생의 낙제(0) 또는 합격(1) 여부입니다. 따라서 우리 모델에서는 계수만 갖게 됩니다.

\beta_0

그리고 계수

\beta_1

, 독립변수가 하나뿐이기 때문이다.

\beta_0 \qquad \beta_1

회귀계수를 수동으로 결정하는 것은 매우 힘들므로 Minitab과 같은 컴퓨터 소프트웨어를 사용하는 것이 좋습니다. 따라서 Minitab을 사용하여 계산한 회귀계수의 값은 다음과 같습니다.

\begin{array}{c}\beta_0\approx -4,1\\[2ex]\beta_1\approx 1,5\end{array}

따라서 로지스틱 회귀 모델은 다음과 같습니다.

\begin{aligned}p&=\cfrac{1}{1+e^{-(\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_ix_i)}}\\[2ex]p&=\cfrac{1}{1+e^{-(-4,1+1,5x_1)}}\\[2ex]p&=\cfrac{1}{1+e^{4,1-1,5x_1}}\end{aligned}

아래에서 그래프로 표시된 샘플 데이터와 로지스틱 회귀 모델 방정식을 볼 수 있습니다.

로지스틱 회귀의 예

따라서 학생이 4시간 공부한 경우 성공할 확률을 계산하려면 로지스틱 회귀 모델에서 얻은 방정식을 사용하면 됩니다.

\begin{aligned}p&=\cfrac{1}{1+e^{4,1-1,5x_1}}\\[2ex]p&=\cfrac{1}{1+e^{4,1-1,5\cdot 4}}\\[2ex]p&=0,8699\end{aligned}

간단히 말해서, 학생이 4시간 동안 공부하면 시험에 합격할 확률은 86.99%입니다.

로지스틱 회귀 유형

로지스틱 회귀에는 세 가지 유형이 있습니다.

  • 이진 로지스틱 회귀 분석 : 종속 변수는 두 가지 값(0과 1)만 가질 수 있습니다.
  • 다항 로지스틱 회귀 분석 : 종속 변수에 가능한 값이 2개 이상 있습니다.
  • 순서형 로지스틱 회귀 분석 : 가능한 결과에는 자연 순서가 있습니다.

로지스틱 회귀 및 선형 회귀

마지막으로 요약하자면 통계에서 가장 많이 사용되는 회귀 모델은 선형 모델이므로 로지스틱 회귀와 선형 회귀의 차이점이 무엇인지 살펴보겠습니다.

선형 회귀는 수치 종속 변수를 모델링하는 데 사용됩니다. 또한 선형 회귀 분석에서는 설명 변수와 반응 변수 간의 관계가 선형입니다.

따라서 로지스틱 회귀와 선형 회귀의 주요 차이점은 종속 변수의 유형입니다. 로지스틱 회귀 분석에서 종속 변수는 범주형인 반면, 선형 회귀 분석에서는 종속 변수는 숫자형입니다.

따라서 로지스틱 회귀는 두 가지 가능한 옵션 사이의 결과를 예측하는 데 사용되는 반면 선형 회귀는 수치 결과를 예측하는 데 도움이 됩니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다