로지스틱 회귀 소개
하나 이상의 예측 변수와 연속형 응답 변수 간의 관계를 이해하려는 경우 선형 회귀 분석을 사용하는 경우가 많습니다.
그러나 응답 변수가 범주형인 경우 로지스틱 회귀를 사용할 수 있습니다.
로지스틱 회귀는 데이터 세트의 관측치를 고유한 범주로 “분류”하려고 시도하기 때문에 일종의 분류 알고리즘 입니다.
다음은 로지스틱 회귀를 사용하는 몇 가지 예입니다.
- 우리는 신용 점수 와 은행 잔액을 사용하여 특정 고객이 대출을 불이행할지 여부를 예측하려고 합니다. (응답 변수 = “기본값” 또는 “기본값 없음”)
- 우리는 게임당 평균 리바운드 와 게임당 평균 포인트를 사용하여 특정 농구 선수가 NBA에 드래프트될지 여부를 예측하려고 합니다(응답 변수 = “드래프트됨” 또는 “드래프트되지 않음”).
- 우리는 평방 피트 와 욕실 수를 사용하여 특정 도시의 주택이 $200,000 이상의 판매 가격으로 나열되는지 여부를 예측하려고 합니다. (응답 변수 = “예” 또는 “아니요”)
각 예의 응답 변수는 두 값 중 하나만 사용할 수 있습니다. 이를 응답 변수가 연속적인 값을 취하는 선형 회귀와 비교해 보세요.
로지스틱 회귀 방정식
로지스틱 회귀 분석에서는 최대 우도 추정(자세한 내용은 여기에서 설명하지 않음)이라는 방법을 사용하여 다음 형식의 방정식을 찾습니다.
로그[p(X) / ( 1 -p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p
금:
- X j : j 번째 예측변수
- β j : j 번째 예측변수에 대한 계수 추정
방정식 오른쪽의 공식은 응답 변수가 값 1을 취할 로그 확률을 예측합니다.
따라서 로지스틱 회귀 모델을 적용할 때 다음 방정식을 사용하여 주어진 관측값이 값 1을 가질 확률을 계산할 수 있습니다.
p(X) = e β 0 + β 1 X 1 + β 2 X 2 + … + β p
그런 다음 특정 확률 임계값을 사용하여 관측치를 1 또는 0으로 분류합니다.
예를 들어, 확률이 0.5보다 크거나 같은 관측치는 “1”로 분류되고 다른 모든 관측치는 “0”으로 분류될 것이라고 말할 수 있습니다.
로지스틱 회귀 결과를 해석하는 방법
특정 농구 선수가 경기당 평균 리바운드와 경기당 평균 점수를 기반으로 NBA에 드래프트될지 여부를 예측하기 위해 로지스틱 회귀 모델을 사용한다고 가정해 보겠습니다.
로지스틱 회귀 모델의 결과는 다음과 같습니다.

계수를 사용하면 다음 공식을 사용하여 게임당 평균 리바운드와 점수를 기반으로 특정 선수가 NBA에 드래프트될 확률을 계산할 수 있습니다.
P(초안) = e -2.8690 + 0.0698*(rebs) + 0.1694*(포인트) / (1+e -2.8690 + 0.0698*(rebs) + 0.1694*(포인트) ) )
예를 들어 특정 선수가 게임당 평균 8개의 리바운드와 게임당 15득점을 기록한다고 가정해 보겠습니다. 모델에 따르면 이 선수가 NBA에 드래프트될 확률은 0.557 입니다.
P(작성) = e -2.8690 + 0.0698*(8) + 0.1694*(15) / (1+e -2.8690 + 0.0698*(8) + 0.1694*(15 ) ) = 0.557
이 확률은 0.5보다 크기 때문에 이 선수가 드래프트 될 것으로 예측합니다.
게임당 평균 3개의 리바운드와 7득점만을 기록하는 선수와 비교해 보세요. 이 선수가 NBA에 드래프트될 확률은 0.186 이다.
P(작성) = e -2.8690 + 0.0698*(3) + 0.1694*(7) / (1+e -2.8690 + 0.0698*(3) + 0.1694*(7 ) ) = 0.186
이 확률은 0.5 미만이므로 이 선수는 드래프트되지 않을 것으로 예측합니다.
로지스틱 회귀 가정
로지스틱 회귀에서는 다음과 같은 가정을 사용합니다.
1. 반응 변수는 이진형입니다. 반응 변수는 두 가지 가능한 결과만 취할 수 있다고 가정합니다.
2. 관찰은 독립적입니다. 데이터세트의 관측값은 서로 독립적이라고 가정합니다. 즉, 관찰은 동일한 개인을 반복적으로 측정하여 얻어지거나 어떤 방식으로든 서로 관련되어서는 안 됩니다.
3. 예측 변수 사이에는 심각한 다중 공선성이 없습니다 . 예측변수 중 어느 것도 서로 높은 상관관계가 없다고 가정합니다.
4. 극단적인 이상치가 없습니다. 데이터세트에는 극단적인 특이치나 영향력 있는 관측치가 없다고 가정됩니다.
5. 예측변수와 반응변수의 로짓 사이에는 선형 관계가 있습니다 . 이 가설은 Box-Tidwell 테스트를 사용하여 테스트할 수 있습니다.
6. 표본 크기가 충분히 큽니다. 일반적으로 각 설명변수에 대해 결과가 가장 적게 나타나는 최소 10개의 케이스가 있어야 합니다. 예를 들어 설명 변수가 3개 있고 빈도가 가장 낮은 결과의 예상 확률이 0.20인 경우 표본 크기는 최소한 (10*3) / 0.20 = 150이어야 합니다.
이러한 가정을 검증하는 방법에 대한 자세한 설명은 이 기사를 확인하세요.