로지스틱 회귀의 6가지 가설(예제 포함)


로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용할 수 있는 방법입니다.

모델을 데이터 세트에 맞추기 전에 로지스틱 회귀에서는 다음과 같은 가정을 합니다.

가정 #1: 응답 변수는 이진형입니다.

로지스틱 회귀에서는 반응 변수에 가능한 결과가 두 가지만 있다고 가정합니다. 여기 몇 가지 예가 있어요.

  • 예 혹은 아니오
  • 남성 또는 여성
  • 성공 또는 실패
  • 쓴 것이든 쓰지 않은 것이든
  • 악성 또는 양성

이 가정을 확인하는 방법: 응답 변수에서 발생하는 고유한 결과의 수를 간단히 계산합니다. 가능한 결과가 3개 이상인 경우 대신 순서 회귀를 수행해야 합니다.

가설 #2: 관측치는 독립적이다

로지스틱 회귀에서는 데이터 세트의 관측치가 서로 독립적이라고 가정합니다. 즉, 관찰은 동일한 개인을 반복적으로 측정하여 얻어지거나 어떤 방식으로든 서로 관련되어서는 안 됩니다.

이 가설을 테스트하는 방법: 이 가설을 테스트하는 가장 간단한 방법은 잔차 대 시간의 플롯(예: 관측치 순서)을 만들고 무작위 추세가 있는지 여부를 관찰하는 것입니다. 무작위 패턴이 없으면 이 가정이 위반될 수 있습니다.

가설 #3: 설명 변수 간에 다중 공선성이 없습니다.

로지스틱 회귀에서는 설명 변수 간에 심각한 다중 공선성이 없다고 가정합니다.

다중 공선성은 둘 이상의 설명 변수가 서로 높은 상관 관계를 갖고 있어 회귀 모델에서 고유하거나 독립적인 정보를 제공하지 않는 경우에 발생합니다. 변수 간의 상관 정도가 충분히 높으면 모델을 피팅하고 해석할 때 문제가 발생할 수 있습니다.

예를 들어, 최대 수직 점프를 반응 변수로 사용하고 다음 변수를 설명 변수로 사용하여 로지스틱 회귀를 수행한다고 가정합니다.

  • 플레이어 규모
  • 플레이어 규모
  • 하루에 연습한 시간

이 경우 키가 큰 사람의 신발 사이즈가 더 큰 경향이 있으므로 와 신발 사이즈는 높은 상관관계가 있을 가능성이 높습니다. 이는 회귀 분석에서 이 두 변수를 사용하면 다중 공선성이 문제가 될 수 있음을 의미합니다.

이 가정을 확인하는 방법: 다중 공선성을 탐지하는 가장 일반적인 방법은 회귀 모델에서 예측 변수 간의 상관 관계 및 상관 강도를 측정하는 분산 팽창 계수(VIF)를 사용하는 것입니다. VIF 값을 계산하고 해석하는 방법에 대한 자세한 설명은 이 튜토리얼을 확인하세요.

가정 #4: 극단적인 이상값은 없습니다.

로지스틱 회귀에서는 데이터 세트에 극단적인 특이치나 영향력 있는 관측치가 없다고 가정합니다.

이 가정을 확인하는 방법: 데이터 세트에서 극단적인 특이치와 영향력 있는 관측치를 테스트하는 가장 일반적인 방법은 각 관측치에 대한 Cook의 거리를 계산하는 것입니다. 실제로 이상값이 있는 경우 (1) 이를 제거하거나, (2) 평균 또는 중앙값과 같은 값으로 바꾸거나, (3) 단순히 모델에 유지하되 회귀 보고 시 기록하도록 선택할 수 있습니다. . 결과.

가설 #5: 설명 변수와 반응 변수의 로짓 사이에는 선형 관계가 있습니다.

로지스틱 회귀에서는 각 설명 변수와 반응 변수의 로짓 사이에 선형 관계가 있다고 가정합니다. 로짓은 다음과 같이 정의됩니다.

Logit(p) = log(p / (1-p)) 여기서 p는 긍정적인 결과가 나올 확률입니다.

이 가설을 테스트하는 방법: 이 가설이 사실인지 확인하는 가장 쉬운 방법은 Box-Tidwell 테스트를 사용하는 것입니다.

가정 #6: 표본 크기가 충분히 큽니다.

로지스틱 회귀에서는 데이터세트의 표본 크기가 적합 로지스틱 회귀 모델에서 유효한 결론을 도출할 만큼 충분히 크다고 가정합니다.

이 가설을 확인하는 방법: 경험상 각 설명 변수에 대해 가장 빈도가 낮은 결과를 갖는 최소 10개의 사례가 있어야 합니다. 예를 들어 설명 변수가 3개 있고 빈도가 가장 낮은 결과의 예상 확률이 0.20인 경우 표본 크기는 최소한 (10*3) / 0.20 = 150 이어야 합니다.

로지스틱 회귀와 가정 선형 회귀

선형 회귀와 달리 로지스틱 회귀에는 다음이 필요하지 않습니다.

  • 설명 변수와 반응 변수 간의 선형 관계입니다.
  • 모형의 잔차는 정규 분포를 따릅니다.
  • 잔차는 등분산성 (homoscedasticity) 이라고도 알려진 일정한 분산을 가져야 합니다.

관련 항목: 선형 회귀의 네 가지 가정

추가 리소스

실생활에서 로지스틱 회귀를 활용한 4가지 예
SPSS에서 로지스틱 회귀를 수행하는 방법
Excel에서 로지스틱 회귀를 수행하는 방법
Stata에서 로지스틱 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다