더미 변수 트랩이란 무엇입니까? (정의 & #038; 예)


선형 회귀 는 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용할 수 있는 방법입니다.

우리는 일반적으로 양적 변수를 사용하는 선형 회귀를 사용합니다. 때때로 “숫자” 변수라고도 불리는 이는 측정 가능한 양을 나타내는 변수입니다. 예는 다음과 같습니다:

  • 집의 평방 피트 수
  • 도시의 인구 규모
  • 개인의 나이

그러나 때로는 범주형 변수를 예측 변수로 사용하고 싶을 때도 있습니다. 이는 이름이나 레이블을 취하고 범주에 속할 수 있는 변수입니다. 예는 다음과 같습니다:

  • 눈 색깔(예: “파란색”, “녹색”, “갈색”)
  • 성별(예: ‘남자’, ‘여자’)
  • 결혼 상태(예: “기혼”, “미혼”, “이혼”)

범주형 변수를 사용할 때 단순히 “파란색”, “녹색”, “갈색”과 같은 값에 1, 2, 3과 같은 값을 할당하는 것은 의미가 없습니다. 저 녹색은 두 배야. 파란색이나 갈색만큼 다채로운 것은 파란색보다 3배 더 화려합니다.

대신에 더미 변수를 사용하는 것이 해결책입니다. 이는 회귀 분석을 위해 특별히 생성하고 0 또는 1의 두 값 중 하나를 취하는 변수입니다.

우리가 만들어야 하는 더미 변수의 수는 k -1과 같습니다. 여기서 k 는 범주형 변수가 취할 수 있는 다양한 값의 수입니다.

예를 들어, 다음과 같은 데이터 세트가 있고 결혼 상태연령을 사용하여 소득을 예측한다고 가정해 보겠습니다.

회귀 모델에서 결혼 상태를 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.

이는 현재 세 가지 다른 값(“미혼”, “기혼” 또는 “이혼”)을 취할 수 있는 범주형 변수이므로 k -1 = 3-1 = 2개의 더미 변수를 만들어야 합니다.

이 더미 변수를 생성하려면 가장 자주 나타나는 “Single”을 기본 값으로 남겨 둘 수 있습니다. 따라서 결혼 상태를 더미 변수로 변환하는 방법은 다음과 같습니다.

세 개의 값을 갖는 더미 변수

그런 다음 회귀 모델에서 Age , MarriedDivorced 를 예측 변수로 사용할 수 있습니다.

더미 변수를 생성할 때 발생할 수 있는 문제를 더미 변수 트랩 이라고 합니다. 이는 k -1 더미 변수 대신 k 더미 변수를 생성할 때 발생합니다.

이런 일이 발생하면 최소 두 개의 더미 변수가 완벽한 다중 공선성을 겪게 됩니다. 즉, 그들은 완벽하게 상관될 것이다. 이로 인해 회귀 계수와 해당 p-값이 잘못 계산됩니다.

더미변수 트랩(Dummy Variable Trap) : 생성된 더미변수의 개수가 범주형 값이 취할 수 있는 값의 개수와 같을 때. 이로 인해 다중 공선성이 발생하여 회귀 계수와 p-값이 잘못 계산됩니다.

예를 들어 결혼 상태를 다음 더미 변수로 변환한다고 가정합니다.

더미 변수 트랩 예

이 경우 미혼기혼 은 완벽하게 상관되어 있으며 상관계수는 -1입니다.

따라서 다중 선형 회귀를 수행하면 회귀 계수 계산이 올바르지 않게 됩니다.

더미 변수 함정을 피하는 방법

더미 변수의 함정을 피하려면 한 가지 규칙만 기억하면 됩니다.

범주형 변수가 k개의 서로 다른 값을 가질 수 있는 경우 회귀 모델에 사용할 k-1개의 더미 변수만 만들어야 합니다.

예를 들어 범주형 변수 “학년도”를 더미 변수로 변환한다고 가정합니다. 이 변수가 다음 값을 취한다고 가정합니다.

  • 1학년 학생
  • 2학년 학생
  • 후진
  • 상위

이 변수는 4개의 서로 다른 값을 가질 수 있으므로 3개의 더미 변수만 생성하겠습니다. 예를 들어 더미 변수는 다음과 같습니다.

  • X 1 = 2학년 학생인 경우 1; 그 외 0
  • X 2 = 주니어인 경우 1; 그 외 0
  • X 3 = 1 유 시니어; 그 외 0

더미변수의 개수는 ‘학년도’가 취할 수 있는 값의 개수보다 하나 적기 때문에 더미변수 함정과 다중공선성 문제를 피할 수 있다.

추가 리소스

회귀분석에서 더미변수를 사용하는 방법
다중 선형 회귀 소개
회귀 분석의 다중 공선성에 대한 가이드

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다