더미 변수 트랩이란 무엇입니까? (정의 & #038; 예)
선형 회귀 는 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용할 수 있는 방법입니다.
우리는 일반적으로 양적 변수를 사용하는 선형 회귀를 사용합니다. 때때로 “숫자” 변수라고도 불리는 이는 측정 가능한 양을 나타내는 변수입니다. 예는 다음과 같습니다:
- 집의 평방 피트 수
- 도시의 인구 규모
- 개인의 나이
그러나 때로는 범주형 변수를 예측 변수로 사용하고 싶을 때도 있습니다. 이는 이름이나 레이블을 취하고 범주에 속할 수 있는 변수입니다. 예는 다음과 같습니다:
- 눈 색깔(예: “파란색”, “녹색”, “갈색”)
- 성별(예: ‘남자’, ‘여자’)
- 결혼 상태(예: “기혼”, “미혼”, “이혼”)
범주형 변수를 사용할 때 단순히 “파란색”, “녹색”, “갈색”과 같은 값에 1, 2, 3과 같은 값을 할당하는 것은 의미가 없습니다. 저 녹색은 두 배야. 파란색이나 갈색만큼 다채로운 것은 파란색보다 3배 더 화려합니다.
대신에 더미 변수를 사용하는 것이 해결책입니다. 이는 회귀 분석을 위해 특별히 생성하고 0 또는 1의 두 값 중 하나를 취하는 변수입니다.
우리가 만들어야 하는 더미 변수의 수는 k -1과 같습니다. 여기서 k 는 범주형 변수가 취할 수 있는 다양한 값의 수입니다.
예를 들어, 다음과 같은 데이터 세트가 있고 결혼 상태 와 연령을 사용하여 소득을 예측한다고 가정해 보겠습니다.
회귀 모델에서 결혼 상태를 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.
이는 현재 세 가지 다른 값(“미혼”, “기혼” 또는 “이혼”)을 취할 수 있는 범주형 변수이므로 k -1 = 3-1 = 2개의 더미 변수를 만들어야 합니다.
이 더미 변수를 생성하려면 가장 자주 나타나는 “Single”을 기본 값으로 남겨 둘 수 있습니다. 따라서 결혼 상태를 더미 변수로 변환하는 방법은 다음과 같습니다.
그런 다음 회귀 모델에서 Age , Married 및 Divorced 를 예측 변수로 사용할 수 있습니다.
더미 변수를 생성할 때 발생할 수 있는 문제를 더미 변수 트랩 이라고 합니다. 이는 k -1 더미 변수 대신 k 더미 변수를 생성할 때 발생합니다.
이런 일이 발생하면 최소 두 개의 더미 변수가 완벽한 다중 공선성을 겪게 됩니다. 즉, 그들은 완벽하게 상관될 것이다. 이로 인해 회귀 계수와 해당 p-값이 잘못 계산됩니다.
더미변수 트랩(Dummy Variable Trap) : 생성된 더미변수의 개수가 범주형 값이 취할 수 있는 값의 개수와 같을 때. 이로 인해 다중 공선성이 발생하여 회귀 계수와 p-값이 잘못 계산됩니다.
예를 들어 결혼 상태를 다음 더미 변수로 변환한다고 가정합니다.
이 경우 미혼 과 기혼 은 완벽하게 상관되어 있으며 상관계수는 -1입니다.
따라서 다중 선형 회귀를 수행하면 회귀 계수 계산이 올바르지 않게 됩니다.
더미 변수 함정을 피하는 방법
더미 변수의 함정을 피하려면 한 가지 규칙만 기억하면 됩니다.
범주형 변수가 k개의 서로 다른 값을 가질 수 있는 경우 회귀 모델에 사용할 k-1개의 더미 변수만 만들어야 합니다.
예를 들어 범주형 변수 “학년도”를 더미 변수로 변환한다고 가정합니다. 이 변수가 다음 값을 취한다고 가정합니다.
- 1학년 학생
- 2학년 학생
- 후진
- 상위
이 변수는 4개의 서로 다른 값을 가질 수 있으므로 3개의 더미 변수만 생성하겠습니다. 예를 들어 더미 변수는 다음과 같습니다.
- X 1 = 2학년 학생인 경우 1; 그 외 0
- X 2 = 주니어인 경우 1; 그 외 0
- X 3 = 1 유 시니어; 그 외 0
더미변수의 개수는 ‘학년도’가 취할 수 있는 값의 개수보다 하나 적기 때문에 더미변수 함정과 다중공선성 문제를 피할 수 있다.