회귀분석에서 더미변수를 사용하는 방법


선형 회귀 는 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용할 수 있는 방법입니다.

우리는 일반적으로 양적 변수를 사용하는 선형 회귀를 사용합니다. 때때로 “숫자” 변수라고도 불리는 이는 측정 가능한 양을 나타내는 변수입니다. 예는 다음과 같습니다:

  • 집의 평방 피트 수
  • 도시의 인구 규모
  • 개인의 나이

그러나 때로는 범주형 변수를 예측 변수로 사용하고 싶을 때도 있습니다. 이는 이름이나 레이블을 취하고 범주에 속할 수 있는 변수입니다. 예는 다음과 같습니다:

  • 눈 색깔(예: “파란색”, “녹색”, “갈색”)
  • 성별(예: ‘남자’, ‘여자’)
  • 결혼 상태(예: “기혼”, “미혼”, “이혼”)

범주형 변수를 사용할 때 단순히 “파란색”, “녹색”, “갈색”과 같은 값에 1, 2, 3과 같은 값을 할당하는 것은 의미가 없습니다. 저 녹색은 두 배야. 파란색이나 갈색만큼 다채로운 것은 파란색보다 3배 더 화려합니다.

대신에 더미 변수를 사용하는 것이 해결책입니다. 이는 회귀 분석을 위해 특별히 생성하고 0 또는 1의 두 값 중 하나를 취하는 변수입니다.

더미 변수: 회귀 분석에서 0 또는 1의 두 값 중 하나만 취할 수 있는 범주형 데이터를 나타내는 데 사용되는 숫자 변수입니다.

우리가 만들어야 하는 더미 변수의 수는 k -1과 같습니다. 여기서 k 는 범주형 변수가 취할 수 있는 다양한 값의 수입니다.

다음 예에서는 다양한 데이터세트에 대한 더미 변수를 만드는 방법을 보여줍니다.

예 1: 값이 두 개만 있는 더미 변수 만들기

다음과 같은 데이터 세트가 있고 성별연령을 사용하여 소득을 예측한다고 가정합니다.

회귀 모델에서 성별을 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.

이는 현재 두 가지 다른 값(“남성” 또는 “여성”)을 취할 수 있는 범주형 변수이므로 간단히 k -1 = 2-1 = 1개의 더미 변수를 생성합니다.

이 더미 변수를 생성하려면 값(“남성” 또는 “여성”) 중 하나를 선택하여 0을 나타내고 다른 값은 1을 나타낼 수 있습니다.

일반적으로 우리는 가장 빈번한 값을 0으로 표현하는데, 이 데이터세트에서는 “남성”입니다.

성별을 더미변수로 변환하는 방법은 다음과 같습니다.

더미 변수 예

그런 다음 회귀 모델에서 AgeGender_Dummy를 예측 변수로 사용할 수 있습니다.

예 2: 여러 값이 포함된 더미 변수 만들기

다음과 같은 데이터 세트가 있고 결혼 상태연령을 사용하여 소득을 예측한다고 가정해 보겠습니다.

회귀 모델에서 결혼 상태를 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.

이는 현재 세 가지 다른 값(“미혼”, “기혼” 또는 “이혼”)을 취할 수 있는 범주형 변수이므로 k -1 = 3-1 = 2개의 더미 변수를 만들어야 합니다.

이 더미 변수를 생성하려면 가장 자주 나타나는 “Single”을 기본 값으로 남겨 둘 수 있습니다. 따라서 결혼 상태를 더미 변수로 변환하는 방법은 다음과 같습니다.

세 개의 값을 갖는 더미 변수

그런 다음 회귀 모델에서 Age , MarriedDivorced 를 예측 변수로 사용할 수 있습니다.

더미 변수를 사용하여 회귀 출력을 해석하는 방법

Age , Married , Divorced 를 예측 변수로, Income 을 응답 변수로 사용하여 이전 예제의 데이터 세트를 사용하여 다중 선형 회귀 모델을 적합하다고 가정합니다.

회귀 결과는 다음과 같습니다.

회귀 출력에서 더미 변수를 해석하는 방법

적합 회귀선은 다음과 같이 정의됩니다.

소득 = 14,276.21 + 1,471.67*(나이) + 2,479.75*(기혼) – 8,397.40*(이혼)

이 방정식을 사용하여 개인의 연령과 결혼 상태를 기준으로 개인의 추정 소득을 찾을 수 있습니다. 예를 들어, 35세이고 결혼한 사람의 추정 소득은 $68,264 입니다.

소득 = 14,276.21 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264

표의 회귀 계수를 해석하는 방법은 다음과 같습니다.

  • 절편: 절편은 0세 한 사람의 평균 소득을 나타냅니다. 분명히 0년을 가질 수 없으므로 이 특정 회귀 모델에서 절편 자체를 해석하는 것은 의미가 없습니다.
  • 연령: 매년 연령이 증가하면 소득이 평균 $1,471.67 증가합니다. p-값(0.00)이 0.05보다 작으므로 연령은 통계적으로 유의미한 소득 예측 변수입니다.
  • 기혼: 기혼자는 독신자보다 평균 $2,479.75 더 많은 소득을 얻습니다. p-값(0.80)이 0.05 이상이므로 이 차이는 통계적으로 유의하지 않습니다.
  • 이혼한 사람: 이혼한 사람은 독신자보다 평균 $8,397.40 더 적은 소득을 얻습니다. p-값(0.53)이 0.05 이상이므로 이 차이는 통계적으로 유의하지 않습니다.

두 더미 변수 모두 통계적으로 유의하지 않았기 때문에 소득에 예측 가치를 추가하는 것으로 보이지 않으므로 모델에서 예측 변수인 결혼 상태를 제거할 수 있었습니다.

추가 리소스

질적 및 양적 변수
더미 변수 트랩
회귀표를 읽고 해석하는 방법
P값과 통계적 유의성에 대한 설명

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다