회귀분석에서 더미변수를 사용하는 방법

에 의해 벤자민 앤더슨 7월 26, 2023 가이드 댓글 0개

선형 회귀 는 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용할 수 있는 방법입니다.

우리는 일반적으로 양적 변수를 사용하는 선형 회귀를 사용합니다. 때때로 “숫자” 변수라고도 불리는 이는 측정 가능한 양을 나타내는 변수입니다. 예는 다음과 같습니다:

집의 평방 피트 수
도시의 인구 규모
개인의 나이

그러나 때로는 범주형 변수를 예측 변수로 사용하고 싶을 때도 있습니다. 이는 이름이나 레이블을 취하고 범주에 속할 수 있는 변수입니다. 예는 다음과 같습니다:

눈 색깔(예: “파란색”, “녹색”, “갈색”)
성별(예: ‘남자’, ‘여자’)
결혼 상태(예: “기혼”, “미혼”, “이혼”)

범주형 변수를 사용할 때 단순히 “파란색”, “녹색”, “갈색”과 같은 값에 1, 2, 3과 같은 값을 할당하는 것은 의미가 없습니다. 저 녹색은 두 배야. 파란색이나 갈색만큼 다채로운 것은 파란색보다 3배 더 화려합니다.

대신에 더미 변수를 사용하는 것이 해결책입니다. 이는 회귀 분석을 위해 특별히 생성하고 0 또는 1의 두 값 중 하나를 취하는 변수입니다.

더미 변수: 회귀 분석에서 0 또는 1의 두 값 중 하나만 취할 수 있는 범주형 데이터를 나타내는 데 사용되는 숫자 변수입니다.

우리가 만들어야 하는 더미 변수의 수는 k -1과 같습니다. 여기서 k 는 범주형 변수가 취할 수 있는 다양한 값의 수입니다.

다음 예에서는 다양한 데이터세트에 대한 더미 변수를 만드는 방법을 보여줍니다.

예 1: 값이 두 개만 있는 더미 변수 만들기

다음과 같은 데이터 세트가 있고 성별 과 연령을 사용하여 소득을 예측한다고 가정합니다.

회귀 모델에서 성별을 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.

이는 현재 두 가지 다른 값(“남성” 또는 “여성”)을 취할 수 있는 범주형 변수이므로 간단히 k -1 = 2-1 = 1개의 더미 변수를 생성합니다.

이 더미 변수를 생성하려면 값(“남성” 또는 “여성”) 중 하나를 선택하여 0을 나타내고 다른 값은 1을 나타낼 수 있습니다.

일반적으로 우리는 가장 빈번한 값을 0으로 표현하는데, 이 데이터세트에서는 “남성”입니다.

성별을 더미변수로 변환하는 방법은 다음과 같습니다.

더미 변수 예

그런 다음 회귀 모델에서 Age 및 Gender_Dummy를 예측 변수로 사용할 수 있습니다.

예 2: 여러 값이 포함된 더미 변수 만들기

다음과 같은 데이터 세트가 있고 결혼 상태 와 연령을 사용하여 소득을 예측한다고 가정해 보겠습니다.

회귀 모델에서 결혼 상태를 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.

이는 현재 세 가지 다른 값(“미혼”, “기혼” 또는 “이혼”)을 취할 수 있는 범주형 변수이므로 k -1 = 3-1 = 2개의 더미 변수를 만들어야 합니다.

이 더미 변수를 생성하려면 가장 자주 나타나는 “Single”을 기본 값으로 남겨 둘 수 있습니다. 따라서 결혼 상태를 더미 변수로 변환하는 방법은 다음과 같습니다.

세 개의 값을 갖는 더미 변수

그런 다음 회귀 모델에서 Age , Married 및 Divorced 를 예측 변수로 사용할 수 있습니다.

더미 변수를 사용하여 회귀 출력을 해석하는 방법

Age , Married , Divorced 를 예측 변수로, Income 을 응답 변수로 사용하여 이전 예제의 데이터 세트를 사용하여 다중 선형 회귀 모델을 적합하다고 가정합니다.

회귀 결과는 다음과 같습니다.

회귀 출력에서 더미 변수를 해석하는 방법

적합 회귀선은 다음과 같이 정의됩니다.

소득 = 14,276.21 + 1,471.67*(나이) + 2,479.75*(기혼) – 8,397.40*(이혼)

이 방정식을 사용하여 개인의 연령과 결혼 상태를 기준으로 개인의 추정 소득을 찾을 수 있습니다. 예를 들어, 35세이고 결혼한 사람의 추정 소득은 $68,264 입니다.

소득 = 14,276.21 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264

표의 회귀 계수를 해석하는 방법은 다음과 같습니다.

절편: 절편은 0세 한 사람의 평균 소득을 나타냅니다. 분명히 0년을 가질 수 없으므로 이 특정 회귀 모델에서 절편 자체를 해석하는 것은 의미가 없습니다.
연령: 매년 연령이 증가하면 소득이 평균 $1,471.67 증가합니다. p-값(0.00)이 0.05보다 작으므로 연령은 통계적으로 유의미한 소득 예측 변수입니다.
기혼: 기혼자는 독신자보다 평균 $2,479.75 더 많은 소득을 얻습니다. p-값(0.80)이 0.05 이상이므로 이 차이는 통계적으로 유의하지 않습니다.
이혼한 사람: 이혼한 사람은 독신자보다 평균 $8,397.40 더 적은 소득을 얻습니다. p-값(0.53)이 0.05 이상이므로 이 차이는 통계적으로 유의하지 않습니다.

두 더미 변수 모두 통계적으로 유의하지 않았기 때문에 소득에 예측 가치를 추가하는 것으로 보이지 않으므로 모델에서 예측 변수인 결혼 상태를 제거할 수 있었습니다.

추가 리소스

질적 및 양적 변수
더미 변수 트랩
회귀표를 읽고 해석하는 방법
P값과 통계적 유의성에 대한 설명

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기