Excel에서 더미 변수를 만드는 방법(단계별)
더미 변수는 범주형 변수를 0 또는 1의 두 값 중 하나를 취하는 숫자 변수로 나타낼 수 있도록 회귀 분석에서 생성하는 변수 유형입니다.
예를 들어, 다음과 같은 데이터 세트가 있고 나이 와 결혼 상태를 사용하여 소득을 예측한다고 가정해 보겠습니다.
회귀 모델에서 결혼 상태를 예측 변수로 사용하려면 이를 더미 변수로 변환해야 합니다.
이는 현재 세 가지 다른 값(“미혼”, “기혼” 또는 “이혼”)을 취할 수 있는 범주형 변수이므로 k -1 = 3-1 = 2개의 더미 변수를 만들어야 합니다.
이 더미 변수를 생성하려면 가장 자주 나타나는 “Single”을 기본 값으로 남겨 둘 수 있습니다. 결혼 상태를 더미 변수로 변환하는 방법은 다음과 같습니다.
이 튜토리얼에서는 Excel에서 이 정확한 데이터 세트에 대한 더미 변수를 생성한 다음 이러한 더미 변수를 예측 변수로 사용하여 회귀 분석을 수행하는 방법에 대한 단계별 예를 제공합니다.
1단계: 데이터 생성
먼저 Excel에서 데이터 세트를 생성해 보겠습니다.
2단계: 더미 변수 생성
다음으로 A열과 B열의 값을 E열과 F열로 복사한 다음 Excel의 IF() 함수를 사용하여 Married와 Divorced라는 두 개의 새로운 더미 변수를 정의할 수 있습니다.
다음은 G2 셀에서 사용한 수식입니다. 이를 G열의 나머지 셀에 복사했습니다.
= IF (C2 = "Married", 1, 0)
다음은 H2 셀에서 사용한 수식입니다. 이를 H열의 나머지 셀에 복사했습니다.
= IF (C2 = "Divorced", 1, 0)
그런 다음 회귀 모델에서 이러한 더미 변수를 사용하여 소득을 예측할 수 있습니다.
3단계: 선형 회귀 수행
다중 선형 회귀를 수행하려면 상단 리본의 데이터 탭을 클릭한 다음 분석 섹션에서 데이터 분석을 클릭 해야 합니다.
이 옵션을 사용할 수 없는 경우 먼저 분석 도구를 로드해야 합니다.
표시되는 창에서 회귀를 클릭한 다음 확인 을 클릭합니다.
그런 다음, 다음 정보를 입력하고 확인을 클릭하세요.
그러면 다음과 같은 결과가 생성됩니다.
결과에서 우리는 적합 회귀선이 다음과 같다는 것을 알 수 있습니다.
소득 = 14,276.12 + 1,471.67*(나이) + 2,479.75*(기혼) – 8,397.40*(이혼)
이 방정식을 사용하여 개인의 연령과 결혼 상태를 기준으로 개인의 추정 소득을 찾을 수 있습니다. 예를 들어, 35세이고 결혼한 사람의 추정 소득은 $68,264 입니다.
소득 = 14,276.12 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264
표의 회귀 계수를 해석하는 방법은 다음과 같습니다.
- 절편: 절편은 0세 한 사람의 평균 소득을 나타냅니다. 개인은 0년이 될 수 없으므로 이 특정 회귀 모델에서 절편 자체를 해석하는 것은 의미가 없습니다.
- 연령: 매년 연령이 증가하면 소득이 평균 $1,471.67 증가합니다. p-값(0.004)이 0.05보다 작으므로 연령은 통계적으로 유의미한 소득 예측 변수입니다.
- 기혼: 기혼자는 독신자보다 평균 $2,479.75 더 많은 소득을 얻습니다. p-값(0.800)이 0.05 이상이므로 이 차이는 통계적으로 유의하지 않습니다.
- 이혼한 사람: 이혼한 사람은 독신자보다 평균 $8,397.40 더 적은 소득을 얻습니다. p-값(0.532)이 0.05 이상이므로 이 차이는 통계적으로 유의하지 않습니다.
두 더미 변수 모두 통계적으로 유의하지 않았기 때문에 소득에 예측 가치를 추가하는 것으로 보이지 않으므로 모델에서 예측 변수인 결혼 상태를 제거할 수 있었습니다.
추가 리소스
Excel에서 단순 선형 회귀를 수행하는 방법
Excel에서 잔차 제곱합을 계산하는 방법
Excel에서 다항식 회귀를 수행하는 방법
Excel에서 잔차 도표를 만드는 방법