Excel에서 다중 선형 회귀를 수행하는 방법


다중 선형 회귀는 둘 이상의 설명 변수와 응답 변수 간의 관계를 이해하는 데 사용할 수 있는 방법입니다.

이 튜토리얼에서는 Excel에서 다중 선형 회귀를 수행하는 방법을 설명합니다.

참고: 설명 변수가 하나만 있는 경우 대신 단순 선형 회귀를 수행해야 합니다.

예: Excel의 다중 선형 회귀

공부한 시간과 준비 시험의 횟수가 학생이 특정 대학 입학 시험에서 받는 성적에 영향을 미치는지 알고 싶다고 가정해 보겠습니다.

이 관계를 탐색하기 위해 학습 시간준비 시험을 설명 변수로, 시험 결과를 반응 변수로 사용하여 다중 선형 회귀를 수행할 수 있습니다.

다중 선형 회귀를 수행하려면 Excel에서 다음 단계를 완료하세요.

1단계: 데이터를 입력합니다.

20명의 학생에 대해 공부한 시간, 치른 준비 시험, 받은 시험 결과에 대해 다음 데이터를 입력합니다.

Excel의 다중 선형 회귀에 대한 원시 데이터

2단계: 다중 선형 회귀를 수행합니다.

Excel 상단 리본에서 데이터 탭으로 이동하여 데이터 분석을 클릭합니다. 이 옵션이 표시되지 않으면 먼저 무료 Analysis ToolPak 소프트웨어를 설치 해야 합니다.

Excel의 데이터 분석 옵션

데이터 분석을 클릭하면 새 창이 나타납니다. 회귀를 선택하고 확인을 클릭합니다.

Excel의 다중 선형 회귀 예

입력 Y 범위 의 경우 응답 변수에 대한 값 배열을 채웁니다. 입력 X 범위(Input X Range) 에 두 설명 변수에 대한 값 배열을 채웁니다. 입력 범위에 변수 이름이 포함되었음을 Excel에 알리려면 레이블 옆의 확인란을 선택합니다. 출력 범위 에서 회귀 결과를 표시할 셀을 선택합니다. 그런 다음 확인을 클릭합니다.

Excel의 다중 선형 회귀

다음 출력이 자동으로 나타납니다.

Excel의 다중 선형 회귀 출력

3단계: 결과를 해석합니다.

결과에서 가장 관련성이 높은 숫자를 해석하는 방법은 다음과 같습니다.

R 제곱: 0.734 . 이것을 결정계수라고 합니다. 설명변수로 설명할 수 있는 반응변수의 분산의 비율입니다. 이 예에서 시험 점수 변동의 73.4%는 공부한 시간과 응시한 준비 시험 횟수로 설명됩니다.

표준 오류: 5.366 . 이는 관찰된 값과 회귀선 사이의 평균 거리입니다. 이 예에서 관측값은 회귀선에서 평균 5,366단위만큼 벗어납니다.

F: 오후 11시 46분 이는 회귀 모델에 대한 전체 F 통계이며 회귀 MS/잔차 MS로 계산됩니다.

F: 0.0000을 의미합니다 . 이는 전체 F 통계량과 관련된 p-값입니다. 이는 회귀 모델 전체가 통계적으로 유의미한지 여부를 알려줍니다. 즉, 결합된 두 설명변수가 반응변수와 통계적으로 유의미한 연관성을 갖는지 여부를 알려줍니다. 이 경우 p-값은 0.05 미만으로 설명 변수 , 공부 시간 , 준비 시험을 합친 것이 시험 결과 와 통계적으로 유의미한 연관성이 있음을 나타냅니다.

P-값. 개별 p-값은 각 설명 변수가 통계적으로 유의한지 여부를 알려줍니다. 공부한 시간은 통계적으로 유의미한 반면(p = 0.00), 응시한 준비 시험 (p = 0.52)은 α = 0.05에서 통계적으로 유의하지 않음을 알 수 있습니다. 과거의 준비 시험은 통계적으로 유의미하지 않기 때문에 결국 모델에서 이를 제거하기로 결정할 수도 있습니다.

계수: 각 설명 변수의 계수는 다른 설명 변수가 일정하다고 가정할 때 응답 변수의 예상 평균 변화를 알려줍니다. 예를 들어, 연습 시험이 일정하게 유지된다는 가정 하에 공부하는 데 추가 시간을 소비할 때마다 평균 시험 점수는 5.56 씩 증가할 것으로 예상됩니다.

이를 다르게 보는 방법은 다음과 같습니다. 학생 A와 학생 B가 모두 같은 수의 준비 시험을 치르지만 학생 A가 한 시간 더 공부한다면 학생 A는 학생 B보다 5.56 점 더 높은 점수를 받아야 합니다.

우리는 인터셉트 계수를 해석하여 시간도 공부하지 않고 준비 시험도 치르지 않은 학생의 예상 시험 점수가 67.67 임을 의미합니다.

추정 회귀 방정식: 모델 출력의 계수를 사용하여 다음과 같은 추정 회귀 방정식을 만들 수 있습니다.

시험 점수 = 67.67 + 5.56*(시간) – 0.60*(준비 시험)

이 추정 회귀 방정식을 사용하여 학습 시간과 응시하는 연습 시험 횟수를 기반으로 학생의 예상 시험 점수를 계산할 수 있습니다. 예를 들어, 3시간 동안 공부하고 시험을 치르는 학생은 83.75 점을 받아야 합니다.

시험 점수 = 67.67 + 5.56*(3) – 0.60*(1) = 83.75

과거 준비 시험은 통계적으로 유의미하지 않았기 때문에(p=0.52) 전체 모델에 어떠한 개선도 제공하지 않으므로 제거하기로 결정할 수도 있습니다. 이 경우 연구된 시간 만을 설명 변수로 사용하여 간단한 선형 회귀를 수행할 수 있습니다.

이 단순 선형 회귀 분석의 결과는 여기에서 확인할 수 있습니다.

추가 리소스

다중 선형 회귀를 수행한 후에는 다음을 포함한 여러 가정을 확인할 수 있습니다.

1. VIF를 사용한 다중공선성 테스트 .

2. Breusch-Pagan 테스트를 사용하여 이분산성을 테스트합니다 .

3. QQ 플롯을 사용하여 정규성을 테스트합니다 .

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다