다중 선형 회귀 소개


단일 예측변수와 반응변수 사이의 관계를 이해하고자 할 때 우리는 종종 단순선형회귀분석을 사용합니다.

그러나 여러 예측 변수와 응답 변수 간의 관계를 이해하려면 다중 선형 회귀를 사용할 수 있습니다.

p개의 예측 변수가 있는 경우 다중 선형 회귀 모델은 다음과 같은 형식을 취합니다.

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

금:

  • Y : 반응변수
  • X j : j 번째 예측변수
  • β j : 다른 모든 예측 변수를 고정한 상태에서 X j 의 1단위 증가가 Y에 미치는 평균 효과
  • ε : 오차항

β 0 , β 1 , B 2 , …, β p 값은 RSS(잔차 제곱합)를 최소화하는 최소 제곱법을 사용하여 선택됩니다.

RSS = Σ(y i – ŷ i ) 2

금:

  • Σ : 합계를 의미하는 그리스 기호
  • y i : i번째 관측값에 대한 실제 응답 값
  • ŷ i : 다중선형회귀모델을 기반으로 예측된 반응값

이러한 계수 추정값을 찾는 데 사용되는 방법은 행렬 대수학에 연결되어 있으며 여기서는 자세히 다루지 않습니다. 다행히도 모든 통계 소프트웨어가 이러한 계수를 계산할 수 있습니다.

다중 선형 회귀 출력을 해석하는 방법

예측 변수 , 학습 시간 , 준비 시험 응시 시간, 답변 변수 시험 점수를 사용하여 다중 선형 회귀 모델을 적합하다고 가정합니다.

다음 스크린샷은 이 모델에 대한 다중 선형 회귀 결과가 어떻게 나타나는지 보여줍니다.

참고: 아래 스크린샷은 Excel의 다중 선형 회귀 출력을 보여 주지만 출력에 표시된 숫자는 통계 소프트웨어를 사용하여 볼 수 있는 일반적인 회귀 출력입니다.

다중 선형 회귀 결과 해석

모델 결과에서 계수를 사용하면 추정된 다중 선형 회귀 모델을 형성할 수 있습니다.

시험 점수 = 67.67 + 5.56*(시간) – 0.60*(준비 시험)

계수를 해석하는 방법은 다음과 같습니다.

  • 연습 시험이 일정하게 유지된다는 가정 하에 학습 시간이 1단위 증가할 때마다 시험 점수가 평균 5.56 점 증가합니다.
  • 공부한 시간이 일정하다고 가정할 때, 치르는 준비 시험이 1단위 증가할 때마다 시험 점수가 평균 0.60 점 감소 합니다.

또한 이 모델을 사용하여 총 공부 시간과 치른 준비 시험을 기반으로 학생이 받게 될 예상 시험 성적을 결정할 수 있습니다. 예를 들어, 4시간 동안 공부하고 1개의 준비 시험을 치르는 학생은 시험 점수 89.31 을 획득해야 합니다.

시험 점수 = 67.67 + 5.56*(4) -0.60*(1) = 89.31

나머지 모델 결과를 해석하는 방법은 다음과 같습니다.

  • R-Square: 이를 결정계수라고 합니다. 설명변수로 설명할 수 있는 반응변수의 분산의 비율입니다. 이 예에서 시험 점수 변동의 73.4%는 공부한 시간과 응시한 준비 시험 횟수로 설명됩니다.
  • 표준오차: 관측값과 회귀선 사이의 평균 거리입니다. 이 예에서 관측값은 회귀선에서 평균 5,366단위만큼 벗어납니다.
  • F: 회귀 모델에 대한 전체 F 통계이며 회귀 MS/잔차 MS로 계산됩니다.
  • F 의미: 전체 F 통계와 관련된 p-값입니다. 이는 회귀 모델 전체가 통계적으로 유의미한지 여부를 알려줍니다. 즉, 결합된 두 설명변수가 반응변수와 통계적으로 유의미한 연관성을 갖는지 여부를 알려줍니다. 이 경우 p-값은 0.05 미만으로 설명 변수, 공부 시간, 준비 시험을 합친 것이 시험 결과와 통계적으로 유의미한 연관성이 있음을 나타냅니다.
  • 계수의 P 값. 개별 p-값은 각 설명 변수가 통계적으로 유의한지 여부를 알려줍니다. 공부한 시간은 통계적으로 유의미한 반면(p = 0.00), 응시한 준비 시험(p = 0.52)은 α = 0.05에서 통계적으로 유의하지 않음을 알 수 있습니다. 과거의 준비 시험은 통계적으로 유의미하지 않기 때문에 결국 모델에서 이를 제거하기로 결정할 수도 있습니다.

다중 선형 회귀 모델의 적합성을 평가하는 방법

다중 선형 회귀 모델이 데이터 세트에 얼마나 잘 “적합”되는지 평가하는 데 일반적으로 두 가지 숫자가 사용됩니다.

1. R-제곱: 예측 변수로 설명할 수 있는 반응 변수 의 분산 비율입니다.

R-제곱 값의 범위는 0에서 1까지입니다. 값 0은 반응 변수가 예측 변수로 전혀 설명될 수 없음을 나타냅니다. 값 1은 반응 변수가 예측 변수에 의해 오류 없이 완벽하게 설명될 수 있음을 나타냅니다.

모델의 R 제곱이 높을수록 모델이 데이터를 더 잘 적합할 수 있습니다.

2. 표준오차: 관측값과 회귀선 사이의 평균 거리입니다. 표준 오차가 작을수록 모델이 데이터를 더 잘 적합할 수 있습니다.

회귀 모델을 사용하여 예측을 하려는 경우 회귀의 표준 오차는 R-제곱보다 알면 더 유용한 측정항목이 될 수 있습니다. 단위 측면에서 예측이 얼마나 정확한지에 대한 아이디어를 제공하기 때문입니다.

모델 적합성을 평가하기 위해 R-제곱 대 표준 오차를 사용할 때의 장단점에 대한 자세한 설명은 다음 문서를 참조하세요.

다중 선형 회귀 가정

다중 선형 회귀는 데이터에 대해 네 가지 주요 가정을 합니다.

1. 선형 관계: 독립 변수 x와 종속 변수 y 사이에는 선형 관계가 있습니다.

2. 독립성: 잔차는 독립입니다. 특히 시계열 데이터의 연속 잔차 간에는 상관관계가 없습니다.

3. 동분산성: 잔차는 x의 각 수준에서 일정한 분산을 갖습니다.

4. 정규성: 모델 잔차가 정규 분포를 따릅니다.

이러한 가설을 테스트하는 방법에 대한 자세한 설명은 이 문서를 참조하세요.

소프트웨어를 사용한 다중 선형 회귀

다음 자습서에서는 다양한 통계 소프트웨어를 사용하여 다중 선형 회귀를 수행하는 방법에 대한 단계별 예를 제공합니다.

R에서 다중 선형 회귀를 수행하는 방법
Python에서 다중 선형 회귀를 수행하는 방법
Excel에서 다중 선형 회귀를 수행하는 방법
SPSS에서 다중 선형 회귀를 수행하는 방법
Stata에서 다중 선형 회귀를 수행하는 방법
Google 스프레드시트에서 선형 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다