다항식 회귀는 언제 사용해야 합니까?


다항식 회귀는 예측 변수와 응답 변수 간의 관계가 비선형일 때 회귀 모델을 맞추는 데 사용할 수 있는 기술입니다.

다항식 회귀 모델은 다음 형식을 취합니다.

Y = β 0 + β 1 X + β 2 X 2 + … + β h

실제로 선형 회귀 와 같은 간단한 모델과 다항식 회귀를 사용해야 하는지 여부를 결정하는 세 가지 간단한 방법이 있습니다.

1. 예측 변수와 반응 변수의 산점도를 만듭니다.

다항식 회귀 분석을 사용해야 하는지 결정하는 가장 쉬운 방법은 예측 변수와 반응 변수의 간단한 산점도를 만드는 것입니다.

예를 들어, 예측 변수 “학습 시간”을 사용하여 학생이 최종 시험에서 받을 성적을 예측한다고 가정해 보겠습니다.

회귀 모델을 맞추기 전에 먼저 시험 결과에 대해 연구한 시간의 산점도를 만들 수 있습니다. 산점도가 다음과 같다고 가정합니다.

공부한 시간과 시험 결과 사이의 관계는 선형으로 나타나므로 이 데이터 세트에 간단한 선형 회귀 모델을 맞추는 것이 합리적입니다.

그러나 산점도가 실제로 다음과 같다고 가정해 보겠습니다.

이 관계는 좀 더 비선형적인 것처럼 보이며, 이는 대신 다항식 회귀 모델을 적용하는 것이 현명할 수 있음을 알려줍니다.

2. 적합치와 잔차치의 그래프 생성

다항식 회귀를 사용해야 하는지 결정하는 또 다른 방법은 선형 회귀 모델을 데이터 세트에 맞춘 다음 모델의 잔차에 대해 피팅된 값의 플롯을 만드는 것입니다.

잔차에 명확한 비선형 추세가 있는 경우 이는 다항식 회귀가 데이터에 더 나은 적합성을 제공할 수 있음을 나타냅니다.

예를 들어, 연구 시간을 예측 변수로 사용하고 시험 점수를 응답 변수로 사용하여 선형 회귀 모델을 적합시킨 다음 잔차에 대해 다음과 같은 적합치 플롯을 생성한다고 가정합니다.

잔차는 명확한 패턴 없이 0 주위에 무작위로 흩어져 있는데, 이는 선형 모델이 데이터에 적절한 피팅을 제공한다는 것을 나타냅니다.

그러나 적합치와 잔차의 도표가 실제로 다음과 같다고 가정해 보겠습니다.

그래프에서 잔차에 명확한 비선형 패턴이 있음을 알 수 있습니다. 잔차는 “U” 모양을 나타냅니다.

이는 선형 모델이 이 특정 데이터에 적합하지 않으며 대신 다항식 회귀 모델을 피팅하는 것이 현명할 수 있음을 알려줍니다.

3. 모델의 수정된 R 제곱 값을 계산합니다.

다항식 회귀를 사용해야 하는지 여부를 결정하는 또 다른 방법은 선형 회귀 모델과 다항식 회귀 모델을 모두 적합시키고 두 모델에 대해 적합 R 제곱 값을 계산하는 것입니다.

수정된 R-제곱은 모델의 예측 변수에 의해 설명될 수 있는 반응 변수의 분산 비율을 나타내며, 모델의 예측 변수 수에 따라 조정됩니다 .

수정된 R 제곱이 가장 높은 모델은 예측 변수를 사용하여 반응 변수의 변동을 가장 잘 설명할 수 있는 모델을 나타냅니다.

추가 리소스

다음 튜토리얼에서는 다양한 통계 소프트웨어를 사용하여 다항식 회귀를 수행하는 방법을 설명합니다.

다항식 회귀 소개
R에서 다항식 회귀를 수행하는 방법
Python에서 다항식 회귀를 수행하는 방법
Excel에서 다항식 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다