다항식 회귀 소개

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

예측 변수와 응답 변수가 포함된 데이터 세트가 있는 경우 종종 단순 선형 회귀를 사용하여 두 변수 간의 관계를 정량화합니다.

그러나 단순 선형 회귀(SLR)에서는 예측 변수와 반응 변수 간의 관계가 선형이라고 가정합니다. 수학적 표기법으로 작성된 SLR은 관계가 다음과 같은 형식을 취한다고 가정합니다.

Y = β ₀ + β ₁ X + ε

그러나 실제로 두 변수 사이의 관계는 실제로 비선형일 수 있으며 선형 회귀를 사용하려고 하면 모델이 제대로 적합하지 않을 수 있습니다.

예측 변수와 응답 변수 사이의 비선형 관계를 설명하는 한 가지 방법은 다음 형식을 취하는 다항식 회귀를 사용하는 것입니다.

Y = β ₀ ⁺ β ₁ X + β ₂ X ² + … + β _h

이 방정식에서 h를 다항식의 차수 라고 합니다.

h 값을 높이면 모델이 비선형 관계를 더 잘 수용할 수 있지만 실제로는 h를 3 또는 4보다 큰 값으로 선택하는 경우가 거의 없습니다. 이 지점을 지나면 모델이 너무 유연해지고 데이터에 과적합 됩니다.

기술 노트

다항식 회귀는 비선형 데이터에 적합할 수 있지만 계수 _β1 , _β2 , …, _βh 에서 선형이기 때문에 여전히 선형 회귀의 한 형태로 간주됩니다.

다항식 회귀는 여러 예측 변수에 사용할 수도 있지만 이는 모델에 상호 작용 항을 생성하므로 여러 예측 변수가 사용되는 경우 모델이 매우 복잡해질 수 있습니다.

다항식 회귀를 사용해야 하는 경우

예측 변수와 반응 변수 간의 관계가 비선형일 때 다항식 회귀를 사용합니다.

비선형 관계를 감지하는 세 가지 일반적인 방법이 있습니다.

1. 산점도를 만듭니다.

비선형 관계를 탐지하는 가장 간단한 방법은 반응 변수와 예측 변수의 산점도를 만드는 것입니다.

예를 들어, 다음 산점도를 생성하면 두 변수 간의 관계가 대략 선형이라는 것을 알 수 있으므로 간단한 선형 회귀가 이 데이터에 대해 잘 작동할 것입니다.

그러나 산점도가 다음 그래프 중 하나와 유사하다면 관계가 비선형임을 알 수 있으므로 다항식 회귀 분석이 좋은 생각일 것입니다.

2. 적합 도표에 대한 잔차 도표를 만듭니다.

비선형성을 탐지하는 또 다른 방법은 단순 선형 회귀 모델을 데이터에 맞춘 다음 적합치에 대한 잔차 플롯을 생성하는 것입니다.

플롯 잔차가 명확한 추세 없이 거의 0 주위에 고르게 분포되어 있는 경우 간단한 선형 회귀로 충분할 수 있습니다.

그러나 잔차가 그래프에서 비선형 추세를 나타내는 경우 이는 예측 변수와 반응 간의 관계가 비선형일 가능성이 있음을 나타냅니다.

3. 모델의 ^R2를 계산합니다.

회귀 모델의 R ² 값은 예측 변수로 설명할 수 있는 반응 변수의 변동 비율을 알려줍니다.

단순 선형 회귀 모델을 데이터 세트에 맞추고 모델의 R ² 값이 매우 낮은 경우 이는 예측 변수와 응답 변수 간의 관계가 단순 선형 관계보다 더 복잡하다는 것을 나타낼 수 있습니다.

이는 대신 다항식 회귀를 시도해야 할 수도 있다는 신호일 수 있습니다.

관련 항목: 좋은 R 제곱 값이란 무엇입니까?

다항식의 차수를 선택하는 방법

다항식 회귀 모델은 다음 형식을 취합니다.

Y = β ₀ ⁺ β ₁ X + β ₂ X ² + … + β _h

이 방정식에서 h 는 다항식의 차수입니다.

하지만 h 값을 선택하는 방법은 무엇입니까?

실제로 우리는 서로 다른 h 값을 사용하여 여러 모델을 피팅하고 k-겹 교차 검증을 수행하여 어떤 모델이 가장 낮은 테스트 평균 제곱 오차(MSE)를 생성하는지 확인합니다.

예를 들어, 주어진 데이터세트에 다음 모델을 적용할 수 있습니다.

Y = _β0 + _β1
Y = β ₀ + β ₁ X + β ₂ X ²
^Y ⁼ _β0 + _β1X + _β2X2 + _β3X3
Y = β ₀ + β ₁ X + β ₂ X ² + β ₃ X ³ + β ₄ X ⁴

그런 다음 k-겹 교차 검증을 사용하여 각 모델에 대한 MSE 테스트를 계산할 수 있으며, 이는 각 모델이 이전에 본 적이 없는 데이터에 대해 얼마나 잘 수행되는지 알려줍니다.

다항식 회귀의 편향-분산 트레이드오프

다항식 회귀를 사용할 때 편향-분산 상충관계가 있습니다. 다항식의 차수를 높이면 편향은 감소하지만(모델이 더 유연해짐에 따라) 분산은 증가합니다.

모든 기계 학습 모델과 마찬가지로 편향과 분산 사이의 최적의 절충점을 찾아야 합니다.

대부분의 경우 이를 통해 다항식의 차수를 어느 정도 늘릴 수 있지만 특정 값을 초과하면 모델이 데이터의 노이즈에 적응하기 시작하고 테스트의 MSE가 감소하기 시작합니다.

유연하지만 너무 유연하지 않은 모델을 적합하게 만들기 위해 k-겹 교차 검증을 사용하여 가장 낮은 MSE 테스트를 생성하는 모델을 찾습니다.

다항식 회귀를 수행하는 방법

다음 튜토리얼에서는 다양한 소프트웨어에서 다항식 회귀를 수행하는 방법에 대한 예를 제공합니다.

Excel에서 다항식 회귀를 수행하는 방법
R에서 다항식 회귀를 수행하는 방법
Python에서 다항식 회귀를 수행하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기