능형 회귀 소개


일반적인 다중 선형 회귀 에서는 p개의 예측 변수 세트와 응답 변수를 사용하여 다음 형식의 모델에 적합합니다.

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

금:

  • Y : 반응변수
  • X j : j 번째 예측변수
  • β j : 다른 모든 예측 변수를 고정한 상태에서 X j 의 1단위 증가가 Y에 미치는 평균 효과
  • ε : 오차항

β 0 , β 1 , B 2 , …, β p 값은 RSS(잔차 제곱합)를 최소화하는 최소 제곱법을 사용하여 선택됩니다.

RSS = Σ(y i – ŷ i ) 2

금:

  • Σ : 합계를 의미하는 그리스 기호
  • y i : i번째 관측값에 대한 실제 응답 값
  • ŷ i : 다중선형회귀모델을 기반으로 예측된 반응값

그러나 예측변수의 상관관계가 높으면 다중공선성이 문제가 될 수 있습니다. 이로 인해 모델 계수 추정이 신뢰할 수 없게 되고 높은 분산이 나타날 수 있습니다.

모델에서 특정 예측 변수를 완전히 제거하지 않고 이 문제를 해결하는 한 가지 방법은 능선 회귀 라고 알려진 방법을 사용하는 것입니다. 대신 다음을 최소화하려고 합니다.

RSS + λΣβ j 2

여기서 j는 1에서 p 로 가고 λ ≥ 0입니다.

방정식의 두 번째 항은 인출 페널티 로 알려져 있습니다.

λ = 0인 경우 이 페널티 항은 효과가 없으며 능형 회귀 분석은 최소 제곱과 동일한 계수 추정값을 생성합니다. 그러나 λ가 무한대에 가까워지면 수축 패널티의 영향력이 더욱 커지며 피크 회귀 계수 추정치는 0에 가까워집니다.

일반적으로 모델에서 영향력이 가장 작은 예측 변수는 0으로 가장 빠르게 감소합니다.

능형 회귀를 사용하는 이유는 무엇입니까?

최소 제곱 회귀에 비해 Ridge 회귀의 장점은 편향-분산 트레이드오프 입니다.

MSE(평균 제곱 오차)는 특정 모델의 정확도를 측정하는 데 사용할 수 있는 측정항목이며 다음과 같이 계산됩니다.

MSE = Var( f̂( x 0 )) + [바이어스( f̂( x 0 ))] 2 + Var(ε)

MSE = 분산 + 편향 2 + 비가역 오류

Ridge 회귀의 기본 아이디어는 작은 편향을 도입하여 분산을 크게 줄여 전체 MSE를 낮추는 것입니다.

이를 설명하기 위해 다음 그래프를 고려하십시오.

능형 회귀 편향-분산 트레이드오프

λ가 증가하면 편향이 아주 조금만 증가해도 분산이 크게 감소합니다. 그러나 특정 지점을 넘어서면 분산이 덜 빠르게 감소하고 계수가 감소하면 계수가 크게 과소평가되어 편향이 급격히 증가합니다.

그래프에서 편향과 분산 사이의 최적의 균형을 생성하는 λ 값을 선택할 때 테스트의 MSE가 가장 낮다는 것을 알 수 있습니다.

λ = 0인 경우 능선 회귀 분석의 페널티 항은 아무런 영향을 미치지 않으므로 최소 제곱과 동일한 계수 추정값을 생성합니다. 그러나 λ를 특정 지점까지 증가시키면 테스트의 전체 MSE를 줄일 수 있습니다.

능형 회귀 테스트 MSE 감소

이는 능선 회귀에 의한 모델 피팅이 최소 제곱 회귀에 의한 모델 피팅보다 테스트 오류가 더 작다는 것을 의미합니다.

능형 회귀를 실제로 수행하는 단계

능선 회귀를 수행하려면 다음 단계를 사용할 수 있습니다.

1단계: 예측변수에 대한 상관행렬과 VIF 값을 계산합니다.

먼저, 상관행렬을 생성하고 각 예측변수에 대한 VIF(분산팽창계수) 값을 계산해야 합니다.

예측 변수와 높은 VIF 값(일부 텍스트에서는 “높은” VIF 값을 5로 정의하고 다른 텍스트에서는 10을 사용함) 사이에 강한 상관 관계가 있음을 발견하면 능선 회귀 분석이 아마도 적절할 것입니다.

그러나 데이터에 다중공선성이 없으면 처음부터 능형 회귀분석을 수행할 필요가 없을 수도 있습니다. 대신 일반 최소 제곱 회귀를 수행할 수 있습니다.

2단계: 각 예측 변수를 표준화합니다.

능선 회귀를 수행하기 전에 각 예측 변수의 평균이 0이고 표준 편차가 1이 되도록 데이터를 조정해야 합니다. 이렇게 하면 능선 회귀를 실행할 때 단일 예측 변수가 과도한 영향을 미치지 않도록 할 수 있습니다.

3단계: 능선 회귀 모델을 맞추고 λ 값을 선택합니다.

λ에 사용할 값을 결정하는 데 사용할 수 있는 정확한 공식은 없습니다. 실제로 λ를 선택하는 두 가지 일반적인 방법이 있습니다.

(1) 능선 추적 플롯을 만듭니다. λ가 무한대로 증가함에 따라 계수 추정값의 값을 시각화한 그래프입니다. 일반적으로 우리는 대부분의 계수 추정이 안정화되기 시작하는 값으로 λ를 선택합니다.

능선 추적

(2) λ의 각 값에 대한 MSE 검정을 계산합니다.

λ를 선택하는 또 다른 방법은 다양한 λ 값을 사용하여 각 모델의 테스트 MSE를 간단히 계산하고 가장 낮은 테스트 MSE를 생성하는 값으로 λ를 선택하는 것입니다.

능형 회귀 분석의 장점과 단점

Ridge 회귀 분석의 가장 큰 장점은 다중 공선성이 있을 때 최소 제곱보다 낮은 검정 평균 제곱 오차(MSE)를 생성할 수 있다는 것입니다.

그러나 Ridge 회귀분석의 가장 큰 단점 은 최종 모델에 모든 예측변수가 포함되어 있기 때문에 변수 선택을 수행할 수 없다는 점입니다. 일부 예측 변수는 0에 매우 가깝게 감소하므로 모델 결과를 해석하기 어려울 수 있습니다.

실제로 Ridge 회귀는 최소 제곱 모델에 비해 더 나은 예측을 할 수 있는 모델을 생성할 수 있는 잠재력을 가지고 있지만 모델 결과를 해석하는 것이 더 어려운 경우가 많습니다.

모델 해석이나 예측 정확도 중 어느 것이 더 중요한지에 따라 다양한 시나리오에서 일반 최소 제곱 또는 능선 회귀를 사용하도록 선택할 수 있습니다.

R 및 Python의 능형 회귀

다음 튜토리얼에서는 능선 회귀 모델을 피팅하기 위해 가장 일반적으로 사용되는 두 가지 언어인 R 및 Python에서 능선 회귀를 수행하는 방법을 설명합니다.

R의 능선 회귀(단계별)
Python의 능형 회귀(단계별)

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다