부분 최소 제곱법 소개


기계 학습에서 직면하게 되는 가장 일반적인 문제 중 하나는 다중 공선성 입니다. 이는 데이터 세트에서 두 개 이상의 예측 변수가 높은 상관 관계를 가질 때 발생합니다.

이런 일이 발생하면 모델은 훈련 데이터 세트에 잘 맞을 수 있지만, 훈련 데이터 세트에 과적합되기 때문에 본 적이 없는 새로운 데이터 세트에서는 성능이 저하 될 수 있습니다. 트레이닝 세트.

다중 공선성 문제를 해결하는 한 가지 방법은 주성분 회귀를 사용하는 것입니다. 이는 원래 p 예측 변수의 M개의 선형 조합(“주성분”이라고 함)을 계산한 다음 최소 제곱법을 사용하여 주요 성분 회귀 모델을 피팅합니다. 예측변수로서의 구성요소.

주성분 회귀(PCR)의 단점은 주성분을 계산할 때 반응 변수를 고려하지 않는다는 것입니다.

대신, 주성분에 의해 포착된 예측 변수 간의 분산 크기만 고려합니다. 이러한 이유로 어떤 경우에는 편차가 가장 큰 주성분이 반응 변수를 잘 예측하지 못할 수도 있습니다.

PCR과 관련된 기술은 부분 최소 제곱법(Partial Least Squares) 으로 알려져 있습니다. PCR과 마찬가지로 부분 최소 제곱법은 원래 p 예측 변수의 M개 선형 조합(“PLS 구성요소”라고 함)을 계산하고 최소 제곱법을 사용하여 PLS 구성요소를 예측변수로 사용하여 선형 회귀 모델을 적합시킵니다.

그러나 PCR과 달리 부분 최소 제곱법은 반응 변수와 예측 변수 모두 의 변동을 설명하는 선형 조합을 찾으려고 시도합니다.

부분 최소 제곱을 수행하는 단계

실제로 부분 최소 제곱을 수행하려면 다음 단계를 사용합니다.

1. 모든 예측 변수와 반응 변수의 평균이 0이고 표준 편차가 1이 되도록 데이터를 표준화합니다. 이렇게 하면 각 변수가 동일한 척도로 측정됩니다.

2. Z 1 , … , Z M 을 원래 p 예측 변수의 M 개 선형 조합으로 계산합니다.

  • Zm = ΣΦ jm _ _
  • Z 1 을 계산하려면 Φ j1을 X j 에 대한 Y의 단순 선형 회귀 계수와 동일하게 설정하세요. 이는 가능한 많은 분산을 포착하는 예측 변수의 선형 조합입니다.
  • Z 2 를 계산하려면 Z 1 에 대한 각 변수를 회귀 분석하고 잔차를 구합니다. 그런 다음 Z 1 을 계산한 것과 정확히 같은 방식으로 직교화된 데이터를 사용하여 Z 2 를 계산합니다.
  • 이 과정을 M 번 반복하여 M개의 PLS 구성요소를 얻습니다.

3. 최소 제곱법을 사용하여 PLS 구성 요소 Z 1 , … , Z M 을 예측 변수로 사용하여 선형 회귀 모델을 피팅합니다.

4. 마지막으로 k-겹 교차 검증을 사용하여 모델에 유지할 최적의 PLS 구성 요소 수를 찾습니다. 유지할 PLS 구성요소의 “최적” 수는 일반적으로 가장 낮은 테스트 평균 제곱 오차(MSE)를 생성하는 수입니다.

결론

데이터 세트에 다중 공선성이 있는 경우 부분 최소 제곱 회귀가 일반 최소 제곱 회귀보다 성능이 더 좋은 경향이 있습니다. 그러나 보이지 않는 데이터에 가장 잘 일반화되는 모델을 식별할 수 있도록 여러 가지 모델을 적용하는 것이 좋습니다.

실제로 우리는 다양한 유형의 모델(PLS, PCR , Ridge , Lasso , Multiple Linear Regression 등)을 데이터 세트에 맞추고 k-fold 교차 검증을 사용하여 MSE 테스트를 가장 잘 생성하는 모델을 식별합니다. 새로운 데이터에 대해서는 더 낮아집니다. .

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다