주성분 회귀 소개


모형을 만들 때 직면하게 되는 가장 일반적인 문제 중 하나는 다중 공선성 입니다. 이는 데이터 세트에서 두 개 이상의 예측 변수가 높은 상관 관계를 가질 때 발생합니다.

이런 일이 발생하면 특정 모델은 훈련 데이터 세트에 잘 맞을 수 있지만 훈련 세트에 과적합되기 때문에 본 적이 없는 새로운 데이터 세트에서는 성능이 저하 될 가능성이 높습니다.

과적합을 방지하는 한 가지 방법은 다음과 같은 유형의 하위 집합 선택 방법을 사용하는 것입니다.

이러한 방법은 반응 변수의 변동을 예측할 수 있는 가장 중요한 예측 변수만 최종 모델에 남도록 모델에서 관련 없는 예측 변수를 제거하려고 시도합니다.

과적합을 방지하는 또 다른 방법은 다음과 같은 정규화 방법을 사용하는 것입니다.

이러한 방법은 분산을 줄이기 위해 모델의 계수를 제한하거나 정규화하여 새로운 데이터에 대해 잘 일반화할 수 있는 모델을 생성하려고 시도합니다.

다중 공선성을 처리하는 완전히 다른 접근 방식을 차원 축소 라고 합니다.

차원 축소의 일반적인 방법은 주성분 회귀 라고 하며 다음과 같이 작동합니다.

1. 주어진 데이터 세트에 p개의 예측 변수가 포함되어 있다고 가정합니다 .

2. Z 1 , … , Z M 을 원래 p 예측 변수의 M 개 선형 조합으로 계산합니다.

  • Zm = ΣΦ jm _ _
  • Z 1 은 가능한 한 많은 분산을 포착하는 예측 변수의 선형 조합입니다.
  • Z 2 는 Z 1직교 (상관 관계 없음)하면서 가장 큰 분산을 포착하는 예측 변수의 다음 선형 조합입니다.
  • 그러면 Z 3 은 Z 2 와 직교하면서 가장 큰 분산을 포착하는 예측 변수의 다음 선형 조합입니다.
  • 등등.

3. 최소 제곱법을 사용하여 첫 번째 M 개의 주성분 Z 1 , …, Z M 을 예측 변수로 사용하여 선형 회귀 모델을 피팅합니다.

차원 축소라는 용어는 이 방법이 p+1 계수 대신 M+1 계수(여기서 M < p)만 추정해야 한다는 사실에서 유래합니다.

즉, 문제의 차원이 p+1에서 M+1로 축소되었습니다.

데이터 세트에 다중 공선성이 존재하는 많은 경우 주성분 회귀는 기존 다중 선형 회귀 보다 더 나은 새로운 데이터로 일반화할 수 있는 모델을 생성할 수 있습니다.

주성분 회귀를 수행하는 단계

실제로 주성분 회귀를 수행하는 데는 다음 단계가 사용됩니다.

1. 예측 변수를 표준화합니다.

첫째, 일반적으로 각 예측 변수의 평균값이 0이고 표준 편차가 1이 되도록 데이터를 표준화합니다. 이렇게 하면 특히 예측 변수가 다른 단위(c, 즉 1 인 경우)로 측정되는 경우 하나의 예측 변수가 너무 많은 영향을 받는 것을 방지할 수 있습니다. 인치로 측정됩니다.) X 2 는 야드 단위로 측정됩니다.

2. 주성분을 계산하고 주성분을 예측변수로 사용하여 선형 회귀를 수행합니다.

다음으로, 주성분을 계산하고 최소 제곱법을 사용하여 첫 번째 M 개의 주성분 Z 1 , …, Z M 을 예측변수로 사용하여 선형 회귀 모델을 피팅합니다.

3. 유지할 주요 구성 요소 수를 결정합니다.

다음으로, k-겹 교차 검증을 사용하여 모델에 유지할 최적의 주성분 수를 찾습니다. 유지할 주성분의 “최적” 수는 일반적으로 테스트의 평균 제곱 오차(MSE)가 가장 낮은 수입니다.

주성분 회귀 분석의 장점과 단점

주성분 회귀(PCR)는 다음과 같은 이점을 제공합니다.

  • PCR은 첫 번째 주성분이 반응 변수와의 관계뿐만 아니라 예측 변수의 변동 대부분을 포착할 수 있을 때 잘 수행되는 경향이 있습니다.
  • PCR은 서로 직교하는(즉, 상관되지 않는) 주성분을 생성하기 때문에 예측 변수의 상관 관계가 높은 경우에도 잘 수행될 수 있습니다.
  • PCR에서는 각 주성분이 모든 예측 변수의 선형 조합을 사용하므로 모델에서 제거할 예측 변수를 선택할 필요가 없습니다.
  • PCR은 다중선형회귀와 달리 관측치보다 예측변수가 더 많은 경우에 사용할 수 있습니다.

그러나 PCR에는 다음 과 같은 단점이 있습니다.

  • PCR은 유지하거나 제거할 주요 구성 요소를 결정할 때 반응 변수를 고려하지 않습니다. 대신, 주성분에 의해 포착된 예측 변수 간의 분산 크기만 고려합니다. 어떤 경우에는 차이가 가장 큰 주성분이 반응 변수를 잘 예측하지 못할 수도 있습니다.

실제로 우리는 다양한 유형의 모델(PCR, Ridge, Lasso, 다중 선형 회귀 등)을 적합하고 k-겹 교차 검증을 사용하여 새 데이터에 대해 가장 낮은 MSE 테스트를 생성하는 모델을 식별합니다.

원본 데이터 세트에 다중 공선성이 존재하는 경우(종종 그러한 경우) PCR은 일반 최소 제곱 회귀 분석보다 더 나은 성능을 발휘하는 경향이 있습니다. 그러나 보이지 않는 데이터에 가장 잘 일반화되는 모델을 식별할 수 있도록 여러 가지 모델을 적용하는 것이 좋습니다.

R & Python의 주성분 회귀

다음 튜토리얼에서는 R 및 Python에서 주성분 회귀를 수행하는 방법을 보여줍니다.

R의 주성분 회귀(단계별)
Python의 주성분 회귀(단계별)

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다