단계적 선택이란 무엇입니까? (설명 및 예시)
기계 학습 분야에서 우리의 목표는 일련의 예측 변수를 효과적으로 사용하여 응답 변수 의 값을 예측할 수 있는 모델을 만드는 것입니다.
p개의 총 예측 변수 세트가 주어지면 잠재적으로 구축할 수 있는 모델이 많이 있습니다. 최상의 모델을 선택하는 데 사용할 수 있는 한 가지 방법은 예측 변수 세트를 사용하여 구축할 수 있는 모든 가능한 모델 중에서 최상의 모델을 선택하는 최상의 하위 집합 선택입니다 .
불행히도 이 방법에는 두 가지 단점이 있습니다.
- 이는 계산적으로 집약적일 수 있습니다. p개의 예측 변수 세트에 대해 2p 개의 가능한 모델이 있습니다. 예를 들어 예측 변수가 10개인 경우 고려해야 할 가능한 모델은 2 10 = 1000개입니다.
- 매우 많은 수의 모델을 고려하기 때문에 잠재적으로 훈련 데이터에서는 잘 수행되지만 미래 데이터에서는 그렇지 않은 모델을 찾을 수 있습니다. 이로 인해 과적합이 발생할 수 있습니다.
최상의 하위 집합을 선택하는 대신 훨씬 작은 모델 집합을 비교하는 단계적 선택이 있습니다.
단계 선택 방법에는 전진 단계 선택과 후진 단계 선택의 두 가지 유형이 있습니다.
단계별 앞으로 선택
단계별 앞으로 선택은 다음과 같이 작동합니다.
1. M 0을 예측 변수가 없는 널 모델로 설정합니다.
2. k = 0, 2, … p-1인 경우:
- 추가 예측 변수를 사용하여 Mk 의 예측 변수를 증가시키는 모든 pk 모델을 피팅합니다.
- 이 pk 모델 중에서 가장 좋은 것을 선택하고 이름을 M k+1 로 지정합니다. R 2 가 가장 높거나 RSS가 가장 낮은 모델을 “최고”로 정의합니다.
3. 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R 2 를 사용하여 M 0 ~ M p 중에서 단일 최상의 모델을 선택합니다.
단계별 역방향 선택
뒤로 단계 선택은 다음과 같이 작동합니다.
1. Mp를 모든 p개의 예측 변수를 포함하는 완전한 모델로 설정합니다.
2. k = p, p-1, … 1인 경우:
- 총 k-1개의 예측 변수에 대해 Mk 에 하나를 제외한 모든 예측 변수를 포함하는 모든 k 모델을 피팅합니다.
- 이 k개 모델 중 가장 좋은 모델을 선택하고 이를 M k-1 이라고 합니다. R 2 가 가장 높거나 RSS가 가장 낮은 모델을 “최고”로 정의합니다.
3. 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R 2 를 사용하여 M 0 ~ M p 중에서 단일 최상의 모델을 선택합니다.
최고의 모델을 선택하는 기준
단계적 순방향 및 역방향 선택의 마지막 단계는 예측 오류가 가장 낮고, Cp가 가장 낮고, BIC가 가장 낮고, AIC가 가장 낮거나, 조정된 R 2 가 가장 높은 모델을 선택하는 것입니다.
각 측정항목을 계산하는 데 사용되는 공식은 다음과 같습니다.
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 조정: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
금:
- d: 예측 변수의 수
- n: 총 관측치
- σ̂: 회귀 모델의 각 반응 측정값과 관련된 오차 분산 추정
- RSS: 회귀 모델의 잔차 제곱합
- TSS: 회귀 모델의 총 제곱합
단계적 선택의 장점과 단점
단계적 선택은 다음과 같은 이점을 제공합니다.
이 방법은 최상의 하위 집합을 선택하는 것보다 계산적으로 더 효율적입니다. p개의 예측 변수가 주어지면 최상의 하위 집합 선택은 2개의 p 모델과 일치해야 합니다.
반대로, 단계적 선택은 1+p(p+ 1)/2 모델에만 적합해야 합니다. p = 10 예측 변수의 경우 최상의 하위 집합 선택은 1,000개의 모델에 적합해야 하고, 단계적 선택은 56개의 모델에만 적합해야 합니다.
그러나 단계적 선택에는 다음과 같은 잠재적인 단점이 있습니다.
모든 잠재적인 2p 모델 중에서 가장 좋은 모델을 찾는다는 보장은 없습니다.
예를 들어 p = 3개의 예측 변수가 있는 데이터 세트가 있다고 가정합니다. 가능한 최상의 단일 예측 변수 모델은 x 1을 포함할 수 있고 최상의 2-예측 모델은 대신 x 1 과 x 2를 포함할 수 있습니다.
이 경우 전진 단계적 선택은 M 1 이 x 1 을 포함하므로 M 2 또한 다른 변수와 함께 x 1 을 포함해야 하므로 가능한 최상의 2-예측 변수 모델을 선택하지 못합니다.