기계 학습에서 최고의 하위 집합 선택(설명 및 예)
기계 학습에서는 일련의 예측 변수와 응답 변수를 사용하여 모델을 구축하려는 경우가 많습니다. 우리의 목표는 예측 변수를 효과적으로 사용하여 응답 변수의 값을 예측할 수 있는 모델을 구축하는 것입니다.
p개의 총 예측 변수 세트가 주어지면 잠재적으로 구축할 수 있는 모델이 많이 있습니다. 최상의 모델을 선택하는 데 사용할 수 있는 한 가지 방법은 최상의 하위 집합 선택 으로 알려져 있으며 다음과 같이 작동합니다.
1. M 0을 예측 변수가 없는 널 모델로 설정합니다.
2. k = 1, 2, … p인 경우:
- 정확히 k개의 예측 변수를 포함하는 모든 p C k 모델을 피팅합니다.
- 이 pCk 모델 중에서 가장 좋은 모델을 선택하고 이름을 Mk 라고 합니다. R 2 가 가장 높거나 RSS가 가장 낮은 모델을 “최고”로 정의합니다.
3. 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R 2 를 사용하여 M 0 ~ M p 중에서 단일 최상의 모델을 선택합니다.
p개의 예측 변수 세트에 대해 2p 개의 가능한 모델이 있다는 점에 유의하십시오.
최상의 하위 집합을 선택하는 예
p = 3개의 예측 변수와 응답 변수 y가 있는 데이터 세트가 있다고 가정합니다. 이 데이터 세트를 사용하여 최상의 하위 집합 선택을 수행하려면 다음 2 p = 2 3 = 8 모델을 적합합니다.
- 예측 변수가 없는 모델
- 예측 변수가 1개 있는 모델
- 예측 변수가 2개 있는 모델
- 예측 변수가 3개 있는 모델
- x 1 , x 2 예측 변수가 있는 모델
- 예측변수가 x 1 , x 3 있는 모델
- x 2 , x 3 예측 변수가 있는 모델
- 예측변수가 x 1 , x 2 , x 3 있는 모델
그런 다음 k개의 예측 변수가 있는 각 모델 세트에서 R2가 가장 높은 모델을 선택합니다. 예를 들어, 우리는 다음을 선택하게 될 수 있습니다:
- 예측 변수가 없는 모델
- 예측 변수가 2개 있는 모델
- x 1 , x 2 예측 변수가 있는 모델
- 예측변수가 x 1 , x 2 , x 3 있는 모델
그런 다음 교차 검증을 통해 예측 오류(Cp, BIC, AIC 또는 조정된 R2) 가 가장 낮은 모델로 최상의 모델을 선택합니다.
예를 들어, 교차 검증된 예측 오류가 가장 낮기 때문에 다음 모델을 “최상의” 모델로 선택하게 될 수 있습니다.
- x 1 , x 2 예측 변수가 있는 모델
최고의 모델을 선택하는 기준
최상의 하위 집합을 선택하는 마지막 단계는 예측 오류, Cp, BIC, AIC 또는 조정된 R2 가 가장 낮은 모델을 선택하는 것입니다. 더 높은.
각 측정항목을 계산하는 데 사용되는 공식은 다음과 같습니다.
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 조정: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
금:
- d: 예측 변수의 수
- n: 총 관측치
- σ̂: 회귀 모델의 각 반응 측정값과 관련된 오차 분산 추정
- RSS: 회귀 모델의 잔차 제곱합
- TSS: 회귀 모델의 총 제곱합
최상의 하위 집합 선택의 장점과 단점
최상의 하위 집합을 선택하면 다음과 같은 이점이 있습니다.
- 이해하고 해석하는 간단한 접근 방식입니다.
- 이를 통해 예측 변수의 모든 조합을 고려하므로 가능한 최상의 모델을 식별할 수 있습니다.
그러나 이 방법에는 다음과 같은 단점이 있습니다.
- 이는 계산적으로 집약적일 수 있습니다. p개의 예측 변수 세트에 대해 2p 개의 가능한 모델이 있습니다. 예를 들어 예측 변수가 10개인 경우 고려해야 할 가능한 모델은 2 10 = 1000개입니다.
- 매우 많은 수의 모델을 고려하기 때문에 잠재적으로 훈련 데이터에서는 잘 수행되지만 미래 데이터에서는 그렇지 않은 모델을 찾을 수 있습니다. 이로 인해 과적합이 발생할 수 있습니다 .
결론
최상의 하위 집합을 선택하는 것은 구현하고 이해하기 쉽지만, 다수의 예측 변수가 포함된 데이터 세트로 작업하는 경우 비실용적일 수 있으며 잠재적으로 과적합으로 이어질 수 있습니다.
이 방법의 대안은 단계적 선택 으로 알려져 있으며, 이는 계산상 더 효율적입니다.