기계 학습에서 최고의 하위 집합 선택(설명 및 예)

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

기계 학습에서는 일련의 예측 변수와 응답 변수를 사용하여 모델을 구축하려는 경우가 많습니다. 우리의 목표는 예측 변수를 효과적으로 사용하여 응답 변수의 값을 예측할 수 있는 모델을 구축하는 것입니다.

p개의 총 예측 변수 세트가 주어지면 잠재적으로 구축할 수 있는 모델이 많이 있습니다. 최상의 모델을 선택하는 데 사용할 수 있는 한 가지 방법은 최상의 하위 집합 선택 으로 알려져 있으며 다음과 같이 작동합니다.

1. M _0을 예측 변수가 없는 널 모델로 설정합니다.

2. k = 1, 2, … p인 경우:

정확히 k개의 예측 변수를 포함하는 모든 _p C _k 모델을 피팅합니다.
이 _pCk 모델 중에서 _가장 좋은 모델을 선택하고 이름을 _Mk 라고 합니다. R ^{2 가} 가장 높거나 RSS가 가장 낮은 모델을 “최고”로 정의합니다.

3. 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R ^{2 를} 사용하여 M ₀ ~ M _p 중에서 단일 최상의 모델을 선택합니다.

p개의 예측 변수 세트에 대해 2p ^개의 가능한 모델이 있다는 점에 유의하십시오.

p = 3개의 예측 변수와 응답 변수 y가 있는 데이터 세트가 있다고 가정합니다. 이 데이터 세트를 사용하여 최상의 하위 집합 선택을 수행하려면 다음 2 ^p = 2 ³ = 8 모델을 적합합니다.

그런 다음 k개의 예측 변수가 있는 각 모델 세트에서 ^R2가 가장 높은 모델을 선택합니다. 예를 들어, 우리는 다음을 선택하게 될 수 있습니다:

그런 다음 교차 검증을 통해 예측 오류(Cp, BIC, AIC 또는 조정된 ^R2) 가 가장 낮은 모델로 최상의 모델을 선택합니다.

예를 들어, 교차 검증된 예측 오류가 가장 낮기 때문에 다음 모델을 “최상의” 모델로 선택하게 될 수 있습니다.

최상의 하위 집합을 선택하는 마지막 단계는 예측 오류, Cp, BIC, AIC 또는 조정된 ^R2 가 가장 낮은 모델을 선택하는 것입니다. 더 높은.

각 측정항목을 계산하는 데 사용되는 공식은 다음과 같습니다.

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC: (RSS+log(n)dσ̂ ² ) / n

R ² 조정: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

금:

최상의 하위 집합을 선택하면 다음과 같은 이점이 있습니다.

그러나 이 방법에는 다음과 같은 단점이 있습니다.

이는 계산적으로 집약적일 수 있습니다. p개의 예측 변수 세트에 대해 2p ^개의 가능한 모델이 있습니다. 예를 들어 예측 변수가 10개인 경우 고려해야 할 가능한 모델은 2 ¹⁰ = 1000개입니다.
매우 많은 수의 모델을 고려하기 때문에 잠재적으로 훈련 데이터에서는 잘 수행되지만 미래 데이터에서는 그렇지 않은 모델을 찾을 수 있습니다. 이로 인해 과적합이 발생할 수 있습니다 .

최상의 하위 집합을 선택하는 것은 구현하고 이해하기 쉽지만, 다수의 예측 변수가 포함된 데이터 세트로 작업하는 경우 비실용적일 수 있으며 잠재적으로 과적합으로 이어질 수 있습니다.

이 방법의 대안은 단계적 선택 으로 알려져 있으며, 이는 계산상 더 효율적입니다.

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기