역방향 선택이란 무엇입니까? (정의 & #038; 예)


통계에서 단계적 선택은 입력할 통계적으로 유효한 이유가 더 이상 없을 때까지 모델에 단계별 방식으로 예측 변수를 입력하고 제거하여 일련의 예측 변수에서 회귀 모델을 구성하는 데 사용할 수 있는 절차입니다. 아니면 더 삭제하세요.

단계적 선택의 목표는 반응 변수와 통계적으로 유의하게 관련된 모든 예측 변수를 포함하는 회귀 모델을 만드는 것입니다.

가장 일반적으로 사용되는 단계별 선택 방법 중 하나는 역방향 선택 으로 알려져 있으며 다음과 같이 작동합니다.

1단계: 모든 p 예측 변수를 사용하여 회귀 모델을 피팅합니다. 모델의 AIC * 값을 계산합니다.

2단계: 모든 p 예측 변수가 있는 모델과 비교하여 AIC가 가장 많이 감소하고 AIC가 통계적으로 유의미하게 감소하는 예측 변수를 제거합니다.

3단계: p-1 예측 변수가 있는 모델과 비교하여 AIC가 가장 많이 감소하고 AIC가 통계적으로 유의미하게 감소하는 예측 변수를 제거합니다.

예측 변수를 제거해도 더 이상 AIC가 통계적으로 유의미하게 감소하지 않을 때까지 프로세스를 반복합니다.

* 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R2를 포함하여 회귀 모델의 적합도를 계산하는 데 사용할 수 있는 여러 측정항목이 있습니다. 아래 예에서는 AIC를 사용하기로 선택했습니다.

다음 예에서는 R에서 뒤로 선택을 수행하는 방법을 보여줍니다.

예: R의 역방향 선택

이 예에서는 R에 내장된 mtcars 데이터 세트를 사용합니다.

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

mpg (갤런당 마일 수)를 응답 변수로 사용하고 데이터 세트의 다른 10개 변수를 잠재적 예측 변수로 사용하여 다중 선형 회귀 모델을 적합화합니다.

다음 코드는 뒤로 이동하는 방법을 보여줍니다.

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform backward stepwise regression
backward <- step(all, direction=' backward ', scope= formula (all), trace=0)

#view results of backward stepwise regression
backward$anova

    Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 21 147.4944 70.89774
2 - cyl 1 0.07987121 22 147.5743 68.91507
3 - vs 1 0.26852280 23 147.8428 66.97324
4 - carb 1 0.68546077 24 148.5283 65.12126
5 - gear 1 1.56497053 25 150.0933 63.45667
6 - drat 1 3.34455117 26 153.4378 62.16190
7 - available 1 6.62865369 27 160.0665 61.51530
8 - hp 1 9.21946935 28 169.2859 61.30730

#view final model
backward$coefficients

(Intercept) wt qsec am 
   9.617781 -3.916504 1.225886 2.935837

결과를 해석하는 방법은 다음과 같습니다.

먼저 10개의 예측 변수를 사용하여 모델을 피팅하고 모델의 AIC를 계산합니다.

다음으로 AIC가 가장 크게 감소한 변수( cyl )를 제거하고 10개 예측 변수 모델과 비교하여 AIC가 통계적으로 유의하게 감소했습니다.

다음으로 AIC의 가장 큰 감소를 가져온 변수( vs )를 제거하고 9-예측 변수 모델과 비교하여 AIC의 통계적으로 유의미한 감소를 얻었습니다.

다음으로, AIC가 가장 크게 감소한 변수( carb )를 제거했으며 8-예측 변수 모델과 비교하여 AIC가 통계적으로 유의미하게 감소했습니다.

더 이상 AIC가 통계적으로 유의미하게 감소하지 않는 변수를 제거할 때까지 이 프로세스를 반복했습니다.

최종 모델은 다음과 같습니다.

mpg = 9.62 – 3.92*체중 + 1.23*qsec + 2.94*am

AIC 사용 시 참고 사항

이전 예에서는 다양한 회귀 모델의 적합성을 평가하기 위한 측정항목으로 AIC를 사용하기로 결정했습니다.

AIC는 Akaike Information Criterion을 나타내며 다음과 같이 계산됩니다.

AIC = 2K – 2ln (L)

금:

  • K: 모델 매개변수의 수입니다.
  • ln (L) : 모델의 로그 우도입니다. 이는 데이터가 주어졌을 때 모델의 확률을 알려줍니다.

그러나 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R2를 포함하여 회귀 모델의 적합성을 평가하는 데 사용할 수 있는 다른 측정항목이 있습니다.

다행히 대부분의 통계 소프트웨어에서는 소급적 선별 시 사용할 측정항목을 지정할 수 있습니다.

추가 리소스

다음 튜토리얼에서는 회귀 모델에 대한 추가 정보를 제공합니다.

직접 선택 소개
회귀 분석의 다중 공선성과 VIF에 대한 가이드
좋은 AIC 값은 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다