직접선택이란 무엇인가요? (정의 & #038; 예)


통계에서 단계적 선택은 입력할 통계적으로 유효한 이유가 더 이상 없을 때까지 모델에 단계별 방식으로 예측 변수를 입력하고 제거하여 일련의 예측 변수에서 회귀 모델을 구성하는 데 사용할 수 있는 절차입니다. 아니면 더 삭제하세요.

단계적 선택의 목표는 반응 변수와 통계적으로 유의하게 관련된 모든 예측 변수를 포함하는 회귀 모델을 만드는 것입니다.

가장 일반적으로 사용되는 단계별 선택 방법 중 하나는 직접 선택 으로 알려져 있으며 다음과 같이 작동합니다.

1단계: 예측 변수 없이 절편 전용 회귀 모델을 피팅합니다. 모델의 AIC * 값을 계산합니다.

2단계: 가능한 모든 단일 예측 회귀 모델을 적합시킵니다. 가장 낮은 AIC를 생성하고 절편 전용 모델과 비교하여 AIC가 통계적으로 유의하게 감소한 모델을 식별합니다.

3단계: 모든 회귀 모델을 두 가지 가능한 예측 변수에 맞춥니다. 단일 예측 모델에 비해 AIC가 가장 낮고 AIC가 통계적으로 유의하게 감소한 모델을 식별합니다.

더 많은 예측 변수를 사용하여 회귀 모델을 피팅해도 더 이상 AIC가 통계적으로 유의미하게 감소하지 않을 때까지 프로세스를 반복합니다.

* 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R2를 포함하여 회귀 모델의 적합도를 계산하는 데 사용할 수 있는 여러 측정항목이 있습니다. 아래 예에서는 AIC를 사용하기로 선택했습니다.

다음 예에서는 R에서 직접 선택을 수행하는 방법을 보여줍니다.

예: R에서 직접 선택

이 예에서는 R에 내장된 mtcars 데이터 세트를 사용합니다.

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

mpg (갤런당 마일 수)를 응답 변수로 사용하고 데이터 세트의 다른 10개 변수를 잠재적 예측 변수로 사용하여 다중 선형 회귀 모델을 적합화합니다.

다음 코드는 선택을 단계별로 수행하는 방법을 보여줍니다.

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

결과를 해석하는 방법은 다음과 같습니다.

첫째, 절편 전용 모델을 적합합니다. 이 모델의 AIC는 115.94345 입니다.

그런 다음 가능한 모든 모델을 예측 변수에 맞춥니다. 가장 낮은 AIC를 생성한 모델은 또한 wt 예측변수를 사용한 절편 전용 모델에 비해 AIC가 통계적으로 유의하게 감소했습니다. 이 모델의 AIC는 73.21736 입니다.

다음으로, 두 개의 예측 변수를 사용하여 가능한 모든 모델을 적합시킵니다. 가장 낮은 AIC를 생성하고 단일 예측 모델에 비해 AIC가 통계적으로 유의하게 감소한 모델에 cyl 예측 변수가 추가되었습니다. 이 모델의 AIC는 63.19800 입니다.

다음으로, 가능한 모든 모델을 세 가지 예측 변수에 적합합니다. 가장 낮은 AIC를 생성하고 2-예측자 모델에 비해 AIC가 통계적으로 유의하게 감소한 모델에는 hp 예측자가 추가되었습니다. 이 모델의 AIC는 62.66456 입니다.

다음으로, 가능한 모든 모델을 4개의 예측 변수에 적합합니다. 이들 모델 중 어느 것도 AIC를 크게 감소시키지 못하여 절차를 중단했습니다.

따라서 최종 모델은 다음과 같습니다.

mpg = 38.75 – 3.17*중량 – 0.94*cyl – 0.02*hyp

모델에 더 많은 예측 변수를 추가하려고 시도해도 AIC가 통계적으로 유의미하게 감소하지 않는 것으로 나타났습니다.

따라서 우리는 가장 좋은 모델은 세 가지 예측 변수(wt, cyl 및 hp)가 있는 모델이라는 결론을 내렸습니다.

AIC 사용 시 참고 사항

이전 예에서는 다양한 회귀 모델의 적합성을 평가하기 위한 측정항목으로 AIC를 사용하기로 결정했습니다.

AIC는 Akaike Information Criterion을 나타내며 다음과 같이 계산됩니다.

AIC = 2K – 2ln (L)

금:

  • K: 모델 매개변수의 수입니다.
  • ln (L) : 모델의 로그 우도입니다. 이는 모델이 데이터를 기반으로 할 가능성이 얼마나 되는지 알려줍니다.

그러나 교차 검증 예측 오류, Cp, BIC, AIC 또는 조정된 R2를 포함하여 회귀 모델의 적합성을 평가하는 데 사용할 수 있는 다른 측정항목이 있습니다.

다행히 대부분의 통계 소프트웨어에서는 직접 선택할 때 사용할 측정항목을 지정할 수 있습니다.

추가 리소스

다음 튜토리얼에서는 회귀 모델에 대한 추가 정보를 제공합니다.

회귀 분석의 다중 공선성과 VIF에 대한 가이드
좋은 AIC 값은 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다