Geriye seçim nedir? (tanım & #038; örnek)
İstatistikte, adım adım seçim, artık istatistiksel olarak geçerli bir neden kalmayana kadar modele tahmin edicileri adım adım girerek ve çıkararak bir dizi tahmin değişkeninden bir regresyon modeli oluşturmak için kullanabileceğimiz bir prosedürdür. veya daha fazlasını silin.
Adım adım seçimin amacı , yanıt değişkeniyle istatistiksel olarak anlamlı düzeyde ilişkili olan tüm yordayıcı değişkenleri içeren bir regresyon modeli oluşturmaktır.
En sık kullanılan adım adım seçim yöntemlerinden biri, geriye doğru seçim olarak bilinir ve şu şekilde çalışır:
Adım 1: Tüm p tahmin değişkenlerini kullanarak bir regresyon modeli yerleştirin. Model için AIC * değerini hesaplayın.
Adım 2: Tüm p öngörücü değişkenleri içeren modelle karşılaştırıldığında, AIC’de en büyük azalmaya neden olan ve aynı zamanda AIC’de istatistiksel olarak anlamlı bir azalmaya yol açan öngörücü değişkeni kaldırın.
Adım 3: AIC’de en büyük azalmaya yol açan ve aynı zamanda p-1 öngörücü değişkenlere sahip modelle karşılaştırıldığında AIC’de istatistiksel olarak anlamlı bir azalmaya yol açan öngörücü değişkeni kaldırın.
Herhangi bir öngörücü değişkenin kaldırılması artık AIC’de istatistiksel olarak anlamlı bir azalmaya yol açmayana kadar işlemi tekrarlayın.
* Çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş R2 dahil olmak üzere, bir regresyon modelinin uyum iyiliğini hesaplamak için kullanabileceğiniz çeşitli ölçümler vardır. Aşağıdaki örnekte AIC kullanmayı seçiyoruz.
Aşağıdaki örnek, R’de geriye doğru seçimin nasıl gerçekleştirileceğini gösterir.
Örnek: R’de geriye doğru seçim
Bu örnek için R’de yerleşik mtcars veri kümesini kullanacağız:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Yanıt değişkeni olarak mpg’yi (galon başına mil) ve veri setindeki diğer 10 değişkeni potansiyel öngörücü değişkenler olarak kullanarak çoklu doğrusal regresyon modelini yerleştireceğiz.
Aşağıdaki kod nasıl geri adım atılacağını gösterir:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Sonuçları nasıl yorumlayacağınız aşağıda açıklanmıştır:
İlk olarak, 10 öngörücü değişkeni kullanarak bir model oluşturuyoruz ve modelin AIC’sini hesaplıyoruz.
Daha sonra, AIC’de en büyük azalmaya neden olan değişkeni ( cyl ) kaldırdık ve ayrıca 10 öngörücü değişken modeline kıyasla AIC’de istatistiksel olarak anlamlı bir azalma elde ettik.
Daha sonra, AIC’de en büyük azalmaya yol açan değişkeni ( vs ) kaldırdık ve ayrıca 9’lu öngörücü değişken modeline kıyasla AIC’de istatistiksel olarak anlamlı bir azalma elde ettik.
Daha sonra, AIC’de en büyük azalmaya neden olan değişkeni ( karbonhidrat ) kaldırdık ve ayrıca 8-prediktör değişken modeline kıyasla AIC’de istatistiksel olarak anlamlı bir azalma elde ettik.
Artık AIC’de istatistiksel olarak anlamlı bir azalmaya yol açmayan herhangi bir değişkeni kaldırana kadar bu işlemi tekrarladık.
Nihai model şu şekilde ortaya çıkıyor:
mpg = 9,62 – 3,92*ağırlık + 1,23*qsaniye + 2,94*am
AIC kullanımına ilişkin bir not
Önceki örnekte, çeşitli regresyon modellerinin uyumunu değerlendirmek için AIC’yi bir ölçüm olarak kullanmayı seçtik.
AIC, Akaike Bilgi Kriteri anlamına gelir ve aşağıdaki şekilde hesaplanır:
AIC = 2K – 2 ln (L)
Altın:
- K: Model parametrelerinin sayısı.
- ln (L) : Modelin log-olasılığı. Bu bize veriler göz önüne alındığında modelin olasılığını söyler.
Ancak regresyon modellerinin uyumunu değerlendirmek için kullanmayı seçebileceğiniz çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş R2 dahil başka ölçümler de vardır.
Neyse ki çoğu istatistiksel yazılım, geriye dönük tarama yaparken hangi ölçümü kullanmak istediğinizi belirtmenize olanak tanır.
Ek kaynaklar
Aşağıdaki eğitimler regresyon modelleri hakkında ek bilgi sağlar:
Doğrudan seçime giriş
Regresyonda Çoklu Bağlantı ve VIF Kılavuzu
İyi bir AIC değeri olarak kabul edilen şey nedir?