Doğrudan seçim nedir? (tanım & #038; örnek)
İstatistikte, adım adım seçim, artık istatistiksel olarak geçerli bir neden kalmayana kadar modele tahmin edicileri adım adım girerek ve çıkararak bir dizi tahmin değişkeninden bir regresyon modeli oluşturmak için kullanabileceğimiz bir prosedürdür. veya daha fazlasını silin.
Adım adım seçimin amacı , yanıt değişkeniyle istatistiksel olarak anlamlı düzeyde ilişkili olan tüm yordayıcı değişkenleri içeren bir regresyon modeli oluşturmaktır.
En sık kullanılan adım adım seçim yöntemlerinden biri doğrudan seçim olarak bilinir ve şu şekilde çalışır:
Adım 1: Tahmin edici değişkenler olmadan yalnızca kesişme regresyon modelini yerleştirin. Model için AIC * değerini hesaplayın.
Adım 2: Tüm olası tek tahminli regresyon modellerini takın. Yalnızca engelleme modeline kıyasla en düşük AIC’yi üreten ve aynı zamanda AIC’de istatistiksel olarak anlamlı bir azalmaya sahip olan modeli belirleyin.
Adım 3: Tüm regresyon modellerini iki olası tahminciye uydurun. Tek tahminli modelle karşılaştırıldığında en düşük AIC’yi üreten ve aynı zamanda AIC’de istatistiksel olarak anlamlı bir azalmaya sahip olan modeli belirleyin.
Daha fazla öngörücü değişken içeren bir regresyon modelinin yerleştirilmesi artık AIC’de istatistiksel olarak anlamlı bir azalmaya yol açmayana kadar işlemi tekrarlayın.
* Çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş R2 dahil olmak üzere, bir regresyon modelinin uyum iyiliğini hesaplamak için kullanabileceğiniz çeşitli ölçümler vardır. Aşağıdaki örnekte AIC kullanmayı seçiyoruz.
Aşağıdaki örnek, R’de doğrudan seçimin nasıl gerçekleştirileceğini gösterir.
Örnek: R’de doğrudan seçim
Bu örnek için R’de yerleşik mtcars veri kümesini kullanacağız:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Yanıt değişkeni olarak mpg’yi (galon başına mil) ve veri setindeki diğer 10 değişkeni potansiyel öngörücü değişkenler olarak kullanarak çoklu doğrusal regresyon modelini yerleştireceğiz.
Aşağıdaki kod, bir seçimin adım adım nasıl gerçekleştirileceğini gösterir:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform forward stepwise regression forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 ) #view results of forward stepwise regression forward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 31 1126.0472 115.94345 2 + wt -1 847.72525 30 278.3219 73.21736 3 + cyl -1 87.14997 29 191.1720 63.19800 4 + hp -1 14.55145 28 176.6205 62.66456 #view final model forward$coefficients (Intercept) wt cyl hp 38.7517874 -3.1669731 -0.9416168 -0.0180381
Sonuçları nasıl yorumlayacağınız aşağıda açıklanmıştır:
Öncelikle sadece kesişme modelini uyguluyoruz. Bu modelin AIC’si 115.94345’ti .
Daha sonra olası tüm modelleri bir tahminciye sığdırırız. En düşük AIC’yi üreten ve aynı zamanda wt tahmincisini kullanan yalnızca kesişme modeline kıyasla AIC’de istatistiksel olarak anlamlı bir azalmaya sahip olan model. Bu modelin AIC’si 73.21736’ydı .
Daha sonra, tüm olası modelleri iki tahminciyle eşleştiriyoruz. En düşük AIC’yi üreten ve ayrıca tek öngörücü modele kıyasla AIC’de istatistiksel olarak anlamlı bir azalmaya sahip olan model, silindir tahmincisini ekledi. Bu modelin AIC’si 63.19800’dü .
Daha sonra, tüm olası modelleri üç tahminciye sığdırıyoruz. En düşük AIC’yi üreten ve aynı zamanda iki tahminci modele kıyasla AIC’de istatistiksel olarak anlamlı bir azalmaya sahip olan model, hp tahmincisini ekledi. Bu modelin AIC’si 62.66456’ydı .
Daha sonra, tüm olası modelleri dört tahminciye sığdırıyoruz. Bu modellerden hiçbirinin AIC’de önemli bir azalma sağlamadığı ortaya çıktı ve bu nedenle prosedürü durdurduk.
Dolayısıyla nihai model şu şekilde ortaya çıkıyor:
mpg = 38,75 – 3,17*ağırlık – 0,94*sil – 0,02*hip
Modele daha fazla öngörücü değişken eklemeye çalışmanın AIC’de istatistiksel olarak anlamlı bir azalmaya yol açmadığı ortaya çıktı.
Böylece, en iyi modelin üç öngörücü değişkene sahip olan model olduğu sonucuna varıyoruz: wt, cyl ve hp.
AIC kullanımına ilişkin bir not
Önceki örnekte, çeşitli regresyon modellerinin uyumunu değerlendirmek için AIC’yi bir ölçüm olarak kullanmayı seçtik.
AIC, Akaike Bilgi Kriteri anlamına gelir ve aşağıdaki şekilde hesaplanır:
AIC = 2K – 2 ln (L)
Altın:
- K: Model parametrelerinin sayısı.
- ln (L) : Modelin log-olasılığı. Bu bize modelin verilere dayalı olma ihtimalinin ne kadar olduğunu gösterir.
Ancak regresyon modellerinin uyumunu değerlendirmek için kullanmayı seçebileceğiniz çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş R2 dahil başka ölçümler de vardır.
Neyse ki çoğu istatistiksel yazılım, doğrudan seçim yaparken hangi ölçümü kullanmak istediğinizi belirtmenize olanak tanır.
Ek kaynaklar
Aşağıdaki eğitimler regresyon modelleri hakkında ek bilgi sağlar:
Regresyonda Çoklu Bağlantı ve VIF Kılavuzu
İyi bir AIC değeri olarak kabul edilen şey nedir?