Aşamalı seçim nedir? (açıklama ve örnekler)

İle Dr.benjamin anderson Temmuz 27, 2023 Rehber 0 Yorum

Makine öğrenimi alanında amacımız, bir yanıt değişkeninin değerini tahmin etmek için bir dizi öngörücü değişkeni etkili bir şekilde kullanabilen bir model oluşturmaktır.

Bir dizi p toplam tahmin değişkeni göz önüne alındığında, potansiyel olarak oluşturabileceğimiz birçok model vardır. En iyi modeli seçmek için kullanabileceğimiz yöntemlerden biri, en iyi alt küme seçimi olarak bilinir; bu, tahmin seti ile oluşturulabilecek tüm olası modeller arasından en iyi modeli seçmeye çalışır.

Ne yazık ki bu yöntemin iki dezavantajı vardır:

Bu, hesaplama açısından yoğun olabilir. Bir p öngörücü değişken seti için 2 ^p olası model vardır. Örneğin, 10 öngörücü değişkenle, dikkate alınması gereken 2 ¹⁰ = 1000 olası model vardır.
Çok fazla sayıda modeli dikkate aldığından, eğitim verileri üzerinde iyi performans gösteren ancak gelecekteki veriler üzerinde iyi performans göstermeyen bir modeli potansiyel olarak bulabilir. Bu, aşırı uyum sağlamaya yol açabilir.

En iyi alt kümeyi seçmenin bir alternatifi, çok daha küçük model kümelerini karşılaştıran adım adım seçim olarak bilinir.

İki tür adım seçme yöntemi vardır: ileri adım seçimi ve geri adım seçimi.

Adım adım ileri seçim

Adım adım ileri seçim şu şekilde çalışır:

1. M ₀ tahmin değişkeni içermeyen boş model olsun.

2. k = 0, 2, … p-1 için:

M _k’deki yordayıcıları artıran tüm pk modellerini ek bir yordayıcı değişkenle sığdırın.
Bu pk modelleri arasından en iyisini seçin ve ona M _k+1 adını verin. “En iyi”yi, en yüksek R ^2’ye veya eşdeğer olarak en düşük RSS’ye sahip model olarak tanımlayın.

3. Çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş ^R2’yi kullanarak M ₀ … M _p arasından tek bir en iyi modeli seçin.

Adım adım geriye doğru seçim

Geri adım seçimi şu şekilde çalışır:

1. M _p’nin tüm p tahmin değişkenini içeren tam model olduğunu varsayalım.

2. k = p, p-1, … 1 için:

Toplam k-1 tahmin değişkeni için _Mk’de biri hariç tüm tahmin edicileri içeren tüm k modellerini sığdırın.
Bu k modelleri arasından en iyisini seçin ve ona M _k-1 adını verin. “En iyi”yi, en yüksek R ^2’ye veya eşdeğer olarak en düşük RSS’ye sahip model olarak tanımlayın.

3. Çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş ^R2’yi kullanarak M ₀ … M _p arasından tek bir en iyi modeli seçin.

“En iyi” modeli seçme kriterleri

Adım adım ileri ve geri seçimin son adımı, en düşük tahmin hatasına, en düşük Cp’ye, en düşük BIC’ye, en yüksek AIC düşüklüğüne veya en yüksek ayarlanmış ^R2’ye sahip modeli seçmektir.

Bu ölçümlerin her birini hesaplamak için kullanılan formüller şunlardır:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC: (RSS+log(n)dσ̂ ² ) / n

R ² düzeltilmiş: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Altın:

d: Tahmincilerin sayısı
n: Toplam gözlemler
σ̂ : Bir regresyon modelinde her yanıt ölçümüyle ilişkili hata varyansının tahmini
RSS: Regresyon modelinden kalan kareler toplamı
TSS: Regresyon modelinin karelerinin toplamı

Aşamalı seçimin avantajları ve dezavantajları

Aşamalı seçim aşağıdaki avantajları sunar:

Bu yöntem, en iyi alt kümeyi seçmekten hesaplama açısından daha verimlidir. p öngörücü değişken göz önüne alındığında, en iyi alt kümenin seçimi 2 ^p modele karşılık gelmelidir.

Tersine, adım adım seçim yalnızca 1+p(p+ 1)/2 modellerine uymalıdır. p = 10 öngörücü değişken için, en iyi alt küme seçimi 1.000 modele uymalı, adım adım seçim ise yalnızca 56 modele uymalıdır.

Ancak aşamalı seçimin aşağıdaki potansiyel dezavantajı vardır:

Tüm potansiyel ^2p modeller arasında mümkün olan en iyi modeli bulmanın garantisi yoktur.

Örneğin, p = 3 tahminciye sahip bir veri setimiz olduğunu varsayalım. Mümkün olan en iyi tek tahminli model x _1’i içerebilir ve mümkün olan en iyi iki tahminli model bunun yerine x ₁ ve x _2’yi içerebilir.

Bu durumda ileri adım adım seçim mümkün olan en iyi iki tahminli modeli seçmede başarısız olacaktır çünkü _M1 _x1’i içerecektir, yani _M2’nin başka bir değişkenin yanı sıra _x1’i de içermesi gerekir.

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil