Makine öğreniminde en iyi alt küme seçimi (açıklama ve örnekler)

İle Dr.benjamin anderson Temmuz 27, 2023 Rehber 0 Yorum

Makine öğreniminde genellikle bir dizi öngörücü değişken ve bir yanıt değişkeni kullanarak modeller oluşturmak isteriz. Amacımız, yanıt değişkeninin değerini tahmin etmek için yordayıcı değişkenleri etkili bir şekilde kullanabilecek bir model oluşturmaktır.

Bir dizi p toplam tahmin değişkeni göz önüne alındığında, potansiyel olarak oluşturabileceğimiz birçok model vardır. En iyi modeli seçmek için kullanabileceğimiz yöntemlerden biri en iyi alt küme seçimi olarak bilinir ve şu şekilde çalışır:

1. M ₀ tahmin değişkeni içermeyen boş model olsun.

2. k = 1, 2, … p için:

Tam olarak k tahminciyi içeren tüm _p C _k modellerini takın.
Bu _pCk modelleri arasından _en iyisini seçin ve _Mk adını verin. “En iyi”yi, en yüksek R ^2’ye veya eşdeğer olarak en düşük RSS’ye sahip model olarak tanımlayın.

3. Çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş ^R2’yi kullanarak M ₀ … M _p arasından tek bir en iyi modeli seçin.

Bir p öngörücü değişken kümesi için 2 ^p olası modelin bulunduğunu unutmayın.

En iyi alt kümeyi seçme örneği

Diyelim ki p = 3 tahmin değişkeni ve bir yanıt değişkeni olan y’den oluşan bir veri setimiz var. Bu veri kümesiyle en iyi alt küme seçimini gerçekleştirmek için aşağıdaki 2 ^p = 2 ³ = 8 modele uyacağız:

Tahmincilerin olmadığı bir model
Tahmini x ₁ olan bir model
Tahminci x _2’ye sahip bir model
Tahminci x _3’e sahip bir model
x ₁ , x ₂ tahmincilerine sahip bir model
Tahmincileri olan bir model x ₁ , x ₃
x ₂ , x ₃ tahmincilerine sahip bir model
Tahmin edicileri x ₁ , x ₂ , x ₃ olan bir model

Daha sonra k tahminciye sahip her model kümesinden en yüksek ^R2’ye sahip modeli seçerdik. Örneğin, sonunda şunları seçebiliriz:

Tahmincilerin olmadığı bir model
Tahminci x _2’ye sahip bir model
x ₁ , x ₂ tahmincilerine sahip bir model
Tahmin edicileri x ₁ , x ₂ , x ₃ olan bir model

Daha sonra çapraz doğrulama yapacak ve en düşük tahmin hatasıyla (Cp, BIC, AIC veya düzeltilmiş ^R2) sonuçlanan en iyi modeli seçeceğiz.

Örneğin, en düşük çapraz doğrulamalı tahmin hatasını ürettiği için aşağıdaki modeli “en iyi” model olarak seçebiliriz:

x ₁ , x ₂ tahmincilerine sahip bir model

“En iyi” modeli seçme kriterleri

En iyi alt kümeyi seçmenin son adımı, en düşük tahmin hatasına, en düşük Cp’ye, en düşük BIC’ye, en düşük AIC’ye veya en düşük düzeltilmiş ^R2’ye sahip modeli seçmektir. daha yüksek.

Bu ölçümlerin her birini hesaplamak için kullanılan formüller şunlardır:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC: (RSS+log(n)dσ̂ ² ) / n

R ² düzeltilmiş: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Altın:

d: Tahmincilerin sayısı
n: Toplam gözlemler
σ̂ : Bir regresyon modelinde her yanıt ölçümüyle ilişkili hata varyansının tahmini
RSS: Regresyon modelinden kalan kareler toplamı
TSS: Regresyon modelinin karelerinin toplamı

En İyi Alt Küme Seçiminin Avantajları ve Dezavantajları

En iyi alt kümeyi seçmek aşağıdaki faydaları sağlar:

Anlamak ve yorumlamak basit bir yaklaşımdır.
Bu, öngörücü değişkenlerin tüm kombinasyonlarını dikkate aldığımız için mümkün olan en iyi modeli belirlememize olanak tanır.

Ancak bu yöntemin aşağıdaki dezavantajları vardır:

Bu, hesaplama açısından yoğun olabilir. Bir p öngörücü değişken seti için 2 ^p olası model vardır. Örneğin, 10 öngörücü değişkenle, dikkate alınması gereken 2 ¹⁰ = 1000 olası model vardır.
Çok fazla sayıda modeli dikkate aldığından, eğitim verileri üzerinde iyi performans gösteren ancak gelecekteki veriler üzerinde iyi performans göstermeyen bir modeli potansiyel olarak bulabilir. Bu, aşırı uyum sağlamaya yol açabilir .

Çözüm

En iyi alt kümeyi seçmenin uygulanması ve anlaşılması basit olsa da, çok sayıda tahminci içeren bir veri kümesiyle çalışıyorsanız bu pratik olmayabilir ve potansiyel olarak fazla uyum sağlamaya yol açabilir.

Bu yöntemin bir alternatifi, hesaplama açısından daha verimli olanadım adım seçim olarak bilinir.

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil