Makine öğreniminde en iyi alt küme seçimi (açıklama ve örnekler)
Makine öğreniminde genellikle bir dizi öngörücü değişken ve bir yanıt değişkeni kullanarak modeller oluşturmak isteriz. Amacımız, yanıt değişkeninin değerini tahmin etmek için yordayıcı değişkenleri etkili bir şekilde kullanabilecek bir model oluşturmaktır.
Bir dizi p toplam tahmin değişkeni göz önüne alındığında, potansiyel olarak oluşturabileceğimiz birçok model vardır. En iyi modeli seçmek için kullanabileceğimiz yöntemlerden biri en iyi alt küme seçimi olarak bilinir ve şu şekilde çalışır:
1. M 0 tahmin değişkeni içermeyen boş model olsun.
2. k = 1, 2, … p için:
- Tam olarak k tahminciyi içeren tüm p C k modellerini takın.
- Bu pCk modelleri arasından en iyisini seçin ve Mk adını verin. “En iyi”yi, en yüksek R 2’ye veya eşdeğer olarak en düşük RSS’ye sahip model olarak tanımlayın.
3. Çapraz doğrulama tahmin hatası, Cp, BIC, AIC veya düzeltilmiş R2’yi kullanarak M 0 … M p arasından tek bir en iyi modeli seçin.
Bir p öngörücü değişken kümesi için 2 p olası modelin bulunduğunu unutmayın.
En iyi alt kümeyi seçme örneği
Diyelim ki p = 3 tahmin değişkeni ve bir yanıt değişkeni olan y’den oluşan bir veri setimiz var. Bu veri kümesiyle en iyi alt küme seçimini gerçekleştirmek için aşağıdaki 2 p = 2 3 = 8 modele uyacağız:
- Tahmincilerin olmadığı bir model
- Tahmini x 1 olan bir model
- Tahminci x 2’ye sahip bir model
- Tahminci x 3’e sahip bir model
- x 1 , x 2 tahmincilerine sahip bir model
- Tahmincileri olan bir model x 1 , x 3
- x 2 , x 3 tahmincilerine sahip bir model
- Tahmin edicileri x 1 , x 2 , x 3 olan bir model
Daha sonra k tahminciye sahip her model kümesinden en yüksek R2’ye sahip modeli seçerdik. Örneğin, sonunda şunları seçebiliriz:
- Tahmincilerin olmadığı bir model
- Tahminci x 2’ye sahip bir model
- x 1 , x 2 tahmincilerine sahip bir model
- Tahmin edicileri x 1 , x 2 , x 3 olan bir model
Daha sonra çapraz doğrulama yapacak ve en düşük tahmin hatasıyla (Cp, BIC, AIC veya düzeltilmiş R2) sonuçlanan en iyi modeli seçeceğiz.
Örneğin, en düşük çapraz doğrulamalı tahmin hatasını ürettiği için aşağıdaki modeli “en iyi” model olarak seçebiliriz:
- x 1 , x 2 tahmincilerine sahip bir model
“En iyi” modeli seçme kriterleri
En iyi alt kümeyi seçmenin son adımı, en düşük tahmin hatasına, en düşük Cp’ye, en düşük BIC’ye, en düşük AIC’ye veya en düşük düzeltilmiş R2’ye sahip modeli seçmektir. daha yüksek.
Bu ölçümlerin her birini hesaplamak için kullanılan formüller şunlardır:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 düzeltilmiş: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Altın:
- d: Tahmincilerin sayısı
- n: Toplam gözlemler
- σ̂ : Bir regresyon modelinde her yanıt ölçümüyle ilişkili hata varyansının tahmini
- RSS: Regresyon modelinden kalan kareler toplamı
- TSS: Regresyon modelinin karelerinin toplamı
En İyi Alt Küme Seçiminin Avantajları ve Dezavantajları
En iyi alt kümeyi seçmek aşağıdaki faydaları sağlar:
- Anlamak ve yorumlamak basit bir yaklaşımdır.
- Bu, öngörücü değişkenlerin tüm kombinasyonlarını dikkate aldığımız için mümkün olan en iyi modeli belirlememize olanak tanır.
Ancak bu yöntemin aşağıdaki dezavantajları vardır:
- Bu, hesaplama açısından yoğun olabilir. Bir p öngörücü değişken seti için 2 p olası model vardır. Örneğin, 10 öngörücü değişkenle, dikkate alınması gereken 2 10 = 1000 olası model vardır.
- Çok fazla sayıda modeli dikkate aldığından, eğitim verileri üzerinde iyi performans gösteren ancak gelecekteki veriler üzerinde iyi performans göstermeyen bir modeli potansiyel olarak bulabilir. Bu, aşırı uyum sağlamaya yol açabilir .
Çözüm
En iyi alt kümeyi seçmenin uygulanması ve anlaşılması basit olsa da, çok sayıda tahminci içeren bir veri kümesiyle çalışıyorsanız bu pratik olmayabilir ve potansiyel olarak fazla uyum sağlamaya yol açabilir.
Bu yöntemin bir alternatifi, hesaplama açısından daha verimli olanadım adım seçim olarak bilinir.