Makine öğreniminde torbalamaya giriş


Bir dizi yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişki doğrusal olduğunda, değişkenler arasındaki ilişkiyi modellemek için çoklu doğrusal regresyon gibi yöntemleri kullanabiliriz.

Ancak ilişki daha karmaşık olduğunda sıklıkla doğrusal olmayan yöntemlere başvurmak zorunda kalırız.

Böyle bir yöntem, bir yanıt değişkeninin değerini tahmin eden karar ağaçları oluşturmak için bir dizi tahmin değişkeni kullanan sınıflandırma ve regresyon ağaçlarıdır (genellikle CART olarak kısaltılır).

Profesyonel bir beyzbol oyuncusunun maaşını tahmin etmek için yılların deneyimini ve ortalama sayı sayısını kullanan bir regresyon ağacı örneği.

Ancak CART modellerinin dezavantajı yüksek varyanstan muzdarip olmalarıdır. Yani, bir veri kümesini ikiye bölüp her iki yarıya da bir karar ağacı uygularsak sonuçlar çok farklı olabilir.

CART modellerinin varyansını azaltmak için kullanabileceğimiz yöntemlerden biri, bazen önyükleme toplama olarak da adlandırılan torbalama olarak bilinir.

Torbalama nedir?

Tek bir karar ağacı oluşturduğumuzda modeli oluşturmak için yalnızca bir dizi eğitim verisi kullanırız.

Ancak torbalama aşağıdaki yöntemi kullanır:

1. Orijinal veri kümesinden b önyüklemeli örnek alın.

  • Önyüklemeli bir örneğin, gözlemlerin değiştirilerek alındığı orijinal veri setinden bir örnek olduğunu hatırlayın.

2. Her önyükleme örneği için bir karar ağacı oluşturun.

3. Nihai bir model elde etmek için her ağaçtan elde edilen tahminlerin ortalamasını alın.

  • Regresyon ağaçları için B ağaçlarının yaptığı tahminlerin ortalamasını alıyoruz.
  • Sınıflandırma ağaçları için B -ağaçları tarafından yapılan en yaygın tahmini alıyoruz.

Torbalama herhangi bir makine öğrenimi algoritmasıyla kullanılabilir, ancak doğası gereği yüksek varyansa sahip olduğundan ve torbalama varyansı önemli ölçüde azaltarak test hatalarının azalmasına neden olduğundan karar ağaçları için özellikle kullanışlıdır.

Karar ağaçlarına torbalama uygulamak için, ağaçları budamadan derinlemesine büyütüyoruz . Bu, yüksek varyansa sahip ancak düşük yanlılığa sahip bireysel ağaçlarla sonuçlanır. Daha sonra bu ağaçlardan ortalama tahminleri aldığımızda varyansı azaltabiliyoruz.

Uygulamada, optimum performansa genellikle 50 ila 500 ağaçla ulaşılır, ancak nihai bir model oluşturmak için binlerce ağacın sığdırılması da mümkündür.

Daha fazla ağaç yerleştirmenin daha fazla bilgi işlem gücü gerektireceğini unutmayın; bu da veri kümesinin boyutuna bağlı olarak sorun olabilir veya olmayabilir.

Torba dışı hataların tahmini

Torbalı bir modelin test hatasını k-katlı çapraz doğrulamaya güvenmeden hesaplayabildiğimiz ortaya çıktı.

Bunun nedeni, her önyükleme örneğinin, orijinal veri kümesindeki gözlemlerin yaklaşık 2/3’ünü içerdiğinin gösterilebilmesidir. Torbalı ağaca sığdırmak için kullanılmayan gözlemlerin geri kalan üçte birine torba dışı (OOB) gözlemler denir.

Orijinal veri setindeki i’inci gözlemin değerini, o gözlemin OOB olduğu ağaçların her birinden ortalama tahmin alarak tahmin edebiliriz.

Bu yaklaşımı, orijinal veri setindeki tüm n gözlemler için bir tahminde bulunmak ve böylece test hatasının geçerli bir tahmini olan bir hata oranını hesaplamak için kullanabiliriz.

Test hatasını tahmin etmek için bu yaklaşımı kullanmanın avantajı, özellikle veri kümesi büyük olduğunda k-katlı çapraz doğrulamadan çok daha hızlı olmasıdır.

Tahmincilerin önemini anlamak

Karar ağaçlarının avantajlarından birinin yorumlanmasının ve görselleştirilmesinin kolay olması olduğunu unutmayın.

Bunun yerine torbalamayı kullandığımızda, son torbalanmış model birçok farklı ağacın ortalamasının alınmasının sonucu olduğundan artık tek bir ağacı yorumlayamıyor veya görselleştiremiyoruz. Yorumlanabilirlik pahasına tahmin doğruluğu elde ediyoruz.

Bununla birlikte, tüm B- ağaçları üzerinden ortalaması alınan belirli bir öngörücü üzerindeki dağılıma bağlı olarak RSS’deki toplam azalmayı (artık kareler toplamı) hesaplayarak her bir yordayıcı değişkenin önemini hala anlayabiliriz. Değer ne kadar büyük olursa, tahmin edicinin önemi de o kadar artar.

Torbalama modeli için değişken önem tablosu
Değişken önem tablosu örneği.

Benzer şekilde, sınıflandırma modelleri için, tüm B ağaçlarının ortalaması alınarak, belirli bir öngörücü üzerindeki dağılıma bağlı olarak toplam Gini endeksi azalmasını hesaplayabiliriz. Değer ne kadar büyük olursa, tahmin edici o kadar önemli olur.

Dolayısıyla, nihai genel modeli tam olarak yorumlayamasak da, yanıtı tahmin ederken her bir yordayıcı değişkenin ne kadar önemli olduğuna dair bir fikir edinebiliriz.

Torbalamanın ötesine geçin

Torbalamanın avantajı, tek bir karar ağacına kıyasla genellikle test hata oranında bir iyileşme sağlamasıdır.

Dezavantajı ise, veri kümesinde çok güçlü bir öngörücü varsa, torbalanmış ağaç koleksiyonundan elde edilen tahminlerin yüksek düzeyde korelasyonlu olabilmesidir.

Bu durumda, torbalanmış ağaçların çoğu veya tümü, ilk bölünme için bu öngörücüyü kullanacak ve sonuçta birbirine benzer ve yüksek düzeyde korelasyonlu tahminlere sahip ağaçlar elde edilecektir.

Bu sorunu çözmenin bir yolu, torbalamaya benzer bir yöntem kullanan ancak dekore edilmiş ağaçlar üretme kapasitesine sahip olan ve genellikle daha düşük test hata oranlarına yol açan rastgele ormanların kullanılmasıdır.

Rastgele ormanlara ilişkin basit bir girişi buradan okuyabilirsiniz.

Ek kaynaklar

Sınıflandırma ve regresyon ağaçlarına giriş
R’de Torbalama Nasıl Yapılır (Adım Adım)

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir