Rastgele ormanlara basit bir giriş
Bir dizi yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişki çok karmaşık olduğunda, aralarındaki ilişkiyi modellemek için genellikle doğrusal olmayan yöntemler kullanırız.
Böyle bir yöntem, bir yanıt değişkeninin değerini tahmin eden karar ağaçları oluşturmak için bir dizi tahmin değişkeni kullanan sınıflandırma ve regresyon ağaçlarıdır (genellikle CART olarak kısaltılır).
Karar ağaçlarının avantajı yorumlanması ve görselleştirilmesinin kolay olmasıdır. Sorun, yüksek varyanstan muzdarip olma eğiliminde olmalarıdır. Yani, bir veri kümesini ikiye bölüp her iki yarıya da bir karar ağacı uygularsak sonuçlar çok farklı olabilir.
Karar ağaçlarının varyansını azaltmanın bir yolu, torbalama olarak bilinen ve aşağıdaki şekilde çalışan bir yöntemi kullanmaktır:
1. Orijinal veri kümesinden b önyüklemeli örnek alın.
2. Her önyükleme örneği için bir karar ağacı oluşturun.
3. Nihai bir model elde etmek için her ağaçtan elde edilen tahminlerin ortalamasını alın.
Bu yaklaşımın avantajı, kümelenmiş bir modelin genellikle tek bir karar ağacına kıyasla test hata oranında bir iyileşme sağlamasıdır.
Dezavantajı ise, veri kümesinde çok güçlü bir öngörücü varsa, torbalanmış ağaç koleksiyonundan elde edilen tahminlerin yüksek düzeyde korelasyonlu olabilmesidir. Bu durumda, torbalanmış ağaçların çoğu veya tümü, ilk bölünme için bu öngörücüyü kullanacak ve sonuçta birbirine benzer ve yüksek düzeyde korelasyonlu tahminlere sahip ağaçlar elde edilecektir.
Dolayısıyla, nihai bir modele ulaşmak için her ağaçtan gelen tahminlerin ortalamasını aldığımızda, bu modelin aslında tek bir karar ağacına kıyasla varyansı azaltmaması mümkündür.
Bu sorunu aşmanın bir yolu rastgele ormanlar olarak bilinen yöntemi kullanmaktır.
Rastgele ormanlar nelerdir?
Torbalamaya benzer şekilde, rastgele ormanlar da orijinal bir veri kümesinden önyüklemeli örnekler alır.
Bununla birlikte, her önyükleme örneği için bir karar ağacı oluştururken, bir ağaçtaki bir bölünme her dikkate alındığında, yalnızca m tahmincilerin rastgele bir örneği, p tahmin edicilerin tam seti arasında bölünmeye aday olarak kabul edilir.
İşte rastgele ormanların bir model oluşturmak için kullandığı yöntemin tamamı:
1. Orijinal veri kümesinden b önyüklemeli örnek alın.
2. Her önyükleme örneği için bir karar ağacı oluşturun.
- Ağacı oluştururken, her bölünme dikkate alındığında, p öngörücülerin tam kümesinden yalnızca rastgele bir m yordayıcı örneği bölünmeye aday olarak kabul edilir.
3. Nihai bir model elde etmek için her ağaçtan elde edilen tahminlerin ortalamasını alın.
Bu yöntem kullanılarak rastgele bir ormandaki ağaçların toplanması, torbalama yoluyla üretilen ağaçlara göre dekore edilir.
Dolayısıyla, nihai bir modele ulaşmak için her ağaçtan ortalama tahminler aldığımızda, daha az değişkenliğe sahip olma eğilimi gösterir ve torbalı modele göre daha düşük test hatası oranıyla sonuçlanır.
Rastgele ormanları kullanırken, bir karar ağacını her böldüğümüzde genellikle m = √ p tahmincilerini bölünmüş adaylar olarak değerlendiririz.
Örneğin, bir veri kümesinde toplamda p = 16 öngörücüye sahipsek, genellikle her bölünme için yalnızca m = √16 = 4 yordayıcıyı potansiyel aday olarak değerlendiririz.
Teknik not:
İlginç bir şekilde, eğer m = p’yi seçersek (yani tüm tahmincileri her bölmede aday olarak kabul edersek), bu basitçe torbalama kullanmaya eşdeğerdir.
Torba dışı hataların tahmini
Torbalamaya benzer şekilde, rastgele orman modelinin test hatasını torba dışı tahmin kullanarak hesaplayabiliriz.
Her önyükleme örneğinin orijinal veri setindeki gözlemlerin yaklaşık 2/3’ünü içerdiği gösterilebilir. Ağaca sığdırmak için kullanılmayan gözlemlerin geri kalan üçte birine torba dışı (OOB) gözlemler denir.
Orijinal veri setindeki i’inci gözlemin değerini, o gözlemin OOB olduğu ağaçların her birinden ortalama tahmin alarak tahmin edebiliriz.
Bu yaklaşımı, orijinal veri kümesindeki tüm n gözlemler için bir tahminde bulunmak ve böylece test hatasının geçerli bir tahmini olan bir hata oranını hesaplamak için kullanabiliriz.
Test hatasını tahmin etmek için bu yaklaşımı kullanmanın avantajı, özellikle veri kümesi büyük olduğunda k-katlı çapraz doğrulamadan çok daha hızlı olmasıdır.
Rastgele ormanların avantajları ve dezavantajları
Rastgele ormanlar aşağıdaki avantajları sunar:
- Çoğu durumda, rastgele ormanlar, torbalanmış modellere ve özellikle tek karar ağaçlarına göre doğruluk açısından bir gelişme sağlayacaktır.
- Rastgele ormanlar aykırı değerlere karşı dayanıklıdır.
- Rastgele ormanları kullanmak için herhangi bir ön işleme gerek yoktur.
Ancak rastgele ormanların aşağıdaki potansiyel dezavantajları vardır:
- Yorumlanmaları zordur.
- Büyük veri kümelerinden yararlanmak için hesaplama açısından yoğun (yani yavaş) olabilirler.
Uygulamada, veri bilimcileri tahmin doğruluğunu en üst düzeye çıkarmak için genellikle rastgele ormanları kullanır, dolayısıyla bunların kolayca yorumlanamaması genellikle bir sorun değildir.