Karar ağacı ve rastgele ormanlar: fark nedir?
Karar ağacı , bir dizi öngörücü değişken ile bir yanıt değişkeni arasındaki ilişki doğrusal olmadığında kullanılan bir tür makine öğrenimi modelidir.
Bir karar ağacının arkasındaki temel fikir, karar kurallarını kullanarak bir yanıt değişkeninin değerini tahmin eden bir dizi öngörücü değişkeni kullanarak bir “ağaç” oluşturmaktır.
Örneğin, profesyonel beyzbol oyuncularının yıllık maaşını tahmin etmek için “oynanan yıl” ve “ortalama sayı” değişkenlerini kullanabiliriz.
Bu veri kümesini kullanarak karar ağacı modeli şu şekilde görünebilir:
Bu karar ağacını şu şekilde yorumlayabiliriz:
- 4,5 yıldan az oynayan oyuncuların tahmini maaşı 225,8 bin dolar .
- 4,5 yıldan fazla veya daha fazla oynayan ve ortalama 16,5’ten az home run yapan oyuncuların tahmini maaşı 577,6 bin dolar olacak.
- 4,5 yıl veya daha fazla deneyime sahip ve ortalama 16,5 veya daha fazla home run yapan oyuncuların beklenen maaşı 975,6 bin dolar .
Karar ağacının temel avantajı, bir veri setine hızlı bir şekilde uyarlanabilmesi ve nihai modelin, yukarıdaki gibi bir “ağaç” diyagramı kullanılarak açıkça görselleştirilebilmesi ve yorumlanabilmesidir.
Ana dezavantaj, bir karar ağacının eğitim veri kümesine gereğinden fazla uyum sağlama eğiliminde olmasıdır; bu, muhtemelen görünmeyen veriler üzerinde düşük performans göstermesi anlamına gelir. Bu aynı zamanda veri kümesindeki aykırı değerlerden de büyük ölçüde etkilenebilir.
Karar ağacının bir uzantısı, esasen bir dizi karar ağacından oluşan, rastgele orman olarak bilinen bir modeldir.
Rastgele orman modeli oluşturmak için kullandığımız adımlar şunlardır:
1. Orijinal veri kümesinden ön yüklemeli örnekleri alın.
2. Her önyükleme örneği için, tahmin edici değişkenlerin rastgele bir alt kümesini kullanarak bir karar ağacı oluşturun.
3. Nihai bir model elde etmek için her ağaçtan elde edilen tahminlerin ortalamasını alın.
Rastgele ormanların avantajı, görünmeyen veriler üzerinde karar ağaçlarından çok daha iyi performans gösterme eğiliminde olmaları ve aykırı değerlere daha az eğilimli olmalarıdır.
Rastgele ormanların dezavantajı, son modeli görselleştirmenin bir yolu olmaması ve yeterli bilgi işlem gücünüz yoksa veya üzerinde çalıştığınız veri kümesi aşırı derecede hacimliyse bunları oluşturmanın uzun zaman alabilmesidir.
Avantajları ve Dezavantajları: Karar Ağaçları vs. Rastgele Ormanlar
Aşağıdaki tablo, karar ağaçlarının rastgele ormanlara kıyasla avantajlarını ve dezavantajlarını özetlemektedir:
Tablodaki her satırın kısa bir açıklaması aşağıda verilmiştir:
1. Yorumlanabilirlik
Karar ağaçlarının yorumlanması kolaydır çünkü son modeli görselleştirmek ve anlamak için bir ağaç diyagramı oluşturabiliriz.
Bunun tersine, rastgele bir ormanı görselleştiremeyiz ve son rastgele orman modelinin nasıl karar verdiğini anlamak çoğu zaman zor olabilir.
2. Doğruluk
Karar ağaçları muhtemelen bir eğitim veri kümesine gereğinden fazla sığacağından, görünmeyen veri kümelerinde daha kötü performans gösterme eğilimindedirler.
Tersine, rastgele ormanlar, eğitim veri kümelerinin aşırı ayarlanmasını önlediğinden, görünmeyen veri kümelerinde çok doğru olma eğilimindedir.
3. Aşırı Uyum
Daha önce de belirtildiği gibi, karar ağaçları genellikle eğitim verilerine gereğinden fazla uyum sağlar: bu, gerçek temel modelin aksine, büyük olasılıkla bir veri kümesinin “gürültüsüne” uyum sağlayacakları anlamına gelir.
Tersine, rastgele ormanlar her bir karar ağacını oluşturmak için yalnızca belirli tahmin değişkenlerini kullandığından, son ağaçlar dekore edilme eğilimindedir; bu da rastgele orman modellerinin veri setlerine fazla uyum sağlama ihtimalinin düşük olduğu anlamına gelir.
4. Aykırı Değerler
Karar ağaçları aykırı değerlerden etkilenmeye karşı çok hassastır.
Tersine, rastgele bir orman modeli birçok bireysel karar ağacı oluşturduğundan ve daha sonra bu ağaçlardan tahminlerin ortalamasını aldığından, aykırı değerlerden etkilenme olasılığı çok daha azdır.
5. Hesaplama
Karar ağaçları veri kümelerine hızla uyarlanabilir.
Tersine, rastgele ormanlar hesaplama açısından çok daha yoğundur ve veri kümesinin boyutuna bağlı olarak oluşturulması uzun zaman alabilir.
Karar ağaçları veya rastgele ormanlar ne zaman kullanılmalı?
Genel olarak:
Hızlı bir şekilde doğrusal olmayan bir model oluşturmak ve modelin nasıl karar verdiğini kolayca yorumlayabilmek istiyorsanız karar ağacı kullanmalısınız.
Bununla birlikte, çok fazla hesaplama gücünüz varsa ve modelin nasıl yorumlanacağı konusunda endişelenmeden, muhtemelen çok doğru olan bir model oluşturmak istiyorsanız , rastgele orman kullanmalısınız.
Gerçek dünyada, makine öğrenimi mühendisleri ve veri bilimcileri sıklıkla rastgele ormanları kullanır çünkü bunlar çok hassastır ve modern bilgisayarlar ve sistemler genellikle daha önce işlenemeyen büyük veri kümelerini işleyebilir.
Ek kaynaklar
Aşağıdaki eğitimler karar ağaçlarına ve rastgele orman modellerine giriş sağlar:
Aşağıdaki eğitimlerde karar ağaçlarının ve rastgele ormanların R’ye nasıl sığdırılacağı açıklanmaktadır: