Pohon keputusan vs hutan acak: apa bedanya?


Pohon keputusan adalah jenis model pembelajaran mesin yang digunakan ketika hubungan antara sekumpulan variabel prediktor dan variabel respons bersifat nonlinier.

Ide dasar dibalik pohon keputusan adalah membangun sebuah “pohon” menggunakan sekumpulan variabel prediktor yang memprediksi nilai variabel respon menggunakan aturan keputusan.

Misalnya, kita dapat menggunakan variabel prediktor “tahun bermain” dan “rata-rata home run” untuk memprediksi gaji tahunan pemain bisbol profesional.

Dengan menggunakan kumpulan data ini, model pohon keputusan akan terlihat seperti ini:

contoh pohon keputusan

Inilah cara kami menafsirkan pohon keputusan ini:

  • Pemain yang telah bermain kurang dari 4,5 tahun memiliki proyeksi gaji $225,8k .
  • Pemain yang bermain lebih dari 4,5 tahun atau lebih dan kurang dari 16,5 home run rata-rata memiliki perkiraan gaji $577,6K .
  • Pemain dengan pengalaman 4,5 tahun atau lebih dan rata-rata 16,5 home run atau lebih memiliki gaji yang diharapkan sebesar $975,6K .

Keuntungan utama dari pohon keputusan adalah dapat diadaptasi dengan cepat ke kumpulan data dan model akhir dapat divisualisasikan dan diinterpretasikan dengan jelas menggunakan diagram “pohon” seperti di atas.

Kelemahan utamanya adalah pohon keputusan cenderung terlalu cocok dengan kumpulan data pelatihan, yang berarti pohon keputusan cenderung berkinerja buruk pada data yang tidak terlihat. Hal ini juga dapat sangat dipengaruhi oleh outlier dalam kumpulan data.

Perpanjangan dari pohon keputusan adalah model yang dikenal sebagai hutan acak , yang pada dasarnya adalah sekumpulan pohon keputusan.

Berikut langkah-langkah yang kami gunakan untuk membuat model hutan acak:

1. Ambil sampel bootstrap dari kumpulan data asli.

2. Untuk setiap sampel bootstrap, buat pohon keputusan menggunakan subset variabel prediktor acak.

3. Rata-ratakan prediksi dari setiap pohon untuk mendapatkan model akhir.

Keuntungan dari hutan acak adalah bahwa hutan tersebut cenderung memiliki kinerja yang jauh lebih baik dibandingkan pohon keputusan pada data yang tidak terlihat dan tidak terlalu rentan terhadap outlier.

Kelemahan dari hutan acak adalah tidak ada cara untuk memvisualisasikan model akhir dan membangunnya bisa memakan waktu lama jika Anda tidak memiliki daya komputasi yang cukup atau kumpulan data yang Anda kerjakan sangat besar.

Keuntungan dan Kerugian: Pohon Keputusan vs. Hutan Acak

Tabel berikut merangkum kelebihan dan kekurangan pohon keputusan dibandingkan dengan random forest:

tabel yang merangkum perbedaan antara pohon keputusan dan hutan acak

Berikut penjelasan singkat setiap baris pada tabel:

1. Interpretasi

Pohon keputusan mudah diinterpretasikan karena kita dapat membuat diagram pohon untuk memvisualisasikan dan memahami model akhir.

Sebaliknya, kita tidak dapat memvisualisasikan hutan acak dan sering kali sulit memahami bagaimana model hutan acak final mengambil keputusan.

2. Akurasi

Karena pohon keputusan cenderung terlalu cocok dengan kumpulan data pelatihan, kinerjanya cenderung lebih buruk pada kumpulan data yang tidak terlihat.

Sebaliknya, hutan acak cenderung sangat akurat pada kumpulan data yang tidak terlihat karena hutan acak menghindari penyesuaian yang berlebihan pada kumpulan data pelatihan.

3. Kesesuaian yang berlebihan

Seperti disebutkan sebelumnya, pohon keputusan sering kali menyesuaikan data pelatihan: ini berarti pohon keputusan cenderung beradaptasi dengan “gangguan” kumpulan data, dibandingkan dengan model dasar sebenarnya.

Sebaliknya, karena hutan acak hanya menggunakan variabel prediktor tertentu untuk membangun setiap pohon keputusan, pohon akhir cenderung dihias, artinya model hutan acak kemungkinan tidak akan cocok dengan kumpulan data.

4. Pencilan

Pohon keputusan sangat rentan terpengaruh oleh outlier.

Sebaliknya, karena model hutan acak membangun banyak pohon keputusan individual dan kemudian mengambil rata-rata prediksi dari pohon-pohon tersebut, kecil kemungkinannya untuk terpengaruh oleh outlier.

5. Perhitungan

Pohon keputusan dapat dengan cepat disesuaikan dengan kumpulan data.

Sebaliknya, hutan acak jauh lebih intensif secara komputasi dan pembuatannya membutuhkan waktu lama, bergantung pada ukuran kumpulan data.

Kapan menggunakan pohon keputusan atau hutan acak

Umumnya:

Anda harus menggunakan pohon keputusan jika Anda ingin membuat model nonlinier dengan cepat dan dapat dengan mudah menafsirkan cara model tersebut mengambil keputusan.

Namun, Anda sebaiknya menggunakan hutan acak jika Anda memiliki banyak daya komputasi dan ingin membuat model yang mungkin sangat akurat tanpa mengkhawatirkan cara menafsirkan model tersebut.

Di dunia nyata, insinyur pembelajaran mesin dan ilmuwan data sering menggunakan hutan acak karena hutan tersebut sangat akurat dan komputer serta sistem modern sering kali dapat menangani kumpulan data besar yang sebelumnya tidak dapat ditangani.

Sumber daya tambahan

Tutorial berikut memberikan pengenalan pohon keputusan dan model hutan acak:

Tutorial berikut menjelaskan cara menyesuaikan pohon keputusan dan hutan acak di R:

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *